正则表达式-Regex
本文最后更新于:1 年前
第一章、引言
正则表达式是一种描述字符串模式的工具,可以用来匹配、查找和替换文本。它由一系列字符和特殊字符组成,用于定义字符串的规则。正则表达式可以用于各种编程语言和应用程序中,常用于数据验证、文本处理和搜索。
常见的正则表达式元字符包括:
.
:匹配任意单个字符。*
:匹配前面的元素零次或多次。+
:匹配前面的元素一次或多次。?
:匹配前面的元素零次或一次。[]
:定义一个字符集合,匹配其中任意一个字符。()
:分组表达式,将其中的内容作为一个整体进行处理。
例如,正则表达式 \d{3}-\d{4}
可以用来匹配三位数字-四位数字格式的电话号码。
需要注意的是,使用正则表达式时需考虑性能问题,复杂或不正确的正则表达式可能会导致性能下降甚至死循环。同时,不同编程语言对正则表达式支持也有所差异,具体语法和使用方式需根据所使用编程语言进行调整。
第二章、校验工具
regex101: build, test, and debug regex 是一个多语言在线校验正则表达式的平台,可以对输入按照用户编写的正则表达式进行匹配并高亮匹配到的对象。
1 |
|
第三章、特殊字符
特别字符 | 描述 | 示例 |
---|---|---|
$ |
匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 $。 | |
( ) |
分组运算符,标记一个子表达式的开始和结束位置(用于多字符匹配)。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )。 |
|
| *
| 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 *。 | |
| +
| 匹配前面的子表达式一次或多次(包括一次)。要匹配 + 字符,请使用 +。 | |
| .
| 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 . 。 | |
| | | |
| [
| 给定方括号中的范围进行匹配,标记一个中括号表达式的开始。要匹配 [,请使用 [。 |
|
| | | |
| ?
| 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 ?。 | |
| \
| 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如,*’\d’匹配任意数字,’\w’匹配任意字符数字和下划线,’\s’匹配空白字符(Tab 和换行符),’\n’ 匹配换行符,所有字母转为大写即变成匹配相反含义*。序列 ‘\‘ 匹配 “",而 ‘(‘ 则匹配 “(“。 |
|
| | | |
| ^
| 匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配 ^ 字符本身,请使用 ^。 |
|
| | | |
| {
| 标记限定符表达式的开始。要匹配 {,请使用 {。 | |
| | | 或运算符,指明两项之间的一个选择。要匹配 |,请使用 \。 | |
第四章、限定符
限定符 | 描述 | 示例 |
---|---|---|
? |
匹配前面的子表达式零次或一次。 | |
* |
匹配前面的子表达式任意次。 | |
+ |
匹配前面的子表达式至少一次。 | |
{n} |
匹配前面的子表达式确定次数为 n 次 | |
{n,m} |
范围匹配前面的子表达式次数为 n~m 次 | |
{n,} |
范围匹配前面的子表达式次数为 n~$\infty$ 次 |
第五章、元字符
字符 | 描述 |
---|---|
^ |
匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与 \n 或 \r 之后的位置匹配。 |
$ |
匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与 \n 或 \r 之前的位置匹配。 |
\b |
匹配一个单词边界,即字与空格间的位置,进行全字匹配。 |
\B |
非单词边界匹配。 |
\d |
匹配数字字符 |
\D |
匹配非数字字符 |
\w |
匹配单词字符(英文,数字和下划线) |
\W |
匹配非单词字符 |
\s |
匹配空白符(空格 换行符 \n ,Tab \r ) |
\S |
匹配非空白符 |
. |
匹配任意字符(包括特殊字符和空格,换行符除外) |
不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置,因此不允许诸如
^*
之类的表达式。
第六章、贪婪与懒惰匹配
*
和 +
限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个 ?
就可以实现非贪婪或最小匹配。
贪婪匹配
正则表达式默认执行贪婪匹配,这意味着匹配内容会尽可能长。请看下面的示例,它匹配任何以 r 结尾的字符串,以及前面带有该字符串的文本,但它不会在第一个 r 处停止匹配。
懒惰匹配
与贪婪匹配不同,懒惰匹配在第一次匹配时停止。下面的例子中,在 * 之后添加 ?,将查找以 r 结尾且前面带有任意字符的第一个匹配项。这意味着本次匹配将会在第一个字母 r 处停止。
RGB 颜色值匹配
\b#[a-fA-Fo-9][6]\b
:前后加上 \b
表示字符边界,避免字串匹配
IPv4 地址匹配
\b((25[0-5]|2[0-4][0-9]|[01]?\d?\d)\.){3}(25[0-5]|2[0-4][0-9]|[01]?\d?\d)\b
:匹配任意 IPv4地址
Html 标签匹配
<.+?>
:匹配任意 html 标签
第七章、高级用法
分组
括号 ( ): 分组
我们可以对一个表达式进行分组,并用这些分组来引用或执行一些规则。为了给表达式分组,我们需要将文本包裹在 ()
中。现在为下方文本中的 haa 构造分组。
\index 引用组
单词 ha 和 haa 分组如下。第一组用 \1
来避免重复书写。这里的 1 表示分组的顺序。在表达式的末尾键入 \2
以引用第二组。
括号 (?: ): 非捕获分组
您可以对表达式进行分组,并确保它不被引用捕获。例如,下面有两个分组,但我们用 \1
引用的第一个组实际上是指向第二个组,因为第一个是未被捕获的分组。
零宽断言
如果我们希望正在写的词语出现在另一个词语之前或之后,我们需要使用「零宽断言」。
先行后行决定断言位置,正向反向决定等于或者不等于。
正向先行断言: (?=)
例如,我们要匹配文本中的小时值。为了只匹配后面有 PM 的数值,我们需要在表达式后面使用正向先行断言 (?=)
,并在括号内的 =
后面添加 PM。
负向先行断言: (?!)
例如,我们要在文本中匹配除小时值以外的数字。我们需要在表达式后面使用负向先行断言 (?!)
,并在括号内的 !
后面添加 PM,从而只匹配没有 PM 的数值。
正向后行断言: (?<=)
例如,我们要匹配文本中的金额数。为了只匹配前面带有 $ 的数字。我们要在表达式前面使用正向后行断言 (?<=)
,并在括号内的 = 后面添加 \$
。
负向后行断言: (?<!)
例如,我们要在文本中匹配除价格外的数字。为了只匹配前面没有 $ 的数字,我们要在表达式前用负向后行断言 (?<!)
,并在括号内的 ! 后面添加 \$
。
标志
标志改变表达式的输出。这就是标志也称为修饰符的原因。标志决定表达式是否将文本视作单独的行处理,是否区分大小写,或者是否查找所有匹配项。
全局标志
全局标志 \g
使表达式选中所有匹配项,如果不启用全局标志,那么表达式只会匹配第一个匹配项。
多行标志
正则表达式将所有文本视作一行。但如果我们使用了全局多行标志 \gm
,它就会单独处理每一行。这次,我们将根据每一行行末的规律来写出表达式。
忽略大小写标志
为了使我们编写的表达式不再大小写敏感,我们必须启用不区分大小写标志 \gmi
。
第八章、字符汇总表
字符 | 描述 |
---|---|
\ |
将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n ”匹配字符“n ”。“\n ”匹配一个换行符。串行“\\ ”匹配“\ ”而“\( ”则匹配“( ”。 |
^ | 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^也匹配“\n ”或“\r ”之后的位置。 |
$ | 匹配输入字符串的结束位置。如果设置了 RegExp 对象的 Multiline 属性,$也匹配“\n ”或“\r ”之前的位置。 |
* | 匹配前面的子表达式零次或多次。例如,zo能匹配“z ”以及“zoo ”。 等价于{0,}。| |
+ |
匹配前面的子表达式一次或多次。例如,“zo+ ”能匹配“zo ”以及“zoo ”,但不能匹配“z ”。+等价于{1,}。| |
? | 匹配前面的子表达式零次或一次。例如,“do(es)? ”可以匹配“does ”或“does ”中的“do ”。?等价于{0,1}。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,“o{2} ”不能匹配“Bob ”中的“o ”,但是能匹配“food ”中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配 n 次。例如,“o{2,} ”不能匹配“Bob ”中的“o ”,但能匹配“foooood ”中的所有 o。“o{1,} ”等价于“o+ ”。“o{0,} ”则等价于“o* ”。 |
{n,m} | m 和 n 均为非负整数,其中 n<=m。最少匹配 n 次且最多匹配 m 次。例如,“o{1,3} ”将匹配“fooooood ”中的前三个 o。“o{0,1} ”等价于“o? ”。请注意在逗号和两个数之间不能有空格。 |
? | 当该字符紧跟在任何一个其他限制符(*,+,?,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo ”,“o+? ”将匹配单个“o ”,而“o+ ”将匹配所有“o ”。 |
. | 匹配除“\``n ”之外的任何单个字符。要匹配包括“\``n ”在内的任何字符,请使用像“(.|\n) ”的模式。 |
(pattern) | 匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在 VBScript 中使用 SubMatches 集合,在 JScript 中则使用$0…$9属性。要匹配圆括号字符,请使用“\( ”或“\) ”。 |
(?:pattern) | 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用或字符“(|) ”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies) ”就是一个比“industry|industries ”更简略的表达式。 |
(?=pattern) | 正向肯定预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,“Windows(?=95|98|NT|2000) ”能匹配“Windows2000 ”中的“Windows ”,但不能匹配“Windows3.1 ”中的“Windows ”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。 |
(?!pattern) | 正向否定预查,在任何不匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000) ”能匹配“Windows3.1 ”中的“Windows ”,但不能匹配“Windows2000 ”中的“Windows ”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始 |
(?<=pattern) | 反向肯定预查,与正向肯定预查类拟,只是方向相反。例如,“(?<=95|98|NT|2000)Windows ”能匹配“2000Windows ”中的“Windows ”,但不能匹配“3.1Windows ”中的“Windows ”。 |
(?<!pattern) | 反向否定预查,与正向否定预查类拟,只是方向相反。例如“(?<!95|98|NT|2000)Windows ”能匹配“3.1Windows ”中的“Windows ”,但不能匹配“2000Windows ”中的“Windows ”。 |
x|y | 匹配 x 或 y。例如,“z|food ”能匹配“z ”或“food ”。“(z|f)ood ”则匹配“zood ”或“food ”。 |
[xyz] | 字符集合。匹配所包含的任意一个字符。例如,“[abc] ”可以匹配“plain ”中的“a ”。 |
[^xyz] | 负值字符集合。匹配未包含的任意字符。例如,“[^abc] ”可以匹配“plain ”中的“p ”。 |
[a-z] | 字符范围。匹配指定范围内的任意字符。例如,“[a-z] ”可以匹配“a ”到“z ”范围内的任意小写字母字符。 |
[^a-z] | 负值字符范围。匹配任何不在指定范围内的任意字符。例如,“[^a-z] ”可以匹配任何不在“a ”到“z ”范围内的任意字符。 |
\b | 匹配一个单词边界,也就是指单词和空格间的位置。例如,“er\b ”可以匹配“never ”中的“er ”,但不能匹配“verb ”中的“er ”。 |
\B | 匹配非单词边界。“er\B ”能匹配“verb ”中的“er ”,但不能匹配“never ”中的“er ”。 |
\cx | 匹配由 x 指明的控制字符。例如,\cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的“c ”字符。 |
\d | 匹配一个数字字符。等价于[0-9]。 |
\D | 匹配一个非数字字符。等价于[^0-9]。 |
\f | 匹配一个换页符。等价于\x0c 和\cL。 |
\n | 匹配一个换行符。等价于\x0a 和\cJ。 |
\r | 匹配一个回车符。等价于\x0d 和\cM。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于[^ \f\n\r\t\v]。 |
\t | 匹配一个制表符。等价于\x09 和\cI。 |
\v | 匹配一个垂直制表符。等价于\x0b 和\cK。 |
\w | 匹配包括下划线的任何单词字符。等价于“[A-Za-z0-9_] ”。 |
\W | 匹配任何非单词字符。等价于“[^A-Za-z0-9_] ”。 |
\xn | 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,“\x41 ”匹配“A ”。“\x041 ”则等价于“\x04&1 ”。正则表达式中可以使用 ASCII 编码。. |
\num | 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,“(.)\1 ”匹配两个连续的相同字符。 |
\n | 标识一个八进制转义值或一个向后引用。如果\n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字(0-7),则 n 为一个八进制转义值。 |
\nm | 标识一个八进制转义值或一个向后引用。如果\nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果\nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字(0-7),则\nm 将匹配八进制转义值 nm。 |
\nml | 如果 n 为八进制数字(0-3),且 m 和 l 均为八进制数字(0-7),则匹配八进制转义值 nml。 |
\un | 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如,\u00A9 匹配版权符号(©)。 |
第九章、常用正则汇总表
解释 | 正则表达式 |
---|---|
手机号码 | ^1[3456789]\d{9}$ |
邮箱地址 | ^[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ |
身份证号码(18位) | ^\d{17}[\dXx]$ |
URL地址 | ^(https?://)?[\w-]+(\.[\w-]+)+(/[\w\-./?%&=]*)?$ |
IP地址 | ^(25[0-5]|2[0-4]\d|[01]?\d\d?)\.(25[0-5]|2[0-4]\d|[01]?\d\d?)\.(25[0-5]|2[0-4]\d|[01]?\d\d?)\.(25[0-5]|2[0-4]\d|[01]?\d\d?)$ |
数字 | ^\d+$ |
英文字母 | ^[a-zA-Z]+$ |
中文字符 | ^[\u4e00-\u9fa5]+$ |
邮政编码 | ^[1-9][0-9]{5}$ |
账号名(字母开头,允许字母数字下划线,长度为6~18个字符) | ^[a-zA-Z][a-zA-Z0-9_]{5,17}$ |
密码(必须包含大小写字母和数字,长度为8~16个字符) | ^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,16}$ |
整数 | ^-?\d+$ |
浮点数 | ^-?\d+(\.\d+)?$ |
日期(格式为YYYY-MM-DD) | ^\d{4}-\d{2}-\d{2}$ |
时间(24小时制,格式为HH:MM:SS) | ^([01]\d|2[0-3]):[0-5]\d:[0-5 |
以上仅是一部分常见的正则表达式用法,正则表达式非常强大且灵活,可以根据具体需求进行自定义。
参考
1 |
|
1 |
|
1 |
|
1 |
|