Java java正则表达式专题 Zero02 2025-03-20 2025-03-27 正则表达式 正则表达体验 在网页中的地址栏前面加入: view-source:
即可进入网页资源模式,将源代码拷贝下来
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp { public static void main (String[] args) { String contect = "1995年,互联网的蓬勃发展给了Oak机会。业界为了使死板、单调的静态网页能够“灵活”起来,急需一种软件技术来开发一种程序,这种程序可以通过网络传播并且能够跨平台运行。于是,世界各大IT企业为此纷纷投入了大量的人力、物力和财力。这个时候,Sun公司想起了那个被搁置起来很久的Oak,并且重新审视了那个用软件编写的试验平台,由于它是按照嵌入式系统硬件平台体系结构进行编写的,所以非常小,特别适用于网络上的传输系统,而Oak也是一种精简的语言,程序非常小,适合在网络上传输。Sun公司首先推出了可以嵌入网页并且可以随同网页在网络上传输的Applet(Applet是一种将小程序嵌入到网页中进行执行的技术),并将Oak更名为Java。5月23日,Sun公司在Sun world会议上正式发布Java和HotJava浏览器。IBM、Apple、DEC、Adobe、HP、Oracle、Netscape和微软等各大公司都纷纷停止了自己的相关开发项目,竞相购买了Java使用许可证,并为自己的产品开发了相应的Java平台。 [9-10] " ; contect = "/div></a><a class=\"c-font-normal c-color-gray2 hot-refresh\"><i class=\"c-icon refresh-icon\">\uE619</i><span class=\"hot-refresh-text\">换一换</span></a></div><ul class=\"s-news-rank-content\"><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E5%9D%9A%E5%AE%9A%E4%B8%8D%E7%A7%BB%E6%8E%A8%E5%8A%A8%E6%9E%84%E5%BB%BA%E4%BA%9A%E5%A4%AA%E5%91%BD%E8%BF%90%E5%85%B1%E5%90%8C%E4%BD%93&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><i class=\"c-icon title-content-top-icon c-color-red c-gap-right-small\">\uE62E</i><span class=\"title-content-title\">坚定不移推动构建亚太命运共同体</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B2%99%E7%89%B9%E6%94%BE%E5%81%871%E5%A4%A9%E5%BA%86%E7%A5%9D%E6%88%98%E8%83%9C%E9%98%BF%E6%A0%B9%E5%BB%B7&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot1\">1</span><span class=\"title-content-title\">沙特放假1天庆祝战胜阿根廷</span><span class=\"title-content-mark c-text c-text-hot\">热</span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E7%A0%94%E7%A9%B6%E7%94%9F%E5%AB%96%E5%A8%BC%E8%A2%AB%E5%BC%80%E9%99%A4%E8%B5%B7%E8%AF%89%E5%AD%A6%E6%A0%A1%E8%A2%AB%E9%A9%B3%E5%9B%9E&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot2\">2</span><span class=\"title-content-title\">研究生嫖娼被开除起诉学校被驳回</span><span class=\"title-content-mark c-text c-text-hot\">热</span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%AD%BC15%E9%A6%96%E6%AC%A1%E8%B5%B7%E9%99%8D%E8%BE%BD%E5%AE%81%E8%88%B010%E5%91%A8%E5%B9%B4&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot3\">3</span><span class=\"title-content-title\">歼15首次起降辽宁舰10周年</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E5%A4%9A%E5%9C%B0%E5%86%9C%E6%9D%91%E5%86%8D%E7%8E%B0%E2%80%9C%E5%9C%9F%E5%A0%86%E5%B0%81%E8%B7%AF%E2%80%9D&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot4\">4</span><span class=\"title-content-title\">多地农村再现“土堆封路”</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E5%90%88%E8%82%A5%E4%B8%80%E8%B7%AF%E9%9D%A2%E5%8F%91%E7%94%9F%E5%A1%8C%E9%99%B7%E6%9C%89%E4%BA%BA%E9%AA%91%E8%BD%A6%E5%9D%A0%E5%85%A5&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot5\">5</span><span class=\"title-content-title\">合肥一路面发生塌陷有人骑车坠入</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B2%99%E7%89%B9%E7%8E%8B%E5%82%A8%E7%94%A8%E7%A7%81%E4%BA%BA%E9%A3%9E%E6%9C%BA%E9%80%81%E7%90%83%E5%91%98%E6%B2%BB%E4%BC%A4&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot6\">6</span><span class=\"title-content-title\">沙特王储用私人飞机送球员治伤</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B5%8E%E5%8D%97%EF%BC%9A%E5%B8%82%E5%86%85%E5%85%AD%E5%8C%BA%E6%9A%82%E5%81%9C%E5%A0%82%E9%A3%9F&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot7\">7</span><span class=\"title-content-title\">济南:市内六区暂停堂食</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B1%9F%E8%A5%BF%E4%B8%80%E9%AB%98%E4%B8%AD%E7%94%9F%E5%A4%B1%E8%81%94%E8%B6%851%E4%B8%AA%E6%9C%88+%E5%BD%93%E5%9C%B0%E9%80%9A%E6%8A%A5&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot8\">8</span><span class=\"title-content-title\">江西一高中生失联超1个月 当地通报</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%97%A5%E6%9C%AC%E9%98%9F%E4%B8%BB%E6%95%99%E7%BB%83%EF%BC%9A%E9%97%AF%E5%85%A5%E5%85%AB%E5%BC%BA%E7%9B%AE%E6%A0%87%E6%B2%A1%E5%8F%98&sa=fyb_n_homepage&rsv_dl=fyb_n_homepage&from=super&cl=3&tn=baidutop10&fr=top1000&rsv_idx=2&hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot9\">9</span><span class=\"title-content-title\">日本队主教练:闯入八强目标没变</span><span class=\"title-content-mark c-text \"></span></a></li></ul></div>" ; Pattern pattern = Pattern.compile("[a-zA-Z]+" ); pattern = Pattern.compile("[0-9]+" ); pattern = Pattern.compile("(([0-9])|([a-zA-Z])+)" ); pattern = Pattern.compile("<span class=\"title-content-title\">(\\S*)</span>" ); Matcher matcher = pattern.matcher(contect); while (matcher.find()){ System.out.println("找到:" + matcher.group(1 )); } } }
正则表达的解释 为了解决快速寻找指定要求的子串,java提供了正则表达式技术,专门用于处理类似文本处理问题
简单的说:正则表达式是对字符串执行模式匹配的技术
正则表达式,regular expression => regExp
一个正则表达式,就是某种模式去匹配字符串的一个公式。很多人因为他们看上去比较古怪而且复杂所以不敢去使用,不过,经过练习后,就觉得这些复杂的表达式写起来还是相当简单的,而且,一旦你弄懂它们,你就能把数小时辛苦而且易错的文本处理工作缩短在几分钟(甚至在几秒钟)内完成
正则表达式不是只有java有,很多编程语言都支持正则表达式进行字符串操作。
演示正则表达式原理
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegTheory { public static void main (String[] args) { String content = "1995年,互联网的蓬勃发展给了Oak机会。业界为了使死板、单调的静态网页能够“灵活”起来,急需一种软件技术来开发一种程序,这种程序可以通过网络传播并且能够跨平台运行。于是,世界各大IT企业为此纷纷投入了大量的人力、物力和财力。这个时候,Sun公司想起了那个被搁置起来很久的Oak,并且重新审视了那个用软件编写的试验平台,由于它是按照嵌入式系统硬件平台体系结构进行编写的,所以非常小,特别适用于网络上的传输系统,而Oak也是一种精简的语言,程序非常小,适合在网络上传输。Sun公司首先推出了可以嵌入网页并且可以随同网页在网络上传输的Applet(Applet是一种将小程序嵌入到网页中进行执行的技术),并将Oak更名为Java。5月23日,Sun公司在Sun world会议上正式发布Java和HotJava浏览器。IBM、Apple、DEC、Adobe、HP、Oracle、Netscape和微软等各大公司都纷纷停止了自己的相关开发项目,竞相购买了Java使用许可证,并为自己的产品开发了相应的Java平台。 [9-10] " ; String regStr = "\\d\\d\\d\\d" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println("找到:" + matcher.group(0 )); } } }
正则语法 如果想要灵活的运用正则表达式,必须了解其中各种元字符的功能,元字符从功能上大致分为:
1.限定符
2.选择匹配符
3.分组组合和反向引用符
4.特殊字符
5.字符匹配符
6.定位符
元字符 转义号 (Metacharacter)英文名称 表达形式:\\
在我们使用正则表达式去检索某些特殊字符的时候,需要用到转移符号,否则检索不到结果,甚至会报错的。案例:用$去匹配”abc$(“会怎样
在java的正则表达式中,两个\\代表其他语言中的一个\
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp2 { public static void main (String[] args) { String content = "abc$(abc(123(" ; String regStr = "\\(" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println(matcher.group(0 )); } } }
需要用到转义符号的字符有以下:. * + ( ) $ / \ ? [ ] ^ { }
元字符 字符匹配符
符号
含义
示例
说明
匹配输入
[ ]
可接收的字符列表
[efgh]
e,f,g,h中的任意一个字符
[ ^ ]
不接收的字符列表
[^abc]
除a,b,c之外的任意一个字符,包括数字和特殊符号
-
连字符
A-Z
任意单个大写字母
.
匹配出\n以外的任何字符
a..b
以a开头,b结尾,中间包括2个任意字符长度的4位字符串
aaab,aefb,a35b,a#*b
\\d
匹配单个数字字符,相当于[ 0 - 9 ]
\\d{3}(\\d)?
包含三个或4个数字的字符串
123,9876
\\D
匹配单个数字字符,相当于[ ^ 0 - 9 ]
\\D(\\d)*
以单个非数字字符开头,后接任意个数字符串
a,A342
\\w
匹配单个数字,大小写字母字符,相当于[0-9a-zA-Z]
\\d{3}\w{4}
以至少3个数字开头,长度为7的数字字母字符串
234abdc,2134pe
\\W
匹配单个非数字,大小写字母字符,相当于 [ ^ 0-9a-zA-Z ]
\\W+\\d{2}
以至少1个非数字字母字符开头,2个数字字符结尾的字符串
#29,#?@10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp3 { public static void main (String[] args) { String content = "a11lc8" ; String regStr = "[a-z]" ; regStr = "[A-Z]" ; regStr = "abc" ; regStr = "(?i)abc" ; regStr = "a(?i)bc" ; regStr = "a((?i)b)c" ; regStr = "[^a-z]" ; regStr = "[^0-9]" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println("找到:" + matcher.group(0 )); } } }
字符匹配符拓展
[abcd]表示可以匹配abcd中的任意一个字符
[^abcd]表示可以匹配不是abcd中的任意一个字符
\\d表示可以匹配0-9的任意一个数字,相当于[0-9]
\\D表示可以匹配不是0-9中的任意一个数字,相当于[ ^ 0-9 ]
\\w匹配任意英文字符,数字和下划线,相当于[ a-zA-Z0-9 ]
\\W相当于 【^ a-zA-Z0-9】是和\\w相反
\\s匹配任何空白字符(空格,制表符等)
\\S匹配任何非空白字符,和\\s相反
. 匹配出\n之外的所有字符,如果想要匹配其本事需要使用\.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp3 { public static void main (String[] args) { String content = "a11lc8" ; String regStr = "[abcd]" ; regStr = "\\D" ; regStr = "\\w" ; regStr = "\\W" ; regStr = "\\s" ; regStr = "\\S" ; regStr = "." ; regStr = "a|b|c" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println("找到:" + matcher.group(0 )); } } }
元字符 选择匹配符
符号
说明
示例
解释
|
匹配 | 之前或之后的表达式
ab|cd
ab或者cd
元字符 限定符
用于指定其前面的字符和组合项连续出现多少次
符号
含义
示例
说明
匹配输入
*
指定字符重复0次或n次(无要求)
(abc)*
仅包含任意个abc的字符串,等效于\\w*
abc,abcabcabc
+
指定字符重复1次或n次(至少一次)
m+(abc)*
以至少1个m开头,后接任意个abc的字符串
m,mabc,mabcabc
?
指定字符重复0次或1次(最多一次)
m+abc?
以至少1个m开头,后接ab或abc的字符串
mab,mabc,mmmab,mmabc
{n}
只能输入n个字符
[abcd]{3}
由abcd中字母组成的任意长度为3的字符串
abc,dbc,adc
{n,}
指定至少n个匹配
[abcd]{3,}
由abcd中字母组成的任意长度不小于3的字符串
aab,dbc,aaabdc
{n,m}
指定至少n个但不多于m个匹配
[abcd]{3,5}
由abcd中字母组成的任意长度不小于3,不大于5的字符串
abc,abcd,aaaaa,bcdab
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp3 { public static void main (String[] args) { String content = "22221111aaaa" ; String regStr = "a{3}" ; regStr = "1{4}" ; regStr = "\\d{2}" ; regStr = "a{3,4}" ; regStr = "1{4,5}" ; regStr = "\\d{2,5}" ; regStr = "1+" ; regStr = "\\d+" ; regStr = "1*" ; content = "a1111" ; regStr = "a1?" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println("找到:" + matcher.group(0 )); } } }
元字符 定位符 定位符,规定要匹配的字符串出现的位置,比如在字符串的开始还是结束的位置,这个也是相当有用的,必须掌握
加入起始和结束字符匹配的就不是子字符串,而是整个字符串是否符合要求,符合要求
符号
含义
示例
说明
匹配输入
^
指定起始字符
^[0-9]+[a-z]*
至少一个数字开头后接一个小写字母的字符串,可以没有小写字母
123,6qaa,555wef
$
指定结束字符
^[0-9]\\-[a-z] +$
一个数字开头后接字符‘-’,并以至少一个小写字母结尾
1-a,2-b,3-c
\\b
匹配目标字符串的边界
han\\b
这里指字符串的边界是说子串之间由空格,或者是目标字符串的结束位置
hanshunpin sphan nnhan
\\B
匹配非目标字符串的边界
han\\B
和\\b的含义刚刚相反
han shunping sphan nnhan
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp3 { public static void main (String[] args) { String content = "a123abc" ; String regStr = "^[0-9]+[a-z]*" ; regStr = "^[0-9]+[a-z]+$" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println("找到:" + matcher.group(0 )); } } }
常用分组 非捕获匹配
常用分组构造形式
说明
(pattern)
非命名捕获,捕获匹配的子字符串。编号为零的第一个捕获是由整个正则表达式模式匹配的文本。其他结果则根据左括号的顺序从1开始自动编号。
(?pattern)
命名捕获,将匹配的子字符串捕获到一个组名称或编号名称中,用于名称的字符串不能包含任何标点符号。并且不能以数字开头,可以使用单引号替代尖括号,例如(?’name’)
(?:pattern)
匹配pattern但不捕获该匹配的子表达式,即他是一个非捕获匹配,不存储供以后使用的匹配,这对于用’or’字符(|)组合模式部件的情况很有用。例如,’industr(?:y|ies)’是比’industries|industry‘更经济的表达式
(?=pattern)
他是一个非捕获匹配,例如:’windows(?=95|98|NT|2000)’匹配windows2000中的windows,但不匹配windows3.1的windows。
(?!pattern)
该表达式匹配不处于匹配pattern的字符串的起始点的搜索字符串,他是一个非捕获匹配。例如,‘windows(?!95|98|NT|2000)’匹配“windows3.1’中的’windows’,但不匹配’windows’2000中的windows.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp3 { public static void main (String[] args) { String content = "hanshunping s7789 nn1189han" ; String regStr = "(\\d\\d)(\\d\\d)" ; regStr = "(?<g1>(\\d\\d)(?<g2>\\d\\d)" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println("找到:" + matcher.group(0 )); System.out.println("找到:" + matcher.group(1 )); System.out.println("找到:" + matcher.group(2 )); System.out.println("找到:" + matcher.group("g1" )); System.out.println("找到:" + matcher.group("g2" )); } } }
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp3 { public static void main (String[] args) { String content = "hello韩顺平教育 jack韩顺平老师 韩顺平同学hello" ; String regStr = "韩顺平教育|韩顺平老师|韩顺平同学" ; regStr = "韩顺平(?:教育|老师|同学)" ; regStr = "韩顺平(?=教育|老师)" ; regStr = "韩顺平(?!教育|老师)" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println("找到:" + matcher.group(0 )); } } }
非贪婪匹配
符号
含义
?
当此字符紧随任何其他限定符( * , + ,?,{n} , {n, } , {n , m})之后时,匹配模式是“非贪心算法”。“非贪心的”模式匹配搜索到的,尽可能短额字符串,而默认的“贪心的”模式匹配搜索到的,尽可能长的字符串。例如,在字符串“oooo”中,”o+?”只匹配单个“o”,而“o+”匹配所有”o”。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp3 { public static void main (String[] args) { String content = "hello1111111 ok" ; String regStr = "\\d+" ; regStr = "\\d+?" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println("找到:" + matcher.group(0 )); } } }
练习 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp3 { public static void main (String[] args) { String content = "卢本伟" ; String regStr = "^[\u0391-\uffe5]+$" ; content = "123890" ; regStr = "^[1-9]\\d{5}$" ; content = "2834782438" ; regStr = "^[1-9]\\d{4,9}$" ; content = "13485748584" ; regStr = "^1(?:3|4|5|8)\\d{9}$" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); if (matcher.find()){ System.out.println("满足格式" ); }else { System.out.println("不满足格式" ); } } }
url验证:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class RegExp3 { public static void main (String[] args) { String content = "https://www.bilibili.com/video/BV1fh411y7R8/?p=894&spm_id_from=pageDriver&vd_source=23059014e879ae6c011960d5893377fd" ; content = "https://live.bilibili.com/24717470?hotRank=0&session_id=be332e76edde83ddb84af151750d60dc_13DDE26E-7DF5-4AD2-BC66-9A539C1B7BDE&launch_id=1000237" ; String regStr = "^((http|https)://)" ; regStr = "^(https?://)" ; regStr = "^(https?://)([\\w]+\\.?)+" ; regStr = "^(https?://)([\\w]+\\.?)+(\\/[\\w?=&^_/%.#-]*)?$" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); if (matcher.find()){ System.out.println("满足格式" ); }else { System.out.println("不满足格式" ); } } }
正则表达式的常用类 java.util.regex包主要包括以下三个类Pattern类,Matcher类和PatternSyntaxException
Pattern类
pattern对象是一个正则表达式对象,Pattern类没有公共构造方法,要创建一个Pattern对向,调用其公共静态方法,它返回一个Pattern对象,调用其公共静态方法,它返回一个Pattern对象,该方法接受一个正则表达式作为它的第一个参数,比如:Pattern r = Pattern.compile(pattern);
Matcher类
Matcher对象是对输入字符串进行解释和匹配的引擎,与Pattern类一样,Matcher也没有公共构造方法。你需要调用Pattern对象的matcher方法来获得一个Matcher对象。
PatternSyntaxException
PatternSyntaxException是一个非强制异常类,它表示一个正则表达式模式中的语法错误。
验证指定字符串是否符合要求,返回Boolean值
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 package com.zero.expr;import java.util.regex.Pattern;public class PatternMethod { public static void main (String[] args) { String content = "hello abc hello,韩顺平教育" ; String regStr = "hello.*" ; boolean matches = Pattern.matches(regStr,content); System.out.println("整体匹配:" + matches); } }
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class MatcherMethod { public static void main (String[] args) { String content = "hello edu jack tom hello smith hello" ; String regStr = "hello" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println("=============" ); System.out.println(matcher.start()); System.out.println(matcher.end()); System.out.println("找到:" + content.substring(matcher.start(),matcher.end())); } System.out.println("整体匹配=" +matcher.matches()); matcher = pattern.matcher(content); String newContent = matcher.replaceAll("韩顺平" ); System.out.println(newContent); } }
分组.捕获.反向引用 给你一段文本,请你找出所有四个数字连载一起的子串,并且这四个数字要满足第一位和第四位相同,第二位和第三位相同,比如1221,5775
分组
我们可以用圆括号组成一个比较复杂的匹配模式,那么一个圆括号的部分我们可以看作是一个子表达式、一个分组
捕获
把正则表达式中的子表达式、分组匹配的内容,保存到内存中以数字编号或显式命名的组里,方便后面引用,从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推,组0代表的是整个正则式
反向引用
圆括号的内容被捕获后,可以在这个括号后被使用,从而写出一个比较使用的匹配模式,这个我们称为反向引用,这种医用即可以是在正则表达式内部,也可以是在正则表达式外部,内部反向引用\\分组号,外部反向引用$分组号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class MatcherMethod { public static void main (String[] args) { String content = "hello edu4224 jack 1221tom11 hello22 smith54325 hello55555" ; String regStr = "(\\d)\\1" ; regStr = "(\\d)\\1{4}" ; regStr = "(\\d)(\\d)\\2\\1" ; content = "12321-333999111" ; regStr = "\\d{5}-(\\d)\\1{2}(\\d)\\2{2}(\\d)\\3{2}" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); while (matcher.find()){ System.out.println(matcher.group(0 )); } } }
结巴程序 把类似:我…我要….学学学学学….编程java
把这句话修改为我要学编程java
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class MatcherMethod { public static void main (String[] args) { String content = "我...我要....学学学学学....编程java" ; Pattern pattern = Pattern.compile("\\." ); Matcher matcher = pattern.matcher(content); content = matcher.replaceAll("" ); System.out.println(content); pattern = pattern.compile("(.)\\1+" ); matcher = pattern.matcher(content); while (matcher.find()){ System.out.println(matcher.group(0 )); } content = matcher.replaceAll("$1" ); System.out.println(content); content = "我我要学学学学学编程java" ; content = Pattern.compile("(.)\\1+" ).matcher(content).replaceAll("$1" ); System.out.println(content); } }
元字符大全【总结】 正则表达式元字符-详细说明
字符
说明
****
将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,”n”匹配字符”n”。”\n”匹配换行符。序列”\\“匹配”\“,”\(“匹配”(“。
^
匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与”\n”或”\r”之后的位置匹配。
$
匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与”\n”或”\r”之前的位置匹配。
*****
零次或多次匹配前面的字符或子表达式。例如,zo* 匹配”z”和”zoo”。* 等效于 {0,}。
+
一次或多次匹配前面的字符或子表达式。例如,”zo+”与”zo”和”zoo”匹配,但与”z”不匹配。+ 等效于 {1,}。
?
零次或一次匹配前面的字符或子表达式。例如,”do(es)?”匹配”do”或”does”中的”do”。? 等效于 {0,1}。
{*n*}
*n* 是非负整数。正好匹配 *n* 次。例如,”o{2}”与”Bob”中的”o”不匹配,但与”food”中的两个”o”匹配。
{*n*,}
*n* 是非负整数。至少匹配 *n* 次。例如,”o{2,}”不匹配”Bob”中的”o”,而匹配”foooood”中的所有 o。”o{1,}”等效于”o+”。”o{0,}”等效于”o*“。
{*n*,*m*}
*m* 和 *n* 是非负整数,其中 *n* <= *m*。匹配至少 *n* 次,至多 *m* 次。例如,”o{1,3}”匹配”fooooood”中的头三个 o。’o{0,1}’ 等效于 ‘o?’。注意:您不能将空格插入逗号和数字之间。
?
当此字符紧随任何其他限定符(*、+、?、{*n*}、{*n*,}、{*n*,*m*})之后时,匹配模式是”非贪心的”。”非贪心的”模式匹配搜索到的、尽可能短的字符串,而默认的”贪心的”模式匹配搜索到的、尽可能长的字符串。例如,在字符串”oooo”中,”o+?”只匹配单个”o”,而”o+”匹配所有”o”。
.
匹配除”\r\n”之外的任何单个字符。若要匹配包括”\r\n”在内的任意字符,请使用诸如”[\s\S]”之类的模式。
(*pattern*)
匹配 *pattern* 并捕获该匹配的子表达式。可以使用 $0…$9 属性从结果”匹配”集合中检索捕获的匹配。若要匹配括号字符 ( ),请使用”(“或者”)“。
(?:*pattern*)
匹配 *pattern* 但不捕获该匹配的子表达式,即它是一个非捕获匹配,不存储供以后使用的匹配。这对于用”or”字符 (|) 组合模式部件的情况很有用。例如,’industr(?:y|ies) 是比 ‘industry|industries’ 更经济的表达式。
(?=*pattern*)
执行正向预测先行搜索的子表达式,该表达式匹配处于匹配 *pattern* 的字符串的起始点的字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,’Windows (?=95|98|NT|2000)’ 匹配”Windows 2000”中的”Windows”,但不匹配”Windows 3.1”中的”Windows”。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。
(?!*pattern*)
执行反向预测先行搜索的子表达式,该表达式匹配不处于匹配 *pattern* 的字符串的起始点的搜索字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,’Windows (?!95|98|NT|2000)’ 匹配”Windows 3.1”中的 “Windows”,但不匹配”Windows 2000”中的”Windows”。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。
x* |*y* *
匹配 *x* 或 *y*。例如,’z|food’ 匹配”z”或”food”。’(z|f)ood’ 匹配”zood”或”food”。
[*xyz*]
字符集。匹配包含的任一字符。例如,”[abc]”匹配”plain”中的”a”。
[^*xyz*]
反向字符集。匹配未包含的任何字符。例如,”[^abc]”匹配”plain”中”p”,”l”,”i”,”n”。
[*a-z*]
字符范围。匹配指定范围内的任何字符。例如,”[a-z]”匹配”a”到”z”范围内的任何小写字母。
[^*a-z*]
反向范围字符。匹配不在指定的范围内的任何字符。例如,”[^a-z]”匹配任何不在”a”到”z”范围内的任何字符。
\b
匹配一个字边界,即字与空格间的位置。例如,”er\b”匹配”never”中的”er”,但不匹配”verb”中的”er”。
\B
非字边界匹配。”er\B”匹配”verb”中的”er”,但不匹配”never”中的”er”。
\c*x*
匹配 *x* 指示的控制字符。例如,\cM 匹配 Control-M 或回车符。*x* 的值必须在 A-Z 或 a-z 之间。如果不是这样,则假定 c 就是”c”字符本身。
\d****0.
数字字符匹配。等效于 [0-9]。
\D
非数字字符匹配。等效于 [^0-9]。
\f
换页符匹配。等效于 \x0c 和 \cL。
\n
换行符匹配。等效于 \x0a 和 \cJ。
\r
匹配一个回车符。等效于 \x0d 和 \cM。
\s
匹配任何空白字符,包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。
\S
匹配任何非空白字符。与 [^ \f\n\r\t\v] 等效。
\t
制表符匹配。与 \x09 和 \cI 等效。
\v
垂直制表符匹配。与 \x0b 和 \cK 等效。
\w
匹配任何字类字符,包括下划线。与”[A-Za-z0-9_]”等效。
\W
与任何非单词字符匹配。与”[^A-Za-z0-9_]”等效。
\x*n*
匹配 *n*,此处的 *n* 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如,”\x41”匹配”A”。”\x041”与”\x04”&”1”等效。允许在正则表达式中使用 ASCII 代码。
*num*
匹配 *num*,此处的 *num* 是一个正整数。到捕获匹配的反向引用。例如,”(.)\1”匹配两个连续的相同字符。
*n*
标识一个八进制转义码或反向引用。如果 *n* 前面至少有 *n* 个捕获子表达式,那么 *n* 是反向引用。否则,如果 *n* 是八进制数 (0-7),那么 *n* 是八进制转义码。
*nm*
标识一个八进制转义码或反向引用。如果 *nm* 前面至少有 *nm* 个捕获子表达式,那么 *nm* 是反向引用。如果 *nm* 前面至少有 *n* 个捕获,则 *n* 是反向引用,后面跟有字符 *m*。如果两种前面的情况都不存在,则 *nm* 匹配八进制值 *nm*,其中 *n* 和 *m* 是八进制数字 (0-7)。
\nml
当 *n* 是八进制数 (0-3),*m* 和 *l* 是八进制数 (0-7) 时,匹配八进制转义码 *nml*。
\u*n*
匹配 *n*,其中 *n* 是以四位十六进制数表示的 Unicode 字符。例如,\u00A9 匹配版权符号 (©)。
String类中使用正则表达式 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 package com.zero.expr;import java.util.regex.Matcher;import java.util.regex.Pattern;public class MatcherMethod { public static void main (String[] args) { String content = "2000年5月,JDK1.3、JDK1.4和J2SE1.3相继发布,几周后其获得了Apple公司Mac OS X的工业标准的支持。2001年9月24日,J2EE1.3发布。2002年2月26日,J2SE1.4发布。自此Java的计算能力有了大幅提升,与J2SE1.3相比,其多了近62%的类和接口。在这些新特性当中,还提供了广泛的XML支持、安全套接字(Socket)支持(通过SSL与TLS协议)、全新的I/OAPI、正则表达式、日志与断言。2004年9月30日,J2SE1.5发布,成为Java语言发展史上的又一里程碑。为了表示该版本的重要性,J2SE 1.5更名为Java SE 5.0(内部版本号1.5.0),代号为“Tiger”,Tiger包含了从1996年发布1.0版本以来的最重大的更新,其中包括泛型支持、基本类型的自动装箱、改进的循环、枚举类型、格式化I/O及可变参数。" ; content = content.replaceAll("JDK1\\.3|JDK1\\.4" , "JDK" ); System.out.println(content); content = "13888889999" ; if (content.matches("1(38|39)\\d{8}" )){ System.out.println("验证成功" ); }else { System.out.println("验证失败" ); } content = "hello#abc-jack12smith" ; String[] split = content.split("#|-|~|\\d+" ); for (String s : split){ System.out.println(s); } } }
常用的匹配规则【总结】 练习题
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 import java.util.regex.Matcher;import java.util.regex.Pattern;public class HomeWork1 { public static void main (String[] args) { new HomeWork1 ().main2(); } public void main1 () { String contect = "[email protected] " ; String regStr = "^\\w+@(\\w+\\.*)+$" ; if (Pattern.matches(regStr, contect)){ System.out.println("满足" ); }else { System.out.println("不满足" ); } } public void main () { String content = "-0.89" ; String regStr = "^[-+]?([1-9]\\d*|0)([.]\\d+)?$" ; if (content.matches(regStr)){ System.out.println("匹配成功" ); }else { System.out.println("匹配失败" ); } } public void main2 () { String content = "https://www.sohu.com:8080/abc/xxx/yyy//////index%#$.htm" ; String regStr = "^([a-zA-Z]+)://([a-zA-Z.]+):(\\d+)[\\w-/]*/([\\w.%#$]+)$" ; Pattern pattern = Pattern.compile(regStr); Matcher matcher = pattern.matcher(content); if (matcher.matches()){ System.out.println("整体匹配:" + matcher.group(0 )); System.out.println("协议:" + matcher.group(1 )); System.out.println("域名:" + matcher.group(2 )); System.out.println("端口:" + matcher.group(3 )); System.out.println("文件名:" + matcher.group(4 )); }else { System.out.println("匹配不成功" ); } } }
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 一、校验数字的表达式 1 数字:^[0-9]*$ 2 n位的数字:^\d{n}$ 3 至少n位的数字:^\d{n,}$ 4 m-n位的数字:^\d{m,n}$ 5 零和非零开头的数字:^(0|[1-9][0-9]*)$ 6 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$ 7 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$ 8 正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$ 9 有两位小数的正实数:^[0-9]+(.[0-9]{2})?$ 10 有1~3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$ 11 非零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$ 12 非零的负整数:^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$ 13 非负整数:^\d+$ 或 ^[1-9]\d*|0$ 14 非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$ 15 非负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ 16 非正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ 17 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$ 18 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$ 19 浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ 二、校验字符的表达式 1 汉字:^[\u4e00-\u9fa5]{0,}$ 2 英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$ 3 长度为3-20的所有字符:^.{3,20}$ 4 由26个英文字母组成的字符串:^[A-Za-z]+$ 5 由26个大写英文字母组成的字符串:^[A-Z]+$ 6 由26个小写英文字母组成的字符串:^[a-z]+$ 7 由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$ 8 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$ 9 中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$ 10 中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$ 11 可以输入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+ 12 禁止输入含有~的字符:[^~\x22]+ 三、特殊需求表达式 1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ 2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.? 3 InternetURL:[a-zA-z]+://[^\s]* 或 ^https://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ 4 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ 5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$ 6 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7} 7 身份证号: 15或18位身份证:^\d{15}|\d{18}$ 15位身份证:^[1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}$ 18位身份证:^[1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{4}$ 8 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$ 9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$ 11 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$ 12 日期格式:^\d{4}-\d{1,2}-\d{1,2} 13 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$ 14 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$ 15 钱的输入格式: 16 1.有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$ 17 2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$ 18 3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$ 19 4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$ 20 5.必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$ 21 6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$ 22 7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$ 23 8.1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$ 24 备注:这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里 25 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$ 26 中文字符的正则表达式:[\u4e00-\u9fa5] 27 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)) 28 空白行的正则表达式:\n\s*\r (可以用来删除空白行) 29 HTML标记的正则表达式:<(\S*?)[^>]*>.*?|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力) 30 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式) 31 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始) 32 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字) 33 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)