java正则表达式专题

正则表达式

正则表达体验

在网页中的地址栏前面加入: view-source:

即可进入网页资源模式,将源代码拷贝下来

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
// 体验正则表达式的威力,给我们文本处理带来多少便利
public static void main(String[] args){
//假定,编写了爬虫,从百度得到如下文本
String contect = "1995年,互联网的蓬勃发展给了Oak机会。业界为了使死板、单调的静态网页能够“灵活”起来,急需一种软件技术来开发一种程序,这种程序可以通过网络传播并且能够跨平台运行。于是,世界各大IT企业为此纷纷投入了大量的人力、物力和财力。这个时候,Sun公司想起了那个被搁置起来很久的Oak,并且重新审视了那个用软件编写的试验平台,由于它是按照嵌入式系统硬件平台体系结构进行编写的,所以非常小,特别适用于网络上的传输系统,而Oak也是一种精简的语言,程序非常小,适合在网络上传输。Sun公司首先推出了可以嵌入网页并且可以随同网页在网络上传输的Applet(Applet是一种将小程序嵌入到网页中进行执行的技术),并将Oak更名为Java。5月23日,Sun公司在Sun world会议上正式发布Java和HotJava浏览器。IBM、Apple、DEC、Adobe、HP、Oracle、Netscape和微软等各大公司都纷纷停止了自己的相关开发项目,竞相购买了Java使用许可证,并为自己的产品开发了相应的Java平台。 [9-10] ";
contect = "/div></a><a class=\"c-font-normal c-color-gray2 hot-refresh\"><i class=\"c-icon refresh-icon\">\uE619</i><span class=\"hot-refresh-text\">换一换</span></a></div><ul class=\"s-news-rank-content\"><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E5%9D%9A%E5%AE%9A%E4%B8%8D%E7%A7%BB%E6%8E%A8%E5%8A%A8%E6%9E%84%E5%BB%BA%E4%BA%9A%E5%A4%AA%E5%91%BD%E8%BF%90%E5%85%B1%E5%90%8C%E4%BD%93&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><i class=\"c-icon title-content-top-icon c-color-red c-gap-right-small\">\uE62E</i><span class=\"title-content-title\">坚定不移推动构建亚太命运共同体</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B2%99%E7%89%B9%E6%94%BE%E5%81%871%E5%A4%A9%E5%BA%86%E7%A5%9D%E6%88%98%E8%83%9C%E9%98%BF%E6%A0%B9%E5%BB%B7&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot1\">1</span><span class=\"title-content-title\">沙特放假1天庆祝战胜阿根廷</span><span class=\"title-content-mark c-text c-text-hot\">热</span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E7%A0%94%E7%A9%B6%E7%94%9F%E5%AB%96%E5%A8%BC%E8%A2%AB%E5%BC%80%E9%99%A4%E8%B5%B7%E8%AF%89%E5%AD%A6%E6%A0%A1%E8%A2%AB%E9%A9%B3%E5%9B%9E&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot2\">2</span><span class=\"title-content-title\">研究生嫖娼被开除起诉学校被驳回</span><span class=\"title-content-mark c-text c-text-hot\">热</span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%AD%BC15%E9%A6%96%E6%AC%A1%E8%B5%B7%E9%99%8D%E8%BE%BD%E5%AE%81%E8%88%B010%E5%91%A8%E5%B9%B4&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot3\">3</span><span class=\"title-content-title\">歼15首次起降辽宁舰10周年</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E5%A4%9A%E5%9C%B0%E5%86%9C%E6%9D%91%E5%86%8D%E7%8E%B0%E2%80%9C%E5%9C%9F%E5%A0%86%E5%B0%81%E8%B7%AF%E2%80%9D&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot4\">4</span><span class=\"title-content-title\">多地农村再现“土堆封路”</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E5%90%88%E8%82%A5%E4%B8%80%E8%B7%AF%E9%9D%A2%E5%8F%91%E7%94%9F%E5%A1%8C%E9%99%B7%E6%9C%89%E4%BA%BA%E9%AA%91%E8%BD%A6%E5%9D%A0%E5%85%A5&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot5\">5</span><span class=\"title-content-title\">合肥一路面发生塌陷有人骑车坠入</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B2%99%E7%89%B9%E7%8E%8B%E5%82%A8%E7%94%A8%E7%A7%81%E4%BA%BA%E9%A3%9E%E6%9C%BA%E9%80%81%E7%90%83%E5%91%98%E6%B2%BB%E4%BC%A4&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot6\">6</span><span class=\"title-content-title\">沙特王储用私人飞机送球员治伤</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B5%8E%E5%8D%97%EF%BC%9A%E5%B8%82%E5%86%85%E5%85%AD%E5%8C%BA%E6%9A%82%E5%81%9C%E5%A0%82%E9%A3%9F&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot7\">7</span><span class=\"title-content-title\">济南:市内六区暂停堂食</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B1%9F%E8%A5%BF%E4%B8%80%E9%AB%98%E4%B8%AD%E7%94%9F%E5%A4%B1%E8%81%94%E8%B6%851%E4%B8%AA%E6%9C%88+%E5%BD%93%E5%9C%B0%E9%80%9A%E6%8A%A5&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot8\">8</span><span class=\"title-content-title\">江西一高中生失联超1个月 当地通报</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%97%A5%E6%9C%AC%E9%98%9F%E4%B8%BB%E6%95%99%E7%BB%83%EF%BC%9A%E9%97%AF%E5%85%A5%E5%85%AB%E5%BC%BA%E7%9B%AE%E6%A0%87%E6%B2%A1%E5%8F%98&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot9\">9</span><span class=\"title-content-title\">日本队主教练:闯入八强目标没变</span><span class=\"title-content-mark c-text \"></span></a></li></ul></div>";
//提取所有的英文单词
//传统方法,使用遍历的方式,代码量大,效率不高
//正则表达式
//1.先创建pattern对象,可以理解为就是一个正则表达式对象
Pattern pattern = Pattern.compile("[a-zA-Z]+");
pattern = Pattern.compile("[0-9]+");
pattern = Pattern.compile("(([0-9])|([a-zA-Z])+)");
pattern = Pattern.compile("<span class=\"title-content-title\">(\\S*)</span>");
//创建一个匹配器对象,就是匹配器按照pattern样式去到文本中匹配,找到就返回真,否则返回假
Matcher matcher = pattern.matcher(contect);
//开始循环匹配
while(matcher.find()){
//匹配内容,文本,放到m.group(0)
System.out.println("找到:" + matcher.group(1));
}
}
}

正则表达的解释

为了解决快速寻找指定要求的子串,java提供了正则表达式技术,专门用于处理类似文本处理问题

简单的说:正则表达式是对字符串执行模式匹配的技术

正则表达式,regular expression => regExp

一个正则表达式,就是某种模式去匹配字符串的一个公式。很多人因为他们看上去比较古怪而且复杂所以不敢去使用,不过,经过练习后,就觉得这些复杂的表达式写起来还是相当简单的,而且,一旦你弄懂它们,你就能把数小时辛苦而且易错的文本处理工作缩短在几分钟(甚至在几秒钟)内完成

正则表达式不是只有java有,很多编程语言都支持正则表达式进行字符串操作。

演示正则表达式原理

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegTheory {
public static void main(String[] args){
String content = "1995年,互联网的蓬勃发展给了Oak机会。业界为了使死板、单调的静态网页能够“灵活”起来,急需一种软件技术来开发一种程序,这种程序可以通过网络传播并且能够跨平台运行。于是,世界各大IT企业为此纷纷投入了大量的人力、物力和财力。这个时候,Sun公司想起了那个被搁置起来很久的Oak,并且重新审视了那个用软件编写的试验平台,由于它是按照嵌入式系统硬件平台体系结构进行编写的,所以非常小,特别适用于网络上的传输系统,而Oak也是一种精简的语言,程序非常小,适合在网络上传输。Sun公司首先推出了可以嵌入网页并且可以随同网页在网络上传输的Applet(Applet是一种将小程序嵌入到网页中进行执行的技术),并将Oak更名为Java。5月23日,Sun公司在Sun world会议上正式发布Java和HotJava浏览器。IBM、Apple、DEC、Adobe、HP、Oracle、Netscape和微软等各大公司都纷纷停止了自己的相关开发项目,竞相购买了Java使用许可证,并为自己的产品开发了相应的Java平台。 [9-10] ";
//目标:匹配所有四个数字
//说明//d表示一个任意的数字,下面匹配任意4个组合的数字
String regStr = "\\d\\d\\d\\d";
Pattern pattern = Pattern.compile(regStr);
//创建匹配器matcher,按照正则表达式的规则去匹配content字符串
Matcher matcher = pattern.matcher(content);
/**
开始匹配
matcher.find()完成的任务
1.根据我们指定的规则,来定位满足规则的子字符串(比如1998)
2.找到后将子字符串开始的索引记录到matcher对象的int[] groups
groups[0] = 0,把该子字符串的结束的索引+1的值记录到groups[1] = 4
3.同时记录oldLast的值为子字符串的结束的索引+1的值即4,在下次执行find方法就从4开始匹配
matcher.group(0)分析
源码
public String group(int group){
if(first < 0){
throw new IllegalStateException("No match found");
}
if(group < 0 || group > groupCount()){
throw new IndexOfBoundsException("No group " + group);
}
if((groups[group*2] == -1) || groups[group*2+1] == -1){
return getSubSequence(groups[group*2],groups[group * 2 + 1]).toString();
}
}根据groups[0]和groups[1]记录的位置,从content开始截取子字符串返回,左闭右开
什么是分组:比如(\d\d)(\d\d),正则表达式中有()表示分组,第一个表示第一组,第二个表示第二组
根据指定的规则,定位满足规则的子字符串(比如(19)98)

记录1组()匹配到的字符串group[2] = 0 groups[3] = 2
记录2组()匹配到的字符串group[4] = 2 groups[5] = 4
如果有更多的分组...
*/
while(matcher.find()){
//如果正则表达式有()即分组
//取出匹配的字符串规则如下
//group(0)表示匹配到的子字符串
//group(1)表示匹配到的子字符串的第一组字符串
//group(2)表示匹配到的子字符串的第二组字符串
System.out.println("找到:" + matcher.group(0));
// System.out.println("第一组()匹配的值" + matcher.group(1));
// System.out.println("第二组()匹配的值" + matcher.group(2));
}
}
}

正则语法

如果想要灵活的运用正则表达式,必须了解其中各种元字符的功能,元字符从功能上大致分为:

1.限定符

2.选择匹配符

3.分组组合和反向引用符

4.特殊字符

5.字符匹配符

6.定位符

元字符 转义号

(Metacharacter)英文名称 表达形式:\\

在我们使用正则表达式去检索某些特殊字符的时候,需要用到转移符号,否则检索不到结果,甚至会报错的。案例:用$去匹配”abc$(“会怎样

在java的正则表达式中,两个\\代表其他语言中的一个\

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp2 {
public static void main(String[] args) {
String content = "abc$(abc(123(";
// 匹配( -> \\(
// 匹配. -> \\.
String regStr = "\\(";
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println(matcher.group(0));
}
}
}

需要用到转义符号的字符有以下:. * + ( ) $ / \ ? [ ] ^ { }

元字符 字符匹配符

符号 含义 示例 说明 匹配输入
[ ] 可接收的字符列表 [efgh] e,f,g,h中的任意一个字符
[ ^ ] 不接收的字符列表 [^abc] 除a,b,c之外的任意一个字符,包括数字和特殊符号
- 连字符 A-Z 任意单个大写字母
. 匹配出\n以外的任何字符 a..b 以a开头,b结尾,中间包括2个任意字符长度的4位字符串 aaab,aefb,a35b,a#*b
\\d 匹配单个数字字符,相当于[ 0 - 9 ] \\d{3}(\\d)? 包含三个或4个数字的字符串 123,9876
\\D 匹配单个数字字符,相当于[ ^ 0 - 9 ] \\D(\\d)* 以单个非数字字符开头,后接任意个数字符串 a,A342
\\w 匹配单个数字,大小写字母字符,相当于[0-9a-zA-Z] \\d{3}\w{4} 以至少3个数字开头,长度为7的数字字母字符串 234abdc,2134pe
\\W 匹配单个非数字,大小写字母字符,相当于 [ ^ 0-9a-zA-Z ] \\W+\\d{2} 以至少1个非数字字母字符开头,2个数字字符结尾的字符串 #29,#?@10
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
public static void main(String[] args){
String content = "a11lc8";
String regStr = "[a-z]";//匹配a-z之间任意一个字符
regStr = "[A-Z]";//匹配A-Z之间的任意一个字符
regStr = "abc";//匹配abc这个字符
regStr = "(?i)abc";//匹配abc字符串不区分大小写
regStr = "a(?i)bc";//表示bc不区分大小写
regStr = "a((?i)b)c";//表示只有b不区分大小写
regStr = "[^a-z]";//表示匹配非a-z的字符
regStr = "[^0-9]";//匹配不在0-9之间的任意字符
//当创建模式对象时,指定语句后面的参数,表示匹配时不区分字母大小写
Pattern pattern = Pattern.compile(regStr);//Pattern.CASE_INSENSITIVE
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("找到:" + matcher.group(0));
}
}
}

字符匹配符拓展

[abcd]表示可以匹配abcd中的任意一个字符

[^abcd]表示可以匹配不是abcd中的任意一个字符

\\d表示可以匹配0-9的任意一个数字,相当于[0-9]

\\D表示可以匹配不是0-9中的任意一个数字,相当于[ ^ 0-9 ]

\\w匹配任意英文字符,数字和下划线,相当于[ a-zA-Z0-9 ]

\\W相当于 【^ a-zA-Z0-9】是和\\w相反

\\s匹配任何空白字符(空格,制表符等)

\\S匹配任何非空白字符,和\\s相反

. 匹配出\n之外的所有字符,如果想要匹配其本事需要使用\.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
public static void main(String[] args){
String content = "a11lc8";
String regStr = "[abcd]";//匹配abcd之间任意一个字符
regStr = "\\D";//匹配不是0-9的任意一个字符
regStr = "\\w";//匹配大小写字母,数字,下划线
regStr = "\\W";//匹配不是大小写字母,数字,下划线
regStr = "\\s";//匹配任何空白字符空格,制表符等
regStr = "\\S";//匹配非任何空白字符空格,制表符等
regStr = ".";//匹配除\n之外的所有字符
regStr = "a|b|c";//匹配a或b或c
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("找到:" + matcher.group(0));
}
}
}


元字符 选择匹配符

符号 说明 示例 解释
| 匹配 | 之前或之后的表达式 ab|cd ab或者cd

元字符 限定符

用于指定其前面的字符和组合项连续出现多少次

符号 含义 示例 说明 匹配输入
* 指定字符重复0次或n次(无要求) (abc)* 仅包含任意个abc的字符串,等效于\\w* abc,abcabcabc
+ 指定字符重复1次或n次(至少一次) m+(abc)* 以至少1个m开头,后接任意个abc的字符串 m,mabc,mabcabc
指定字符重复0次或1次(最多一次) m+abc? 以至少1个m开头,后接ab或abc的字符串 mab,mabc,mmmab,mmabc
{n} 只能输入n个字符 [abcd]{3} 由abcd中字母组成的任意长度为3的字符串 abc,dbc,adc
{n,} 指定至少n个匹配 [abcd]{3,} 由abcd中字母组成的任意长度不小于3的字符串 aab,dbc,aaabdc
{n,m} 指定至少n个但不多于m个匹配 [abcd]{3,5} 由abcd中字母组成的任意长度不小于3,不大于5的字符串 abc,abcd,aaaaa,bcdab
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
public static void main(String[] args){
String content = "22221111aaaa";
String regStr = "a{3}";//等价于aaa
regStr = "1{4}";//表示匹配1111
regStr = "\\d{2}";//二位的任意数字
regStr = "a{3,4}";//表示匹配aaa或者aaaa,java匹配是贪婪匹配,即尽可能匹配多的
regStr = "1{4,5}";//匹配4个1或5个1,优先匹配5个1
regStr = "\\d{2,5}";//2位数或3,4,5,优先匹配最大
//1+
regStr = "1+";//匹配1个1或多个1优先匹配最多的
regStr = "\\d+";//匹配一个数字或多个数字优先匹配最多的
//1*
regStr = "1*";//匹配0个1或多个1优先匹配最多的
content = "a1111";
//1?
regStr = "a1?";//匹配a或者a1优先匹配最多的
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("找到:" + matcher.group(0));
}
}
}

元字符 定位符

定位符,规定要匹配的字符串出现的位置,比如在字符串的开始还是结束的位置,这个也是相当有用的,必须掌握

加入起始和结束字符匹配的就不是子字符串,而是整个字符串是否符合要求,符合要求

符号 含义 示例 说明 匹配输入
^ 指定起始字符 ^[0-9]+[a-z]* 至少一个数字开头后接一个小写字母的字符串,可以没有小写字母 123,6qaa,555wef
$ 指定结束字符 ^[0-9]\\-[a-z] +$ 一个数字开头后接字符‘-’,并以至少一个小写字母结尾 1-a,2-b,3-c
\\b 匹配目标字符串的边界 han\\b 这里指字符串的边界是说子串之间由空格,或者是目标字符串的结束位置 hanshunpin sphan nnhan
\\B 匹配非目标字符串的边界 han\\B 和\\b的含义刚刚相反 hanshunping sphan nnhan
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
public static void main(String[] args){
String content = "a123abc";
String regStr = "^[0-9]+[a-z]*";//至少一个数字开头,再后接0~n个小写字母的字符串
regStr = "^[0-9]+[a-z]+$";//至少一个数字开头,再后接至少一个小写字母为结尾
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("找到:" + matcher.group(0));
}
}
}

常用分组 非捕获匹配

常用分组构造形式 说明
(pattern) 非命名捕获,捕获匹配的子字符串。编号为零的第一个捕获是由整个正则表达式模式匹配的文本。其他结果则根据左括号的顺序从1开始自动编号。
(?pattern) 命名捕获,将匹配的子字符串捕获到一个组名称或编号名称中,用于名称的字符串不能包含任何标点符号。并且不能以数字开头,可以使用单引号替代尖括号,例如(?’name’)
(?:pattern) 匹配pattern但不捕获该匹配的子表达式,即他是一个非捕获匹配,不存储供以后使用的匹配,这对于用’or’字符(|)组合模式部件的情况很有用。例如,’industr(?:y|ies)’是比’industries|industry‘更经济的表达式
(?=pattern) 他是一个非捕获匹配,例如:’windows(?=95|98|NT|2000)’匹配windows2000中的windows,但不匹配windows3.1的windows。
(?!pattern) 该表达式匹配不处于匹配pattern的字符串的起始点的搜索字符串,他是一个非捕获匹配。例如,‘windows(?!95|98|NT|2000)’匹配“windows3.1’中的’windows’,但不匹配’windows’2000中的windows.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
public static void main(String[] args){
String content = "hanshunping s7789 nn1189han";
//说明:
//matcher.group(0)得到匹配的字符串
//matcher.group(1)得到匹配的第一个分组的内容
//matcher.group(2)得到匹配的第二个分组的内容
String regStr = "(\\d\\d)(\\d\\d)";//匹配四个数字
regStr = "(?<g1>(\\d\\d)(?<g2>\\d\\d)";//匹配4个数字的字符串
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("找到:" + matcher.group(0));
System.out.println("找到:" + matcher.group(1));
System.out.println("找到:" + matcher.group(2));
System.out.println("找到:" + matcher.group("g1"));//通过组名来获取
System.out.println("找到:" + matcher.group("g2"));
}
}
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
public static void main(String[] args){
String content = "hello韩顺平教育 jack韩顺平老师 韩顺平同学hello";
String regStr = "韩顺平教育|韩顺平老师|韩顺平同学";
//找到韩顺平教育,韩顺平老师,韩顺平同学,子字符串
regStr = "韩顺平(?:教育|老师|同学)";//等价上面,注意不能使用group(1)获取
//找到韩顺平这个关键字,但是前提是只查找韩顺平教育和韩顺平老师中的韩顺平
regStr = "韩顺平(?=教育|老师)";//注意不能使用group(1)获取
//找到韩顺平这个关键字,但是要求只找不是韩顺平教育和韩顺平老师中包含的韩顺平
regStr = "韩顺平(?!教育|老师)";//注意不能使用group(1)获取
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("找到:" + matcher.group(0));
}
}
}

非贪婪匹配

符号 含义
? 当此字符紧随任何其他限定符( * , + ,?,{n} , {n, } , {n , m})之后时,匹配模式是“非贪心算法”。“非贪心的”模式匹配搜索到的,尽可能短额字符串,而默认的“贪心的”模式匹配搜索到的,尽可能长的字符串。例如,在字符串“oooo”中,”o+?”只匹配单个“o”,而“o+”匹配所有”o”。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
public static void main(String[] args){
String content = "hello1111111 ok";
String regStr = "\\d+";//默认是贪婪匹配
regStr = "\\d+?";//非贪婪匹配
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("找到:" + matcher.group(0));
}
}
}

练习

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
public static void main(String[] args){
//验证汉字
String content = "卢本伟";
String regStr = "^[\u0391-\uffe5]+$";

//验证邮政编码
//要求是1-9开头的一个六位数,比如:123890
content = "123890";
regStr = "^[1-9]\\d{5}$";

//qq号
//要求是1-9开头的一个(5位-10位)
content = "2834782438";
regStr = "^[1-9]\\d{4,9}$";

//手机号
//要求必须以13,14,15,18开头的11位数,比如13588889999
content = "13485748584";
regStr = "^1(?:3|4|5|8)\\d{9}$";
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
if(matcher.find()){
System.out.println("满足格式");
}else{
System.out.println("不满足格式");
}
}
}

url验证:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
public static void main(String[] args){
//验证url
String content = "https://www.bilibili.com/video/BV1fh411y7R8/?p=894&spm_id_from=pageDriver&vd_source=23059014e879ae6c011960d5893377fd";
content = "https://live.bilibili.com/24717470?hotRank=0&session_id=be332e76edde83ddb84af151750d60dc_13DDE26E-7DF5-4AD2-BC66-9A539C1B7BDE&launch_id=1000237";
//分析
//1.确定url开始部分:https://或者http://
String regStr = "^((http|https)://)";
regStr = "^(https?://)";
//2.匹配www.bilibili.com
regStr = "^(https?://)([\\w]+\\.?)+";
//3.匹配/video/BV1fh411y7R8/?p=894&spm_id_from=pageDriver&vd_source=23059014e879ae6c011960d5893377fd
//注意:[?=&^_/%.-] 匹配的是这些字符本身
regStr = "^(https?://)([\\w]+\\.?)+(\\/[\\w?=&^_/%.#-]*)?$";
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
if(matcher.find()){
System.out.println("满足格式");
}else{
System.out.println("不满足格式");
}
}
}

正则表达式的常用类

java.util.regex包主要包括以下三个类Pattern类,Matcher类和PatternSyntaxException

Pattern类

pattern对象是一个正则表达式对象,Pattern类没有公共构造方法,要创建一个Pattern对向,调用其公共静态方法,它返回一个Pattern对象,调用其公共静态方法,它返回一个Pattern对象,该方法接受一个正则表达式作为它的第一个参数,比如:Pattern r = Pattern.compile(pattern);

Matcher类

Matcher对象是对输入字符串进行解释和匹配的引擎,与Pattern类一样,Matcher也没有公共构造方法。你需要调用Pattern对象的matcher方法来获得一个Matcher对象。

PatternSyntaxException

PatternSyntaxException是一个非强制异常类,它表示一个正则表达式模式中的语法错误。

验证指定字符串是否符合要求,返回Boolean值

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
package com.zero.expr;

import java.util.regex.Pattern;

public class PatternMethod {
public static void main(String[] args){
String content = "hello abc hello,韩顺平教育";
String regStr = "hello.*";
boolean matches = Pattern.matches(regStr,content);
//这里如果使用Pattern的matches整体匹配,比较简洁
System.out.println("整体匹配:" + matches);
}
}


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MatcherMethod {
public static void main(String[] args){
String content = "hello edu jack tom hello smith hello";
String regStr = "hello";
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println("=============");
System.out.println(matcher.start());
System.out.println(matcher.end());
System.out.println("找到:" + content.substring(matcher.start(),matcher.end()));
}
//整体匹配方法,常用于去校验某个字符串是否满足某个规则
System.out.println("整体匹配="+matcher.matches());
//完成如果content有hello替换成韩顺平
matcher = pattern.matcher(content);
String newContent = matcher.replaceAll("韩顺平");
System.out.println(newContent);
}
}

分组.捕获.反向引用

给你一段文本,请你找出所有四个数字连载一起的子串,并且这四个数字要满足第一位和第四位相同,第二位和第三位相同,比如1221,5775

分组

我们可以用圆括号组成一个比较复杂的匹配模式,那么一个圆括号的部分我们可以看作是一个子表达式、一个分组

捕获

把正则表达式中的子表达式、分组匹配的内容,保存到内存中以数字编号或显式命名的组里,方便后面引用,从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推,组0代表的是整个正则式

反向引用

圆括号的内容被捕获后,可以在这个括号后被使用,从而写出一个比较使用的匹配模式,这个我们称为反向引用,这种医用即可以是在正则表达式内部,也可以是在正则表达式外部,内部反向引用\\分组号,外部反向引用$分组号

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MatcherMethod {
public static void main(String[] args){
String content = "hello edu4224 jack 1221tom11 hello22 smith54325 hello55555";
//匹配两个连续相同的数字
String regStr = "(\\d)\\1";
//匹配五个连续相同的数字
regStr = "(\\d)\\1{4}";
//要匹配个位与千位相同,十位与百位相同的数 5225 1551
regStr = "(\\d)(\\d)\\2\\1";
//请在字符串中检索商品编号,形式如:12321-333999111这样的号码
//要求满足前面是一个五位数,然后一个-号,然后是一个九位数,连续的每三位都要相同
content = "12321-333999111";
regStr = "\\d{5}-(\\d)\\1{2}(\\d)\\2{2}(\\d)\\3{2}";
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println(matcher.group(0));
}
}
}


结巴程序

把类似:我…我要….学学学学学….编程java

把这句话修改为我要学编程java

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MatcherMethod {
public static void main(String[] args){
String content = "我...我要....学学学学学....编程java";
//1去掉所有的点
Pattern pattern = Pattern.compile("\\.");
Matcher matcher = pattern.matcher(content);
content = matcher.replaceAll("");
System.out.println(content);
//2去除重复的字符
//使用(.)\\1+去匹配字符串
//注意:因为正则表达式变化,所以需要重置matcher
pattern = pattern.compile("(.)\\1+");//分组的捕获内容记录到$1
matcher = pattern.matcher(content);
while(matcher.find()){
System.out.println(matcher.group(0));
}
//使用反向引用$1来替换匹配到的内容
content = matcher.replaceAll("$1");
System.out.println(content);

//使用一条语句去除重复的汉字
content = "我我要学学学学学编程java";
content = Pattern.compile("(.)\\1+").matcher(content).replaceAll("$1");
System.out.println(content);
}
}


元字符大全【总结】

正则表达式元字符-详细说明

字符 说明
**** 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,”n”匹配字符”n”。”\n”匹配换行符。序列”\\“匹配”\“,”\(“匹配”(“。
^ 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与”\n”或”\r”之后的位置匹配。
$ 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与”\n”或”\r”之前的位置匹配。
***** 零次或多次匹配前面的字符或子表达式。例如,zo* 匹配”z”和”zoo”。* 等效于 {0,}。
+ 一次或多次匹配前面的字符或子表达式。例如,”zo+”与”zo”和”zoo”匹配,但与”z”不匹配。+ 等效于 {1,}。
? 零次或一次匹配前面的字符或子表达式。例如,”do(es)?”匹配”do”或”does”中的”do”。? 等效于 {0,1}。
{*n*} *n* 是非负整数。正好匹配 *n* 次。例如,”o{2}”与”Bob”中的”o”不匹配,但与”food”中的两个”o”匹配。
{*n*,} *n* 是非负整数。至少匹配 *n* 次。例如,”o{2,}”不匹配”Bob”中的”o”,而匹配”foooood”中的所有 o。”o{1,}”等效于”o+”。”o{0,}”等效于”o*“。
{*n*,*m*} *m* 和 *n* 是非负整数,其中 *n* <= *m*。匹配至少 *n* 次,至多 *m* 次。例如,”o{1,3}”匹配”fooooood”中的头三个 o。’o{0,1}’ 等效于 ‘o?’。注意:您不能将空格插入逗号和数字之间。
? 当此字符紧随任何其他限定符(*、+、?、{*n*}、{*n*,}、{*n*,*m*})之后时,匹配模式是”非贪心的”。”非贪心的”模式匹配搜索到的、尽可能短的字符串,而默认的”贪心的”模式匹配搜索到的、尽可能长的字符串。例如,在字符串”oooo”中,”o+?”只匹配单个”o”,而”o+”匹配所有”o”。
. 匹配除”\r\n”之外的任何单个字符。若要匹配包括”\r\n”在内的任意字符,请使用诸如”[\s\S]”之类的模式。
(*pattern*) 匹配 *pattern* 并捕获该匹配的子表达式。可以使用 $0…$9 属性从结果”匹配”集合中检索捕获的匹配。若要匹配括号字符 ( ),请使用”(“或者”)“。
(?:*pattern*) 匹配 *pattern* 但不捕获该匹配的子表达式,即它是一个非捕获匹配,不存储供以后使用的匹配。这对于用”or”字符 (|) 组合模式部件的情况很有用。例如,’industr(?:y|ies) 是比 ‘industry|industries’ 更经济的表达式。
(?=*pattern*) 执行正向预测先行搜索的子表达式,该表达式匹配处于匹配 *pattern* 的字符串的起始点的字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,’Windows (?=95|98|NT|2000)’ 匹配”Windows 2000”中的”Windows”,但不匹配”Windows 3.1”中的”Windows”。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。
(?!*pattern*) 执行反向预测先行搜索的子表达式,该表达式匹配不处于匹配 *pattern* 的字符串的起始点的搜索字符串。它是一个非捕获匹配,即不能捕获供以后使用的匹配。例如,’Windows (?!95|98|NT|2000)’ 匹配”Windows 3.1”中的 “Windows”,但不匹配”Windows 2000”中的”Windows”。预测先行不占用字符,即发生匹配后,下一匹配的搜索紧随上一匹配之后,而不是在组成预测先行的字符后。
x*|*y** 匹配 *x* 或 *y*。例如,’z|food’ 匹配”z”或”food”。’(z|f)ood’ 匹配”zood”或”food”。
[*xyz*] 字符集。匹配包含的任一字符。例如,”[abc]”匹配”plain”中的”a”。
[^*xyz*] 反向字符集。匹配未包含的任何字符。例如,”[^abc]”匹配”plain”中”p”,”l”,”i”,”n”。
[*a-z*] 字符范围。匹配指定范围内的任何字符。例如,”[a-z]”匹配”a”到”z”范围内的任何小写字母。
[^*a-z*] 反向范围字符。匹配不在指定的范围内的任何字符。例如,”[^a-z]”匹配任何不在”a”到”z”范围内的任何字符。
\b 匹配一个字边界,即字与空格间的位置。例如,”er\b”匹配”never”中的”er”,但不匹配”verb”中的”er”。
\B 非字边界匹配。”er\B”匹配”verb”中的”er”,但不匹配”never”中的”er”。
\c*x* 匹配 *x* 指示的控制字符。例如,\cM 匹配 Control-M 或回车符。*x* 的值必须在 A-Z 或 a-z 之间。如果不是这样,则假定 c 就是”c”字符本身。
\d****0. 数字字符匹配。等效于 [0-9]。
\D 非数字字符匹配。等效于 [^0-9]。
\f 换页符匹配。等效于 \x0c 和 \cL。
\n 换行符匹配。等效于 \x0a 和 \cJ。
\r 匹配一个回车符。等效于 \x0d 和 \cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。
\S 匹配任何非空白字符。与 [^ \f\n\r\t\v] 等效。
\t 制表符匹配。与 \x09 和 \cI 等效。
\v 垂直制表符匹配。与 \x0b 和 \cK 等效。
\w 匹配任何字类字符,包括下划线。与”[A-Za-z0-9_]”等效。
\W 与任何非单词字符匹配。与”[^A-Za-z0-9_]”等效。
\x*n* 匹配 *n*,此处的 *n* 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如,”\x41”匹配”A”。”\x041”与”\x04”&”1”等效。允许在正则表达式中使用 ASCII 代码。
*num* 匹配 *num*,此处的 *num* 是一个正整数。到捕获匹配的反向引用。例如,”(.)\1”匹配两个连续的相同字符。
*n* 标识一个八进制转义码或反向引用。如果 *n* 前面至少有 *n* 个捕获子表达式,那么 *n* 是反向引用。否则,如果 *n* 是八进制数 (0-7),那么 *n* 是八进制转义码。
*nm* 标识一个八进制转义码或反向引用。如果 *nm* 前面至少有 *nm* 个捕获子表达式,那么 *nm* 是反向引用。如果 *nm* 前面至少有 *n* 个捕获,则 *n* 是反向引用,后面跟有字符 *m*。如果两种前面的情况都不存在,则 *nm* 匹配八进制值 *nm*,其中 *n* 和 *m* 是八进制数字 (0-7)。
\nml 当 *n* 是八进制数 (0-3),*m* 和 *l* 是八进制数 (0-7) 时,匹配八进制转义码 *nml*。
\u*n* 匹配 *n*,其中 *n* 是以四位十六进制数表示的 Unicode 字符。例如,\u00A9 匹配版权符号 (©)。

String类中使用正则表达式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MatcherMethod {
public static void main(String[] args){
String content = "2000年5月,JDK1.3、JDK1.4和J2SE1.3相继发布,几周后其获得了Apple公司Mac OS X的工业标准的支持。2001年9月24日,J2EE1.3发布。2002年2月26日,J2SE1.4发布。自此Java的计算能力有了大幅提升,与J2SE1.3相比,其多了近62%的类和接口。在这些新特性当中,还提供了广泛的XML支持、安全套接字(Socket)支持(通过SSL与TLS协议)、全新的I/OAPI、正则表达式、日志与断言。2004年9月30日,J2SE1.5发布,成为Java语言发展史上的又一里程碑。为了表示该版本的重要性,J2SE 1.5更名为Java SE 5.0(内部版本号1.5.0),代号为“Tiger”,Tiger包含了从1996年发布1.0版本以来的最重大的更新,其中包括泛型支持、基本类型的自动装箱、改进的循环、枚举类型、格式化I/O及可变参数。";
//使用正则表达式,将JDK1.3和JDK1.4替换成jdk
content = content.replaceAll("JDK1\\.3|JDK1\\.4", "JDK");
System.out.println(content);
//要求验证一个手机号,要求必须是以138 139开头的
content = "13888889999";
if(content.matches("1(38|39)\\d{8}")){
System.out.println("验证成功");
}else{
System.out.println("验证失败");
}

//要求按照#或者-~或者数字来分割
content = "hello#abc-jack12smith";
String[] split = content.split("#|-|~|\\d+");
for(String s : split){
System.out.println(s);
}
}
}

常用的匹配规则【总结】

练习题

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HomeWork1 {
public static void main(String[] args){
new HomeWork1().main2();
}
public void main1(){
String contect = "[email protected]";
String regStr = "^\\w+@(\\w+\\.*)+$";
if(Pattern.matches(regStr, contect)){
System.out.println("满足");
}else{
System.out.println("不满足");
}
}
public void main(){
//验证是不是整数或者小数,考虑负数的情况
/*先写出简单则正则表达式
根据各种情况来完善
*/
String content = "-0.89";
String regStr = "^[-+]?([1-9]\\d*|0)([.]\\d+)?$";
//regStr = "^(-|0)?[1-9]+([0-9]+)?(\\.)?([0-9]{1,})$";//别人写的
if(content.matches(regStr)){
System.out.println("匹配成功");
}else{
System.out.println("匹配失败");
}
}
public void main2(){
String content = "https://www.sohu.com:8080/abc/xxx/yyy//////index%#$.htm";
//因为正则表达式是根据要求制作的,如果需求有所变动,就根据需求进行适当改进
String regStr = "^([a-zA-Z]+)://([a-zA-Z.]+):(\\d+)[\\w-/]*/([\\w.%#$]+)$";
Pattern pattern = Pattern.compile(regStr);
Matcher matcher = pattern.matcher(content);
if(matcher.matches()){//如果匹配成功,可以通过group(x),获取对应分组内容
System.out.println("整体匹配:" + matcher.group(0));
System.out.println("协议:" + matcher.group(1));
System.out.println("域名:" + matcher.group(2));
System.out.println("端口:" + matcher.group(3));
System.out.println("文件名:" + matcher.group(4));
}else{
System.out.println("匹配不成功");
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
一、校验数字的表达式

1 数字:^[0-9]*$
2 n位的数字:^\d{n}$
3 至少n位的数字:^\d{n,}$
4 m-n位的数字:^\d{m,n}$
5 零和非零开头的数字:^(0|[1-9][0-9]*)$
6 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$
7 带1-2位小数的正数或负数:^(\-)?\d+(\.\d{1,2})?$
8 正数、负数、和小数:^(\-|\+)?\d+(\.\d+)?$
9 有两位小数的正实数:^[0-9]+(.[0-9]{2})?$
10 有1~3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$
11 非零的正整数:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
12 非零的负整数:^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
13 非负整数:^\d+$ 或 ^[1-9]\d*|0$
14 非正整数:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
15 非负浮点数:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
16 非正浮点数:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
17 正浮点数:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
18 负浮点数:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
19 浮点数:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$


二、校验字符的表达式

1 汉字:^[\u4e00-\u9fa5]{0,}$
2 英文和数字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
3 长度为3-20的所有字符:^.{3,20}$
4 由26个英文字母组成的字符串:^[A-Za-z]+$
5 由26个大写英文字母组成的字符串:^[A-Z]+$
6 由26个小写英文字母组成的字符串:^[a-z]+$
7 由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$
8 由数字、26个英文字母或者下划线组成的字符串:^\w+$ 或 ^\w{3,20}$
9 中文、英文、数字包括下划线:^[\u4E00-\u9FA5A-Za-z0-9_]+$
10 中文、英文、数字但不包括下划线等符号:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
11 可以输入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+
12 禁止输入含有~的字符:[^~\x22]+


三、特殊需求表达式

1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 InternetURL:[a-zA-z]+://[^\s]* 或 ^https://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7 身份证号:
15或18位身份证:^\d{15}|\d{18}$
15位身份证:^[1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}$
18位身份证:^[1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{4}$
8 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
11 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$
14 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
15 钱的输入格式:
16 1.有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$
17 2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:^(0|[1-9][0-9]*)$
18 3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:^(0|-?[1-9][0-9]*)$
19 4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:^[0-9]+(.[0-9]+)?$
20 5.必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:^[0-9]+(.[0-9]{2})?$
21 6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:^[0-9]+(.[0-9]{1,2})?$
22 7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
23 8.1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
24 备注:这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里
25 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
26 中文字符的正则表达式:[\u4e00-\u9fa5]
27 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
28 空白行的正则表达式:\n\s*\r (可以用来删除空白行)
29 HTML标记的正则表达式:<(\S*?)[^>]*>.*?|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)
30 首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
31 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)
32 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
33 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)