java正则表达式专题

Zero022025-03-202025-05-24

正则表达式

正则表达体验

在网页中的地址栏前面加入： view-source:

即可进入网页资源模式，将源代码拷贝下来

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp {
    // 体验正则表达式的威力，给我们文本处理带来多少便利
    public static void main(String[] args){
        //假定，编写了爬虫，从百度得到如下文本
        String contect = "1995年，互联网的蓬勃发展给了Oak机会。业界为了使死板、单调的静态网页能够“灵活”起来，急需一种软件技术来开发一种程序，这种程序可以通过网络传播并且能够跨平台运行。于是，世界各大IT企业为此纷纷投入了大量的人力、物力和财力。这个时候，Sun公司想起了那个被搁置起来很久的Oak，并且重新审视了那个用软件编写的试验平台，由于它是按照嵌入式系统硬件平台体系结构进行编写的，所以非常小，特别适用于网络上的传输系统，而Oak也是一种精简的语言，程序非常小，适合在网络上传输。Sun公司首先推出了可以嵌入网页并且可以随同网页在网络上传输的Applet（Applet是一种将小程序嵌入到网页中进行执行的技术），并将Oak更名为Java。5月23日，Sun公司在Sun world会议上正式发布Java和HotJava浏览器。IBM、Apple、DEC、Adobe、HP、Oracle、Netscape和微软等各大公司都纷纷停止了自己的相关开发项目，竞相购买了Java使用许可证，并为自己的产品开发了相应的Java平台。 [9-10] ";
        contect = "/div></a><a class=\"c-font-normal c-color-gray2 hot-refresh\"><i class=\"c-icon refresh-icon\">\uE619</i><span class=\"hot-refresh-text\">换一换</span></a></div><ul class=\"s-news-rank-content\"><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E5%9D%9A%E5%AE%9A%E4%B8%8D%E7%A7%BB%E6%8E%A8%E5%8A%A8%E6%9E%84%E5%BB%BA%E4%BA%9A%E5%A4%AA%E5%91%BD%E8%BF%90%E5%85%B1%E5%90%8C%E4%BD%93&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><i class=\"c-icon title-content-top-icon c-color-red c-gap-right-small\">\uE62E</i><span class=\"title-content-title\">坚定不移推动构建亚太命运共同体</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B2%99%E7%89%B9%E6%94%BE%E5%81%871%E5%A4%A9%E5%BA%86%E7%A5%9D%E6%88%98%E8%83%9C%E9%98%BF%E6%A0%B9%E5%BB%B7&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot1\">1</span><span class=\"title-content-title\">沙特放假1天庆祝战胜阿根廷</span><span class=\"title-content-mark c-text c-text-hot\">热</span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E7%A0%94%E7%A9%B6%E7%94%9F%E5%AB%96%E5%A8%BC%E8%A2%AB%E5%BC%80%E9%99%A4%E8%B5%B7%E8%AF%89%E5%AD%A6%E6%A0%A1%E8%A2%AB%E9%A9%B3%E5%9B%9E&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot2\">2</span><span class=\"title-content-title\">研究生嫖娼被开除起诉学校被驳回</span><span class=\"title-content-mark c-text c-text-hot\">热</span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%AD%BC15%E9%A6%96%E6%AC%A1%E8%B5%B7%E9%99%8D%E8%BE%BD%E5%AE%81%E8%88%B010%E5%91%A8%E5%B9%B4&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot3\">3</span><span class=\"title-content-title\">歼15首次起降辽宁舰10周年</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E5%A4%9A%E5%9C%B0%E5%86%9C%E6%9D%91%E5%86%8D%E7%8E%B0%E2%80%9C%E5%9C%9F%E5%A0%86%E5%B0%81%E8%B7%AF%E2%80%9D&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot4\">4</span><span class=\"title-content-title\">多地农村再现“土堆封路”</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E5%90%88%E8%82%A5%E4%B8%80%E8%B7%AF%E9%9D%A2%E5%8F%91%E7%94%9F%E5%A1%8C%E9%99%B7%E6%9C%89%E4%BA%BA%E9%AA%91%E8%BD%A6%E5%9D%A0%E5%85%A5&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot5\">5</span><span class=\"title-content-title\">合肥一路面发生塌陷有人骑车坠入</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B2%99%E7%89%B9%E7%8E%8B%E5%82%A8%E7%94%A8%E7%A7%81%E4%BA%BA%E9%A3%9E%E6%9C%BA%E9%80%81%E7%90%83%E5%91%98%E6%B2%BB%E4%BC%A4&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot6\">6</span><span class=\"title-content-title\">沙特王储用私人飞机送球员治伤</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B5%8E%E5%8D%97%EF%BC%9A%E5%B8%82%E5%86%85%E5%85%AD%E5%8C%BA%E6%9A%82%E5%81%9C%E5%A0%82%E9%A3%9F&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot7\">7</span><span class=\"title-content-title\">济南：市内六区暂停堂食</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%B1%9F%E8%A5%BF%E4%B8%80%E9%AB%98%E4%B8%AD%E7%94%9F%E5%A4%B1%E8%81%94%E8%B6%851%E4%B8%AA%E6%9C%88+%E5%BD%93%E5%9C%B0%E9%80%9A%E6%8A%A5&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot8\">8</span><span class=\"title-content-title\">江西一高中生失联超1个月 当地通报</span><span class=\"title-content-mark c-text \"></span></a></li><li class=\"news-meta-item clearfix\"><a id=\"title-content\" class=\"title-content c-link c-font-medium\" href=\"https://www.baidu.com/s?wd=%E6%97%A5%E6%9C%AC%E9%98%9F%E4%B8%BB%E6%95%99%E7%BB%83%EF%BC%9A%E9%97%AF%E5%85%A5%E5%85%AB%E5%BC%BA%E7%9B%AE%E6%A0%87%E6%B2%A1%E5%8F%98&amp;sa=fyb_n_homepage&amp;rsv_dl=fyb_n_homepage&amp;from=super&amp;cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;rsv_idx=2&amp;hisfilter=1\" target=\"_blank\"><span class=\"title-content-index c-index-single c-index-single-hot9\">9</span><span class=\"title-content-title\">日本队主教练：闯入八强目标没变</span><span class=\"title-content-mark c-text \"></span></a></li></ul></div>";
        //提取所有的英文单词
        //传统方法，使用遍历的方式，代码量大，效率不高
        //正则表达式
        //1.先创建pattern对象，可以理解为就是一个正则表达式对象
        Pattern pattern = Pattern.compile("[a-zA-Z]+");
        pattern = Pattern.compile("[0-9]+");
        pattern = Pattern.compile("(([0-9])|([a-zA-Z])+)");
        pattern = Pattern.compile("<span class=\"title-content-title\">(\\S*)</span>");
        //创建一个匹配器对象,就是匹配器按照pattern样式去到文本中匹配，找到就返回真，否则返回假
        Matcher matcher = pattern.matcher(contect);
        //开始循环匹配
        while(matcher.find()){
            //匹配内容，文本，放到m.group(0)
            System.out.println("找到:" + matcher.group(1));
        }
    }
}

正则表达的解释

为了解决快速寻找指定要求的子串，java提供了正则表达式技术，专门用于处理类似文本处理问题

简单的说：正则表达式是对字符串执行模式匹配的技术

正则表达式，regular expression => regExp

一个正则表达式，就是某种模式去匹配字符串的一个公式。很多人因为他们看上去比较古怪而且复杂所以不敢去使用，不过，经过练习后，就觉得这些复杂的表达式写起来还是相当简单的，而且，一旦你弄懂它们，你就能把数小时辛苦而且易错的文本处理工作缩短在几分钟(甚至在几秒钟)内完成

正则表达式不是只有java有，很多编程语言都支持正则表达式进行字符串操作。

演示正则表达式原理

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegTheory {
    public static void main(String[] args){
        String content = "1995年，互联网的蓬勃发展给了Oak机会。业界为了使死板、单调的静态网页能够“灵活”起来，急需一种软件技术来开发一种程序，这种程序可以通过网络传播并且能够跨平台运行。于是，世界各大IT企业为此纷纷投入了大量的人力、物力和财力。这个时候，Sun公司想起了那个被搁置起来很久的Oak，并且重新审视了那个用软件编写的试验平台，由于它是按照嵌入式系统硬件平台体系结构进行编写的，所以非常小，特别适用于网络上的传输系统，而Oak也是一种精简的语言，程序非常小，适合在网络上传输。Sun公司首先推出了可以嵌入网页并且可以随同网页在网络上传输的Applet（Applet是一种将小程序嵌入到网页中进行执行的技术），并将Oak更名为Java。5月23日，Sun公司在Sun world会议上正式发布Java和HotJava浏览器。IBM、Apple、DEC、Adobe、HP、Oracle、Netscape和微软等各大公司都纷纷停止了自己的相关开发项目，竞相购买了Java使用许可证，并为自己的产品开发了相应的Java平台。 [9-10] ";
        //目标：匹配所有四个数字
        //说明//d表示一个任意的数字，下面匹配任意4个组合的数字
        String regStr = "\\d\\d\\d\\d";
        Pattern pattern = Pattern.compile(regStr);
        //创建匹配器matcher，按照正则表达式的规则去匹配content字符串
        Matcher matcher = pattern.matcher(content);
        /**
        开始匹配
        matcher.find()完成的任务
        1.根据我们指定的规则,来定位满足规则的子字符串(比如1998)
        2.找到后将子字符串开始的索引记录到matcher对象的int[] groups
        groups[0] = 0,把该子字符串的结束的索引+1的值记录到groups[1] = 4
        3.同时记录oldLast的值为子字符串的结束的索引+1的值即4,在下次执行find方法就从4开始匹配
        matcher.group(0)分析
        源码
        public String group(int group){
            if(first < 0){
                throw new IllegalStateException("No match found");
            }
            if(group < 0 || group > groupCount()){
                throw new IndexOfBoundsException("No group " + group);
            }
            if((groups[group*2] == -1) || groups[group*2+1] == -1){
                return getSubSequence(groups[group*2],groups[group * 2 + 1]).toString();
            }
        }根据groups[0]和groups[1]记录的位置,从content开始截取子字符串返回,左闭右开
        什么是分组:比如(\d\d)(\d\d),正则表达式中有()表示分组,第一个表示第一组,第二个表示第二组
        根据指定的规则,定位满足规则的子字符串(比如(19)98)

        记录1组()匹配到的字符串group[2] = 0 groups[3] = 2
        记录2组()匹配到的字符串group[4] = 2 groups[5] = 4
        如果有更多的分组...
        */
        while(matcher.find()){
            //如果正则表达式有()即分组
            //取出匹配的字符串规则如下
            //group(0)表示匹配到的子字符串
            //group(1)表示匹配到的子字符串的第一组字符串
            //group(2)表示匹配到的子字符串的第二组字符串
            System.out.println("找到:" + matcher.group(0));
            // System.out.println("第一组()匹配的值" + matcher.group(1));
            // System.out.println("第二组()匹配的值" + matcher.group(2));
        }
    }
}

正则语法

如果想要灵活的运用正则表达式，必须了解其中各种元字符的功能，元字符从功能上大致分为：

1.限定符

2.选择匹配符

3.分组组合和反向引用符

4.特殊字符

5.字符匹配符

6.定位符

元字符转义号

（Metacharacter)英文名称表达形式：\\

在我们使用正则表达式去检索某些特殊字符的时候，需要用到转移符号，否则检索不到结果，甚至会报错的。案例：用$去匹配”abc$(“会怎样

在java的正则表达式中，两个\\代表其他语言中的一个\

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp2 {
    public static void main(String[] args) {
        String content = "abc$(abc(123(";
        // 匹配(  ->  \\(
        // 匹配.  ->  \\.
        String regStr = "\\(";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println(matcher.group(0));
        }
    }
}

需要用到转义符号的字符有以下：. * + ( ) $ / \ ? [ ] ^ { }

元字符字符匹配符

符号	含义	示例	说明	匹配输入
[ ]	可接收的字符列表	[efgh]	e,f,g,h中的任意一个字符
[ ^ ]	不接收的字符列表	[^abc]	除a,b,c之外的任意一个字符，包括数字和特殊符号
-	连字符	A-Z	任意单个大写字母
.	匹配出\n以外的任何字符	a..b	以a开头，b结尾，中间包括2个任意字符长度的4位字符串	aaab,aefb,a35b,a#*b
\\d	匹配单个数字字符，相当于[ 0 - 9 ]	\\d{3}(\\d)?	包含三个或4个数字的字符串	123，9876
\\D	匹配单个数字字符，相当于[ ^ 0 - 9 ]	\\D(\\d)*	以单个非数字字符开头，后接任意个数字符串	a,A342
\\w	匹配单个数字，大小写字母字符，相当于[0-9a-zA-Z]	\\d{3}\w{4}	以至少3个数字开头，长度为7的数字字母字符串	234abdc,2134pe
\\W	匹配单个非数字，大小写字母字符，相当于 [ ^ 0-9a-zA-Z ]	\\W+\\d{2}	以至少1个非数字字母字符开头，2个数字字符结尾的字符串	#29，#?@10

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
    public static void main(String[] args){
        String content = "a11lc8";
        String regStr = "[a-z]";//匹配a-z之间任意一个字符
        regStr = "[A-Z]";//匹配A-Z之间的任意一个字符
        regStr = "abc";//匹配abc这个字符
        regStr = "(?i)abc";//匹配abc字符串不区分大小写
        regStr = "a(?i)bc";//表示bc不区分大小写
        regStr = "a((?i)b)c";//表示只有b不区分大小写
        regStr = "[^a-z]";//表示匹配非a-z的字符
        regStr = "[^0-9]";//匹配不在0-9之间的任意字符
        //当创建模式对象时,指定语句后面的参数,表示匹配时不区分字母大小写
        Pattern pattern = Pattern.compile(regStr);//Pattern.CASE_INSENSITIVE
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println("找到:" + matcher.group(0));
        }
    }
}

字符匹配符拓展

[abcd]表示可以匹配abcd中的任意一个字符

[^abcd]表示可以匹配不是abcd中的任意一个字符

\\d表示可以匹配0-9的任意一个数字，相当于[0-9]

\\D表示可以匹配不是0-9中的任意一个数字，相当于[ ^ 0-9 ]

\\w匹配任意英文字符，数字和下划线，相当于[ a-zA-Z0-9 ]

\\W相当于【^ a-zA-Z0-9】是和\\w相反

\\s匹配任何空白字符(空格，制表符等)

\\S匹配任何非空白字符，和\\s相反

. 匹配出\n之外的所有字符，如果想要匹配其本事需要使用\.

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
    public static void main(String[] args){
        String content = "a11lc8";
        String regStr = "[abcd]";//匹配abcd之间任意一个字符
        regStr = "\\D";//匹配不是0-9的任意一个字符
        regStr = "\\w";//匹配大小写字母,数字,下划线
        regStr = "\\W";//匹配不是大小写字母,数字,下划线
        regStr = "\\s";//匹配任何空白字符空格,制表符等
        regStr = "\\S";//匹配非任何空白字符空格,制表符等
        regStr = ".";//匹配除\n之外的所有字符
        regStr = "a|b|c";//匹配a或b或c
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println("找到:" + matcher.group(0));
        }
    }
}

元字符选择匹配符

符号	说明	示例	解释
\|	匹配 \| 之前或之后的表达式	ab\|cd	ab或者cd

元字符限定符

用于指定其前面的字符和组合项连续出现多少次

符号	含义	示例	说明	匹配输入
*	指定字符重复0次或n次（无要求）	(abc)*	仅包含任意个abc的字符串，等效于\\w*	abc，abcabcabc
+	指定字符重复1次或n次（至少一次）	m+(abc)*	以至少1个m开头，后接任意个abc的字符串	m，mabc，mabcabc
？	指定字符重复0次或1次（最多一次）	m+abc?	以至少1个m开头，后接ab或abc的字符串	mab，mabc，mmmab，mmabc
{n}	只能输入n个字符	[abcd]{3}	由abcd中字母组成的任意长度为3的字符串	abc,dbc,adc
{n,}	指定至少n个匹配	[abcd]{3,}	由abcd中字母组成的任意长度不小于3的字符串	aab，dbc，aaabdc
{n,m}	指定至少n个但不多于m个匹配	[abcd]{3,5}	由abcd中字母组成的任意长度不小于3，不大于5的字符串	abc，abcd，aaaaa，bcdab

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
    public static void main(String[] args){
        String content = "22221111aaaa";
        String regStr = "a{3}";//等价于aaa
        regStr = "1{4}";//表示匹配1111
        regStr = "\\d{2}";//二位的任意数字
        regStr = "a{3,4}";//表示匹配aaa或者aaaa,java匹配是贪婪匹配,即尽可能匹配多的
        regStr = "1{4,5}";//匹配4个1或5个1,优先匹配5个1
        regStr = "\\d{2,5}";//2位数或3,4,5,优先匹配最大
        //1+
        regStr = "1+";//匹配1个1或多个1优先匹配最多的
        regStr = "\\d+";//匹配一个数字或多个数字优先匹配最多的
        //1*
        regStr = "1*";//匹配0个1或多个1优先匹配最多的
        content = "a1111";
        //1?
        regStr = "a1?";//匹配a或者a1优先匹配最多的
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println("找到:" + matcher.group(0));
        }
    }
}

元字符定位符

定位符，规定要匹配的字符串出现的位置，比如在字符串的开始还是结束的位置，这个也是相当有用的，必须掌握

加入起始和结束字符匹配的就不是子字符串，而是整个字符串是否符合要求，符合要求

符号	含义	示例	说明	匹配输入
^	指定起始字符	^[0-9]+[a-z]*	至少一个数字开头后接一个小写字母的字符串，可以没有小写字母	123，6qaa，555wef
$	指定结束字符	^[0-9]\\-[a-z] +$	一个数字开头后接字符‘-’，并以至少一个小写字母结尾	1-a,2-b,3-c
\\b	匹配目标字符串的边界	han\\b	这里指字符串的边界是说子串之间由空格，或者是目标字符串的结束位置	hanshunpin sphan nnhan
\\B	匹配非目标字符串的边界	han\\B	和\\b的含义刚刚相反	hanshunping sphan nnhan

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
    public static void main(String[] args){
        String content = "a123abc";
        String regStr = "^[0-9]+[a-z]*";//至少一个数字开头,再后接0~n个小写字母的字符串
        regStr = "^[0-9]+[a-z]+$";//至少一个数字开头,再后接至少一个小写字母为结尾
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println("找到:" + matcher.group(0));
        }
    }
}

常用分组非捕获匹配

常用分组构造形式	说明
(pattern)	非命名捕获，捕获匹配的子字符串。编号为零的第一个捕获是由整个正则表达式模式匹配的文本。其他结果则根据左括号的顺序从1开始自动编号。
(?pattern)	命名捕获，将匹配的子字符串捕获到一个组名称或编号名称中，用于名称的字符串不能包含任何标点符号。并且不能以数字开头，可以使用单引号替代尖括号，例如(?’name’)
(?:pattern)	匹配pattern但不捕获该匹配的子表达式，即他是一个非捕获匹配，不存储供以后使用的匹配，这对于用’or’字符(\|)组合模式部件的情况很有用。例如，’industr(?:y\|ies)’是比’industries\|industry‘更经济的表达式
(?=pattern)	他是一个非捕获匹配，例如：’windows(?=95\|98\|NT\|2000)’匹配windows2000中的windows，但不匹配windows3.1的windows。
(?!pattern)	该表达式匹配不处于匹配pattern的字符串的起始点的搜索字符串，他是一个非捕获匹配。例如，‘windows(?!95\|98\|NT\|2000)’匹配“windows3.1’中的’windows’,但不匹配’windows’2000中的windows.

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
    public static void main(String[] args){
        String content = "hanshunping s7789 nn1189han";
        //说明:
        //matcher.group(0)得到匹配的字符串
        //matcher.group(1)得到匹配的第一个分组的内容
        //matcher.group(2)得到匹配的第二个分组的内容
        String regStr = "(\\d\\d)(\\d\\d)";//匹配四个数字
        regStr = "(?<g1>(\\d\\d)(?<g2>\\d\\d)";//匹配4个数字的字符串
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println("找到:" + matcher.group(0));
            System.out.println("找到:" + matcher.group(1));
            System.out.println("找到:" + matcher.group(2));
            System.out.println("找到:" + matcher.group("g1"));//通过组名来获取
            System.out.println("找到:" + matcher.group("g2"));
        }
    }
}

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
    public static void main(String[] args){
        String content = "hello韩顺平教育 jack韩顺平老师 韩顺平同学hello";
        String regStr = "韩顺平教育|韩顺平老师|韩顺平同学";
        //找到韩顺平教育，韩顺平老师，韩顺平同学，子字符串
        regStr = "韩顺平(?:教育|老师|同学)";//等价上面，注意不能使用group(1)获取
        //找到韩顺平这个关键字，但是前提是只查找韩顺平教育和韩顺平老师中的韩顺平
        regStr = "韩顺平(?=教育|老师)";//注意不能使用group(1)获取
        //找到韩顺平这个关键字，但是要求只找不是韩顺平教育和韩顺平老师中包含的韩顺平
        regStr = "韩顺平(?!教育|老师)";//注意不能使用group(1)获取
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println("找到:" + matcher.group(0));
        }
    }
}

非贪婪匹配

符号	含义
?	当此字符紧随任何其他限定符( * , + ，？，{n} , {n, } , {n , m})之后时，匹配模式是“非贪心算法”。“非贪心的”模式匹配搜索到的，尽可能短额字符串，而默认的“贪心的”模式匹配搜索到的，尽可能长的字符串。例如，在字符串“oooo”中，”o+?”只匹配单个“o”,而“o+”匹配所有”o”。

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
    public static void main(String[] args){
        String content = "hello1111111 ok";
        String regStr = "\\d+";//默认是贪婪匹配
        regStr = "\\d+?";//非贪婪匹配
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println("找到:" + matcher.group(0));
        }
    }
}

练习

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
    public static void main(String[] args){
        //验证汉字
        String content = "卢本伟";
        String regStr = "^[\u0391-\uffe5]+$";

        //验证邮政编码
        //要求是1-9开头的一个六位数，比如：123890
        content = "123890";
        regStr = "^[1-9]\\d{5}$";

        //qq号
        //要求是1-9开头的一个(5位-10位)
        content = "2834782438";
        regStr = "^[1-9]\\d{4,9}$";

        //手机号
        //要求必须以13，14，15，18开头的11位数，比如13588889999
        content = "13485748584";
        regStr = "^1(?:3|4|5|8)\\d{9}$";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        if(matcher.find()){
            System.out.println("满足格式");
        }else{
            System.out.println("不满足格式");
        }
    }
}

url验证：

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegExp3 {
    public static void main(String[] args){
        //验证url
        String content = "https://www.bilibili.com/video/BV1fh411y7R8/?p=894&spm_id_from=pageDriver&vd_source=23059014e879ae6c011960d5893377fd";
        content = "https://live.bilibili.com/24717470?hotRank=0&session_id=be332e76edde83ddb84af151750d60dc_13DDE26E-7DF5-4AD2-BC66-9A539C1B7BDE&launch_id=1000237";
        //分析
        //1.确定url开始部分：https://或者http://
        String regStr = "^((http|https)://)";
        regStr = "^(https?://)";
        //2.匹配www.bilibili.com
        regStr = "^(https?://)([\\w]+\\.?)+";
        //3.匹配/video/BV1fh411y7R8/?p=894&spm_id_from=pageDriver&vd_source=23059014e879ae6c011960d5893377fd
        //注意：[?=&^_/%.-] 匹配的是这些字符本身
        regStr = "^(https?://)([\\w]+\\.?)+(\\/[\\w?=&^_/%.#-]*)?$";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        if(matcher.find()){
            System.out.println("满足格式");
        }else{
            System.out.println("不满足格式");
        }
    }
}

正则表达式的常用类

java.util.regex包主要包括以下三个类Pattern类，Matcher类和PatternSyntaxException

Pattern类

pattern对象是一个正则表达式对象，Pattern类没有公共构造方法，要创建一个Pattern对向，调用其公共静态方法，它返回一个Pattern对象,调用其公共静态方法，它返回一个Pattern对象，该方法接受一个正则表达式作为它的第一个参数，比如：Pattern r = Pattern.compile(pattern);

Matcher类

Matcher对象是对输入字符串进行解释和匹配的引擎，与Pattern类一样，Matcher也没有公共构造方法。你需要调用Pattern对象的matcher方法来获得一个Matcher对象。

PatternSyntaxException

PatternSyntaxException是一个非强制异常类，它表示一个正则表达式模式中的语法错误。

验证指定字符串是否符合要求，返回Boolean值

package com.zero.expr;

import java.util.regex.Pattern;

public class PatternMethod {
    public static void main(String[] args){
        String content = "hello abc hello,韩顺平教育";
        String regStr = "hello.*";
        boolean matches = Pattern.matches(regStr,content);
        //这里如果使用Pattern的matches整体匹配，比较简洁
        System.out.println("整体匹配：" + matches);
    }
}

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MatcherMethod {
    public static void main(String[] args){
        String content = "hello edu jack tom hello smith hello";
        String regStr = "hello";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println("=============");
            System.out.println(matcher.start());
            System.out.println(matcher.end());
            System.out.println("找到：" + content.substring(matcher.start(),matcher.end()));
        }
        //整体匹配方法，常用于去校验某个字符串是否满足某个规则
        System.out.println("整体匹配="+matcher.matches());
        //完成如果content有hello替换成韩顺平
        matcher = pattern.matcher(content);
        String newContent = matcher.replaceAll("韩顺平");
        System.out.println(newContent);
    }
}

分组.捕获.反向引用

给你一段文本，请你找出所有四个数字连载一起的子串，并且这四个数字要满足第一位和第四位相同，第二位和第三位相同，比如1221，5775

分组

我们可以用圆括号组成一个比较复杂的匹配模式，那么一个圆括号的部分我们可以看作是一个子表达式、一个分组

捕获

把正则表达式中的子表达式、分组匹配的内容，保存到内存中以数字编号或显式命名的组里，方便后面引用，从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推，组0代表的是整个正则式

反向引用

圆括号的内容被捕获后，可以在这个括号后被使用，从而写出一个比较使用的匹配模式，这个我们称为反向引用，这种医用即可以是在正则表达式内部，也可以是在正则表达式外部，内部反向引用\\分组号,外部反向引用$分组号

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MatcherMethod {
    public static void main(String[] args){
        String content = "hello edu4224 jack 1221tom11 hello22 smith54325 hello55555";
        //匹配两个连续相同的数字
        String regStr = "(\\d)\\1";
        //匹配五个连续相同的数字
        regStr = "(\\d)\\1{4}";
        //要匹配个位与千位相同，十位与百位相同的数 5225 1551
        regStr = "(\\d)(\\d)\\2\\1";
        //请在字符串中检索商品编号，形式如：12321-333999111这样的号码
        //要求满足前面是一个五位数，然后一个-号，然后是一个九位数，连续的每三位都要相同
        content = "12321-333999111";
        regStr = "\\d{5}-(\\d)\\1{2}(\\d)\\2{2}(\\d)\\3{2}";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println(matcher.group(0));
        }
    }
}

结巴程序

把类似：我…我要….学学学学学….编程java

把这句话修改为我要学编程java

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MatcherMethod {
    public static void main(String[] args){
        String content = "我...我要....学学学学学....编程java";
        //1去掉所有的点
        Pattern pattern = Pattern.compile("\\.");
        Matcher matcher = pattern.matcher(content);
        content = matcher.replaceAll("");
        System.out.println(content);
        //2去除重复的字符
        //使用(.)\\1+去匹配字符串
        //注意：因为正则表达式变化，所以需要重置matcher
        pattern = pattern.compile("(.)\\1+");//分组的捕获内容记录到$1
        matcher = pattern.matcher(content);
        while(matcher.find()){
            System.out.println(matcher.group(0));
        }
        //使用反向引用$1来替换匹配到的内容
        content = matcher.replaceAll("$1");
        System.out.println(content);

        //使用一条语句去除重复的汉字
        content = "我我要学学学学学编程java";
        content = Pattern.compile("(.)\\1+").matcher(content).replaceAll("$1");
        System.out.println(content);
    }
}

元字符大全【总结】

正则表达式元字符-详细说明

字符	说明
****	将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如，”n”匹配字符”n”。”\n”匹配换行符。序列”\\“匹配”\“，”\(“匹配”(“。
^	匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性，^ 还会与”\n”或”\r”之后的位置匹配。
$	匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性，$ 还会与”\n”或”\r”之前的位置匹配。
*****	*零次或多次匹配前面的字符或子表达式。例如，zo 匹配”z”和”zoo”。* 等效于 {0,}。**
+	一次或多次匹配前面的字符或子表达式。例如，”zo+”与”zo”和”zoo”匹配，但与”z”不匹配。+ 等效于 {1,}。
?	零次或一次匹配前面的字符或子表达式。例如，”do(es)?”匹配”do”或”does”中的”do”。? 等效于 {0,1}。
*{n}*	n *是非负整数。正好匹配 n* 次。例如，”o{2}”与”Bob”中的”o”不匹配，但与”food”中的两个”o”匹配。**
*{n,}*	n *是非负整数。至少匹配 n* 次。例如，”o{2,}”不匹配”Bob”中的”o”，而匹配”foooood”中的所有 o。”o{1,}”等效于”o+”。”o{0,}”等效于”o“。*
*{n,m}*	m 和 n 是非负整数，其中 n <= m。匹配至少 n 次，至多 m 次。例如，”o{1,3}”匹配”fooooood”中的头三个 o。’o{0,1}’ 等效于 ‘o?’。注意：您不能将空格插入逗号和数字之间。
?	当此字符紧随任何其他限定符（、+、?、{n}、{n,}、{n,m*}）之后时，匹配模式是”非贪心的”。”非贪心的”模式匹配搜索到的、尽可能短的字符串，而默认的”贪心的”模式匹配搜索到的、尽可能长的字符串。例如，在字符串”oooo”中，”o+?”只匹配单个”o”，而”o+”匹配所有”o”。
.	匹配除”\r\n”之外的任何单个字符。若要匹配包括”\r\n”在内的任意字符，请使用诸如”[\s\S]”之类的模式。
*(pattern)*	*匹配 pattern* 并捕获该匹配的子表达式。可以使用 $0…$9 属性从结果”匹配”集合中检索捕获的匹配。若要匹配括号字符 ( )，请使用”(“或者”)“。**
*(?:pattern)*	匹配 pattern 但不捕获该匹配的子表达式，即它是一个非捕获匹配，不存储供以后使用的匹配。这对于用”or”字符 (\|) 组合模式部件的情况很有用。例如，’industr(?:y\|ies) 是比 ‘industry\|industries’ 更经济的表达式。
*(?=pattern)*	执行正向预测先行搜索的子表达式，该表达式匹配处于匹配 pattern 的字符串的起始点的字符串。它是一个非捕获匹配，即不能捕获供以后使用的匹配。例如，’Windows (?=95\|98\|NT\|2000)’ 匹配”Windows 2000”中的”Windows”，但不匹配”Windows 3.1”中的”Windows”。预测先行不占用字符，即发生匹配后，下一匹配的搜索紧随上一匹配之后，而不是在组成预测先行的字符后。
*(?!pattern)*	执行反向预测先行搜索的子表达式，该表达式匹配不处于匹配 pattern 的字符串的起始点的搜索字符串。它是一个非捕获匹配，即不能捕获供以后使用的匹配。例如，’Windows (?!95\|98\|NT\|2000)’ 匹配”Windows 3.1”中的 “Windows”，但不匹配”Windows 2000”中的”Windows”。预测先行不占用字符，即发生匹配后，下一匹配的搜索紧随上一匹配之后，而不是在组成预测先行的字符后。
x\|y**	*匹配 x* 或 y。例如，’z\|food’ 匹配”z”或”food”。’(z\|f)ood’ 匹配”zood”或”food”。**
*[xyz]*	字符集。匹配包含的任一字符。例如，”[abc]”匹配”plain”中的”a”。
*[^xyz]*	反向字符集。匹配未包含的任何字符。例如，”[^abc]”匹配”plain”中”p”，”l”，”i”，”n”。
*[a-z]*	字符范围。匹配指定范围内的任何字符。例如，”[a-z]”匹配”a”到”z”范围内的任何小写字母。
*[^a-z]*	反向范围字符。匹配不在指定的范围内的任何字符。例如，”[^a-z]”匹配任何不在”a”到”z”范围内的任何字符。
\b	匹配一个字边界，即字与空格间的位置。例如，”er\b”匹配”never”中的”er”，但不匹配”verb”中的”er”。
\B	非字边界匹配。”er\B”匹配”verb”中的”er”，但不匹配”never”中的”er”。
\cx	*匹配 x* 指示的控制字符。例如，\cM 匹配 Control-M 或回车符。x 的值必须在 A-Z 或 a-z 之间。如果不是这样，则假定 c 就是”c”字符本身。**
\d0.	数字字符匹配。等效于 [0-9]。
\D	非数字字符匹配。等效于 [^0-9]。
\f	换页符匹配。等效于 \x0c 和 \cL。
\n	换行符匹配。等效于 \x0a 和 \cJ。
\r	匹配一个回车符。等效于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等。与 [ \f\n\r\t\v] 等效。
\S	匹配任何非空白字符。与 [^ \f\n\r\t\v] 等效。
\t	制表符匹配。与 \x09 和 \cI 等效。
\v	垂直制表符匹配。与 \x0b 和 \cK 等效。
\w	匹配任何字类字符，包括下划线。与”[A-Za-z0-9_]”等效。
\W	与任何非单词字符匹配。与”[^A-Za-z0-9_]”等效。
\xn	匹配 n，此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。例如，”\x41”匹配”A”。”\x041”与”\x04”&”1”等效。允许在正则表达式中使用 ASCII 代码。
*num*	*匹配 num，此处的 num* 是一个正整数。到捕获匹配的反向引用。例如，”(.)\1”匹配两个连续的相同字符。**
*n*	标识一个八进制转义码或反向引用。如果 n 前面至少有 n 个捕获子表达式，那么 n 是反向引用。否则，如果 n 是八进制数 (0-7)，那么 n 是八进制转义码。
*nm*	标识一个八进制转义码或反向引用。如果 nm 前面至少有 nm 个捕获子表达式，那么 nm 是反向引用。如果 nm 前面至少有 n 个捕获，则 n 是反向引用，后面跟有字符 m。如果两种前面的情况都不存在，则 nm 匹配八进制值 nm，其中 n 和 m 是八进制数字 (0-7)。
\nml	*当 n* 是八进制数 (0-3)，m 和 l 是八进制数 (0-7) 时，匹配八进制转义码 nml。**
\un	*匹配 n，其中 n* 是以四位十六进制数表示的 Unicode 字符。例如，\u00A9 匹配版权符号 (©)。**

String类中使用正则表达式

package com.zero.expr;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class MatcherMethod {
    public static void main(String[] args){
        String content = "2000年5月，JDK1.3、JDK1.4和J2SE1.3相继发布，几周后其获得了Apple公司Mac OS X的工业标准的支持。2001年9月24日，J2EE1.3发布。2002年2月26日，J2SE1.4发布。自此Java的计算能力有了大幅提升，与J2SE1.3相比，其多了近62%的类和接口。在这些新特性当中，还提供了广泛的XML支持、安全套接字（Socket）支持（通过SSL与TLS协议）、全新的I/OAPI、正则表达式、日志与断言。2004年9月30日，J2SE1.5发布，成为Java语言发展史上的又一里程碑。为了表示该版本的重要性，J2SE 1.5更名为Java SE 5.0（内部版本号1.5.0），代号为“Tiger”，Tiger包含了从1996年发布1.0版本以来的最重大的更新，其中包括泛型支持、基本类型的自动装箱、改进的循环、枚举类型、格式化I/O及可变参数。";
        //使用正则表达式，将JDK1.3和JDK1.4替换成jdk
        content = content.replaceAll("JDK1\\.3|JDK1\\.4", "JDK");
        System.out.println(content);
        //要求验证一个手机号，要求必须是以138 139开头的
        content = "13888889999";
        if(content.matches("1(38|39)\\d{8}")){
            System.out.println("验证成功");
        }else{
            System.out.println("验证失败");
        }

        //要求按照#或者-~或者数字来分割
        content = "hello#abc-jack12smith";
        String[] split = content.split("#|-|~|\\d+");
        for(String s : split){
            System.out.println(s);
        }
    }
}

常用的匹配规则【总结】

练习题

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HomeWork1 {
    public static void main(String[] args){
        new HomeWork1().main2();
    }
    public void main1(){
        String contect = "[email protected]";
        String regStr = "^\\w+@(\\w+\\.*)+$";
        if(Pattern.matches(regStr, contect)){
            System.out.println("满足");
        }else{
            System.out.println("不满足");
        }
    }
    public void main(){
        //验证是不是整数或者小数,考虑负数的情况
        /*先写出简单则正则表达式
        根据各种情况来完善
        */
        String content = "-0.89";
        String regStr = "^[-+]?([1-9]\\d*|0)([.]\\d+)?$";
        //regStr = "^(-|0)?[1-9]+([0-9]+)?(\\.)?([0-9]{1,})$";//别人写的
        if(content.matches(regStr)){
            System.out.println("匹配成功");
        }else{
            System.out.println("匹配失败");
        }
    }
    public void main2(){
        String content = "https://www.sohu.com:8080/abc/xxx/yyy//////index%#$.htm";
        //因为正则表达式是根据要求制作的，如果需求有所变动，就根据需求进行适当改进
        String regStr = "^([a-zA-Z]+)://([a-zA-Z.]+):(\\d+)[\\w-/]*/([\\w.%#$]+)$";
        Pattern pattern = Pattern.compile(regStr);
        Matcher matcher = pattern.matcher(content);
        if(matcher.matches()){//如果匹配成功，可以通过group(x),获取对应分组内容
            System.out.println("整体匹配:" + matcher.group(0));
            System.out.println("协议：" + matcher.group(1));
            System.out.println("域名:" + matcher.group(2));
            System.out.println("端口:" + matcher.group(3));
            System.out.println("文件名:" + matcher.group(4));
        }else{
            System.out.println("匹配不成功");
        }
    }
}

一、校验数字的表达式

1 数字：^[0-9]*$
2 n位的数字：^\d{n}$
3 至少n位的数字：^\d{n,}$
4 m-n位的数字：^\d{m,n}$
5 零和非零开头的数字：^(0|[1-9][0-9]*)$
6 非零开头的最多带两位小数的数字：^([1-9][0-9]*)+(.[0-9]{1,2})?$
7 带1-2位小数的正数或负数：^(\-)?\d+(\.\d{1,2})?$
8 正数、负数、和小数：^(\-|\+)?\d+(\.\d+)?$
9 有两位小数的正实数：^[0-9]+(.[0-9]{2})?$
10 有1~3位小数的正实数：^[0-9]+(.[0-9]{1,3})?$
11 非零的正整数：^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
12 非零的负整数：^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
13 非负整数：^\d+$ 或 ^[1-9]\d*|0$
14 非正整数：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
15 非负浮点数：^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
16 非正浮点数：^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
17 正浮点数：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
18 负浮点数：^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
19 浮点数：^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$


二、校验字符的表达式

1 汉字：^[\u4e00-\u9fa5]{0,}$
2 英文和数字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
3 长度为3-20的所有字符：^.{3,20}$
4 由26个英文字母组成的字符串：^[A-Za-z]+$
5 由26个大写英文字母组成的字符串：^[A-Z]+$
6 由26个小写英文字母组成的字符串：^[a-z]+$
7 由数字和26个英文字母组成的字符串：^[A-Za-z0-9]+$
8 由数字、26个英文字母或者下划线组成的字符串：^\w+$ 或 ^\w{3,20}$
9 中文、英文、数字包括下划线：^[\u4E00-\u9FA5A-Za-z0-9_]+$
10 中文、英文、数字但不包括下划线等符号：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
11 可以输入含有^%&',;=?$\"等字符：[^%&',;=?$\x22]+
12 禁止输入含有~的字符：[^~\x22]+


三、特殊需求表达式

1 Email地址：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 InternetURL：[a-zA-z]+://[^\s]* 或 ^https://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4 手机号码：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX)：^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$ 
6 国内电话号码(0511-4405222、021-87888822)：\d{3}-\d{8}|\d{4}-\d{7}
7 身份证号：
		15或18位身份证：^\d{15}|\d{18}$
		15位身份证：^[1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}$
		18位身份证：^[1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{4}$
8 短身份证号码(数字、字母x结尾)：^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密码(以字母开头，长度在6~18之间，只能包含字母、数字和下划线)：^[a-zA-Z]\w{5,17}$
11 强密码(必须包含大小写字母和数字的组合，不能使用特殊字符，长度在8-10之间)：^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$ 
12 日期格式：^\d{4}-\d{1,2}-\d{1,2}
13 一年的12个月(01～09和1～12)：^(0?[1-9]|1[0-2])$
14 一个月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$ 
15 钱的输入格式：
16 1.有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000"：^[1-9][0-9]*$ 
17 2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式：^(0|[1-9][0-9]*)$ 
18 3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号：^(0|-?[1-9][0-9]*)$ 
19 4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分：^[0-9]+(.[0-9]+)?$ 
20 5.必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的：^[0-9]+(.[0-9]{2})?$ 
21 6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样：^[0-9]+(.[0-9]{1,2})?$ 
22 7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样：^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$ 
23 8.1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须：^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$ 
24 备注：这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里
25 xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
26 中文字符的正则表达式：[\u4e00-\u9fa5]
27 双字节字符：[^\x00-\xff] (包括汉字在内，可以用来计算字符串的长度(一个双字节字符长度计2，ASCII字符计1))
28 空白行的正则表达式：\n\s*\r (可以用来删除空白行)
29 HTML标记的正则表达式：<(\S*?)[^>]*>.*?|<.*? /> (网上流传的版本太糟糕，上面这个也仅仅能部分，对于复杂的嵌套标记依旧无能为力)
30 首尾空白字符的正则表达式：^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等)，非常有用的表达式)
31 腾讯QQ号：[1-9][0-9]{4,} (腾讯QQ号从10000开始)
32 中国邮政编码：[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
33 IP地址：\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)