正则表达式知识详解之回溯引用 (java版示例)

regex 专栏收录该内容
14 篇文章 1 订阅

正则表达式知识详解系列,通过代码示例来说明正则表达式知识 

源代码下载地址:http://download.csdn.net/detail/gnail_oug/9504094



示例功能:

1、查询一个字符串的重复字或字母

2、提取html页面里的标题

	/**
	 * 回溯引用,前后一致匹配
	 * @date 2016-04-20 16:48:07
	 * @author sgl
	 */
	public static void backreference(){
		String str="上上海市市市";
		
		System.out.println("===========找出重复字===========");
		Pattern p=Pattern.compile("(.)\\1+");
		Matcher m=p.matcher(str);
		while(m.find()){
			System.out.println(m.group()+"   位置:["+m.start()+","+m.end()+"]");
		}
		
		System.out.println("===========找出重复字母===========");
		str="aafdfdttffjjj";
		p=Pattern.compile("([a-z]+)\\1+");
		m=p.matcher(str);
		while(m.find()){
			System.out.println(m.group()+"   位置:["+m.start()+","+m.end()+"]");
		}
		
		//匹配html里的标题
		str="<h1>标题1</h1><h2>标题2</h2><h3>标题3</h3><h4>标题4</h5>";
		
		System.out.println("===========匹配标题(非回溯方法)===========");
		//<h4>标题4</h5>这个不符合的标题也会被匹配
		p=Pattern.compile("<h[1-6]>.*?</h[1-6]>");
		m=p.matcher(str);
		while(m.find()){
			System.out.println(m.group()+"   位置:["+m.start()+","+m.end()+"]");
		}
		
		System.out.println("===========匹配标题(回溯方法)===========");
		//<h4>标题4</h5>这个不符合的标题不会被匹配
		// \1表示前面第一个子表达式,\2表示前面第2个子表达式,依此类推
		p=Pattern.compile("<h([1-6])>.*?</h\\1>");
		m=p.matcher(str);
		while(m.find()){
			System.out.println(m.group()+"   位置:["+m.start()+","+m.end()+"]");
		}
		
		
	}

运行结果:

===========找出重复字===========
上上   位置:[0,2]
市市市   位置:[3,6]
===========找出重复字母===========
aa   位置:[0,2]
fdfd   位置:[2,6]
tt   位置:[6,8]
ff   位置:[8,10]
jjj   位置:[10,13]
===========匹配标题(非回溯方法)===========
<h1>标题1</h1>   位置:[0,12]
<h2>标题2</h2>   位置:[12,24]
<h3>标题3</h3>   位置:[24,36]
<h4>标题4</h5>   位置:[36,48]
===========匹配标题(回溯方法)===========
<h1>标题1</h1>   位置:[0,12]
<h2>标题2</h2>   位置:[12,24]
<h3>标题3</h3>   位置:[24,36]


  • 0
    点赞
  • 1
    评论
  • 0
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

相关推荐
<p> <span style="font-size:14px;color:#337FE5;">【为什么学爬虫?】</span> </p> <p> <span style="font-size:14px;">       1、爬虫入手容易,但是深入较难,如何写出高效率的爬虫,如何写出灵活性高可扩展的爬虫都是一项技术活。另外在爬虫过程中,经常容易遇到被反爬虫,比如字体反爬、IP识别、验证码等,如何层层攻克难点拿到想要的数据,这门课程,你都能学到!</span> </p> <p> <span style="font-size:14px;">       2、如果是作为一个其他行业的开发者,比如app开发,web开发,学习爬虫能让你加强对技术的认知,能够开发出更加安全的软件和网站</span> </p> <p> <br /> </p> <span style="font-size:14px;color:#337FE5;">【课程设计】</span> <p class="ql-long-10663260"> <span> </span> </p> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> 一个完整的爬虫程序,无论大小,总体来说可以分成三个步骤,分别是: </p> <ol> <li class="" style="font-size:11pt;color:#494949;"> 网络请求:模拟浏览器的行为从网上抓取数据。 </li> <li class="" style="font-size:11pt;color:#494949;"> 数据解析:将请求下来的数据进行过滤,提取我们想要的数据。 </li> <li class="" style="font-size:11pt;color:#494949;"> 数据存储:将提取到的数据存储到硬盘或者内存中。比如用mysql数据库或者redis等。 </li> </ol> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> 那么本课程也是按照这几个步骤循序渐进的进行讲解,带领学生完整的掌握每个步骤的技术。另外,因为爬虫的多样性,在爬取的过程中可能会发生被反爬、效率低下等。因此我们又增加了两个章节用来提高爬虫程序的灵活性,分别是: </p> <ol> <li class="" style="font-size:11pt;color:#494949;"> 爬虫进阶:包括IP代理,多线程爬虫,图形验证码识别、JS加密解密、动态网页爬虫、字体反爬识别等。 </li> <li class="" style="font-size:11pt;color:#494949;"> Scrapy和分布式爬虫:Scrapy框架、Scrapy-redis组件、分布式爬虫等。 </li> </ol> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> 通过爬虫进阶的知识点我们能应付大量的反爬网站,而Scrapy框架作为一个专业的爬虫框架,使用他可以快速提高我们编写爬虫程序的效率和速度。另外如果一台机器不能满足你的需求,我们可以用分布式爬虫让多台机器帮助你快速爬取数据。 </p> <p style="font-size:11pt;color:#494949;">   </p> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> 从基础爬虫到商业化应用爬虫,本套课程满足您的所有需求! </p> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> <br /> </p> <p> <br /> </p> <p> <span style="font-size:14px;background-color:#FFFFFF;color:#337FE5;">【课程服务】</span> </p> <p> <span style="font-size:14px;">专属付费社群+定期答疑</span> </p> <p> <br /> </p> <p class="ql-long-24357476"> <span style="font-size:16px;"><br /> </span> </p> <p> <br /> </p> <p class="ql-long-24357476"> <span style="font-size:16px;"></span> </p>
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值