入门正则表达式常用语法及java爬虫示例

正则表达式

正则表达式的用途:文本的复杂处理

开发中使用正则表达式的流程:
- 分析所要匹配的数据,写出测试用的典型数据
- 在工具软件中进行匹配测试
- 在程序中调用通过的正则表达式

正则表达式语法

普通字符:

字母,数字,汉字,下划线,以及没有特殊定义的标点符号。表达式中的普通字符在匹配一个字符串时匹配与之相同的一个字符。

简单的转义字符

\n -->换行符,\t -->制表符 \ -->代表\本身 ^,$,(,)等匹配这些字符本身。

标准字符集合

能和多种字符匹配的表达式
注意区分大小写,大写是相反的意思

  • \d —> 0-9中任意一个数字
  • \w —>任意一个字母或数字或下划线,即0-9,a-z,A-Z,_中任意一个
  • \s —>包括空格,制表符,换行符等空白字符的其中任意一个
  • . —> 小数点可以匹配任意一个字符(除换行符)

自定义字符集合

  • [] 方括号匹配方式,能够匹配方括号中任意一个字符

  • 正则表达式中的特殊符号,被包含到中括号中,则失去了特殊含义,除了^,-之外 标准字符集合,除了小数点外,如果被包含于中括号,自定义符号集合将包含该集合: [\d.-+]将匹配数字,小数点,+,-

    1 [abc@] --> 匹配"a"或"b"或"c"或"@“中任意一个
    2 [ ^abc] --> 匹配"a”,“b”,“c"之外的任意一个字符
    3 [f-k] -->匹配"f"到"k"之间的任意一个字母
    4 [ ^A-F0-3] -->匹配"A"到"F”,"0"到"3"之外的任意一个字符

量词:修饰匹配次数的特殊符号

  • {n} -->表示表达式重复n次 ,{m,n}–>表示至少重复m次,至多重复n次 ,{m,} -->表示至 少重复m次。
  • ? --> 匹配表达式0次或1次 ;+ --> 表达式至少出现一次 ;* --> 表达式不出现或出现任意次。
  • 匹配次数中的贪婪模式(匹配字符越多越好,默认)。
  • 匹配次数的非贪婪模式(匹配字符越少越好,修饰匹配次数的特殊符号后再加上一个?号)。

字符边界

  • 本组标记匹配的不是字符而是位置,符合某种条件的位置。
  • ^ 表示与字符串开始的地方匹配。
  • $表示与字符串结束的地方匹配。
  • \b匹配一个单词的边界(前面的字符和后面的字符不全是\w)。

正则表达式的匹配模式

-IGNORECASE 忽略大小写模式:默认情况下正则表达式区分大小写
-SINGLELINE单行模式:整个文本看作一个字符串,只有一个开头,一个结尾。使.可以匹配包含换行符在内的任意字符
-MULTILINE 多行模式:每行都是一个字符串,都有开头和结尾。\A -->开始字符,\Z–>结束字符

选择符和分组

  • | 分支结构:左右两边表达式之间或关系,匹配左边或右边。

  • () 捕获组:

    1 在被匹配次数的时候,括号中的表达式可以作为整体被修饰。
    2 去匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到。
    3 每一对括号会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。捕获元素编号为零的第一个捕获是由整个正则表达式模式匹配的文本

  • (?:Expression) 非捕获组: 一些表达式中不得不用(),但又不需要保存()中子表达式匹配的内容,这时候可以用非捕获组来抵消使用()带来的副作用

反向引用 (\nnn)

  • 每一对()会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。
  • 通过反向引用,可以对分组已捕获的字符串进行引用。

预搜索(零宽断言)

  • 只进行子表达式的匹配,匹配内容不计入最终的匹配结果,是零宽度
  • 这个位置应该符合某个条件。判断当前位置的前后字符,是否符合指定的条件,但不匹配前后的字符。是对位置的匹配。
  • 正则表达式匹配过程中,如果子表达式匹配到的是字符内容,而非位置,并被保存在最终的匹配结果中,那么就认为这个子表达式是占有字符的;反之则认为这个子表达式是零宽度的。占有字符还是零宽度,是针对匹配的内容是否保存到最终的匹配结果中而言的。

(?=exp) :断言自身出现的位置的后面可以匹配表达式exp
(?<=exp) :断言自身出现的位置的前面可以匹配表达式exp
(?!exp) :断言自身出现的位置的后面不可以匹配表达式exp
(?<!exp) :断言自身出现的位置的前面不可以匹配表达式exp

常用正则表达式列表

  • 匹配中文字符 [\u4e00-\u9fa5]
  • 匹配空白行 \n\s*\r
  • 匹配首尾空白字符 ^\s*|\s*$
  • 匹配URL [a-zA-z]+://[ ^ \s]*
  • 匹配QQ号 [1-9][0-9]{4,}
  • 匹配中国邮政编码 [1-9]\d{5}(?!\d)
  • 匹配身份证 \d{15}|\d{18}
  • 匹配ip地址 \d+.\d+.\d+.\d+

在java中使用正则表达式

基本用法:

			//表达式对象
			Pattern p=Pattern.compile("\\w+");
			
			//创建matcher对象
			Matcher m=p.matcher("asfadfa&&&sfal326v");
		//	boolean yesorno =m.matches();//尝试将整个字符序列与该模式相匹配
			
		//	System.out.println(yesorno);
			
		//	boolean yesorno2=m.find();//该方法扫描输入的数列,查找与该模式相匹配的下一个子序列	
			while(m.find())
			{
				System.out.println(m.group());//group(),group(0)匹配整个表达式的子字符串
				System.out.println(m.group(0));
			}
			//表达式对象
			Pattern p=Pattern.compile("([a-z]+)([0-9]+)");
			
			//创建matcher对象
			Matcher m=p.matcher("adfa465465**vak45464588**vakv464535");
		
			
			while(m.find())
			{
				//System.out.println(m.group());//group(),group(0)匹配整个表达式的子字符串
				System.out.println(m.group(0));
				System.out.println(m.group(1));//匹配第一个括号
				System.out.println(m.group(2));//匹配第二个括号
			}

替换:

//表达式对象
		Pattern p=Pattern.compile("[0-9]");
		
		//创建matcher对象
		Matcher m=p.matcher("adfa465465**vak45464588**vakv464535");
		
		//替换
		String newStr =m.replaceAll("#");
		System.out.println(newStr);

网络爬虫(简单操作)

package com.mhd.regexp;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;


/**
 * 网络爬虫(core)
 * 获得urlStr对应的网页源码内容
 * @author CR553
 *
 */
public class WebSpiderTest {
	
		public static String getURLContent(String urlStr,String c)//获得网址信息
		{
			StringBuilder sb=new StringBuilder();
			try {
				URL url=new URL(urlStr);
				BufferedReader reader=new BufferedReader(new InputStreamReader(url.openStream(),Charset.forName(c)));
				String temp="";
				while((temp=reader.readLine())!=null)
				{
					sb.append(temp);
				}
				
			} catch (MalformedURLException e) {
				e.printStackTrace();
			} catch (IOException e) {
				e.printStackTrace();
			}
			return sb.toString();
		}
		public static List<String> getMatherSubstrs(String destStr,String regexStr)//用正则表达式匹配并筛选自己需要的内容
		{
			//		Pattern p=Pattern.compile("<a[\\s\\S]+?</a>");
					Pattern p=Pattern.compile(regexStr);
					Matcher m=p.matcher(destStr);
					List<String> result=new ArrayList<String>();
					while(m.find())
					{
						result.add(m.group());

					}
					return result;
		}
		public static void main(String[] args) {
			String destStr= getURLContent("http://www.163.com","GBK");
			
			List<String> result = getMatherSubstrs(destStr, "href=\"(.+?)\"");
			
			for(String temp:result)
			{
				System.out.println(temp);
			}
		
			
		}
}

猜你喜欢

转载自blog.csdn.net/weixin_44273948/article/details/102037492