python爬虫正则表达式

1、正则表达式概念:用来简洁表达字符串的方式。(regular expression     regex     RE)

           通用的字符串框架

           针对字符串表达“简洁”和“特征”思想的工具。

2、正则表达式的语法:

  2.1、“.”  :表示任何单个字符

  2.2、“[]”  :字符集,对单个字符给出取值范围

         [abc]表示a、b、c,[a-z]表示a到z单个字符

  2.3、“[^]”  :非字符集

        [^abc]表示不是a,b,c,的单个字符

  2.4、“*”  :前一个字符的0次或无限次扩展

  2.5、“+”  :前一个字符1次或无限次扩展

  2.6、“?”  :前一个字符的0次或1次扩展

  2.7、“|”  :或,左右表达式任意一个

        abc|def 表示abc或def

  2.8、“{m}”  :扩展前一个字符m次

  2.9、“{m,n}”  :扩展前一个字符m至n次(含n)

  2.10、“^”  :匹配字符串开头

        ^abc 表示abc开头字符串

  2.11、“$”  :匹配字符串结尾

        abc$ 表示abc结尾字符串

  2.12、“()”  :分组标记,内部智能使用“|”操作符

  2.13、“\d”  :数字,等价于[0-9]

  2.14、“\w”  :单词字符,等价于[A-Za-z0-9_]

      

     eg:^[A-Za-z]+$ :表示由26个字母组成的字符串

      :^[A-Za-z0-9]+$:表示由26个字母和数字组成的字符串

      :^-?\d+$:整数形式的字符串     #“-”扩展0次或一次,表示正负

      :^[0-9]*[1-9][0-9]*$:表示正整数形式的字符串

      :[1-9]\d{5}:中国境内邮政编码,6位

      :[\u4e00-\u9fa5]:匹配中文字符

3、re库的使用

猜你喜欢

转载自www.cnblogs.com/oldhuang/p/10341269.html