爬虫常用正则表达式匹配规则~

邮箱

\w+[@][a-zA-Z0-9_]+(\.[a-zA-Z0-9_]+)+

img的链接

<img[\w\W]*?src=["|']?([\w\W]*?)(jpg|png)[\w\W]*?/>

<a>标签的href属性

href="(http[s]*://[\w\./]+)"
发布了211 篇原创文章 · 获赞 14 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/csyifanZhang/article/details/105345277