【sublime】使用sublime3的查找替换功能获得html页面的所有新闻标题

一、任务

既然想获得新闻标题,哪里的标题最多呢?当然是排行榜啦。我们选取的是网易新闻排行榜。
网易新闻排行榜截图
我们的目标是获得所有的新闻标题。获取方法有哪几种呢?

第一种,我们可以通过爬取页面HTML文档,用bs4库解析后再用正则表达式提取相关内容。
此外,我们还可以使用支持正则表达式的文本编辑器的查找替换功能,将两个标题之间的内容删除,即可获得新闻标题内容。
根据北邮陈光老师的课程,我们还可以使用某些浏览器插件实现类似的功能,更为便捷。但是博主还不知道这是什么插件,所以这里不能做更多的介绍了,如果有小伙伴知道,欢迎评论留言给博主呀!

二、解决

第一种使用简单的爬虫即可,python,R语言都是很方便的工具。这里不做过多介绍。感兴趣的小伙伴欢迎留言给博主。

第二种方法需要具备基本的正则表达式知识。我们经过观察发现应删除内容在和.html">两个内容之间,因此我们就需要使用正则表达式匹配这部分内容。它的表达式是:<\/a>[\S\s]*?\.html">
正则表达式查找替换注意有个.*的选项一定要选中才是启用了正则表达式功能哦!(图片左下角处)

一般我们匹配所有的字符都会使用.来匹配,但是.不能匹配换行符,因此我们这里使用 [\S\s]*?[\s] 表示只要出现空白(包括空格、换行、TAB缩进等等)就匹配;[\S] 表示,非空白就匹配;那么它们的组合就可以表示所有匹配。*? 表示的是最小匹配(与贪婪匹配相对)

下面就是结果啦。
所有新闻标题

三、反思

有机会应当再研究一下如何使用浏览器插件更方便地完成这一工作呀!

猜你喜欢

转载自blog.csdn.net/why_not_study/article/details/105416164
今日推荐