【sublime】使用sublime3的查找替换功能获得html页面的所有新闻标题

其他 2021-03-21 03:37:30 阅读次数: 0

一、任务

既然想获得新闻标题，哪里的标题最多呢？当然是排行榜啦。我们选取的是网易新闻排行榜。
网易新闻排行榜截图
我们的目标是获得所有的新闻标题。获取方法有哪几种呢？

第一种，我们可以通过爬取页面HTML文档，用bs4库解析后再用正则表达式提取相关内容。
此外，我们还可以使用支持正则表达式的文本编辑器的查找替换功能，将两个标题之间的内容删除，即可获得新闻标题内容。
根据北邮陈光老师的课程，我们还可以使用某些浏览器插件实现类似的功能，更为便捷。但是博主还不知道这是什么插件，所以这里不能做更多的介绍了，如果有小伙伴知道，欢迎评论留言给博主呀！

二、解决

第一种使用简单的爬虫即可，python，R语言都是很方便的工具。这里不做过多介绍。感兴趣的小伙伴欢迎留言给博主。

第二种方法需要具备基本的正则表达式知识。我们经过观察发现应删除内容在和.html">两个内容之间，因此我们就需要使用正则表达式匹配这部分内容。它的表达式是：<\/a>[\S\s]*?\.html"> 。
正则表达式查找替换注意有个.*的选项一定要选中才是启用了正则表达式功能哦！（图片左下角处）

一般我们匹配所有的字符都会使用.来匹配，但是.不能匹配换行符，因此我们这里使用 [\S\s]*? 。 [\s] 表示只要出现空白（包括空格、换行、TAB缩进等等）就匹配；[\S] 表示，非空白就匹配；那么它们的组合就可以表示所有匹配。*？表示的是最小匹配（与贪婪匹配相对）

下面就是结果啦。
所有新闻标题

三、反思

有机会应当再研究一下如何使用浏览器插件更方便地完成这一工作呀！

猜你喜欢

转载自blog.csdn.net/why_not_study/article/details/105416164

【sublime】使用sublime3的查找替换功能获得html页面的所有新闻标题

sublime3使用

sublime3使用技巧

爬取多个页面的新闻标题

sublime3

安装sublime3

sublime3 破解

sublime3配置

sublime3 激活

sublime3的安装和基本使用

sublime3注册机使用

sublime3 快速生成html头文件

sublime3 text lua

sublime3 设置python

sublime3跳转函数

sublime3激活方法

sublime3激活方式

sublime3添加插件

sublime3 emmet用法

sublime3自动对齐

sublime3 常用插件

Sublime3 设置字号

sublime3 打开终端

Sublime Text3查找和替换

graphviz 安装使用 + 配置 sublime3 预览

sublime3 Package Control不能使用

关于开发工具Sublime3的使用

Sublime3安装,使用教程以及优秀的插件推荐

Python爬虫案例2：获取抽屉网页所有的新闻标题并保存到csv

sublime3 SublimeREPL python3

今日推荐

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

计量经济学与stata应用（二）：内生性问题与工具变量

一文通透想取代MLP的KAN：通俗理解Kolmogorov-Arnold定理和KAN的方方面面

【SPIE独立出版，往届均已见刊并完成EI、SCOPUS检索 | 四川省人工智能学会主办】第四届大数据、人工智能与风险管理国际学术会议 (ICBAR 2024)

State 微调、PointRWKV、中文文档上线……RWKV 社区 5 月最新动态来啦！

开源日报 | 开箱即用的ChatTTS安装包；Scaling Law是经验公式；二娃奶爸AI复活旧玩具；中国工程院院士谈AI；自主内核MCU故事难讲？TikTok“美国特供版”推荐算法

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

周排行

JDBC方式链接MySQL

基于墨刀设计的精美视频推荐系统

Qt bas64编码解码

全网最全JS正则表达式校验数字

photoshop与ai绘图笔记

POJ2001 Shortest Prefixes【字典树】

线程的4种通信方式

redis 五大类型、持久化方式以及主从(哨兵模式)

今日工作总结：06/03

mysql: join

每日归档

更多

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)