提取微信公众号文章

其他 2018-12-24 10:50:55 阅读次数: 0

提取微信公众号文章

在上文中，我们已经将微信公众号文章的标题和链接存入了一个 txt 文件，每个一行。接下来我们要做的就是从链接中提取文章正文，以便之后的分析。

首先我们打开一篇文章，以这篇文章为例机关事业单位职工注意：这47种行为会被开除，违纪将影响养老金，我们右击文章正文文字，检查元素所在位置，发现文章正文部分所在标签为 p。

检查网页源代码也可以发现，正文文字都在 p 标签下，知识每部分文字的格式、字号等有所不同，那么我们可以使用 BeautifulSoup 中的 findall 函数来获取所有的 p 标签，这样就可以获得文章的全部正文部分。

代码如下：

def extractData(file):
    titles = [row for row in file[::3]]  // 列表解析
    links = [row for row in file[1::3]]

    for title,link in zip(titles,links):
        path = os.getcwd() + "/共青团中央/" + title + ".txt"
        web_data = requests.get(link)
        soup = BeautifulSoup(web_data.text, 'lxml')
        with open(path, 'a', encoding='utf-8') as fh:
            for content in soup.find_all("p"):
                fh.write(content.text)
            fh.close()
        print(title + " end")

if __name__=='__main__':
    filename = open("共青团中央.txt", 'r', encoding='utf-8').readlines()
    extractData(filename)

在上面的代码中，我们首先从之前存入的 txt 文件读取 title 和 link，因为我们是按行存储，所以我们用 readline 按行读取，得到数据的列表，之后用列表解析的方式得到 title 列表和 link 列表，获取正文后存入新的 txt 文件。

猜你喜欢

转载自blog.csdn.net/weixin_43217860/article/details/82896003

提取微信公众号文章

微信公众号搜索文章

爬取微信公众号文章

抓取微信公众号文章

微信公众号文章爬取

微信公众号文章排版技巧

PHP微信公众号文章爬虫

微信公众号java文章列表

关于微信公众号文章抓取

php 微信公众号文章采集

微信公众号文章信息采集

批量抓取微信公众号的文章

SIGAI微信公众号文章

markdown编写微信公众号文章

通过微信公众平台获取公众号文章

微信公众号使用：在微信公众号文章中嵌入小程序的方法

微信小程序点击公众号文章图片跳转公众号文章

爬取微信公众号文章方案汇总

用python爬取微信公众号文章

爬虫实例爬取微信公众号文章

app中嵌套微信公众号文章链接

python3爬取微信公众号文章

微信公众号文章爬取方法整理

【爬虫】python爬取微信公众号文章

PC 上查看微信公众号文章的方法

基于搜狗微信的公众号文章爬虫

微信公众号文章爬取方案

Python爬虫实现微信公众号文章批量下载

微信公众号文章编辑的几点经验

python下载微信公众号相关文章

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)