假期学习【七】首都之窗信件爬取（单一页面） - 代码天地

假期学习【七】首都之窗信件爬取（单一页面）

其他 2020-02-05 15:45:25 阅读次数: 0

今天主要又继续了Python网络爬虫的学习，并完成了首都之窗百姓信件单一页面的爬取，明天打算完成整个爬虫任务。

源代码如下：

import requests
from bs4 import BeautifulSoup

kv = {'user-agent': 'Mozilla/5.0'}
id="AH20020400088"
url="http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?originalId="+id

def parser(url):
    try:
        r = requests.get(url, headers=kv)
        print(r.status_code)
        demo = r.text
        soup = BeautifulSoup(demo, "html.parser")
        print(soup.prettify())
        print("标题：", soup.find("strong").get_text())
        print("来信人：",soup.find_all("div", {"class": "col-xs-10 col-lg-3 col-sm-3 col-md-4 text-muted"})[0].get_text().lstrip('来信人：').lstrip().rstrip())
        print("时间：",soup.find_all("div", {"class": "col-xs-5 col-lg-3 col-sm-3 col-md-3 text-muted"})[0].get_text().lstrip('时间：'))
        print("网友同问：", soup.find_all("div", {"class": "col-xs-4 col-lg-3 col-sm-3 col-md-3 text-muted"})[0].get_text().lstrip().rstrip().lstrip("网友同问:").lstrip().rstrip())
        print("问题：", soup.find_all("div", {"class": "col-xs-12 col-md-12 column p-2 text-muted mx-2"})[0].get_text().lstrip().rstrip())
        print("官方：", soup.find_all("div", {"class": "col-xs-9 col-sm-7 col-md-5 o-font4 my-2"})[0].get_text())
        print("回答时间：",soup.find_all("div", {"class": "col-xs-12 col-sm-3 col-md-3 my-2"})[0].get_text().lstrip('答复时间：'))
        print("回答：", soup.find_all("div", {"class": "col-xs-12 col-md-12 column p-4 text-muted my-3"})[0].get_text().lstrip().rstrip())
    except:
        print("爬取失败！")

if __name__=="__main__":
    parser(url)

View Code

运行结果：

猜你喜欢

转载自www.cnblogs.com/zlc364624/p/12264011.html

假期学习【七】首都之窗信件爬取（单一页面）

假期学习【九】首都之窗百姓信件爬取代码优化以及处理 2020.2.7 Python

假期学习【十】首都之窗百姓信件JavaWweb+Echarts图表展示

Python 爬取北京市政府首都之窗信件列表-[后续补充]

Python 爬取北京市政府首都之窗信件列表-[信息展示]

Python 爬取北京市政府首都之窗信件列表-[数据处理]

[Python]爬取首都之窗百姓信件网址id python 2020.2.13

iOS单一页面横屏显示

Python 爬取北京市政府首都之窗信件列表-[Scrapy框架](2020年寒假小目标04)

获取前一页面

一页面布局

返回上一页面

Springboot学习把某一页面设为默认访问页面

北京市信件内容爬虫实例——首都之窗

页面跳转后返回上一页面记录上一页面select选定的值

简单的爬取百度图片，一页

php 登录后返回上一页面

Next向上一页面跳转

织梦返回上一页面

锚链接（同一页面）

返回上一页面并刷新

使用mpvue关于同一页面跳转

小程序：修改上一页面数据

同一页面中的多表单提交

同一页面多个form提交

uniapp 返回上一页面传参

iOS 某一页面禁止滑动返回

vue返回上一页面如果没有上一页面返回首页

Python3~scrapy项目之爬取当前页和下一页

如何跳转指定页面后再次跳转到另一页面或原来的页面

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)