网络爬虫：爬取动态网页 - 代码天地

网络爬虫：爬取动态网页

其他 2018-10-21 11:08:21 阅读次数: 0

import requests
from bs4 import BeautifulSoup
 
res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml')
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
#取评论数
commentCount = soup.select_one('#commentCount1')
print(commentCount.text)

为空，这是因为保存在js里面了

import json
comments = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783')
comments.encoding = 'utf-8'
print(comments)
jd = json.loads(comments.text.strip('var data=')) #移除改var data=将其变为json数据
print(jd['result']['count']['total'])

移除 var data= 因为在获取时字符串前缀是包含var data=的其不符合json数据格式因此转化时需将其从请求内容中移除

猜你喜欢

转载自www.cnblogs.com/xingnie/p/9716284.html

网络爬虫：爬取动态网页

爬虫学习----动态网页爬取

python学习笔记之网络爬虫(八) 静态网页和动态网页爬取(1)静态网页爬取

动态网页爬取

Python网络爬虫逆向分析爬取动态网页、使用Selenium库爬取动态网页、编辑将数据存储入MongoDB数据库

Python3网络爬虫：requests爬取动态网页内容

Python网络爬虫技巧小总结，静态、动态网页轻松爬取数据

Python网络爬虫数据采集实战：同花顺动态网页爬取

爬虫爬取动态网页下载图片

java爬虫系列（二）——爬取动态网页

爬虫毕设（三）：爬取动态网页

Python使用爬虫ip爬取动态网页

爬虫入门（三）——动态网页爬取：爬取pexel上的图片

Python3网络爬虫：Scrapy入门实战之爬取动态网页图片

python爬取动态网页的内容

Python爬取动态网页

Selenium 爬取动态网页

常规动态网页爬取

scrapy爬虫爬取动态网站

爬虫之scrapy和splash 结合爬取动态网页

使用python代码写一个可以爬取动态网页的爬虫

爬取京东网页评论（动态网页）

动态网页爬虫

自学python网络爬虫，从小白快速成长，分别实现静态网页爬取，下载meiztu中图片；动态网页爬取，下载burberry官网所有当季新品图片。

使用selenium爬取动态网页评论

Scrapy配合Selenium和PhantomJS爬取动态网页

Python爬取javascript(js)动态网页

爬取动态网页时遇到的问题

scrapy，selenium，PhantomJS爬取动态网页

R语言：RSelenium包爬取动态网页

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)