Python 爬取网页中JavaScript动态添加的内容 - 代码天地

Python 爬取网页中JavaScript动态添加的内容

其他 2018-09-28 11:47:32 阅读次数: 0

当我们进行网页爬虫时，我们会利用一定的规则从返回的 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码，我们必须经过渲染处理才能获得原始数据。此时，如果我们仍采用常规方法从中抓取数据，那么我们将一无所获。那么，通过Web kit可以简单解决这个问题。Web kit 可以实现浏览器所能处理的任何事情。对于某些浏览器来说，Web kit就是其底层的网页渲染工具。Web kit是QT库的一部分，因此如果你已经安装QT和PyQT4库，那么你可以直接运行之。

1、环境准备

Linux：sudo apt-get install python-qt4

Windows：https://www.cnblogs.com/Jimc/p/9717238.html

2、解决方案

首先通过 Web kit 发送请求信息，然后等待网页被完全加载后将其赋值到某个变量中。接下来我们利用lxml从 HTML 数据中提取出有效的信息。这个过程需要一点时间。

import sys
from PyQt4.QtWebKit import *
from PyQt4.QtGui import *
from PyQt4.QtCore import *

class Render(QWebPage):  # 用来渲染网页,将url中的所有信息加载下来并存到一个新的框架中
    def __init__(self,url):
        self.app = QApplication(sys.argv)
        QWebPage.__init__(self)
        self.loadFinished.connect(self._loadFinished)
        self.mainFrame().load(QUrl(url))
        self.app.exec_()
    def _loadFinished(self, result):
        self.frame = self.mainFrame()
        self.app.quit()

url = 'http://jandan.net/ooxx'
r = Render(url)
html = r.frame.toHtml()
print(html)

那么，后面的工作就是解析HTML代码了，这里不做讲解。

猜你喜欢

转载自www.cnblogs.com/Jimc/p/9717691.html

Python 爬取网页中JavaScript动态添加的内容

Python 爬取网页中JavaScript动态添加的内容（一）

Python 爬取网页中JavaScript动态添加的内容（二）

python爬取动态网页的内容

Python爬取js动态添加的内容

python爬取动态网页2，从JavaScript文件读取内容

Python爬取网页Flex渲染的动态内容

Python爬取网页内容

Python爬取javascript(js)动态网页

python动态爬取网页

Python - Python 简单爬取网页内容

python中如何爬取动态页面内容

Python 爬取网页内容，转成PDF

python爬取网页内容demo

Python之简单爬取网页内容

python的requests模块爬取网页内容

Python爬取动态网页

Python动态爬取网页信息

Python3网络爬虫：requests爬取动态网页内容

Python 使用selenium+webdriver爬取动态网页内容

python爬虫爬取异步加载网页信息（python抓取网页中无法通过网页标签属性抓取的内容）

python爬取网页

Python每日一练(16)-爬取网页中动态加载的数据

千峰教育-python爬取网页小说内容

python3定向爬取网页内容

Python爬虫：selenium挂shadowsocks代理爬取网页内容

2018.11.24如何使用python爬取网页内容

Python爬虫入门：爬取某个网页的小说内容

Python爬取网页所需内容+王者荣耀官网

python 爬取动态网页（百度图片）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)