Python 抓取动态网页 一般使用 Selenium 或者 dryscrape,但安装比较复杂,依赖库较多。
这里介绍使用 Win32exts for Python 抓取动态网页。首先项目地址:
https://github.com/tankaishuai/win32exts_for_Python
确保安装 32位版本的Python (2.x 或 3.x 均可), 选择 32位的 win32exts.pyd 库放于 /DLLs 目录下。
仅有此一个文件即可。
抓取 QQ主页的示例代码如下:
#
# 抓取动态网页示例
#
url = "http://www.qq.com"
import win32exts
win32exts.load_sym("*", "*")
pText = win32exts.SysTextByBrowser(win32exts.L(url), 10, 3, None)
strText = "err"
if pText != 0:
strText = win32exts.read_wstring(pText, 0, -1)
win32exts.free(pText)
print (strText)
默认使用Trident渲染引擎,同时也支持 Webkit / Blink 渲染引擎。