爬取JS动态生成的URL - 代码天地

爬取JS动态生成的URL

其他 2018-12-03 18:54:47 阅读次数: 0

爱卡汽车论坛搜索结果页面：

想要python爬取搜索结果链接：a标签中的href，但是这个url是动态生成的。
网页源代码：

用普通方式解析：

import urllib.request

url = "http://search.xcar.com.cn/metasearch.php#?&searchValue=奔腾x40"
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
print(data)

解析结果：

selenium：这是一个用于web应用程测试的工具
下载方式：pip install selenium

phantomjs
是一种无界面的浏览器，用于完成网页的渲染
下载地址
http://phantomjs.org/download.html

解压就可以用
打开解压后的文件，找到bin下的phantomjs.exe将这个路径放到PATH路径下

动态解析：

from selenium import webdriver
url = "http://search.xcar.com.cn/metasearch.php#?&searchValue=奔腾x40"
driver = webdriver.PhantomJS(executable_path='E:/phantomjs/bin/phantomjs.exe')
#这个路径就是你添加到PATH的路径
driver.get(url)
print (driver.page_source)

解析结果：



下一步如何取出：






参考文章：http://www.freebuf.com/column/142404.html

继续：

猜你喜欢

转载自blog.csdn.net/Daletxt/article/details/82943638

爬取JS动态生成的URL

利用scrapy-splash爬取JS生成的动态页面

Scrapy 框架-爬取JS生成的动态页面

python爬取URL动态生成的table表格并保存到文件

scrapy利用scrapy-splash爬取JS动态生成的标签

爬虫测试之无法爬取js动态生成的元素数据

Python爬取js动态添加的内容

爬取多个url

爬取动态网页，Ajax动态加载和翻页时url不变的网页

Python爬取javascript(js)动态网页

爬取动态js html数据方法二使用phantomjs

Python爬虫爬取动态JS网页股票信息

根据URL爬取内容

spider爬取多级url

[python爬虫] selenium爬取局部动态刷新网站（URL始终固定）

Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页

Python爬取大型网站JS动态，想要的“资源”都能爬

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

node.js爬取Github指定用户的个人信息，比如email，location，主页URL等

python爬虫（三）爬取js动态页面之b站粉丝数观看数点赞数爬取

python动态爬取网页

scrapy爬取动态数据

动态网页爬取

动态爬取，酒店评论

爬取动态页面2

爬取动态页面原理

爬取动态HTML：Selenium

爬取动态加载的数据

scrapy爬取动态页面

动态渲染页面爬取

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)