【爬虫】selenium集成到scrapy中 - 代码天地

【爬虫】selenium集成到scrapy中

其他 2018-06-20 10:49:44 阅读次数: 3

在middlewares.py中定义一个class:

 1 from selenium.common.exceptions import TimeoutException
 2 from scrapy.http import HtmlResponse  #传递js加载后的源代码,不会返回给download
 3 class JSPageMiddleware(object):
 4     #通过chrome请求动态网页
 5     def process_request(self, request, spider):
 6         if spider.name == "JobBole":
 7             try:
 8                 spider.browser.get(request.url)
 9             except TimeoutException:
10                 print('30秒timeout之后，直接结束本页面')
11                 spider.browser.execute_script('window.stop()')
12             import time
13             time.sleep(3)
14             print("访问:{0}".format(request.url))
15 
16             return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding="utf-8", request=request)
17             '''编码默认是unicode'''

spider中的代码：

 1 name = "JobBole"
 2     allowed_domains = ["jobbole.com"]
 3     start_urls = ['http://blog.jobbole.com/all-posts/']
 4 
 5     def __init__(self):
 6         '''chrome放在spider中，防止每打开一个url就跳出一个chrome'''
 7         self.browser=webdriver.Chrome(executable_path='E:/chromedriver.exe')
 8         self.browser.set_page_load_timeout(30)
 9         super(JobboleSpider, self).__init__()
10         dispatcher.connect(self.spider_close,signals.spider_closed)
11 
12     def spider_close(self,spider):
13         #当爬虫退出的时候关闭Chrome
14         print("spider closed")
15         self.browser.quit()

把selenium集成到scrapy中主要改变的就是这两处地方。

以上的在scrapy中嵌入selenium的chrome并不是异步的，所以效率会变差。

这里都是部分代码，完整代码链接：https://github.com/pujinxiao/jobbole_spider

转至http://www.cnblogs.com/jinxiao-pu/p/6815845.html

猜你喜欢

转载自www.cnblogs.com/qingsheng/p/9202530.html

【爬虫】selenium集成到scrapy中

将selenium集成到scrapy框架中

python网络爬虫——Scrapy中selenium的使用

scrapy集成selenium分布式爬虫---01

Scrapy爬虫框架集成Selenium来解析动态网页

Scrapy中集成selenium

Selenium集成至Scrapy

scrapy 中集成 selenium

scrapy 集成 selenium

爬虫开发12.selenium在scrapy中的应用

爬虫学习 15.scrapy中selenium的应用

scrapy中selenium的应用

selenium在scrapy中的应用

爬虫中的scrapy框架

scrapy 中crawlspider 爬虫

Scrapy+PhantomJS+Selenium动态爬虫

scrapy爬虫框架和selenium的配合使用

Python爬虫之Scrapy框架使用selenium

Scrapy之PhantomJS , Selenium动态爬虫

selenium 在爬虫中的应用

scrapy+selenium　爬取淘宝商城商品数据存入到mongo中

scrapy中主动停止爬虫

Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法

Python爬虫从入门到放弃（十七）之 Scrapy框架中Download Middleware用法

Python爬虫从入门到放弃之 Scrapy框架中Download Middleware用法

Python爬虫从入门到成妖之5-----Scrapy框架中Spiders用法

Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法

如何在scrapy中集成selenium爬取网页

Python3~Scrapy+PhantomJS+Selenium动态爬虫

scrapy+selenium boss直聘爬虫案例分析

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)