使用IE控件来分析网页结构，模拟测试爬虫，使用scrapy+selenium来执行网页爬虫 - 代码天地

使用IE控件来分析网页结构，模拟测试爬虫，使用scrapy+selenium来执行网页爬虫

编程语言 2018-11-29 01:25:17 阅读次数: 0

通常我们使用scrapy来进行网页内容的收集，但使用起来非常的不方便：

1. 需要使用工具，或者手动来计算得到网页元素的xpath。

2. 对一些网页内需要ajax的运行才显示的内容处理起来并不方便。

我通过找相关的工具，研究爬虫方案，找到了一个比较合适的工具软件，和方便易用的处理流程：

工具软件的名字是掘金数据处理平台，界面如下：

scrapy辅助界面如下：

使用方法：

1. 在浏览器窗体，输入浏览url，打开目标网页

2. 使用右键点击网页中的元素（字符，图片等），就可以直接分析出元素的xpath，属性值等信息。

3. 在控制面板可以配置如何处理这些元素。

4. 可以对钮点击后，分析相应的日志执行流程。

5. 在scrapy面板下，打开一个目标python文件，右键点击网页元素可以将xpath直接插入到文本中。

6. 可以测试运行，并且数据会记录在内置的sqlite数据库中。

测试方法可以参考视频教程：

http://v.youku.com/v_show/id_XMTgyNzQxMzA2MA==.html?spm=a2h0j.11185381.listitem_page1.5~A

同时打开工具，和开发环境，两者一起配合编写成功scrapy+selenium数据收集脚本。

运行scrapy脚本，观察分析结果，再次调整，同时对比工具的测试运行结果。

使用以上的处理流程会非常方便的制做一个强大的数据收集脚本。

有任何使用方面的问题，请大家留言。

猜你喜欢

转载自blog.csdn.net/CharlesPrince/article/details/84583100

使用IE控件来分析网页结构，模拟测试爬虫，使用scrapy+selenium来执行网页爬虫

Scrapy爬虫框架集成Selenium来解析动态网页

Python爬虫实战使用scrapy与selenium来爬取数据

scrapy+selenium boss直聘爬虫案例分析

【爬虫笔记】使用Selenium打开网页

Python爬虫：使用BeautifulSoup分析网页结构注意事项

爬虫使用cookie模拟登入网页

爬虫网页分析——XPath与lxml的使用

网页爬虫--scrapy进阶

使用python的scrapy来编写一个爬虫！

使用scrapy爬虫框架来获取腾讯的招聘信息

python爬虫基础（11：动态网页之使用selenium）

Python爬虫使用selenium处理动态网页

Python爬虫基础（三）：使用Selenium动态加载网页

使用Golang实现网页爬虫

使用爬虫抓取网页内容

爬虫-使用模拟浏览器操作(截取网页)

使用 Python 的 requests 和 Beautiful Soup 来分析网页

使用scrapy做爬虫遇到的一些坑：爬虫使用scrapy爬取网页返回403错误

Python爬虫之Scrapy框架使用selenium

scrapy爬虫框架和selenium的配合使用

python网络爬虫——Scrapy中selenium的使用

【爬虫】 03 模拟浏览器访问网页&使用代理池访问网页

使用bing或google来翻译网页

使用网页来打电话，发短信！

使用selenium 模拟人操作请求网页

Python网络爬虫逆向分析爬取动态网页、使用Selenium库爬取动态网页、编辑将数据存储入MongoDB数据库

selenium安装与使用——爬虫（selenium测试框架）

初学爬虫（三）：使用selenium模拟浏览器抓取动态网页之（2）selenium项目实战——深圳短租数据

Selenium使用PhantomJS来爬取动态网页时遇到的问题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)