一个简单的爬虫代码爬取糗事百科段子（selenium+ChromeDriver） - 代码天地

一个简单的爬虫代码爬取糗事百科段子（selenium+ChromeDriver）

其他 2018-08-05 12:06:34 阅读次数: 0

一个简单的爬虫入门代码，爬取糗事百科主页的段子（不包括图片，仅文字）。

前期准备：

需要安装selenium和ChromeDriver。
将chromedriver.exe放在Chrome的安装目录下。
配置环境变量。点击我的电脑->属性->高级系统设置->PATH->新建（Chrome的安装位置，比如我的是：C:\Program Files (x86)\Google\Chrome\Application）

一切就绪以后就可以开始最重要的工作——分析需要爬取的目标网页。
首先打开糗事百科主页和开发者工具（F12），然后我们会发现，这个页面的左侧都是笑话，右侧都是广告。
通过开发者工具可以发现左侧笑话区域的id是content-left，content-left 中还有很多用户的头像、姓名等信息，这些是我们不需要的，我们只需要看笑话、段子就好了。继续用之前的方法，我们可以发现，包裹着笑话文字div的class为 content。所以我们实则需要的内容是id为content-left中的class为content的内容。

代码如下：

#/usr/bin/env python
#coding:utf-8

#导入selenium
from selenium import webdriver

class Qiubai:
    def __init__(self):
        #打开Chrome浏览器
        self.dr = webdriver.Chrome()
        #访问糗事百科主页
        self.dr.get('https://www.qiushibaike.com/')

    def print_content(self):
        #获取id为“content-left”的元素
        main_content = self.dr.find_element_by_id('content-left')
        #获取class为“content”的元素
        contents = main_content.find_elements_by_class_name('content')

        #通过for循环输出获取到的内容
        i = 1
        for content in contents:
            print(str(i) + "." + content.text +'\n')
            i += 1

        self.quit()

    def quit(self):
        #关闭浏览器
        self.dr.quit()

Qiubai().print_content()

参考资料：陈斌 Python爬虫课

猜你喜欢

转载自blog.csdn.net/wying_0/article/details/77938824

一个简单的爬虫代码爬取糗事百科段子（selenium+ChromeDriver）

Python爬虫实现爬取糗事百科段子 (26行代码简单实现)

爬虫实战（二）：爬取糗事百科段子

爬取糗事百科段子

糗事百科段子爬取

利用python编写一个简单的爬糗事百科热图爬虫

Python 爬取糗事百科段子

python爬取糗事百科段子

利用Python爬取糗事百科段子信息

用BeautifulSoup爬取糗事百科段子

Python :爬取糗事百科段子

Spider—糗事百科段子爬取

芝麻HTTP:Python爬虫实战之爬取糗事百科段子

Python爬虫实战(六)：爬取糗事百科段子

[爬虫]用python的requests模块爬取糗事百科段子

Python学习之爬虫07-糗事百科段子爬取

Python爬虫（二）之使用标准库爬取糗事百科段子

python网络爬虫-爬取糗事百科段子源码

Python爬虫实战之爬取糗事百科段子【华为云技术分享】

Python爬虫框架Scrapy之爬取糗事百科大量段子数据

Python多线程爬虫实战_爬取糗事百科段子的实例

糗事百科段子简单爬取案例（使用正则表达式查找）

python爬虫-糗事百科段子

糗事百科段子爬虫

python爬虫（二）爬取糗事百科

爬虫：python爬取糗事百科网页信息

爬虫多线程案例：爬取糗事百科

python爬虫1、~爬取糗事百科

【scrapy爬虫】结合正则表达式爬取糗事百科段子首页步骤详解

爬取糗事百科

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)