斗鱼爬虫 - 代码天地

斗鱼爬虫

其他 2018-12-26 21:32:18 阅读次数: 0

from selenium import webdriver


class DouyuSpider():
    def __init__(self):
        self.start_url = "https://www.douyu.com/directory/all"
        self.driver = webdriver.Chrome()

    def get_content_list(self):
        li_list = self.driver.find_element_by_xpath("//ul[@id='live-list-contentbox']/li")
        content_list = []
        for li in li_list:
            item = {}
            item["room_img"] = li.find_element_by_xpath(".//span[@class='imgbox']/img").get_attribute("src")
            item["room_title"] = li.find_element_by_xpath("./a").get_atttribute("title")
            item["room_cate"] = li.find_element_by_xpath(".//span[@class='tag ellipsis']").text
            item["anchor_name"] = li.find_element_by_xpath(".//span[@class='dy-name ellipsis fl']").text
            item["watch_num"] = li.find_element_by_xpath(".//span[@class='dy-num fr']").text
            print(item)
            content_list.append(item)
        # 获取下一页元素
        next_url = self.driver.find_element_by_xpath("//a[@class='shark-pager-next']")
        next_url = next_url[0] if len(next_url) > 0 else None
        return content_list, next_url

    def save_content_list(self, content_list):
        pass

    def run(self):
        # start_url
        # 发送请求，获取响应
        self.driver.get(self.start_url)
        # 提取数据，提取下一页的元素
        content_list, next_url = self.get_content_list()
        # 保存数据
        self.save_content_list(content_list)
        # 点击下一页元数，循环
        while next_url is not None:
            next_url.click()
            content_list, next_url = self.get_content_list()
            self.save_content_list(content_list)



if __name__ == "__main__":
    douyuspider = DouyuSpider()
    douyuspider.run()

猜你喜欢

转载自blog.csdn.net/weixin_42584821/article/details/85008122

爬虫斗鱼

斗鱼爬虫

斗鱼直播弹幕爬虫

爬虫斗鱼直播

<slenium爬虫>斗鱼

爬虫 - 斗鱼房间信息

【Python3爬虫】斗鱼弹幕爬虫

python爬虫爬取斗鱼直播数据

Python爬虫：简易的爬取斗鱼弹幕

多进程面向对象爬虫程序

Python爬虫-爬取斗鱼网页selenium+bs

爬虫实战2--使用selenium爬斗鱼直播

爬虫项目4[爬取斗鱼直播数据]

利用python爬虫爬取斗鱼图片(简单详细)

小象爬虫第一周笔记

py3斗鱼直播小爬虫练习,顺便复习了一下xpath

正则表达式的简单运用----爬虫斗鱼小姐姐图片

利用Python爬虫爬取斗鱼直播间信息，以及直播的实际人数

爬虫之爬取斗鱼官网LOL部分主播的状态

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(线程池版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多线程版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多进程版)

经典爬虫学习（四）-selsenium实现斗鱼直播房间信息爬取

斗鱼爬虫，爬取颜值频道的主播图片和名字

Python爬虫斗鱼直播数据,xpath明明定位正确,但是执行代码时却报错

使用requests+lxml实现简单的斗鱼信息爬虫（适用于新手）

第一个爬虫——斗鱼分类下的人气排行

斗鱼美女主播封面爬取 python request urlretrieve jsonpath 爬虫

爬取斗鱼LOL主播人气数据，并显示排行榜 [网络爬虫] [应用案例][请求头][模块]

Python爬虫实战：基于Scrapy的爬取斗鱼颜值主播图片并下载到本地2.0版

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)