斗鱼直播的所有房间

其他 2019-05-10 14:41:17 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载 https://blog.csdn.net/g_optimistic/article/details/89944897

目录

（1）房间名称

（2）房间标签

（4）关注数

斗鱼直播：https://www.douyu.com/directory/all

进入这个网址之后我们想要爬取在线直播的所有直播房间

1.导入模块

import requests
from lxml import etree

2.网络请求

url = 'https://www.douyu.com/directory/all'
# 模仿浏览器访问
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'
}
content = requests.get(url=url, headers=headers).content.decode('utf-8')
with open('templates\\douyu.html', 'w', encoding='utf-8') as fp:
    fp.write(content)

3.提取数据

首先分析一下前端页面的结构，看看我们要的数据在哪

有一个注意的问题，我们在浏览器上看到的结构可能和我们保存下来的content有所不同，所以在浏览器找到我们要的东西之后，去保存的content里面再去确认一下。

每一房间的位置：ul>li

（1）房间名称

（2）房间标签

（3）主播

（4）关注数

代码实现：

tree = etree.HTML(content)
li_list = tree.xpath('//ul[@class="layout-Cover-list"]/li')
print(len(li_list))
i = 0
for li in li_list:
    i += 1
    print('===================第%s个房间======================' % i)
    # 提取房间名称
    room_name = li.xpath('.//h3[@class="DyListCover-intro"]/text()')
    print("房间名称", room_name[0])
    room_tag = li.xpath('.//span[@class="DyListCover-zone"]/text()')
    print("房间标签：", room_tag[0])
    room_player = li.xpath('.//h2[@class="DyListCover-user is-template"]/text()')
    print("主播：", room_player[0])
    room_follows = li.xpath('.//span[@class="DyListCover-hot is-template"]/text()')
    print("关注数：", room_follows[0])

# 使用requests请求，不能实现分页，选择无界面请求

后面我们再讲分页策略

猜你喜欢

转载自blog.csdn.net/g_optimistic/article/details/89944897

斗鱼直播的所有房间

爬取斗鱼直播所有房间的翻页功能的实现

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(线程池版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多线程版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多进程版)

selenium爬取斗鱼所有直播房间信息

获取斗鱼房间以及直播地址

LeetCode——1997. 访问完所有房间的第一天(First Day Where You Have Been in All the Rooms)[中等]——分析及代码（Java）

网络主播实名认证，所有直播房间内添加水印

爬虫 - 斗鱼房间信息

经典爬虫学习（四）-selsenium实现斗鱼直播房间信息爬取

爬虫(成都58同城所有房价,Python实现)

斗鱼直播弹幕爬虫

爬虫斗鱼直播

斗鱼直播延迟问题

斗鱼扩展--管理移除房间(八)

Python——selenium爬取斗鱼房间信息

selenium爬取斗鱼的房间信息

爬取链家所有房源信息(在售、成交、租房)

python requests+json爬取ajax加载爱彼迎深圳所有房源

Revit API 开发 (5):找到房间里的所有构件

提取并破解斗鱼直播源

案例_使用Selenium与PhantomJS爬取斗鱼房间信息

多线程Beatiful Soup爬取斗鱼所有在线主播的信息

广州有房产怎么入户广州？

《转》实现斗鱼直播弹幕效果

ubuntu下如何对接斗鱼直播

机器学习---关于斗鱼直播人数的分析

python爬虫爬取斗鱼直播数据

Android仿斗鱼直播的弹幕效果

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)