使用selenium爬取斗鱼直播数据 - 代码天地

使用selenium爬取斗鱼直播数据

其他 2019-03-10 22:01:06 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/hard_days/article/details/84643756

分析斗鱼直播首页https://www.douyu.com/directory/all
使用selenium来实现跳转页面，定位到跳转页面位置。
拿到页面后通过xpath提取想要的数据进行分析。
保存数据

# -*- coding:utf-8 -*-
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
from lxml import etree
import csv


#把浏览器设为无头模式
chrome_option = Options()
chrome_option.add_argument('-headless')
browser =  webdriver.Chrome(chrome_options=chrome_option)


def get_next_page(n):
    '''获取下一页页面'''
    # 1.找到下一页的标签,点击进行跳转
    browser.find_element_by_class_name('jumptxt').send_keys(n)
    browser.find_element_by_class_name('shark-pager-submit').click()
    # 3.延时等待1秒
    time.sleep(1)
    # 4.获取页面数据
    html = browser.page_source
    #返回页面内容
    return html


def get_data(html):
    '''解析页面数据'''
    html = etree.HTML(html)
    #获取到所有主播的列表
    zb_list= html.xpath('//ul[@id="live-list-contentbox"]/li')
    for zb in zb_list:
        item={}
        item['houst_name']= zb.xpath('.//div[@class="mes-tit"]/h3/text()')[0].strip()
        item['group'] = zb.xpath('.//div[@class="mes-tit"]/span/text()')[0].strip()
        item['zb_name'] = zb.xpath('.//div[@class="mes"]/p/span[1]/text()')[0].strip()
        item['count']  = zb.xpath('.//div[@class="mes"]/p/span[2]/text()')[0].strip()
        sava_data(item)


def sava_data(data):
    '''存数数据'''
    filedname =['houst_name','group','zb_name','count']
    with open('douyu1.csv','a',newline='',encoding='utf8') as f:
        csv_writer = csv.DictWriter(f,fieldnames=filedname)
        csv_writer.writerow(data)

def main():
    '''控制爬虫程序的运行'''
    browser.get('https://www.douyu.com/directory/all')
    # 获取页面内容
    page_num = 1
    while page_num<139:
        print('当前正在爬取第{}页'.format(page_num))
        html = get_next_page(page_num)
        get_data(html)
        page_num+=1


if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/hard_days/article/details/84643756

使用selenium爬取斗鱼直播数据

Python3使用selenium爬取斗鱼直播平台数据

python爬虫爬取斗鱼直播数据

selenium爬取斗鱼所有直播房间信息

爬虫实战2--使用selenium爬斗鱼直播

爬虫项目4[爬取斗鱼直播数据]

案例_使用Selenium与PhantomJS爬取斗鱼房间信息

斗鱼弹幕数据爬取

Python——selenium爬取斗鱼房间信息

selenium爬取斗鱼的房间信息

Python爬虫-爬取斗鱼网页selenium+bs

使用selenium爬取网站动态数据

selenium使用代理爬取数据

爬取斗鱼图片

爬取斗鱼平台

利用Python爬虫爬取斗鱼直播间信息，以及直播的实际人数

今日分享--使用urllib 爬取斗鱼英雄联盟图片

使用无界面的方式对斗鱼进行爬取

python爬取斗鱼弹幕

Scrapy项目(斗鱼直播)---利用Spider爬取颜值下的美女信息

直播现场Python爬取百万斗鱼弹幕首秀，网友满屏评论：666

经典爬虫学习（四）-selsenium实现斗鱼直播房间信息爬取

爬取斗鱼直播所有房间的翻页功能的实现

Selenium+Request爬取某鱼直播音频数据（下）

Selenium+Request爬取某鱼直播音频数据（上）

scrapy使用PhantomJS和selenium爬取数据

python 使用selenium和requests爬取页面数据

使用python+selenium+PantomJs+javascript爬取专利数据

Python使用Selenium爬取淘宝异步加载的数据方法

使用selenium登录网站并爬取数据保存到excel

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)