<slenium爬虫>斗鱼 - 代码天地

<slenium爬虫>斗鱼

其他 2019-03-09 15:48:05 阅读次数: 0

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import unittest
from selenium import webdriver
from bs4 import BeautifulSoup as bs
import time

class douyu(unittest.TestCase):
    # 初始化方法，必须是setUp()
    def setUp(self):
        self.driver = webdriver.PhantomJS()
        self.num = 0
        self.count = 0

    # 测试方法必须有test字样开头
    def testDouyu(self):
        self.driver.get("https://www.douyu.com/directory/all")

        while True:
            soup = bs(self.driver.page_source, "lxml")
            # 房间名, 返回列表
            names = soup.find_all("h3", {"class" : "DyListCover-intro"})
            # 直播间热度, 返回列表
            numbers = soup.find_all("span", {"class" :"DyListCover-hot"})

            for name, number in zip(names, numbers):
                self.num += 1
                print(u"直播间热度: -" + number.get_text().strip() + u"-\t房间名: " + name.get_text().strip() + u'-\t直播数量'+ str(self.num))

                #self.count += int(number.get_text().strip())

            # 如果在页面源码里找到"下一页"为隐藏的标签，就退出循环 
            if self.driver.page_source.find("dy-Pagination-disabled dy-Pagination-next") != -1:
                    break

            # 一直点击下一页
            self.driver.find_element_by_class_name("dy-Pagination-next").click()
            time.sleep(1)

    # 测试结束执行的方法
    def tearDown(self):
        # 退出PhantomJS()浏览器
        print("当前网站直播人数" + str(self.num))
        print("当前网站总热度" + str(self.count))
        self.driver.quit()

if __name__ == "__main__":
    # 启动测试模块
    unittest.main()

　　

猜你喜欢

转载自www.cnblogs.com/shuimohei/p/10500932.html

<slenium爬虫>斗鱼

爬虫斗鱼

斗鱼爬虫

斗鱼直播弹幕爬虫

爬虫斗鱼直播

爬虫 - 斗鱼房间信息

【Python3爬虫】斗鱼弹幕爬虫

python爬虫爬取斗鱼直播数据

Python爬虫：简易的爬取斗鱼弹幕

slenium的使用

Slenium入门

Python爬虫-爬取斗鱼网页selenium+bs

爬虫实战2--使用selenium爬斗鱼直播

爬虫项目4[爬取斗鱼直播数据]

利用python爬虫爬取斗鱼图片(简单详细)

slenium用户中心查询

slenium 定位text contain

python slenium 中CSS定位

py3斗鱼直播小爬虫练习,顺便复习了一下xpath

正则表达式的简单运用----爬虫斗鱼小姐姐图片

利用Python爬虫爬取斗鱼直播间信息，以及直播的实际人数

爬虫之爬取斗鱼官网LOL部分主播的状态

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多线程版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(多进程版)

【爬虫小程序：爬取斗鱼所有房间信息】Xpath(线程池版)

经典爬虫学习（四）-selsenium实现斗鱼直播房间信息爬取

斗鱼爬虫，爬取颜值频道的主播图片和名字

使用requests+lxml实现简单的斗鱼信息爬虫（适用于新手）

Python爬虫斗鱼直播数据,xpath明明定位正确,但是执行代码时却报错

第一个爬虫——斗鱼分类下的人气排行

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)