python爬虫，使用urllib + 正则 - 代码天地

python爬虫，使用urllib + 正则

其他 2018-11-19 03:16:31 阅读次数: 0

学习使用urllib + 正则爬取熊猫TV的直播，获取直播人和直播人气，并且进行了排序

from urllib import  request
import re
class Spider():
    url = 'https://www.panda.tv/cate/dota2'
    root_pattern = r'<div class="video-info">([\s\S]*?)</div>'
    title_pattern = r'</i>([\s\S]*?)</span>'
    number_pattern = r'<span class="video-number">([\s\S]*?)</span>'
    def __fetch_content(self):
        r = request.urlopen(self.url)
        htmls = r.read()
        htmls = str(htmls, encoding = 'utf-8')
        return htmls

    def __analysis(self, htmls):
        total = []
        root_html = re.findall(self.root_pattern, htmls)
        for i in range(len(root_html)):
            title = re.findall(self.title_pattern, root_html[i])
            number = re.findall(self.number_pattern, root_html[i])
            live_room =  {'title':title, 'number':number}
            total.append(live_room)
        return total

    def __refine(self, total):
        l = lambda each_item: {'title':each_item['title'][0].strip(), 'number':each_item['number'][0].strip()}
        return map(l, total)

    def __sort(self, refine_total):
        refine_total = sorted(refine_total, key = self.__sort_seed, reverse = True)
        return refine_total

    def __sort_seed(self,each_tiem):
        r = re.findall('\d*',each_tiem['number'])
        number = float(r[0])
        if '万' in each_tiem['number']:
            number *= 10000
        return number

    def __show(self, refine_total):
        for i in refine_total:
            print(i['title'] + '---' + i['number'])

    def start(self):
        htmls = self.__fetch_content()
        total = self.__analysis(htmls)
        refine_total = list(self.__refine(total))
        refine_total = self.__sort(refine_total)
        self.__show(refine_total)

spider = Spider()
spider.start()

猜你喜欢

转载自blog.csdn.net/xlelou/article/details/82026600

python爬虫，使用urllib + 正则

python爬虫——正则表达式及urllib的使用

Python爬虫urllib之猫眼电影正则

Python网络爬虫：爬虫原理、正则表达式、正则表达式函数、urllib基础、超时设置

Python爬虫——urllib的使用

【python爬虫笔记】urllib模块、正则表达式、Beautiful Soup

python爬虫系列(3.8-正则的使用)

Python之爬虫（七）正则的基本使用

Python爬虫-正则

Python爬虫——正则解析

python3爬虫 1.爬虫的基本原理讲解 2.Urllib库的基本使用 3.Requests库的基本使用 4.正则的基本使用

python爬虫（一）Urllib使用

【Python爬虫】urllib库的使用

python爬虫之urllib的使用

python爬虫urllib库使用

【Python爬虫】Urllib的使用（2）

Python爬虫urllib库的使用

Python爬虫开发——urllib的使用

python爬虫——urllib使用代理

Python 爬虫爬取单个基因表格数据的生物学功能（urllib+正则表达式）：

python爬虫——re库（正则）

python网络爬虫——正则解析

python爬虫-数据解析（正则）

【爬虫】在Xpath中使用正则

python 爬虫正则表达式的详细使用

python 爬虫使用正则表达式获取文本

Python爬虫之正则表达式的使用（三）

python爬虫从入门到放弃（五）之正则的基本使用

学会简单的使用Python爬虫正则表达式！

Python使用正则表达式的爬虫

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)