第一个爬虫——斗鱼分类下的人气排行 - 代码天地

第一个爬虫——斗鱼分类下的人气排行

编程语言 2020-02-29 11:01:32 阅读次数: 0

from urllib import request
from io import BytesIO
import gzip
import re

class Spider():
	def __init__(self):
		self.url='https://www.douyu.com/g_LOL'
		self.root_pattern='<div class="DyListCover-info"><span class="DyListCover-hot is-template"><svg><use xlink:href="#icon-hot_8a57f0b"></use></svg>([\s\S]*?)</h2></div>'
		self.number_pattern='([\s\S]*?)</span>'
		self.name_pattern='</use></svg>([\s\S]*?)'

	def __fetch_content(self):
		headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'}
		page1=request.Request(self.url,headers=headers)
		r=request.urlopen(page1)#加入浏览器信息
		htmls=r.read()#获取字节码
		buff=BytesIO(htmls)
		f=gzip.GzipFile(fileobj=buff)
		htmls=f.read().decode('utf-8')#数据被压缩过，我们要对数据进行处理。
		return htmls

	def __analysis(self,htmls):
		root_htmls=re.findall(self.root_pattern,htmls)
		anchors=[]
		for origin_html in root_htmls:
			new_html=origin_html.replace('</span><h2 class="DyListCover-user is-template"><svg><use xlink:href="#icon-user_c95acf8"></use></svg>','')
			anchors.append(new_html)
		print(anchors)

	def go(self):
		htmls=self.__fetch_content()
		self.__analysis(htmls)
		
spider=Spider()
spider.go()

以前觉得爬虫很难，完成了一个小目标之后，觉得有点小放松。

但内心却似乎感觉很朦胧。

只是冰山一角而已。

发布了46 篇原创文章 · 获赞 9 · 访问量 881

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_45850939/article/details/104570098

第一个爬虫——斗鱼分类下的人气排行

第一个简单的爬虫

第一个爬虫

我的第一个爬虫

第一个scrapy爬虫

第一个爬虫与测试

第一个爬虫测试

第一个爬虫及测试

第一个Python爬虫

第一个爬虫脚本

第一个爬虫==

Python 第一个爬虫

第一个Pyspider 爬虫

python第一个爬虫

第一个爬虫：爬取壁纸图片并自动分类存储

爬虫笔记（一）——第一个爬虫

第一Python第一个爬虫项目

爬虫简单入门：第一个简单爬虫

Python爬虫之第一个爬虫

python爬虫1：第一个爬虫

Easyui Accordion 默认展开第一个分类

第一个应用：鸢尾花分类

编写第一个python程序（注释分类）

GNN的第一个简单案例：Cora分类

python-入门的第一个爬虫例子

第一个简单的图片爬虫

第一个淘宝搜索爬虫

我的第一个python爬虫

python第一个爬虫脚本

初学python第一个网络爬虫

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)