初次用python写一个简单爬虫-获取电影天堂电影列表 - 代码天地

初次用python写一个简单爬虫-获取电影天堂电影列表

其他 2020-04-20 10:42:00 阅读次数: 0

import re
from urllib import request
import time
# 电影天堂电影列表页，{}里面是页码，一共有200多页
url = 'https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html'  
# 正则表达式，标题名称带有其他信息，《》中间的是想要获取的电影名称
name_pattern = 'class="ulink">([\w\W].*?)《([\w\W].*?)》([\w\W].*?)</a>'
# 给个空列表，用来存电影名称
movies = []
starttime = time.time()  # 这里是为了比较一下两种方法的效率，记录程序开始时间
# 新建的txt默认是gbk编码的，而查看网页源码，编码是gb2312
stream = open('movies.txt', 'w', encoding='gb2312')  
for i in range(1, 3):  # 只取前3页
    url_visit = url.format(i)  # 通过formate拼凑出完整的网页地址
    content = request.urlopen(url_visit).read()
    # gb18030  内容里面有繁体字，所以使用gb2312会报错，ignore忽略报错
    http_content = content.decode('gb2312', errors='ignore')  
    movie_name = re.findall(name_pattern, http_content)

    for name in movie_name:    # 遍历当前页的全部，每页默认有25个电影
        movies.append(name[1])  # 获取电影名称，也就是《》中间的内容，是name的第2个元素
        stream.write(name[1]+'\n')   # 一次写一个并加一个换行
stream.close()  # 关闭文件流
print(time.time()-starttime)  # 这里是为了比较一下两种方法的效率，打印程序运行时间
# 事实证明，方法二慢50%左右

# 方法二：最后统一一次把电影名称写入movies.txt，用时更长
# with open('movies.txt', 'w', encoding='gb2312') as file_stream:  
#     for movie in movies:
#         file_stream.write(str(movie) + '\n')

MarvinMao

发布了4 篇原创文章 · 获赞 2 · 访问量 83

私信关注

猜你喜欢

转载自blog.csdn.net/marvinmao/article/details/104932344

初次用python写一个简单爬虫-获取电影天堂电影列表

python爬虫之电影天堂

Python获取电影天堂各版块电影

python爬虫（十七）电影天堂爬虫1

电影天堂爬虫

爬虫电影天堂

电影天堂小爬虫

用php实现一个简单的爬虫，抓取电影网站的视频下载地址

[python爬虫]爬取电影天堂连接

python爬虫获取电影天堂中电影的标题与下载地址，并用正则表达匹配电影类型

利用python爬虫(案例1)--电影天堂的小电影们

入门级用Python写一个简单的网络爬虫下载和获取数据

一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接

电影天堂python脚本

爬虫_电影天堂热映电影（xpath）

网络爬虫（四）电影天堂电影下载

爬虫爬取电影天堂电影链接

【爬虫】电影天堂最新电影+小程序

简单的PHP爬虫，获取豆瓣正在热映电影列表

python 爬取电影天堂电影续编

python 爬取电影天堂电影

python爬虫：获取电影信息~

python爬虫——爬取电影天堂磁力链接

爬虫学习（一）---爬取电影天堂下载链接

电影天堂

python--dytt(电影天堂)

Python爬取电影天堂

[python爬虫之路day5]：实战之电影天堂2019精选电影爬取

一个简单的爬虫：爬取豆瓣的热门电影的信息

爬虫之爬取电影天堂（request）

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)