import re
from urllib import request
import time
# 电影天堂电影列表页,{}里面是页码,一共有200多页
url = 'https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html'
# 正则表达式,标题名称带有其他信息,《》中间的是想要获取的电影名称
name_pattern = 'class="ulink">([\w\W].*?)《([\w\W].*?)》([\w\W].*?)</a>'
# 给个空列表,用来存电影名称
movies = []
starttime = time.time() # 这里是为了比较一下两种方法的效率,记录程序开始时间
# 新建的txt默认是gbk编码的,而查看网页源码,编码是gb2312
stream = open('movies.txt', 'w', encoding='gb2312')
for i in range(1, 3): # 只取前3页
url_visit = url.format(i) # 通过formate拼凑出完整的网页地址
content = request.urlopen(url_visit).read()
# gb18030 内容里面有繁体字,所以使用gb2312会报错,ignore忽略报错
http_content = content.decode('gb2312', errors='ignore')
movie_name = re.findall(name_pattern, http_content)
for name in movie_name: # 遍历当前页的全部,每页默认有25个电影
movies.append(name[1]) # 获取电影名称,也就是《》中间的内容,是name的第2个元素
stream.write(name[1]+'\n') # 一次写一个并加一个换行
stream.close() # 关闭文件流
print(time.time()-starttime) # 这里是为了比较一下两种方法的效率,打印程序运行时间
# 事实证明,方法二慢50%左右
# 方法二:最后统一一次把电影名称写入movies.txt,用时更长
# with open('movies.txt', 'w', encoding='gb2312') as file_stream:
# for movie in movies:
# file_stream.write(str(movie) + '\n')
初次用python写一个简单爬虫-获取电影天堂电影列表
猜你喜欢
转载自blog.csdn.net/marvinmao/article/details/104932344
今日推荐
周排行