豆瓣上映电影爬虫 - 代码天地

豆瓣上映电影爬虫

其他 2018-12-22 20:34:40 阅读次数: 0

https://study.163.com/course/courseLearn.htm?courseId=1005913008#/learn/video?lessonId=1053258282&courseId=1005913008

课堂上的代码，做个记录

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import json
 4 
 5 
 6 def get_page():
 7     url = 'https://movie.douban.com/cinema/nowplaying/changsha/'
 8     headers = {
 9         "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
10     }
11     response = requests.get(url, headers=headers, verify=False)
12     text = response.text
13     return text
14 
15 
16 def parse_page(text):
17     soup = BeautifulSoup(text, 'lxml')
18     movies = []
19     liList = soup.find_all('li', attrs={"data-category":"nowplaying"})
20     for li in liList:
21         movie = {}
22         title = li['data-title']
23         score = li['data-score']
24         release = li['data-release']
25         region = li['data-region']
26         director = li['data-director']
27         actors = li['data-actors']
28         img = li.find('img')['src']
29 
30         movie['title'] = title
31         movie['score'] = score
32         movie['release'] = release
33         movie['region'] = region
34         movie['director'] = director
35         movie['actors'] = actors
36         movie['img'] = img
37         movies.append(movie)
38     return movies
39 
40 
41 def save_data(data):
42     # 返回一个文件指针
43     with open('douban.json', 'w', encoding='utf-8') as fp:
44         # json.dump作用
45         # 将字典、列表dump成满足json格式的字符串
46         # ensure_ascii=False可以保存非ascii的值
47         json.dump(data, fp, ensure_ascii=False)
48 
49 
50 if __name__ == '__main__':
51     text = get_page()
52     movies = parse_page(text)
53     save_data(movies)

猜你喜欢

转载自www.cnblogs.com/weiwei2016/p/10162280.html

豆瓣上映电影爬虫

豆瓣即将上映电影爬虫作业

爬虫实践--豆瓣电影当前上映电影信息爬取

爬虫入门一：BeautifulSoup解析豆瓣即将上映的电影信息

爬虫实战(8)-爬取豆瓣网最近要上映的电影

爬取豆瓣正在上映的电影

爬虫豆瓣电影

豆瓣电影爬虫+分析

豆瓣电影爬虫

python豆瓣电影爬虫

豆瓣电影爬虫练习

【爬虫】总结-豆瓣电影

爬取豆瓣正在上映的电影名称及评分

BeautifulSoup解析豆瓣即将上映的电影信息

requests结合xpath爬取豆瓣最新上映电影

豆瓣电影爬虫编写教程

【爬虫】问题集-豆瓣电影

豆瓣电影(一)：网络爬虫

网络爬虫之豆瓣电影

初试python爬虫之：豆瓣电影爬虫

使用python3 爬取豆瓣电影热映和即将上映

python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

Python爬取豆瓣Top250电影中2000年后上映的影片信息

Python爬取豆瓣网中即将上映的电影数据清单

python爬虫，爬取豆瓣电影信息

爬虫_豆瓣电影top250

python爬虫——豆瓣电影Top250

【Python】从0开始写爬虫——豆瓣电影

爬虫之爬取豆瓣电影的名字

python爬虫实践——爬取豆瓣电影

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)