爬取豆瓣top250 - 代码天地

爬取豆瓣top250

其他 2019-05-25 22:44:40 阅读次数: 0

#xpath
#第一种方法  可在开发者工具中找到标签，右键copy xpath，有时需去掉tbody标签
#第二种方法  简单学习xpath，自己书写，掌握基本语法即可，简单的层级关系

#先将csv文件以记事本打开，更改编码为ASNI，保存，再用excel打开即可


import  urllib.request
import  urllib.parse
import csv
from lxml import etree
#需要cmd pip install lxml

headers = ['电影名字', '评论', '评分', '名句']
with open('C:\\Users\\lenovo\\Desktop\\mmm.csv','a+',
 newline='', encoding='utf-8') as f:
         writer = csv.writer(f)
         writer.writerow(headers)#先将表头插入
for i in range(10):
    url ='https://movie.douban.com/top250?start={}&filter='.format(i*25)#发现规律，网址的变化，用format更便捷

 response = urllib.request.urlopen(url).read().decode()#源代码
    html = etree.HTML(response)#建议学习Xpath，非常有用，web自动化中也会用到
    name = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')#电影名字
    comments = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[4]/text()')#电影评价数
    star = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()')#评分
    quote = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[2]/span/text()')#名句

    with open('C:\\Users\\lenovo\\Desktop\\mmm.csv','a+',
 newline='', encoding='utf-8') as f:#将数据写入csv文件，a+代表继续写入
         writer = csv.writer(f)#将文件对象转化成csv对象
         listw = []
         for i in range(25):
                 listw = [name[i], comments[i], star[i], quote[i]]
                 writer.writerow(listw)#csv按行写入，写一个列表

猜你喜欢

转载自www.cnblogs.com/persistence-ok/p/10924199.html

爬取豆瓣图书TOP250

豆瓣Top250爬取

爬取豆瓣电影TOP250

爬取豆瓣top250

豆瓣TOP250爬取及分析

python爬取豆瓣Top250

爬取豆瓣电影Top250和和豆瓣图书

爬取豆瓣电影top250（python3）

使用requests爬取豆瓣电影top250

golang爬取豆瓣Top250书籍信息

python爬取豆瓣电影Top250

利用selenium爬取豆瓣电影Top250

爬取豆瓣图书Top250并存入xls

爬取豆瓣音乐Top250并存入xls

利用scrapy框架爬取豆瓣top250

爬虫学习--MOOC爬取豆瓣top250

笔记：Scrapy 爬取豆瓣电影Top250

爬虫教程——用Scrapy爬取豆瓣TOP250

（十七）Python爬虫：爬取豆瓣电影TOP250

使用scrapy爬取豆瓣电影Top250

利用Python爬取豆瓣top250

用scrapy框架爬取豆瓣Top250电影

python+scrapy+mongoDB爬取豆瓣top250

scrapy ------ 爬取豆瓣电影TOP250

python爬虫--爬取豆瓣top250电影名

python爬取豆瓣电影Top250的信息

用Python爬取豆瓣Top250的电影标题

【爬虫】爬取豆瓣图书TOP250

爬取豆瓣TOP250个电影信息

BS4_爬取豆瓣电影Top250

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)