豆瓣电影前250名爬虫并写入excel源码 - 代码天地

豆瓣电影前250名爬虫并写入excel源码

移动开发 2023-09-30 17:45:38 阅读次数: 0

import requests
from bs4 import BeautifulSoup
from openpyxl import Workbook
import time
import lxml

def get_page(url):
    headers = {
    
    
       "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
    }
    response = requests.get(url, headers = headers)#请求数据
    data = response.text
    soup = BeautifulSoup(data, 'lxml')#解析数据形成文档树结构
    return soup

def get_page_detail(url):
    soup = get_page(url)
    all_film = soup.findAll('div', {
    
    'class':'item'})#找到每个电影的html
    for item in all_film:#从每个电影的html中找数据并添加到列表中
        rank = item.find('em').text
        name = item.find('span', {
    
    'class':'title'}).text
        score = item.find('span', {
    
    'class':'rating_num'}).text
        film_tuple = (rank, name, score)
        list.append(film_tuple)
    return None

def main(start = 0, file = None):
    url = f'{
      
      base_url}?start={
      
      start}'#每个页面只有25个电影，所以要设置参数start
    get_page_detail(url)

if __name__ == "__main__":
    print('开始执行')
    start = time.perf_counter()

    base_url = "https://movie.douban.com/top250"

#建立excel
    wb = Workbook()
    ws = wb.active
    title = ['排名', '名字', '豆瓣评分']
    ws.append(title)
    list = []

    for i in range(0, 250, 25):
        main(start=i)

#将电影信息写入excel
    for item in list:
        ws.append(item)

#记得保存
    wb.save(filename='豆瓣前250的电影.xlsx')
    end = time.perf_counter()
    print('执行结束')
    print(f'耗时{
      
      end-start}')

猜你喜欢

转载自blog.csdn.net/weixin_45486992/article/details/122773494

豆瓣电影前250名爬虫并写入excel源码

python爬虫豆瓣排名前250的电影

python爬虫爬取豆瓣电影前250名电影及评分（requests+pyquery)

python 获取豆瓣电影排行榜前250并写入excel

Python爬取豆瓣高分电影前250名

python爬虫--爬取豆瓣top250电影名

爬虫_豆瓣电影top250

python爬虫——豆瓣电影Top250

豆瓣TOP250 电影爬虫

爬虫豆瓣TOP250电影数据

豆瓣电影top250（网络爬虫）

【python爬虫】—豆瓣电影Top250

爬取豆瓣电影评分前250部电影

爬虫项目：requests爬取豆瓣电影TOP250存入excel中

豆瓣Top250电影信息python爬虫excel/sqlite数据存储教程

python爬虫（一）爬取豆瓣电影排名前50名电影的信息

python爬虫 —— 豆瓣电影top250电影

爬取豆瓣电影排行榜前250

我的第一个python爬虫：爬取豆瓣top250前100部电影

Python爬虫经典案例详解：爬取豆瓣电影写入Excel表格

爬虫脚本（抓取豆瓣电影Top250）

Python 爬虫实践-豆瓣电影Top250（待续）

python爬虫入门:豆瓣电影Top250抓取

Python爬虫获取豆瓣电影TOP250

【Python】Scrapy爬虫实战（豆瓣电影 Top 250）

（十七）Python爬虫：爬取豆瓣电影TOP250

R语言爬虫：豆瓣电影Top250（二）

R语言爬虫：豆瓣电影Top250（一）

【C语言爬虫】采集豆瓣电影top250

爬虫实践二--豆瓣top250电影

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)