爬虫入门实例（五） - 代码天地

爬虫入门实例（五）

其他 2019-02-24 12:10:34 阅读次数: 0

爬取猫眼电影榜单

import json
import os
import requests
from bs4 import BeautifulSoup


def get_html(url):
    try:
        d = {'User Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}
        r = requests.get(url, params=d)
        if r.status_code == 200:
            return r.text
        return None
    except:
        return None

def parse_html(html):
    soup = BeautifulSoup(html, "html.parser")
    # 创建BeautifulSoup对象,解析HTML网页
    data = soup.body.find_all('div', {'class': 'movie-item-info'})
    # 获取soup的body部分，找到class为movie-item-info的div
    name = []
    # 建立一个空列表，储存爬取的数据
    for i in data:
        lis = i.text.replace('\n', " ")
        # 取标签文本部分，并用空格代替换行
        name.append(lis)
        # 存入列表
        t = 1
    for i in name:
        print(t, i)
        t += 1
    return name

def write_down(lis):
    with open('C:/Users/root/Desktop/py/猫眼.txt','a') as f:
        for i in lis:
            f.write(json.dumps(i,ensure_ascii=False) + '\n')
            # 注意编码false,
        f.close()

def main():
    url = 'https://maoyan.com/board/4'
    html = get_html(url)
    list = parse_html(html)
    write_down(list)

# __main__python的主函数
if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/dldl1718/article/details/86629342

爬虫入门实例（五）

爬虫入门：urllib爬虫实例

request入门爬虫实例

爬虫入门实例（六）

爬虫入门实例（二）

爬虫入门实例（一）

爬虫入门实例（四）

爬虫入门实例（三）

爬虫入门（五）

Java爬虫入门五

2018.5.4（python网络爬虫与信息提取入门）Requests库的五个实例

Python爬虫入门实例五之淘宝商品信息定向爬取(优化版)

Python爬虫入门<五>—DebugLog

Python 入门练习实例五

爬虫（五）“中国大学排名定向爬虫”实例

scrapy爬虫框架入门实例

scrapy爬虫框架简单入门实例（二）

scrapy爬虫框架简单入门实例（一）

python爬虫之scrapy之入门实例

10个python爬虫入门实例

【源码】10 个 Python 爬虫入门实例！

嵩天老师爬虫实例笔记（五）--股票数据Scrapy爬虫实例

python爬虫笔记（五）网络爬虫之提取——实例：中国大学排名爬虫

python爬虫笔记（五）网络爬虫之提取——实例优化：中国大学排名爬虫

python数据分析之爬虫五：实例

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）

爬虫实例

Python爬虫天气预报实例详解（小白入门）

这个Python爬虫的简单入门及实用的实例，你会吗？

10个Python完整小项目入门爬虫实例

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)