Python学习--猫眼电影TOP100榜单抓取 - 代码天地

Python学习--猫眼电影TOP100榜单抓取

其他 2019-04-17 23:01:42 阅读次数: 0

import requests
import re
import json
import time

def get_one_page(url):
    headers={'User-Agent':'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4) AppleWebKit/537.36(KHTML,like Geck) Chrome/52.0.2743.116 Safari/537.36'}
    response=requests.get(url,headers=headers)
    if response.status_code == 200:
        return response.text
    return None

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items=re.findall(pattern,html)
    for item in items:
        yield {
            '排列序号': item[0],
            '图片': item[1],
            '电影名': item[2],
            '演员': item[3].strip()[3:],
            '时间': item[4].strip()[5:],
            '成绩': item[5] + item[6]
        }

def write_to_file(content):
    with open('D://result.txt','a',encoding='utf-8') as f:
        #print(type(json.dumps(content)))
        f.write(json.dumps(content,ensure_ascii=False)+'\n')

def main(offset):
    url='http://maoyan.com/board/4?offset='+str(offset)
    html=get_one_page(url)
    #print(html)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)
if __name__ == '__main__':
    for i in range(10):
        main(offset=i*10)
        time.sleep(1)

猜你喜欢

转载自www.cnblogs.com/Mayfly-nymph/p/10726778.html

Python学习--猫眼电影TOP100榜单抓取

《崔庆才Python3网络爬虫开发实战教程》学习笔记（3）：抓取猫眼电影榜单TOP100电影，并存入Excel表格

Python爬虫之一：抓取猫眼电影TOP100

Python 抓取猫眼电影TOP100数据

抓取猫眼电影排行top100

抓取猫眼TOP100电影信息

爬虫_抓取猫眼电影TOP100

猫眼电影top100抓取案例

Python爬虫学习案例之抓取猫眼电影排行Top100

爬取猫眼电影榜单TOP100

抓取猫眼榜单top100源代码分享

python爬虫实战：利用pyquery爬取猫眼电影TOP100榜单内容-1

python爬虫实战：利用beautiful soup爬取猫眼电影TOP100榜单内容-1

【python爬虫自学笔记】（实战）----爬取猫眼电影榜单Top100

50行Python爬取猫眼电影TOP100榜单信息

猫眼电影top100

正则匹配的抓取猫眼电影排行Top100

00_抓取猫眼电影排行TOP100

spider(猫眼电影Top100信息抓取)

python爬虫系列案例1-抓取猫眼电影top100（读取-解析-存储）

用Python3抓取并分析猫眼电影TOP100

Python requests + 正则表达式猫眼电影top100 信息抓取

python网络爬虫--正则表达式抓取猫眼电影排行TOP100

python实战---猫眼榜单：TOP100榜

python：猫眼电影TOP100的电影爬取

Python爬取猫眼电影排行TOP100的电影

python爬虫爬取猫眼电影Top100

python爬虫，爬取猫眼电影top100

python爬虫猫眼电影排行top100实例

python多线程秒爬猫眼电影Top100

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)