使用进程池抓取猫眼数据 - 代码天地

使用进程池抓取猫眼数据

其他 2018-08-01 12:13:05 阅读次数: 0

from urllib import request
from multiprocessing import Pool,Manager
import functools
from http import cookiejar
import json,re

#引入cookjar来放在cookie过期
cookie = cookiejar.CookieJar()
handle_cookie=request.HTTPCookieProcessor(cookie)

opener = request.build_opener(handle_cookie)
#添加UA来简单防止反爬
opener.addheaders =[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:61.0) Gecko/20100101 Firefox/61.0')]



def write_to_file(dic):
#    将字典转换成json字符串写入文件方便调用
    dic_json  = json.dumps(dic,ensure_ascii=False)

    with open('maoyan.txt','a',encoding='utf-8') as f:
        f.write(dic_json+'\n')
    return None


def get_file(html):
#    创建正则表达式对象对得到的HTML进行匹配
    pattern =re.compile('<p class="name">[\s\S]*?title="([\s\S]*?)"[\s\S]*? '
                        '<p class="star">([\s\S]*?)</p>[\s\S]*?<p class="releasetime">([\s\S]*?)</p>')
    result = re.findall(pattern,html)
#    将匹配的可迭代对象进行遍历,生成生成器传出
    for i in result:
        yield {'title':i[0],
               'autor':i[1].strip(),
               'time':i[2],
         }

def get_html(lock,offset):
#    拼接目标URL 使用request的方法爬取信息
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    req = request.Request(url)
#    判断是否成功请求网站
    if opener.open(req).code ==200:
        html = opener.open(req).read().decode()
    else:
        return None

    for i in get_file(html):
#        通过加锁的形式来保证写入文件的准确率
        lock.acquire()
        write_to_file(i)
        lock.release()


if __name__ == '__main__':
#    从Manage里获取lock锁 并且使用functools 对原函数增加新变量
    manager = Manager()
    lock = manager.Lock()
    new_get_html =functools.partial(get_html,lock)
#    使用进程池加快获取速度

    pool = Pool()

    pool.map(new_get_html,[i*10 for i in range(10)])
#关闭进程池
    pool.close()
    pool.join()

猜你喜欢

转载自blog.csdn.net/qq_42196922/article/details/81280421

使用进程池抓取猫眼数据

用进程池抓取猫眼电影，高能：向进程池内运行的进程传递进程锁的对象

抓取猫眼电影实时数据

笔记-多进程抓取猫眼TOP100

Python爬虫入门实战之猫眼电影数据抓取！

Python 抓取猫眼电影TOP100数据

使用进程池/线程池加速 Python数据处理

抓取猫眼电影排行

抓取猫眼电影

。。抓取猫眼电影排行

进程池，线程池使用

数据挖掘_多进程抓取

进程数据共享-进程池

python进程池的使用

python 爬虫（五）json模块最全攻略（相关方法详解） + 使用正则抓取数据的案例（猫眼电影 + 股吧 + 药网）

使用 Socket 抓取数据

使用Scrapy抓取数据

python简单爬虫实例5之抓取猫眼网数据并存放数据库

如何使用爬虫代理ip池抓取数据更有效？

Python冒充其他浏览器抓取猫眼电影数据(绕过反爬虫)

Python爬虫入门实战之猫眼电影数据抓取（实战篇）

Python爬虫入门实战之猫眼电影数据抓取(理论篇)

python简单爬虫实例之猫眼网Top100数据抓取

【Python3 爬虫学习笔记】基本库的使用 13 —— 抓取猫眼电影排行

使用Python抓取猫眼的评论，来看看《复联4》有多火

使用正则表达式爬虫抓取猫眼电影排行Top100

【python】-- 多进程的基本语法、进程间数据交互与共享、进程锁和进程池的使用

Python进程池的简单使用

Python进程池Pool的使用

管道，进程间数据共享，进程池

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)