豆瓣网post 爬取带验证码 - 代码天地

豆瓣网post 爬取带验证码

其他 2018-10-21 16:08:20 阅读次数: 0

# -*- coding: utf-8 -*-
import scrapy
import requests
from ..bao.jiema import get_number

fromdata = {
"source": "movie",
"redir": "https://movie.douban.com/",
"form_email": "账号",
"form_password": "密码",
"login": "登录"
}

class BanSpider(scrapy.Spider):
    name = 'ban'
    # allowed_domains = ['ban']
    start_urls= ['https://www.douban.com/accounts/login?source=movie']
    def parse(self, response):
        print(response.url)
        images = response.xpath('//*[@id="captcha_image"]/@src').extract_first()
        all_id = response.xpath('//*[@id="lzform"]/div[5]/div/div/input[2]/@value').extract_first()
        if images:

            with open('a.jpg', 'wb+')as f:
                response1 = requests.get(url=images)
                f.write(response1.content)
            fromdata['captcha-id'] = all_id

            fromdata["captcha-solution"] = get_number()
        print(fromdata)
        urls = response.url
        yield scrapy.FormRequest(urls, formdata=fromdata, callback=self.after_login)
    def after_login(self,response):
        all_title = response.xpath('//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]/text()').extract()
        print(all_title)

猜你喜欢

转载自www.cnblogs.com/gaosai/p/9825285.html

豆瓣网post 爬取带验证码

爬虫--selenium爬取带验证码的豆瓣网

利用scrapy爬取需要登录的网站的数据（包含验证码的处理）--以爬取豆瓣网数据为例

使用selenium+Java爬取知网数据解决验证码问题

爬取豆瓣网电影的数据信息

爬取《恋爱的犀牛》豆瓣网书摘

Python爬虫学习4：requests.post模拟登录豆瓣（包括获取验证码）

selenium模拟浏览器登陆豆瓣（带验证码）

爬虫实战1--使用selenium访问豆瓣网验证码处理

scrapy模拟登陆豆瓣网(处理验证码登陆)

Python爬取豆瓣网图书评论

Python爬取豆瓣网表单提交登陆

第三篇 - 爬取豆瓣电影网

python 爬取豆瓣网搜索结果同城活动数据

01爬取豆瓣网电影数据进行numpy的练习

实例学习——爬取豆瓣网TOP250数据

爬取豆瓣网电影排行榜

Python爬取豆瓣网热门电影程序

爬取豆瓣网图书TOP250的信息

2020/2/28 爬取豆瓣网电影

隐藏自己是爬虫装作客户爬取豆瓣网

python爬取豆瓣网花木兰短评

简单带验证码的登陆网站破解

爬虫day1 get和post 爬豆瓣

学校教务网验证码识别

基于cookie登录+验证码如何爬取

验证码的爬取和识别详解

手动给爬取的验证码贴标签

session 验证码登录豆瓣看《头号玩家》评论

Python使用selenium模拟登录豆瓣（无验证码）

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)