python爬虫，网页采集器 - 代码天地

python爬虫，网页采集器

其他 2020-04-02 15:12:03 阅读次数: 0

"""
步骤：
1 指定URL
2 发起请求
3 获取响应数据
4 持久化存储

案例1：网页采集器

反反爬虫方法：
UA伪装 user-agent请求载体身份标识：1 浏览器 2 爬虫
门户网站的服务器会检测对应请求的载体身份标识，如果不是浏览器，则表示该请求为不正常的请求
UA就是伪装成浏览器

"""

import requests
if __name__=="__main__":
    #ua伪装。在 开发者工具-network-headers 中找请求头
    headers = {
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
    }
    url = 'https://www.sogou.com/web'
    #处理url携带的参数，封装到字典中
    keyword = input("录入你要搜索的关键词：")
    param = {

        'query': keyword

    }
    response =  requests.get(url= url,params=param,headers=headers)
    page_text = response.text
   # print(page_text)
    fileName = keyword+'.html'
    with open("./"+fileName,'w',encoding='utf-8')as fp:
        fp.write(page_text)
    print("爬取数据完毕")

发布了97 篇原创文章 · 获赞 42 · 访问量 12万+

私信关注

猜你喜欢

转载自blog.csdn.net/LVGAOYANH/article/details/104597242

python爬虫，网页采集器

Python爬虫之用requests模块做一个简易的网页采集器

爬虫之简易的网页采集器（代码与教程）

requests网页采集器

防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

requests之网页采集器

爬虫——八爪鱼采集器

requests-爬虫实现一个简易网页采集器

python从零写一个采集器:获取网页信息

python从零写一个采集器:获取网页源码

python写exploit采集器

Python简单两步实现天气爬虫采集器

图片采集器

爬虫开发过程 - 采集器主程序开发

爬虫开发过程 - 采集器设计

爬虫初接触——八爪鱼采集器

爬虫工具之【八爪鱼采集器】

零代码爬虫工具----------后羿采集器

蓝天采集器：一个开源的PHP爬虫系统，可视化的采集器

《火车头采集器采集网页数据》火车头配置规则采集信息文章数据。

1-2 requests模块之简单的网页采集器

浅析通用爬虫软件—— 集搜客与八爪鱼采集器

swing版网络爬虫-丑牛迷你采集器2.0

【易语言】易语言制作-bt天堂ok资源采集器(网络爬虫)

爬虫技术实现空间相册采集器V.0.0.1版本

《火车头采集器采集网页数据》fiddler2抓包工具使用图文教程。

数据采集器协议定义

图像轮廓采集器--使用教程

【自动化】火车采集器

Fragment：LifecycleOwnerSSC采集器修复

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)