从socket到爬虫 - 代码天地

从socket到爬虫

其他 2019-05-02 23:18:03 阅读次数: 0

　　　0.爬虫是一种我们模拟用户向网络服务器快速送请求以获得数据的工具，我们通常使用的爬虫是基于http协议的，http协议是一个典型的应用层的协议，协议就是一些规定，我们按照协议做事就不会错，通过底层一点的协议模拟高级一点的协议可以更好的理解协议。今天从协议，和代码实现两个方面来讲一下socket爬虫，能够通过socket编写爬虫能够更好的理解爬虫。

　　1.协议：

　　　　1.1.http是Hyper Text Transfer Protocol的缩写。主要的特点是简单快速。协议主体主要包括，请求行，请求头部，和请求数据。

　　　　1.2.请求行包括请求方法，请求的路径，以及请求的http版本号，请求方法有常见的post，get。还有常常在app或者client端使用的Put,delete等，路径就是url域名后面的一部分，请求版本号一般是http/1.1,现在http2.0也在使用了，可以尝试一下

　　　　1.3.请求头部包括一些常见的对请求的描述比如connection描述链接的状态，常见的有close也就是传完就断开链接，还有keep-alive，也就是常见的长链接。user-agent描述浏览器的信息。content-type描述数据的形式。还有很多，可以自行查看

　　　　1.4.请求数据。描述发送请求时附带的数据，get请求一般没有数据，post请求会把表单中的数据放在这里

　　2.代码展示：

　　　　

#以此文件演示基于http协议的爬虫
from socket import *


def genHttp1(host,path="/",method="GET"):
    temp = "{0} {1} HTTP/1.1\r\nHost:{2}\r\nConnection:close\r\n\r\n"
    request=temp.format(method,path,host)
    return request


def get(url,host):
    ip_port=(host,80)
    link = socket(AF_INET,SOCK_STREAM)
    link.connect(ip_port)
    requrl = genHttp1(host,path=url)
    print(requrl)
    link.send(requrl.encode("utf-8"))
    data = b''
    while True:
        d  = link.recv(1024)
        if d:
            data+=d
        else:
            break
    link.close()
    return data.decode("utf-8")


if __name__ == '__main__':
    print(get("/","www.baidu.com"))

猜你喜欢

转载自www.cnblogs.com/mayeye/p/10803719.html

从socket到爬虫

多看书，从socket到爬虫到分布式（大数据？）其实没多远

网络爬虫-Socket编程

从Socket到Django

Socket 发布到 MavenCentral

爬虫时遇到Socket is closed

socket linux 移植到solaris

爬虫从入门到出门

爬虫-从入门到入狱

pythn_socket_爬虫_server_demo

爬虫第一课----socket

Python爬虫 socket库应用详解

Python爬虫从基础到入门：认识爬虫

Java 爬虫从入门到实战

Python从入门爬虫到实战

《从0到1学爬虫》

python爬虫从入门到精通

socket入门到精通（一）字节顺序

守护进程到ipc,,(socket)整理

Flink从socket读取数据sink到redis

爬虫1 socket方式下载一张图片

python_socket_爬虫1_click_demo

Python爬虫 socket库详解及实践全部相关代码

Python爬虫 socket库实践——模拟连接发送接收数据

Python爬虫——使用socket模块进行图片下载

Python爬虫---socket模块http请求下载图片

python 笔记（3）——request、爬虫、socket、多线程

python爬虫从入门到放弃（一）- 认识爬虫

python爬虫从入门到放弃（二）- 爬虫的深层原理

爬虫从入门到放弃——爬虫的基本原理

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)