Python爬虫学习-Day6

1、什么是IP

  • IP,互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),缩写为IP地址(英语:IPAddress),是分配给用户上网使用的网际协议(英语:Internet Protocol, IP)的设备的数字标签。
  • 用来在网络中标记一台电脑的一串数字,每个IP地址包括两部分,网络地址和主机地址。
  • 网络地址的最高位必须是0。
  • 国际规定有一部分IP地址是用于我们的局域网使用的,也就是属于私网IP,不在公网中使用,它们的范围是10.0.0.0~10.255.255.255/172.16.0.0~172.31.255.255/192.168.0.0~192.168.255.255。
  • IP地址127.0.0.0~127.255.255.255用于回路测试。
  • 子网掩码不能单独存在,必须与IP地址一起使用。
  • 子网掩码的作用是将IP地址划分成网络地址和主机地址两部分。
  • 主机号全为0,表示网络号。
  • 主机号全为1,表示网络广播。

2、为什么会出现IP被封

  • 出现IP被封现象的原因是网站采取了一些反爬的措施,比如,服务器会检测某个IP在单位时间内的请求次数,如果超过某个阀值,那么服务器会直接拒绝服务,返回一些错误信息。
  • 出现IP被封后,可以进行伪装请求头,即将网络爬虫的请求头模仿成浏览器的请求头,迷惑服务器以为是用户。
  • 方法二是进行间隔时间的设定,比如爬取的时候带个不定长时间作为缓冲。
  • 方法三是设置代理IP,爬取的过程中不断的换IP,达到反反爬虫的目的。

3、爬取网上的免费代理IP

爬取快代理https://www.kuaidaili.com/中的免费IP
首先分析出IP与port的网页位置
在这里插入图片描述
利用re库进行爬取
正则表达式为:(.?)[\s\S]?([\s\S]*?)
将抓取IP、port放进csv文件中。
代码如下:

import requests
import re
import json
import time
import random
from multiprocessing import Pool

MAXSLEEPTIME = 3
MINSLEEPTIME = 1
STAUS_OK = 200
MAX_PAGE_NUM = 10
SERVER_ERROR_MIN = 500
SERVER_ERROR_MAX = 600
CLIENT_ERROR_MIN = 400
CLIENT_ERROR_MAX = 500

def get_one_page(url):
    headers = {'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 14_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.text
    return None

def parse_one_page(html):
    pattern = re.compile(
            '<td data-title="IP">(.*?)</td>[\s\S]*?<td data-title="PORT">([\s\S]*?)</td>'
            )
    items = re.findall(pattern, html)
    return items
     
def write_to_file(item):
    with open("ip.csv", 'a', encoding="utf-8") as f:
        f.write(json.dumps(item, ensure_ascii=False)+'\n')

def crawl_one_page(offset):
    url = 'https://www.kuaidaili.com/free/inha/'+str(offset)+'/'
    html = get_one_page(url)
    parse_one_page(html)
    write_to_file(parse_one_page(html)[0])
    time.sleep(random.randint(MINSLEEPTIME,MAXSLEEPTIME))
    
if __name__ == "__main__":
    pool = Pool(1)
    pool.map(crawl_one_page, [i for i in range(1,300)])
    pool.close()
    pool.join()

猜你喜欢

转载自blog.csdn.net/weixin_42937385/article/details/88258381
今日推荐