Robot d'exploration Python - utilisation correcte de l'adresse IP proxy

        Contenu principal : Principes d'utilisation de l'IP proxy, comment définir l'IP proxy dans votre propre crawler, comment savoir si l'IP proxy est valide, si elle n'est pas valide, où est le problème, IP proxy pour un usage personnel (payant).

Table des matières

Proxy ip principe

Que se passe-t-il après avoir saisi l'URL ?

Qu'est-ce que l'ip du proxy a fait ?

Pourquoi utiliser un proxy ?

Proxy ip est utilisé dans le code du robot

Obtention de l'ip du proxy

Vérifiez si l'IP du proxy est valide

Dépannage des problèmes qui n'ont pas pris effet

1. Le protocole de requête ne correspond pas

2. Échec du proxy


Proxy ip principe

Que se passe-t-il après avoir saisi l'URL ?

1. Le navigateur obtient le nom de domaine

2. Obtenir l'adresse IP du serveur correspondant au nom de domaine via le protocole DNS

3. Le navigateur et le serveur correspondant établissent une connexion TCP via une poignée de main à trois voies

4. Le navigateur envoie une demande de données au serveur via le protocole HTTP

5. Le serveur renvoie le résultat de la requête au navigateur

6. Agitez quatre fois pour libérer la connexion TCP

7. Résultat du rendu du navigateur

Qui implique:

Couche application : HTTP et DNS

Couche de transport : TCP UDP

Couche réseau : IP ICMP ARP

Qu'est-ce que l'ip du proxy a fait ?

En termes simples, c'est:

A l'origine votre visite

Votre visite après avoir utilisé un proxy

Pourquoi utiliser un proxy ?

        Parce que nous rencontrons souvent de telles situations dans le processus de fabrication de reptiles. Initialement, le robot s'exécute normalement et récupère les données normalement. Tout semble si beau. Cependant, des erreurs peuvent survenir après une tasse de thé, comme 403 Forbidden. Lorsque vous ouvrez la page Web et jetez un coup d'œil, vous verrez peut-être une invite du type "Votre fréquence d'accès IP est trop élevée". La raison de ce phénomène est que le site Web a pris des mesures anti-crawler. Par exemple, le serveur détectera le nombre de requêtes pour une certaine IP dans une unité de temps, s'il dépasse ce seuil, il refusera directement le service et renverra des messages d'erreur, cette situation peut être appelée blocage d'IP. L'ip proxy évite ce problème :

Proxy ip est utilisé dans le code du robot

Tout comme masquerading l'en-tête lors de la demande, masquerading ip, faites attention à { }

proxies = {
           'https':'117.29.228.43:64257',
           'http':'117.29.228.43:64257'
       }

requests.get(url, headers=head, proxies=proxies, timeout=3) #proxies

Obtention de l'ip du proxy

        Comme les proxys que nous venons de stocker dans proxys , ils peuvent être directement utilisés comme paramètres dans les requêtes. Faisons maintenant les procurations

        D'abord ouvrir un fournisseur d'IP proxy, je choisis IPIDEA ici (la chaîne est toujours considérée comme une publicité, le lien est placé en dessous, je rappelle qu'il y a un essai gratuit pour l'inscription d'un nouvel utilisateur), on utilise généralement l'api pour obtenir, que c'est-à-dire que l'interface obtient directement l'ip dont nous avons besoin, le fournisseur nous renvoie les informations d'ip qui nous sont fournies :

 Vous pouvez l'ajuster selon vos besoins :

        Ici, je clique à partir de l'URL pour utiliser l'API à démontrer, et un lien URL sera généré. Nous demandons ce lien directement pour obtenir les informations détaillées de l'IP proxy.

# 拿到供应商给我们的代理IP
URL = "https://www.ipidea.net/?utm-source=csdnhao&utm-keyword=%3Fcsdnhao"

# 这里参数控制了数量 格式 和ip协议等等 这也算是它的一个优势吧,多的话可以提取几百,而且可以指定城市从固定地点提取ip,更符合爬虫模拟人类的行为特征。
url = "http://api.proxy.ipidea.io/getProxyIp?num=1&return_type=txt&lb=1&sb=0&flow=1&regions=&protocol=http"

# 输出ip
res = requests.get(url)
print(res.text)
# 这个ip就可以放在我们实际要请求的网页requests中了

Vérifiez si l'IP du proxy est valide

Nous visitons un site Web qui renvoie notre adresse IP :

print(requests.get('http://httpbin.org/ip', proxies=proxies, timeout=3).text)

        Le point clé est que j'utilise l'IP proxy pour accéder. Si l'IP renvoyée n'est pas la mienne, cela signifie que l'IP proxy est disponible, peut être déguisée et peut également nous aider à récupérer les informations que nous voulons.

Jetons un coup d'œil aux quatre IP proxy différentes que j'ai utilisées, qui sont toutes en vigueur,

Dépannage des problèmes qui n'ont pas pris effet

Si vous renvoyez toujours l'adresse locale, 99 % essaient l'une des deux choses suivantes :

1. Le protocole de requête ne correspond pas

Pour faire simple, si vous demandez http, vous devez utiliser le protocole http, et si c'est https, vous devez utiliser le protocole https.

Si ma requête est http, mais uniquement https, l'ip locale sera utilisée.

        Le point clé est que l'agent que nous avons obtenu prend en charge les deux, mais si vous devez le configurer comme moi, c'est comme acheter un oiseau. Si vous ne lui donnez pas de place pour voler, bien sûr, il ne pourra pas voler. Ceci nous appartient.

2. Échec du proxy

        Ce n'est pas notre problème. Le soi-disant bon marché n'est pas bon, et le bon n'est pas bon marché. Si des reptiles à grande échelle sont effectivement nécessaires, il est préférable d'acheter des IP proxy. Certains proxys avec des publicités en ligne ont un rapport coût-efficacité un peu faible. J'ai déjà partagé ceux que j'utilise souvent, et je ne recommande pas trop si je ne les connais pas.

        Bien sûr, si vous êtes un passe-temps, vous pouvez également trouver des agents libres sur Internet pour jouer, mais l'effet n'est vraiment pas très bon. . . . .

Je suppose que tu aimes

Origine blog.csdn.net/qq_52213943/article/details/124424365
conseillé
Classement