Premiers pas avec le robot d'exploration Web Python3 le plus populaire

Auteur: Jack Cui Source:

http://cuijiahua.com/blog/2017/10/spider_tutorial_1.html

 

Introduction aux robots d'exploration Web

 

Les robots d'exploration Web sont également appelés araignées Web. Il explore le contenu Web en fonction de l'adresse Web (URL) et l'adresse Web (URL) est le lien du site Web que nous saisissons dans le navigateur. Par exemple: https://www.baidu.com/, c'est une URL.

 

1. Examiner les éléments

 

 

Entrez l'adresse URL dans la barre d'adresse du navigateur, cliquez avec le bouton droit sur la page Web, puis recherchez et vérifiez. (Différents navigateurs sont appelés différemment, le navigateur Chrome est appelé inspection, le navigateur Firefox est appelé élément de visualisation, mais les fonctions sont les mêmes)

 

image

 

Nous pouvons voir qu'un gros code push apparaît sur le côté droit, et ces codes sont appelés HTML. Qu'est-ce que le HTML? Pour donner un exemple simple à comprendre: nos gènes déterminent notre apparence d'origine, et le HTML renvoyé par le serveur détermine l'apparence d'origine du site Web.

 

image

 

Pourquoi est-ce un look primitif? Parce que les gens peuvent subir une chirurgie plastique! Le cœur brisé, y a-t-il quelque chose? Le site Web peut-il également proposer de la chirurgie plastique? peut! S'il vous plaît voir l'image ci-dessous:

 

image

 

Puis-je avoir autant d'argent? Visiblement impossible. Comment plastifier le site Web? C'est en modifiant les informations HTML renvoyées par le serveur. Chacun de nous est un chirurgien plasticien et peut modifier les informations de la page. Lorsque nous cliquons sur l'élément de révision sur la page, le navigateur localisera l'emplacement HTML correspondant pour nous, puis nous pourrons modifier les informations HTML localement.

 

Pour donner un autre petit exemple: nous savons tous que l’utilisation de la fonction de mémorisation du mot de passe du navigateur transformera le mot de passe en un tas de petits points noirs, qui sont invisibles. Le mot de passe peut-il être affiché? Oui, juste une petite opération sur la page! Prenez Taobao comme exemple, cliquez avec le bouton droit de la souris sur la zone de saisie du mot de passe et cliquez sur Vérifier.

 

image

 

 

Comme vous pouvez le voir, le navigateur localise automatiquement l'emplacement HTML correspondant pour nous. Remplacez la valeur de l'attribut de mot de passe dans la figure ci-dessous par la valeur de l'attribut de texte ( modifiez directement dans le code à droite ):

 

 

image

 

Le mot de passe dont nous avons laissé le navigateur se souvenir apparaît comme ceci:

 

image

 

Que voulez-vous dire par tant de choses? Le navigateur obtient des informations du serveur en tant que client, puis analyse les informations et nous les affiche. Nous pouvons modifier les informations HTML localement pour faire un lifting de la page Web, mais les informations que nous avons modifiées ne seront pas renvoyées au serveur et les informations HTML stockées par le serveur ne seront pas modifiées. Actualisez l'interface et la page retrouvera son apparence d'origine. C'est la même chose que la chirurgie plastique: nous pouvons changer certaines choses superficielles, mais nous ne pouvons pas changer nos gènes.

 

2. Exemples simples

 

 

La première étape d'un robot d'exploration Web consiste à obtenir les informations HTML d'une page Web en fonction de l'URL. Dans Python3, vous pouvez utiliser urllib.request et des requêtes pour explorer des pages Web.

 

  • La bibliothèque urllib est intégrée en python, aucune installation supplémentaire n'est requise pour nous, tant que Python est installé, cette bibliothèque peut être utilisée.

  • La bibliothèque de requêtes est une bibliothèque tierce et nous devons l'installer nous-mêmes.

 

La bibliothèque de requêtes est puissante et facile à utiliser, c'est pourquoi cet article utilise la bibliothèque de requêtes pour obtenir les informations HTML de la page Web. L'adresse github de la bibliothèque de requêtes: https://github.com/requests/requests

 

 

(1) demande l'installation

 

Dans cmd, utilisez la commande suivante pour installer les requêtes:

 

demandes d'installation de pip

ou:

 

demandes easy_install

 

 

(2) Exemple simple

 

La méthode de base de la bibliothèque de requêtes est la suivante:

image

 

Adresse officielle du tutoriel chinois: http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

Les développeurs de la bibliothèque de requêtes nous ont fourni un tutoriel chinois détaillé, très pratique à interroger. Cet article n'expliquera pas tout son contenu, mais extraira une partie du contenu utilisé pour le combat réel.

Examinons d'abord la méthode requests.get (), qui est utilisée pour lancer une requête GET au serveur. Peu importe si vous ne comprenez pas la requête GET. Nous pouvons le comprendre comme ceci: obtenir en chinois signifie obtenir et saisir, puis la méthode requests.get () consiste à récupérer et à récupérer des données du serveur, c'est-à-dire à obtenir des données. Prenons un exemple (prenons www.gitbook.cn comme exemple) pour approfondir notre compréhension:

 

# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://gitbook.cn/'
    req = requests.get(url=target)
    print(req.text)

L'un des paramètres que la méthode requests.get () doit définir est l'url, car nous devons dire à la requête GET qui est notre cible et dont nous voulons obtenir les informations. Exécutez le programme pour voir les résultats:

 

image

 

À gauche, le résultat obtenu par notre programme, et à droite les informations obtenues en examinant les éléments sur le site www.gitbook.cn. Nous pouvons voir que nous avons obtenu avec succès les informations HTML de la page Web. Ceci est l'exemple le plus simple d'un robot d'exploration. Vous pouvez demander, je viens d'explorer les informations HTML de cette page Web, à quoi ça sert? Veuillez rester à l'écoute pour l'invité, il y aura des téléchargements de romans en ligne (site Web statique) et de beaux téléchargements de fonds d'écran (site Web dynamique) pour le combat réel, alors restez à l'écoute.

 

  1.  

 

 

 

 

FINIR

Envoyer le livre

 

 image Suivez la
réponse "camp front-end Web".
527252télécharger 

image

image Suivez la réponse "camp front-end Web". 527681 télécharger

image

 

Je suppose que tu aimes

Origine blog.csdn.net/bigzql/article/details/114867032
conseillé
Classement