Reptile était le principe de base

Cité: Nous pouvons utiliser l'Internet par rapport à un grand réseau, et les reptiles (crawler web) à savoir sur Internet est araignée rampant. Le nœud de réseau par rapport à une page, ce qui équivaut à monter des reptiles a visité la page, l'accès à ses informations. La connexion entre les noeuds peut être comparé à lier la relation entre les pages et les pages, donc araignées après l'adoption d'un nœud, un nœud peut se connecter continué à marcher le long pour atteindre le nœud suivant, qui est, de continuer à obtenir les pages suivantes par le biais d'une page Web, de sorte que l'ensemble le noeud de réseau peut être une araignée à explorer toutes les données du site peut être rampé vers le bas.

Vue d'ensemble des reptiles

1. Obtenir la page

Reptile première chose à faire est d'obtenir le code source de la page. Puis extraire les informations souhaitées.

Parlé sur le concept de la demande et la réponse, le serveur envoie une requête au site, est le retour du corps en réponse au code source de la page web

La plupart critique est configurée et envoie une requête au serveur et reçoit alors une réponse analysable

Python fournit de nombreuses bibliothèques pour nous aider à réaliser cette opération, comme urllib, les demandes et ainsi de suite. Nous pouvons utiliser ces bibliothèques pour nous aider HTTP demande la configuration de données de l'opération, les demandes et les réponses peuvent être utilisées pour fournir aux bibliothèques représentent seulement besoin d'analyser la structure de données partie du corps obtenue après la réponse, à savoir, pour obtenir la source de la page, afin que nous puissions utiliser le programme pour mettre en œuvre le processus d'obtention d'une page Web.

2. Extraire les informations

Après avoir obtenu le code source de la page, l'étape suivante est l'analyse du code source de la page Web, extraire les données que nous voulons. Tout d'abord, la méthode la plus commune est l'utilisation d'expressions régulières pour extraire, qui est une méthode universelle, mais sujette aux erreurs dans la construction d'expressions régulières et plus complexes.

En outre, étant donné que la structure du web il y a certaines règles, donc il y a des pages Web à l'information extrait basé sur le noeud d'attribut de page, sélecteurs CSS ou les bibliothèques XPath, comme Belle soupe, pyquery, lxml comme. L'utilisation de ces bibliothèques, nous pouvons rapidement et extraire efficacement les pages d'information, tels que les nœuds d'attributs, texte, valeurs, etc.

注:提取信息是爬虫非常重要的部分,可以便于我们后续处理数据。

3. Enregistrer les données

Après avoir enregistré des informations d'extrait, nous généralement extraire quelque part des données pour une utilisation ultérieure. Il existe différentes formes conservées ici, comme on peut être sauvé simplement comme TXT ou texte JSON peuvent être enregistrées à la base, tels que MySQL et MongoDB, etc., peuvent également être enregistrés sur un serveur distant, comme l'opération réalisée par SFTP.

4. Des procédures automatisées

processus automatisé, ce qui signifie que les reptiles peuvent remplacer les gens à faire ces opérations. Tout d'abord, bien sûr, nous pouvons extraire ces informations manuellement, mais l'équivalent de particulièrement important ou si vous voulez un accès rapide aux grandes quantités de données, puis doit certainement encore compter sur le programme. Reptile juste pour nous de compléter ce travail rampants processus automatisé, il peut être une variété de la gestion des exceptions dans le processus d'analyse, nouvelle tentative d'erreur et d'autres opérations, afin d'assurer la poursuite de leur fonctionnement efficace de rampé.

Quel type de données peut être pris

La plus courante consiste à récupérer le code source HTML (pas de données peuvent être téléchargées manuellement)

Certains interface api aux données renvoyées sous forme de chaîne JSON, qui est plus pratique pour attraper le (ha ha) (format JSON est de trier les informations selon certaines règles)

Nous pouvons aussi voir une variété de données binaires, telles que des images, de la vidéo et l'audio. L'utilisation des reptiles, on peut ramper vers le bas ces données binaires, puis enregistrez le fichier au nom correspondant. Catch CSS, JavaScript et fichiers de configuration

pages de rendu JavaScript

Lib ou requ disent quand une pages web « rampants, obtenir tournée, le code réel et voir que le navigateur est le même. Un problème très commun. Maintenant , de plus en plus de pages Web en utilisant Ajax, des outils modulaires frontaux à construire, la page entière est rendue possible par le JavaScript, le code HTML qui est original est une coquille vide.  corps , il n'y a qu'un seul identifiant de noeud pour le conteneur de noeud, mais il convient de noter que l'introduction de l'application. après le nœud du corps, il sera responsable de l'ensemble rendant le site. html

Méthodes: Pour de tels cas, nous pouvons analyser l'interface Ajax fond peut également être utilisé Sélénium, Splash cette bibliothèque pour mettre en œuvre la simulation de rendu JavaScript.

Je suppose que tu aimes

Origine www.cnblogs.com/rstz/p/12587351.html
conseillé
Classement