[Aiqi produit] - [Nankai Computer] "Web Crawler et extraction d'informations" à la fin de l'automne de l'évaluation du 19e automne, documents de référence

[Avertissement] En cas d'infraction, veuillez en informer le contenu de ce blog. L'utilisation non commerciale sera supprimée. En cas d'infraction, veuillez m'en informer et je la supprimerai

Telles que ne pas répondre en temps opportun, ou ne comprennent pas, s'il vous plaît ajouter ma   lettre micro island68 QQ823173334 peut alors indiquer à partir RPSC   

J'espère communiquer avec vous via la plateforme de CSDN

Conserver pour son propre usage

"Crawlers et extraction d'informations" à la fin de l'automne 19

1. Si de nombreux robots explorent un site Web à pleine vitesse en même temps, il s'agit en fait d'une () attaque sur le site Web
XSS | DOS | DDOS | cross domain

2. Laquelle des balises HTML suivantes représente une section ou une section ()
<div> | <body> | <head> | <footer>

3. L'opération d'utilisation de UI Automator pour obtenir le contenu textuel affiché à l'écran consiste à utiliser la commande après avoir obtenu le contrôle ()
content | text | title | body correspondant

4. Le fichier CSV d'opération Python peut faire fonctionner la cellule par ()
liste de conteneurs | tuple | dictionnaire | collection

5. Object = (1, 2, 3, 4, 5) en Python, alors Objcet est ()
list | tuple | dictionary | collection

6. Les codes d'état courants HTTP indiquent que le serveur est occupé ()
500 | 503 | 403 | 404

7. L'opération pour ouvrir WeChat en utilisant UI Automator consiste à obtenir l'icône correspondante et à utiliser la commande ()
touch | click | push | hover

8. Object = {'obj_1': '1', 'obj_2': '2'} en Python, puis Objcet.get ('boj_1', '3') est ()
1 | 2 | 3 | Aucune sortie

9. L'utilisation de la technologie suivante () peut permettre un chargement asynchrone
HTML | AJAX | CSS | HTTP

10. Le contenu dans quel fichier du répertoire racine du site Web indiquera au robot d'indexation quelles données sont analysables et quelles données ne sont pas analysables ().
robot.txt | robot.html | robots.txt | robots.html

11. Quelle option dans les outils de développement de Chrome peut trouver des cookies
Éléments | Sources | Réseau | Performance

12. Laquelle des commandes suivantes est la commande de décompression sous Linux ()
curl | tar -zxvf | mkdir | cp

13. La forme de stockage des données dans MongoDB est similaire à ()
list | tuple | dictionary | collection

14. Laquelle des balises HTML suivantes représente l'élément de liste de définitions ()
<ul> | <li> | <tr> | <td>

15. La bibliothèque tierce en Python qui peut être utilisée pour convertir du texte en images en texte est
lxml | requests | beautifulsoup | pytesseract

16. Lequel des éléments suivants n'est pas un type de requête HTTP ()
GET | POST | PUT | SET

17. Lesquelles des balises HTML suivantes représentent les cellules standard d'un tableau HTML ()
<ul> | <li> | <tr> | <td>

18. Une fois le robot créé, vous pouvez utiliser la commande "scrapy () <nom du robot>" pour exécuter le robot.
démarrage | starwar | drawl | crawl

19. En-têtes de paramètre = (), ajoutez l'en-tête de demande à la demande Scrapy, de sorte que la demande du robot ait l'air d'avoir été lancée à partir du navigateur.
EN-TÊTE | EN-TÊTES | TÊTE | CORPS

20. Laquelle des commandes suivantes est un outil de transfert de fichiers qui fonctionne sur la ligne de commande en utilisant la syntaxe URL ()
curl | tar -zxvf | mkdir | cp

21. L'instruction pour obtenir la bibliothèque nommée db dans MongoDB est ()
client.db | client ('db') | client ['db'] | client {'db'}

22. Lesquelles des méthodes suivantes appartiennent à la méthode Python d'écriture de fichiers CSV ()
writeheaders | writeheader | writerrows | writerow

23. Quel est le rôle du middleware téléchargeur?
Remplacer l'IP de l'agent | Remplacer les cookies | Remplacer l'agent utilisateur | Réessayer automatiquement

24. Si le robot explore un site Web commercial et que le site Web cible utilise un mécanisme anti-reptile, alors forcer le mécanisme anti-reptile peut constituer () le
crime d'envahissement illégal d'un système informatique | crime d'obtention illégale de données de système informatique | crime d'obtention illégale de données informatiques | Crime d'acquisition illégale du système

25. Le conteneur Python () a une
liste de dérivation | tuple | dictionary | collection

26. Les robots d'exploration Web courants fonctionnent généralement en mode série
.

27. En règle générale, les sites Web qui doivent se connecter peuvent se connecter via des demandes GET.
Bien | mal

28. La liste des middleware d'agent proxy disponible doit être écrit en settings.py à l' intérieur
de la | mal

29. L'utilisation de la méthode get request dans les requêtes est requests.get ('URL', data = data)
correct | faux

30. Tout chargement asynchrone enverra une demande en arrière-plan
droit | mauvais

31. Pour exécuter Redis sous MacOS, vous pouvez exécuter le fichier redis-server dans le dossier src sous le dossier décompressé pour démarrer le service redis
src / redis-server
droite | mauvaise

32. Les fichiers du robot ne peuvent pas être exécutés et débogués à partir de Pycharm et ne peuvent être exécutés qu'à partir de la ligne de commande.
Bien | mal

33. L'activation du middleware du robot nécessite l'écriture d'un autre fichier
.

34. déjà créé crawler Scrapy * .py fichiers peuvent être gérés directement par Python
sur le | mal

35. Dans l'environnement Linux, dans l'environnement virtuel Python créé par Virtualenv, exécutez la commande pip pour installer la bibliothèque tierce sans utiliser la commande sudo.
Bien | mal

36. Dans les fichiers de bibliothèque dépendants de Scrapy, les couches inférieures de pywin32 et Twisted sont développées sur la base de ##.


37. middleware reptile numéro de séquence scrapy.spidermiddlewares.urllength.UrlLengthMiddleware est ## <br>


38. Exécutez la commande Redis sous Windows en tant que ## redis.windows.conf


Si vous devez utiliser pour accéder à la base de données en dehors du réseau, vous devez modifier l'installation MongoDB 39. profil MongoDB ## <br>


40. Bibliothèque lxml méthode Module etree.tostring etree () est ce qu'il faut faire avec <br>


41. Veuillez décrire le processus de recherche en profondeur dans le robot


 

Publié 96 articles originaux · loué 7 · 20 000+ vues

Je suppose que tu aimes

Origine blog.csdn.net/island33/article/details/105114097
conseillé
Classement