Die Rolle von Crawlern: Helfen Sie uns, Website-Informationen schnell zu extrahieren und zu speichern
Klassifizierung von Reptilien:
gewöhnliches Reptil
Reptilien sammeln
Sicherheitswissen zu Crawlern: Derzeit gibt es keine klare gesetzliche Regelung, aber jede offizielle Website hat ihre eigene Crawler-Vereinbarung (fügen Sie /robots.txt nach der URL hinzu).
Der Crawling-Prozess des Crawlers:
1. Holen Sie sich die Webseite
2. Informationen extrahieren
3. Daten speichern
2. Frontend-Grundlagen, die Crawler verstehen müssen:
HTML ist eine Hypertext-Auszeichnungssprache, die hauptsächlich für das Schreiben von Webseiteninhalten verantwortlich ist, CSS wird zum Dekorieren von Webseiten verwendet und JS wird zum Schreiben von Webseitenlogik verwendet.
Es gibt zwei Arten von Tags in HTML:
1. Allgemeine Tags: Attribute können innerhalb von Tags hinzugefügt werden, und andere Tags oder Inhalte können zwischen Tags geschrieben werden, z. B.: h1-Tag
2. Selbstschließendes Tag: Es gibt nur ein Tag und Attribute können nur zum Tag hinzugefügt werden, z. B.: img-Tag
Klassifizierung von Webseiten: statische Webseiten (Dateninhalt liegt im Allgemeinen in HTML vor), dynamische Webseiten (Verbinden von Webseiten mit Datenbanken über js)
Die „Entwicklertools“ von Google Chrome sind zweifellos die bequemste Art, sie zu öffnen: Öffnen Sie Google Chrome, klicken Sie mit der rechten Maustaste und wählen Sie „Prüfen“.
Es ist auch sehr praktisch, den Quellcode der Webseite in Google Chrome anzuzeigen: Klicken Sie wie oben mit der rechten Maustaste und wählen Sie „Anzeigen“.
Je suppose que tu aimes
Origine blog.csdn.net/sz1125218970/article/details/131036651