01_ Grundkenntnisse über Reptilien und Einführung in das Anfragemodul

Reptilien-Grundlagen

1. Einführung in Reptilien:

  • Die Rolle von Crawlern: Helfen Sie uns, Website-Informationen schnell zu extrahieren und zu speichern
  • Klassifizierung von Reptilien:
    • gewöhnliches Reptil
    • Reptilien sammeln
  • Sicherheitswissen zu Crawlern: Derzeit gibt es keine klare gesetzliche Regelung, aber jede offizielle Website hat ihre eigene Crawler-Vereinbarung (fügen Sie /robots.txt nach der URL hinzu).
  • Der Crawling-Prozess des Crawlers:
    • 1. Holen Sie sich die Webseite
    • 2. Informationen extrahieren
    • 3. Daten speichern

2. Frontend-Grundlagen, die Crawler verstehen müssen:

  • HTML ist eine Hypertext-Auszeichnungssprache, die hauptsächlich für das Schreiben von Webseiteninhalten verantwortlich ist, CSS wird zum Dekorieren von Webseiten verwendet und JS wird zum Schreiben von Webseitenlogik verwendet.
  • Es gibt zwei Arten von Tags in HTML:
    • 1. Allgemeine Tags: Attribute können innerhalb von Tags hinzugefügt werden, und andere Tags oder Inhalte können zwischen Tags geschrieben werden, z. B.: h1-Tag
    • 2. Selbstschließendes Tag: Es gibt nur ein Tag und Attribute können nur zum Tag hinzugefügt werden, z. B.: img-Tag
  • Klassifizierung von Webseiten: statische Webseiten (Dateninhalt liegt im Allgemeinen in HTML vor), dynamische Webseiten (Verbinden von Webseiten mit Datenbanken über js)
  • Die „Entwicklertools“ von Google Chrome sind zweifellos die bequemste Art, sie zu öffnen: Öffnen Sie Google Chrome, klicken Sie mit der rechten Maustaste und wählen Sie „Prüfen“.
    Fügen Sie hier eine Bildbeschreibung ein
  • Es ist auch sehr praktisch, den Quellcode der Webseite in Google Chrome anzuzeigen: Klicken Sie wie oben mit der rechten Maustaste und wählen Sie „Anzeigen“.

Je suppose que tu aimes

Origine blog.csdn.net/sz1125218970/article/details/131036651
conseillé
Classement