Para programadores que frequentemente viajam na indústria de rastreadores da Internet, como perceber rapidamente que a automação e a eficiência do programa são resultado da precipitação de sua própria tecnologia, de modo que o suporte ao banco de dados será necessário para usar os rastreadores Python? Abaixo estão algumas informações sobre as bibliotecas que uso com frequência.
biblioteca de pedidos:
1. urllib: A biblioteca urllib é uma biblioteca que vem com Python3 (Python2 tem urllib e urllib2, e é unificada como urllib em Python3).Esta biblioteca é a biblioteca mais simples do crawler.
2. request: request pertence a uma biblioteca de terceiros, que é muito mais simples de usar do que a urllib, e tem funções mais poderosas.É a biblioteca de requisição mais usada.
3. Selenium: O Selenium pertence a uma biblioteca de terceiros.É uma ferramenta de teste automatizada que pode ser usada para concluir automaticamente as operações do navegador, como clicar, puxar para baixo, arrastar etc., e geralmente conclui operações ajax complexas.
Biblioteca de análise:
1. lxml: pertence à biblioteca de terceiros, oferece suporte à análise de HTML e xml, oferece suporte ao método de análise XPath e a eficiência da análise é muito alta.
2. Beautiful Soup: uma biblioteca de terceiros com API poderosa e fácil de usar.
3. pyquery: Pertence a uma biblioteca de terceiros, e sua função poderosa está no seletor css.Será muito conveniente usar pyquery se você conhecer melhor jQuery, então também recomendo usar pyquery.
repositório:
1. PyMySQL: Como um dos bancos de dados mais usados, o PyMySQL também é uma ótima opção para armazenar dados após o rastreamento. Ele pode criar tabelas, adicionar, excluir, verificar e modificar operações no banco de dados.
2. PyMongo: PyMongo é uma biblioteca para interagir com o MongoDB.
3. redis-py: redis-py é uma biblioteca para interagir com o Redis.
Biblioteca de reconhecimento de imagem:
1. tesserocr: tesserocr é Python que usa a tecnologia OCR para reconhecer imagens. A essência é encapsular o tesseract com uma camada de API, então o tesseract deve ser instalado antes de instalar o tesseract.
estrutura do rastreador
1. pyspider: pyspider é um poderoso sistema de rastreador da web escrito pelo chinês binux. Ele possui uma poderosa interface de usuário da Web, editor de script, monitor de tarefas, gerenciamento de projetos e processador de resultados. Ele suporta vários back-ends de banco de dados e várias mensagens. Fila, rastreamento de páginas renderizadas em JavaScript . A biblioteca dependente é PhantomJS.
2. Scrapy: extremamente poderoso, com muitas bibliotecas dependentes.