Quais bibliotecas são comumente usadas pelos crawlers do Python?

Para programadores que frequentemente viajam na indústria de rastreadores da Internet, como perceber rapidamente que a automação e a eficiência do programa são resultado da precipitação de sua própria tecnologia, de modo que o suporte ao banco de dados será necessário para usar os rastreadores Python? Abaixo estão algumas informações sobre as bibliotecas que uso com frequência.
insira a descrição da imagem aqui

biblioteca de pedidos:

1. urllib: A biblioteca urllib é uma biblioteca que vem com Python3 (Python2 tem urllib e urllib2, e é unificada como urllib em Python3).Esta biblioteca é a biblioteca mais simples do crawler.

2. request: request pertence a uma biblioteca de terceiros, que é muito mais simples de usar do que a urllib, e tem funções mais poderosas.É a biblioteca de requisição mais usada.

3. Selenium: O Selenium pertence a uma biblioteca de terceiros.É uma ferramenta de teste automatizada que pode ser usada para concluir automaticamente as operações do navegador, como clicar, puxar para baixo, arrastar etc., e geralmente conclui operações ajax complexas.

Biblioteca de análise:

1. lxml: pertence à biblioteca de terceiros, oferece suporte à análise de HTML e xml, oferece suporte ao método de análise XPath e a eficiência da análise é muito alta.

2. Beautiful Soup: uma biblioteca de terceiros com API poderosa e fácil de usar.

3. pyquery: Pertence a uma biblioteca de terceiros, e sua função poderosa está no seletor css.Será muito conveniente usar pyquery se você conhecer melhor jQuery, então também recomendo usar pyquery.

repositório:

1. PyMySQL: Como um dos bancos de dados mais usados, o PyMySQL também é uma ótima opção para armazenar dados após o rastreamento. Ele pode criar tabelas, adicionar, excluir, verificar e modificar operações no banco de dados.

2. PyMongo: PyMongo é uma biblioteca para interagir com o MongoDB.

3. redis-py: redis-py é uma biblioteca para interagir com o Redis.

Biblioteca de reconhecimento de imagem:

1. tesserocr: tesserocr é Python que usa a tecnologia OCR para reconhecer imagens. A essência é encapsular o tesseract com uma camada de API, então o tesseract deve ser instalado antes de instalar o tesseract.

estrutura do rastreador

1. pyspider: pyspider é um poderoso sistema de rastreador da web escrito pelo chinês binux. Ele possui uma poderosa interface de usuário da Web, editor de script, monitor de tarefas, gerenciamento de projetos e processador de resultados. Ele suporta vários back-ends de banco de dados e várias mensagens. Fila, rastreamento de páginas renderizadas em JavaScript . A biblioteca dependente é PhantomJS.

2. Scrapy: extremamente poderoso, com muitas bibliotecas dependentes.

おすすめ

転載: blog.csdn.net/weixin_44617651/article/details/128557774
おすすめ