공용 라이브러리 요약 파이썬 웹 크롤러

파충류, 많은 프로그래밍 언어,하지만 파이썬은 확실히 주류 그 중 하나입니다. 여기에서 우리는 파이썬 웹 크롤러에서 라이브러리의 일부 자주 사용하여 작성을 소개합니다.

요청 라이브러리 : 구현 HTTP 요청 작업

  • URLLIB : URL의 작동을위한 일련의 기능.
  • 요청 : 기반 URLLIB는 HTTP 요청 라이브러리를 차단, 기록이 요청을, 서버는 추가 처리를 위해 프로그램하기 전에 응답을 기다려야합니다.
  • 셀레늄 : 자동화 된 테스트 도구. 드라이버의 브라우저를 호출하면,이 라이브러리를 통해 당신은 입력 확인 코드와 같은 특정 작업을 완료하기 위해 브라우저에 직접 호출 할 수 있습니다.
  • aiohttp : 구현 asyncio HTTP 기반의 프레임 워크. 비동기에 의한 비동기 작업은 / 효율성을 크게 향상시킬 수 있습니다, 비동기 크롤링을 사용하여 키워드 라이브러리를 기다리고 있습니다.

라이브러리를 구문 분석 : 웹 페이지에서 정보를 추출

  • BeautifulSoup로 : HTML 및 XML 구문 분석, 웹 페이지에서 추출하는 정보는 또한 강력하고 다양한 API 분석 방법이있다.
  • pyquery : jQuery를 파이썬 구현 jQuery를 구문 분석 HTML 문서, 사용 속도를 쉽게 조작 할 수 있습니다 좋은 해결합니다.
  • LXML : HTML 및 XML 구문 분석, 지원 XPath를 분석 방법, 분석의 효율성에 대한 지원은 매우 높다.
  • tesserocr는 : OCR 라이브러리는, 얼굴 확인 코드 (CAPTCHA가 기준)에, OCR 직접 확인할 수 있습니다.

저장소 : 파이썬은 데이터베이스와 상호 작용

  • pymysql : 순수 파이썬 MySQL 클라이언트 라이브러리가 구현됩니다.
  • pymongo : 직접 연결하여 MongoDB 데이터베이스 쿼리 작업을위한 라이브러리입니다.
  • redisdump : 사용되는 데이터 가져 오기 도구 레디 스 / 수출. 루비 기반의 구현은, 그래서 그것을 사용, 당신은 루비를 설치해야합니다.

파충류 프레임 워크

  • Scrapy : (명확하게 상황 URL 패턴을 통보 할 수와 같은) 간단한 페이지 크롤링을 충족하기 위해 매우 강력한 파충류 프레임 워크. 이 프레임 워크로, 데이터를 쉽게 아마존 등과 같은 물품 정보를 올라갈 수있다. 그러나 그러한 웨이 보에 대한 정보 페이지와 같은 좀 더 복잡한 페이지를 위해,이 프레임 워크는 요구 사항을 충족하지 않습니다.
  • 크롤리 : 사이트에 해당하는 고속 크롤링 콘텐츠, 데이터 등 JSON, XML 및로 내보낼 수 있습니다, 관계형 및 비 관계형 데이터베이스를 지원합니다.
  • 포시는 : 시각화 웹 콘텐츠를 크롤링.
  • 신문 : 분석 추출 뉴스, 기사 및 콘텐츠.
  • GOOSE - 파이썬 : 문서를 작성하는 자바 추출 도구.
  • 콜라 : 분산 크롤러 프레임. 전체 프로젝트 디자인 모듈 간의 결합의 높은 정도 약간 나쁘다.

웹 프레임 워크 라이브러리

  • 플라스크 : 경량 웹 서비스 프로그램, 간단하고, 사용하기 쉽고, 유연하고, 주로 어떤 API 서비스를 수행합니다. 당신은 에이전트해야 할 수도 있습니다.
  • 장고 : 완전한 웹 사이트를 할를 사용해, 완전한 백 오피스 관리, 엔진, 인터페이스를 제공하는 웹 서버 프레임 워크.

관련 권장 사항 :

추천

출처www.cnblogs.com/shiyanlou/p/11504767.html