파충류 분류 - 일반 웹 크롤러, 웹 크롤러가 집중, 증가 웹 크롤러, 깊은 웹 크롤러

파충류 분류

: 구조 및 구현 기술에 따라 웹 크롤러 시스템은 대략 다음과 같은 유형으로 나눌 수 있습니다 웹 크롤러, 증분 웹 크롤러, 깊은 웹 크롤러를 중심으로, 일반 크롤러 . 실제 시스템을 달성하기 위해 결합 일반적으로 여러 웹 크롤러 크롤러 기술



범용 웹 크롤러

또한 네트워크 전체 크롤러 (확장 가능한 웹 크롤러)로 알려진 일반 웹 크롤러, , 전체 웹으로 확장 종자 URL의 일부에서 개체를 크롤링는 대규모 웹 서비스 제공 업체 및 데이터 수집을 위해 주로 엔진 포털 사이트를 검색 할 수 있습니다.

그레이트 범위 및 크롤링 웹 크롤러의 수, 크리프 속도와 높은 스토리지 요구 사항 이 너무 많은 페이지를 새로 고칠 수 있기 때문에 페이지 순서 요구 사항을 크롤링은 상대적으로 낮은, 그리고 일반적으로 병렬 작업은,하지만 오래 소요된다 시간은 페이지를 새로 고침합니다.

간단하게 말해서, 그것은 인터넷에서 모든 데이터를 크롤링하는 것입니다.


초점 웹 크롤러

또한 테마 러 (국소 정보 크롤러)라고도 초점 크롤러 (크롤러 집중) 을 의미한다 선택적 웹 크롤러의 사전 정의 된 주제와 관련 페이지들을 크롤링.

그리고 페이지의 주제와 관련된 크롤링 단지 초점 파충류에 비해 일반 웹 크롤러는, 하드웨어 및 네트워크 자원, 저장된 페이지와 인해 빠른 업데이트의 적은 수의 상당한 절감, 특정 집단에 대한 특정 영역의 번호를 만족시킬 수 정보를 요구한다.

간단히 수단 인터넷에서 크롤링 된 데이터의 특정 종류가.


증분 웹 크롤러

증분 웹 크롤러 (증분 웹 크롤러) 을 의미 파충류하거나 다운로드 페이지에 일어난 페이지 변경을 크롤링 생성 새로 증분 업데이트를 복용, 그것을 보장 할 수 멀리 새를 가능한 한 어느 정도 크롤링 페이지, 페이지입니다.

그리고 웹 크롤러 주기적으로 크롤링 및 만 새 페이지를 생산하거나 필요한 경우 업데이트가 발생합니다 증분 크롤링 파충류에 비해 페이지를 새로 고침 적시에 효과적으로 데이터 다운로드의 양을하지 변화 줄일 수 않는 재 다운로드 페이지로하지 업데이트 페이지는 시간과 공간의 비용을 절감 크롤링하지만, 알고리즘 및 구현 어려움 크롤링의 복잡성이 증가하고있다.

간단히 말해, 우리는 단지 데이터는 인터넷에서 업데이트 잡고있다.


깊은 웹 크롤러

웹 페이지에 의해 존재로 나눌 수 있습니다 표면 웹 페이지 (표면 웹)과 깊은 웹 (또한 보이지 않는 웹 페이지 또는 숨겨진 웹 알려져 깊은 웹,).

표면 페이지 메인 웹 페이지 구성을 도달 할 수있는 기존의 검색 엔진 캔 인덱스에 정적 페이지의 하이퍼 링크 페이지를 말합니다.

깊은 웹 콘텐츠의 대부분이 검색 폼에 숨겨진 정적 링크, 웹 페이지는 몇 가지 핵심 단어에서 얻을 수있는 사용자 만의을 제출 얻을 수 없다는 것입니다.

 

게시 된 434 개 원래 기사 · 원 찬양 (105) ·은 70000 +를 볼

추천

출처blog.csdn.net/qq_39368007/article/details/105047654