파충류 알아보기 - 파충류 개념을

첫째, 파충류 관련 개념

1. 파충류는 무엇인가

인터넷 : 네트워크 장치 (케이블, 라우터, 스위치, 방화벽)과 그물 등으로 서로 연결된 컴퓨터에 의해.

인터넷의 설립의 목적은 : 인터넷의 핵심 가치와 공유 데이터 / 전송 : 데이터가 서로 / 배달 간의 데이터 공유를 촉진 할 수있는 목적으로 컴퓨터에 연결된 단일 컴퓨터에 저장된에게 그렇지 않으면 당신은 얻을 수 있습니다 다른 사람의 컴퓨터에 U 디스크는 데이터를 복사합니다.

파충류 개념

파충류는 인터넷 브라우저를 프로그래밍하여 시뮬레이션 한 다음 프로세스가 인터넷에 잡아 데이터를 이동하게된다.

파충류 분류

  • 일반 파충류 : 전체 페이지 소스 데이터를 크롤링, 데이터 캡처

  • 집중 러 : 로컬 데이터의 페이지를 크롤링 (데이터 분석), 즉 유용한 데이터

  • 증분 파충류 : 업데이트 된 데이터에 대한 웹 사이트 따라서 최신 업데이트 데이터에 사이트의 크롤 링, 발견

파충류의 중요성

인터넷 등 살쾡이 쇼핑몰 상품 정보, 홈 네트워크의 임대 정보 체인, 눈덩이 순 증권 투자 정보와 가장 가치있는 데이터, 이러한 데이터는 다양한 산업에서 진짜 돈을 나타내고있다, 그것은,라고 할 수있는 전체 산업의 주인이 될 것입니다 업계에서 처음으로 직접 데이터를 파악.

robots.txt에 프로토콜

포털 페이지를 지정 데이터가 크롤러가 크롤링 할 수없는 경우에, 당신은 크롤링 robots.txt 파일을 쓰기 프로토콜 데이터 크롤러에 의해 제한 될 수 있습니다. 작성된 프로토콜 형식 로봇 (액세스 Taobao의 로봇을 관찰 할 수있다 www.taobao.com/robots.txt 수 있습니다.)

그러나이 계약은 구두 계약에 해당하고, 필수 제어 관련 기술을 사용하지 않고, 그래서 계약 안티 안티 신사 악당되지 않습니다. 그러나 우리는 첫 번째 계약을 무시할 수 학습 단계 파충류 크롤러 로봇에 작성했습니다.

안티 파충류

적절한 정책 및 크롤링 프로그램 웹 사이트 데이터 파충류를 방지하기위한 기술적 수단을 통해 포털.

Fanfan 파충류

적절한 정책 기술적 수단을 통해 크롤러 상기 수단은 이에 대응하는 데이터를 크롤링 항 파충류 포털 균열한다.

2. 파충류의 기본 흐름

1. 요청을 시작 :

사용 HTTP 라이브러리를 포함하고,이 요청을 보내고, 대상 사이트에 요청을 보냅니다 요청 헤더, 몸을 요청

2. 적절한 콘텐츠를 얻습니다 :

서버가 정상 응답을 할 수있는 경우에, 당신은 응답을 얻을 포함합니다 : HTML, JSON, 사진, 비디오를

3. 내용을 구문 분석 :

그래서 라이브러리 아름다운, XPath는, pyquery 및 구문 분석 타사와 같은 정규 표현식 : HTML 데이터를 구문 분석합니다.

분석 데이터 JSON : JSON 모듈

구문 분석 이진 데이터 : 문서 B를 작성하는 방법

데이터를 저장하십시오

데이터베이스, 파일

3.request 요청

1. 요청 실시

일반적인 요청 방법 : GET, POST

기타 요청 방법 : HEAD, PUT, DELETE, OPTHONS

포스트 결국이 접합 형태로 요청을 얻을 것이다 : K1 = XXX 및 K2 = YYY & K3 = ZZZ를

  • 양식 데이터에 저장 볼 수있는 브라우저를 사용 : 요청 본문 매개 변수에 대한 POST 요청.

  • URL을 직접 요청 매개 변수를 얻을.

2. 요청 URL

URL은 웹 문서, 사진, 비디오 등의 범용, 의미 등 고유 URL에 의해 결정될 수있다.

페이지 처리를로드 : 웹 페이지를로드, 그가 링크, 다운로드 사진을 시작하는 하이퍼 링크에 대한 요청을 만났을 때 보통 처음로드 된 문서 문서 문서 문서 구문 분석이다.

3. 요청 헤더

사용자 에이전트 : 요청 차량 식별의 신원

연결 : 밀접한 관계

콘텐츠 유형 : 응답 데이터의 유형

리퍼러 : 경로에 점프

4. 요청 본문

당신은 방법으로, 어떤 요청 본문의 콘텐츠를합니다.

본 실시 예에서는 포스트 요청 본문 포맷 데이터 인 경우.

  • 로그인 창, 파일 업로드는 정보를 요청 본문에 첨부됩니다

  • 로그인, 잘못된 사용자 이름과 암호를 입력 한 다음 게시물을 캡처 할 수 없습니다, 당신은 로그인 페이지를 이동합니다 보통 직후 게시물을 볼 수 제출

4.Response 응답

1. 응답 상태

  • 200 : 성공의 대신

  • 301 : 대신 점프

  • 404 : 파일이 존재하지 않습니다

  • 403 : 권한

  • 502 : 서버 오류

2.Response 헤더

  • 위치 : 점프

  • 설정 쿠키 : 브라우저에게 더있을 수 있습니다, 쿠키가 보존

3.preview

가장 중요한 부분은, 등 HTML, 이미지, 같은 요청 된 리소스의 내용을 포함

두, http 프로토콜 관련

http 프로토콜을 더 믿고 볼 https://www.cnblogs.com/ryxiong-blog/articles/10870684.html

여기에 간단한 리뷰입니다.

1.http 협정

1. 공식 개념 : 하이퍼 텍스트 (WWW 월드 와이드 웹) 서버 전송 프로토콜 로컬 브라우저를 전송 : HTTP 프로토콜 (하이퍼 텍스트 전송 프로토콜)는 월드 와이드 웹에서 사용되는 하이퍼 텍스트 전송 약어 프로토콜입니다. 썩은 개념을 들어

2. 추가 정보 개념 : HTTP 프로토콜은 데이터의 상호 작용의 형태로 서버 (서버) 사이에 (데이터의 상호 전송)와 클라이언트 (고객)입니다.

2.http 프로토콜 작품

에 서버 아키텍처 - HTTP 프로토콜은 클라이언트에서 작동합니다. 웹 서버 인 HTTP 클라이언트 URL로 브라우저는 HTTP를 통해 서버에 대한 모든 요청을 보냅니다. 웹 서버는 수신 요청에 따라, 클라이언트에 대한 응답 정보를 전송합니다.

URL을 3.http

HTTP에서는 데이터를 송신하고, 연결을 설정하는 균일 한 자원 식별자 (유니폼 리소스 식별자, URI)를 사용한다. URL은 URI의 특별한 유형, 그것은 자원을 찾기위한 충분한 정보를 포함

URL은 UniformResourceLocator의 약자, 중국어는 범용 호출,에서 인터넷 리소스를 식별하는 데 사용되는 주소입니다. 예를 들어 다음과 같은 URL에, 보통의 URL에서 조성물의 다양한 부분을 설명합니다 : http://www.aspxfans.com:8080/news/index.asp?boardID=5&ID=24618&page=1#name

위의 URL에서 볼 수 있듯이, 전체 URL 내용은 다음과 같습니다

  • 프로토콜 : 프로토콜 URL의 일부로에 "http :"HTTP 프로토콜을 사용하여 웹 페이지를 나타냅니다. 더는 같은 HTTP, FTP 및이 예에서 사용 등과 같은 인터넷 프로토콜에서 사용 될 수있다 HTTP 프로토콜입니다. 은 "HTTP"뒤에 "//"구분자이다

  • 도메인 이름 부분 : 도메인 이름의 URL의 일부 " www.aspxfans.com ." URL은, 또는 당신은 도메인 이름과 IP 주소를 사용할 수 있습니다

  • 포트 섹션 : ":"구분 기호로 도메인 이름 다음은 포트, 도메인 이름과 포트 사이에 사용하는 것입니다. 이 포트의 일부를 생략하면 포트, URL의 필수 일부가 아닌, 기본 포트

  • 가상 디렉토리 섹션 : 마지막에 "/"시작 후 첫 번째 도메인 이름에서이 "/"지금까지 가상 디렉터리 섹션입니다. 가상 디렉토리는 URL의 필요한 부분이 아닙니다. 이 예에서 가상 디렉토리는 "/ 뉴스 /"입니다

  • "?"하지 않을 경우,이 도메인 이름 "/"처음에 "#"지금까지 후 마지막에서이다, 도메인 이름 "/"지금까지 시작은 파일 이름 부분은 후 마지막에서 "?": 이름 부분을 파일 "/"끝까지 시작 마지막로부터 "?"와 "#"다음 도메인 이름이없는 경우 파일 섹션은 파일 이름의 일부입니다. 이 경우 파일 이름은 "index.asp"입니다. 파일 이름의 일부는, 당신은이 부분을 생략하면, 기본 파일 이름이 URL의 필요한 일부가 아닙니다

  • 앵커 부품 : 마지막에 "#"처음부터 앵커의 일부입니다. 본 실시 예의 앵커 "이름"이다. URL의 앵커 부분은 필요한 부분 아닙니다

  • 매개 변수 섹션 : "?."또한 검색 쿼리 부분의 한 부분으로 알려진 "#"때까지 부분 사이의 인수의 일부에 처음부터 본 실시 형태의 파라미터는 "boardID = 5 & ID = 24,618 및 페이지 = 1"이다. 파라미터는 상기 파라미터 및 "&"로 구분의 파라미터를, 복수의 파라미터를 허용한다.

세, HTTPS 프로토콜 관련

1.https 계약

1. 공식 개념 : HTTPS (보안 하이퍼 텍스트 전송 프로토콜) 보안 하이퍼 텍스트 전송 프로토콜, HTTPS SSL 암호화 층은 HTTP를 기반으로하고, 암호화 된 데이터는 HTTP 프로토콜의 보안 버전입니다.

2. 추가 정보 개념 : 보안 프로토콜의 암호화 된 버전 HTTP

암호화 기술을 2.https

1.ssl 대칭 암호화

"공유 키"라고 고용 SSL 암호화 기술은 또한 "대칭 키 암호화"라고합니다.

암호화 과정 :

클라이언트는 클라이언트 1 정보는 단부를 수신하는 키를 사용해야 중간 키가 전달 된 암호화 된 정보를 해독 MD5 또는 Base64로 암호화와 같은 공지 된 알고리즘을 사용하여 암호화 된 메시지를 서버로 보낸다 (암호화 및 복호화 키가 동일), 송신 중간 키를 암호화한다.

단점 :

이 키를 해독하고, 정보를 파괴 할 수 있으며,이 방법은 안전 보이지만, 인질 아직 개최되고, 잠재적으로 위험한 번 탭, 또는 정보가 있습니다. 따라서이 방법으로 보안 위험, "공유 키 암호화는"이있다

2. 비대칭 암호

암호화 과정 :

은 "비대칭 암호화"를 사용하는 경우 두 개의 잠금, 암호화되지 않은 객체를 사용하는 경우 "개인 키"는 "공개 키"암호화라는 사람이 있는데, 서버는 주어진 자신의 첫 번째에 따라 클라이언트를 알려줍니다 공개 키 암호화, 공개 키 암호화 한 후 클라이언트에 따라, 서버 따라서, 전송을 수행하고하지 않을 그렇게의 혜택을 해독하기 위해 키를 자신의 개인 키를됩니다 사용, 암호를 해독 한 후 정보를 수신하고, 피 납치의 위험.

공개 키가 도청을 얻을 수있다하더라도, 그것은 때문에 평가 이산 대수의 해독 과정을 해독하기 어려운이 쉽게 할 수 없습니다.

단점 :

  • 방법 수신단 시간, 송신 측의 비밀 키를 개시 전송되도록 사전에 송신 측이없이 수신 된 전송이 개재되는 것을 보장한다. 만큼 키가 전송 될 때, 인질로 잡혀 위험이있을 수 있습니다.

  • 비대칭 암호화, 통신 중 통신 속도와 효율성에 어떤 영향을, 처리 할 더 복잡한 상대적으로 비효율적 인 방법이다

3.https 인증 메커니즘

인증 기관은 타사 클라이언트와 서버가 신뢰할 수있는 것입니다.

DETAILED 통신 처리 인증은 다음과 같이 :

  • 서버 개발자가 공개 키, 공개 키 인증 기관에 적용 할 수행하기 위해, 인증 기관은 신청자의 신원에 대한 명확한 이해, 승인 후, 응용 프로그램 개발자의 공개 키, 디지털 서명을 할 것입니다 다음 공개 키는 함께 결합, 내부에 인증서와 키를 서명 한 할당합니다.

  • 서버는 클라이언트는 인증 기관을 인정하기 때문에, 클라이언트가 공개 키를 통해 서버 패스가 사실임을 확인하기 위해 인증서 번호 공개 키 디지털 서명의 진위를 확인할 수 있습니다, 고객이 디지털 인증서를 전송합니다. 정상적인 상황에서, 디지털 서명 인증서는 인증 기관의 신뢰성에 따라 위조하기가 어렵습니다.

 

 

추천

출처www.cnblogs.com/ryxiong-blog/p/11285575.html