파충류 슈퍼 간단한 항목

이틀 전 작은 파충류, 프로그램 원숭이는 파충류가, 다음 200 개 이상의 기업에서 연구 할 따라서 흰색 파이썬, 관심의 항목으로, 말을하고, 그리고 한 썼다보고 쓴, 시작 만든다 점에게 그것의 아름다운 사진을 등반, 등산을 잡아!

의 그것을 할 수 있도록

 

 

 아름다운 여성 봐 관심을 마련하는 코드를 작성

크롤러는 사진의 URL을 어떻게 찾을 URL을 찾아 올라 다운로드?

우리가 웹 페이지 F12 키를 눌러 디버깅 도구를 열 팝, 글 페이지가 알아야 할, 그러나 나는 쓴 적이

 

 선택 네트워크는 요청 헤더의 왼쪽을 선택

그런 다음, (나의 이해는 왼쪽에있는 파일을 얻을 수있는 페이지에서이 페이지에 선택의 요소이다) 문자 그대로 여기에 크로스 도메인 요청을 방지하기 위해 사용되는 참조를 의미 리퍼러를 볼 수 있습니다 머리에 대한 우리의 요청을 사용하는

사용자 에이전트 : 그 크롬 단어를 발견 사용자 에이전트는 브라우저를 추측, 그래서 파이어 폭스,이 각각의 브라우저 프록시 브라우저 달라야가 파이어 폭스에서 다음 변화를 시도, 우리는 브라우저 액세스 척이 사용

헤더 = {
     ' 리퍼러 ' : ' https://www.85814.com/meinv/gaotiaomeinv/ ' ,
     ' 사용자 에이전트 ' : ' ozilla / 5.0 (윈도우 NT 10.0; WOW64) AppleWebKit / 537.36 (KHTML, 도마뱀 붙이 등) 크롬 / 59.0.3071.104 사파리 / 537.36 ' 
}

 

 후자는 사전을 필요로하기 때문에 우리는 사전에 넣어

그런 다음 요청에 의해 현장에서 라이브러리를 연결

수입 요청
헤더 = {
     ' 리퍼러 ' : ' https://www.85814.com/meinv/gaotiaomeinv/ ' ,
     ' 사용자 에이전트 ' : ' ozilla / 5.0 (윈도우 NT 10.0; WOW64) AppleWebKit / 537.36 (KHTML, 도마뱀 붙이 등) 크롬 / 59.0.3071.104 사파리 / 537.36 '
}

URL = " https://www.85814.com/meinv/gaotiaomeinv/ ' 
RESP = requests.get (URL 헤더 = 헤더)
 패스

 

 

 

우리는 200 응답은 연결을 나타냅니다 볼 수 있습니다

 

 

우리는 사진의 URL을 가야 다음 단계는 개발 도구의 요소 검토의 왼쪽 상단을 클릭 한 다음지도를 클릭

 

 

 

 

당신은 제목 그림에 대한 IMG의 alt 속성은, SRC, 당신은, 복사이 사이트를 입력 해보십시오 수있는 소스 주소의 사진입니다 볼 수 있습니다.

우리가 큰 그림 데이터 조직의 중간이 같은 것을 알고, 약간의 사진을보십시오, 우리 모두의 src 경기를 통해 경로를 찾을 수 있습니다

Ctrl 키 + F

 

 다음은 패턴 일치 ,. // 페이지의 [에 @ 아이디 = "L"] .//p 현재 페이지가 =이 "내가"메인 프레임을 보려면 여기를 제한 모든 페이지 ID의 속성을 가진 태그를 일치, 및 이중 슬래시 페이지입니다 [ID = "L"@] 다음 일치 모든 IMG. 뒤로 / @의 SRC는 SRC URL이 모두가 얻을 것입니다

강령

에서 LXML의 수입 etree
HTML = etree.HTML (resp.text)
SRCS = html.xpath ( ' .//p[@id="l"]//img/@src ' )

 

그 결과 SRCS 다운로드 할 수있는 이미지의 각 URL에 대한 목록을 통과하는만큼 목록입니다

대한 SRC 에서 SRCS :
    time.sleep ( 0.2 )
    파일명 = src.split ( ' / ' ) - 1 ]
    IMG = requests.get (SRC는 헤더 = 헤더는 제한 = 10 = 확인 거짓)
    공개와 ( ' imgs / ' + 파일 이름, ' WB ' ) 파일로 :
        file.write가 (img.content)

 

내가 IP까지 웹 사이트를 차단하기 전에 지연하는 데 사용되는 시간, 사용 방지, 과도한 요청이 공격에서 서버로 인식되고, 같은 다른 브라우저로 위장 다른 사용자 에이전트와마다 다른 많은 방법이있다 뿐만 아니라, 프록시 IP와 같은, 그것은 나중에 언급 될 것이다.

그런 다음 현재 디렉토리에 imgs 경로를 생성, img.context 콘텐츠입니다.

 

 

 

따라서, 'WB'개방에 의해 저장된 바이트.

아름다운 사진을 많이가있는 IMG에서 프로그램을 실행

 

 

 

간단한 파충류가 완료됩니다.

학습은 또한에 오류 또는 부정이 날 수정하시기 바랍니다, 아직 얕은입니다.

 

 

 

 

추천

출처www.cnblogs.com/hao11/p/11706502.html