"Python 크롤러 시리즈를 배우고 싶다"크롤러에서 크롬 사용 소개

학습 목표

  1. 새 시크릿 창을 만드는 목적 이해

  2. 크롬에서 네트워크 사용 이해

  3. 로그인 인터페이스를 찾는 방법 알아보기


1 새 시크릿 창 만들기

브라우저에서 직접 웹 사이트를 열면 이전 웹 사이트에서 저장 한 쿠키를 자동으로 가져 오지만 크롤러에서 처음 페이지를 가져올 때 쿠키를 가지고 있지 않습니다.이 문제를 해결하는 방법은 무엇입니까?

시크릿 창을 사용하여 쿠키없이 처음으로 웹 사이트를 열고 상대방의 서버가 쿠키를 로컬로 설정하는 방법을 포함하여 페이지 획득을 관찰 할 수 있습니다.

2 크롬에서 네트워크의 더 많은 기능

2.1 Perserve 로그

기본적으로 페이지가 리디렉션 된 후 이전 요청 URL 주소 및 기타 정보가 사라지고 perserve 로그를 확인한 후 이전 요청이 유지됩니다.

2.2 필터

url 주소가 많을 경우 필터에 url 주소의 일부를 입력하여 모든 url 주소에 일정한 필터링 효과를 줄 수 있습니다. 위의 두 번째 그림에서 특정 위치는 2 위치에 있습니다.

2.3 특정 유형의 요청 관찰

위의 두 번째 그림에서 3의 위치에는 기본적으로 선택되는 많은 옵션이 있습니다. 즉 all, 모든 종류의 요청이 관찰됩니다.

여러 번 all일반적인 옵션과 같이 자신의 목적에 맞는 다른 옵션을 오른쪽에서 선택할 수 있습니다.

  • XHR : 대부분의 경우 ajax 요청을 의미합니다.

  • JS : js 요청

  • CSS : CSS 요청

그러나 많은 경우 우리는 어떤 유형의 요청이 필요한지 보장 할 수 없습니다. 특히 요청이 ajax 요청인지 알 수없는 경우 직접 선택 all하고 앞에서 뒤까지 관찰 하기 만하면 됩니다.이 중 js, css, pictures, 등은 관찰되지 않습니다.

브라우저의 수많은 요청에 겁 먹지 마세요. js, css, 이미지 요청을 제외하고는 다른 요청이 많지 않습니다.

3 로그인 인터페이스 찾기

Renren.com의 이전 크롤러를 살펴보면 로그인 인터페이스를 찾았는데이 인터페이스를 어디에서 찾았습니까?

http://www.renren.com

3.1 액션 쌍의 URL 주소 찾기

이 주소는 로그인 양식의 작업에 해당하는 URL 주소임을 알 수 있습니다. 프론트 엔드 지식 포인트를 검토하면 양식 제출 주소, 이에 따라 제출 된 데이터에만 다음이 필요함을 알 수 있습니다.用户名的input标签中,name的值作为键,用户名作为值,密码的input标签中,name的值作为键,密码作为值即可

생각:

작업에 해당하는 URL 주소가 없으면 어떻게해야합니까?

3.2 패킷을 캡처하여 로그인 URL 주소 찾기

패킷을 캡처하면 URL 주소 및 요청 본문에 uniqueTimestampsum rkey및 encrypted 와 같은 매개 변수가 있음을 알 수 있습니다.password

이때 모바일 버전의 로그인 인터페이스가 동일한 지 확인할 수 있습니다.

모바일 버전에서도 여전히 매개 변수가 있지만 매개 변수 수가 적다는 것을 알 수 있습니다 . 이때 모바일 버전을 참조로 사용할있습니다. 다음 섹션에서는 js를 분석하는 방법에 대해 알아 봅니다.


요약

  1. 시크릿 창을 사용하는 주된 목적은 웹 사이트를 처음 열 때 쿠키를 운반하는 문제를 방지하는 것입니다.

  2. 크롬의 네트워크에서 perserve 로그 옵션은 페이지 점프 후에도 이전 요청을 계속 관찰 할 수 있습니다.

  3. 로그인 주소를 결정하는 방법에는 두 가지가 있습니다.

    • 양식 작업에서 URL 주소 찾기

    • 패킷 캡처 통과

추천

출처blog.csdn.net/weixin_45293202/article/details/114003476