Python 웹 크롤러 시작하기-고급 프로젝트 실습 질문 "개인 보상 작성, 선물 패키지 배우기"

첫번째:

1. urllib는 Jingdong의 페이지 획득을 실현합니다
. 2.
Zhihu 의 홈페이지를 크롤링 해보 십시오. 3. lagou 네트워크의 json 동적 데이터를 추출하여 작업 이름, 회사 이름, 복지 및 급여를 얻으십시오
. 4. Douban의 시뮬레이션 된 로그인 요청. 세션 html 형식으로 홈페이지 데이터를 가져옵니다
. 5. 필요하지 않음 : 작은 tiktok 비디오 (단일) 캡처 시도

둘째:

'' '
도메인 이름 :
    https://www.baidu.com/word?input=Altman

    http : Hypertext Transfer Protocol은 HTML 페이지를 게시하고 수신하는 방법입니다.
    기본 포트 번호 : 80
    url Uniform Resource Locator

    https : http + ssl (보안 소켓 레이어) 443

    도메인 이름 : 서버 IP 포트

    경로 => 경로 및 경로의 매개 변수

GET POST (데이터 제출) HEAD (헤더 만 가져 오기) 삭제


Douban 소스 : http://pypi.douban.com/simple/ 사후 페이징 데이터 매개 변수
에서 요청 페이징 URL 가져 오기

무료 프록시 : https://ip.ihuan.me/

할당 : 요청은 Baidu Tieba의 페이지를 가져 와서 로컬에 저장합니다.

과제 2 : Python 작업 정보 취소 가져 오기 : 작업 이름 급여 회사 이름

'' '

제삼:

그림을 다운로드하고 로컬 https://www.1000tuku.com/tupiangushi/에 저장합니다.
    비고 : 그림을 저장하기위한 3 단계 폴더 1. 이미지 폴더 2. 그림 이야기 3. 일련의 그림 제목 4. 그림
    은 xpath를 사용합니다


    / html / body / div [4] / ul / li [1] / a / img # 절대 경로
    상대 경로 추출이 원하지 않는 많은 데이터를 얻지 못했습니다.

    상대 경로를 사용하여 원하지 않는 데이터를 추출하는 경우-> 상위 노드 추가

urls = url[:-5] + '_' + str(page) + '.html'
     response = requests.get(urls, headers=headers).content.decode('gbk')

 

추천

출처blog.csdn.net/weixin_45293202/article/details/112523509