첫번째:
1. urllib는 Jingdong의 페이지 획득을 실현합니다
. 2.
Zhihu 의 홈페이지를 크롤링 해보 십시오. 3. lagou 네트워크의 json 동적 데이터를 추출하여 작업 이름, 회사 이름, 복지 및 급여를 얻으십시오
. 4. Douban의 시뮬레이션 된 로그인 요청. 세션 html 형식으로 홈페이지 데이터를 가져옵니다
. 5. 필요하지 않음 : 작은 tiktok 비디오 (단일) 캡처 시도
둘째:
'' '
도메인 이름 :
https://www.baidu.com/word?input=Altman
http : Hypertext Transfer Protocol은 HTML 페이지를 게시하고 수신하는 방법입니다.
기본 포트 번호 : 80
url Uniform Resource Locator
https : http + ssl (보안 소켓 레이어) 443
도메인 이름 : 서버 IP 포트
경로 => 경로 및 경로의 매개 변수
GET POST (데이터 제출) HEAD (헤더 만 가져 오기) 삭제
Douban 소스 : http://pypi.douban.com/simple/ 사후 페이징 데이터 매개 변수
에서 요청 페이징 URL 가져 오기
무료 프록시 : https://ip.ihuan.me/
할당 : 요청은 Baidu Tieba의 페이지를 가져 와서 로컬에 저장합니다.
과제 2 : Python 작업 정보 취소 가져 오기 : 작업 이름 급여 회사 이름
'' '
제삼:
그림을 다운로드하고 로컬 https://www.1000tuku.com/tupiangushi/에 저장합니다.
비고 : 그림을 저장하기위한 3 단계 폴더 1. 이미지 폴더 2. 그림 이야기 3. 일련의 그림 제목 4. 그림
은 xpath를 사용합니다
/ html / body / div [4] / ul / li [1] / a / img # 절대 경로
상대 경로 추출이 원하지 않는 많은 데이터를 얻지 못했습니다.
상대 경로를 사용하여 원하지 않는 데이터를 추출하는 경우-> 상위 노드 추가
urls = url[:-5] + '_' + str(page) + '.html'
response = requests.get(urls, headers=headers).content.decode('gbk')