URLLIB 기본적인 사용법 (이해)

A, urllib.urlopen

1 urlopen  

에서 URLLIB 수입 요청

R & LT = request.urlopen ( ' http://www.baidu.com/ ' )
 # 오기 상태 코드 
인쇄 (r.status)
 # 적절한 헤더 얻었다 
인쇄 (r.getheaders ())
 프린트 ( ' = ' * 30 )
 # 웹 페이지 소스 획득 
인쇄 (r.read (). 디코딩 ( ' UTF-. 8 ' ))

주 : (입력 바이트) urlopen ()를 포함하는 데이터는 POST 요청, 타임 아웃 시간 초과 인

2 요청

에서 URLLIB 오기 요청
 # 오브젝트 요청 생성 
REQ request.Request = ( ' https://www.cnblogs.com/를 ' )
 # 오픈 웹 
R & LT = request.urlopen (REQ)
 전단 (r.read (). 디코딩 ( " UTF -8 ' ))

注意 : 데이터 (바이트 dict-> str-> 바이트), 헤더 = {} = 방법

사용 핸들러는 인증, 쿠키, 프록시를 얻을 수 있습니다.

二, urllib.error

예외 처리

에서 urllib.error 수입 URLError, HTTPError

처리를 제외하고 사용 시도 ....

참고 : HTTPError는 URLRrror의 서브 클래스

三, urllin.parse

해결

urlparam에 ()
urlunparse ()
urlsplit ()
urlunsplit ()
urljoin ()
를 urlencode () # 후 시퀀스 
parse_qsl () #이 결과를 직렬화 [( '이름', '톰 ') (연령 ', 24)]을 사용할 수있다 dict-> 사전 형식 인용문() 맺다 ()

네, 로봇 계약

robotparser 해결의 robot.txt 파일

 

 

추천

출처www.cnblogs.com/wt7018/p/11902020.html