에서 URLLIB 가져 오기 요청 가져 오기 시간 가져 URLLIB 가져 오기 urllib.parse #는 URL 전송 요청을 서버 응답 파일을 얻을 DEF loadPage (URL, 파일 이름) : 인쇄 ( '다운로드'+ 파일 이름) 헤더 = { '사용자 - - 에이전트': '모질라 / 5.0 (윈도우 NT 6.1하며 WOW64) (도마뱀 같은 KHTML) AppleWebKit / 537.36 크롬 / 65.0.3325.181 사파리 / 537.36 ' } REQ = urllib.request.Request (URL, 헤더 = 헤더) urllib.request.urlopen를 반환 (REQ ) .read () #은 HTML 콘텐츠를 로컬 쓰기 : DEF WritePage (HTML, 파일 이름) 인쇄 ( '저장'+ 파일 이름) : F AS 열기 (파일 이름, 'WB')와 f.write (HTML) '인쇄 ( ------------------------------- ') # Http://tieba.baidu.com/f?kw=python&fr=ala0&tpl=5 첫 페이지 # http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=0 위의 법률과에 따라 첫 페이지는 동일한 URL입니다 # http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50 두 번째 페이지 # http://tieba.baidu.com/f?kw=python&ie= UTF-8 PN = 100 번째 페이지 # http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=150 네 번째 페이지 # http://tieba.baidu.com/f?kw=python&ie= UTF-8 PN = 200 제 페이지 URL 번호 각 페이지 처리 DEF tiebaSpider (URL, BeginPage 상기 ENDPAGE) 범위 (BeginPage 상기 ENDPAGE + 1이다.)에서 페이지 : PN = (. 페이지 - 1) * 50 파일명 = 'D / yemian / 초 '+ STR (페이지) +'P 들이게 ' fullurl의 URL + ='& PN - '+ STR (PN) HTML = loadPage을 (fullurl,파일명) writePage (HTML, 파일명) __name__ == IF '__main__': kw =의 INPUT ( '포스트 바 이름의 필요한 크롤링 페이지를 입력하십시오 :') BeginPage = INT (입력 ( '시작 입력하십시오 :')) ENDPAGE = INT (입력을 ( '입력하십시오 끝 페이지 : ')) URL =?'http://tieba.baidu.com/f ' 키 = urllib.parse.urlencode ({'킬로와트 '} kW 급) fullurl의 URL = + 키 tiebaSpider (fullurl, BeginPage의 ENDPAGE ) 인쇄 () '를 사용하여 주셔서 감사합니다' time.sleep을 (10)