URLLIB : 간단한 포스트 바코드 페이지 크롤링

에서 URLLIB 가져 오기 요청 
가져 오기 시간 
가져 URLLIB 
가져 오기 urllib.parse 

#는 URL 전송 요청을 서버 응답 파일을 얻을 
DEF loadPage (URL, 파일 이름) : 
    인쇄 ( '다운로드'+ 파일 이름) 
    헤더 = { 
        '사용자 - - 에이전트': '모질라 / 5.0 (윈도우 NT 6.1하며 WOW64) (도마뱀 같은 KHTML) AppleWebKit / 537.36 크롬 / 65.0.3325.181 사파리 / 537.36 ' 
    } 
    REQ = urllib.request.Request (URL, 헤더 = 헤더) 
    urllib.request.urlopen를 반환 (REQ ) .read () 

#은 HTML 콘텐츠를 로컬 쓰기 
: DEF WritePage (HTML, 파일 이름) 
    인쇄 ( '저장'+ 파일 이름) 
    : F AS 열기 (파일 이름, 'WB')와 
        f.write (HTML) 
    '인쇄 ( ------------------------------- ')



# Http://tieba.baidu.com/f?kw=python&fr=ala0&tpl=5 첫 페이지 
# http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=0 위의 법률과에 따라 첫 페이지는 동일한 URL입니다 

# http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=50 두 번째 페이지 

# http://tieba.baidu.com/f?kw=python&ie= UTF-8 PN = 100 번째 페이지 

# http://tieba.baidu.com/f?kw=python&ie=utf-8&pn=150 네 번째 페이지 

# http://tieba.baidu.com/f?kw=python&ie= UTF-8 PN = 200 제 페이지 



URL 번호 각 페이지 처리 
DEF tiebaSpider (URL, BeginPage 상기 ENDPAGE) 
    범위 (BeginPage 상기 ENDPAGE + 1이다.)에서 페이지 : 
        PN = (. 페이지 - 1) * 50 
        파일명 = 'D / yemian / 초 '+ STR (페이지) +'P 들이게 ' 
        fullurl의 URL + ='& PN - '+ STR (PN) 
        HTML = loadPage을 (fullurl,파일명) 

        writePage (HTML, 파일명)


__name__ == IF '__main__': 
    kw =의 INPUT ( '포스트 바 이름의 필요한 크롤링 페이지를 입력하십시오 :') 
    BeginPage = INT (입력 ( '시작 입력하십시오 :')) 
    ENDPAGE = INT (입력을 ( '입력하십시오 끝 페이지 : ')) 

    URL =?'http://tieba.baidu.com/f ' 
    키 = urllib.parse.urlencode ({'킬로와트 '} kW 급) 
    fullurl의 URL = + 키 
    tiebaSpider (fullurl, BeginPage의 ENDPAGE ) 

인쇄 () '를 사용하여 주셔서 감사합니다' 
time.sleep을 (10)

  

추천

출처www.cnblogs.com/wshr210/p/11305159.html