day03-- 데이터는 완두콩 응용 프로그램을 가져 오기

'' ' 
크롤링 완두콩 포드의 응용 프로그램 데이터 
        spider_method를 : 
            요청 + BS4 
                또는 
            셀레늄 

        URL : 
            https://www.wandoujia.com/category/6001 

        데이터 : 
            이름, 세부 사항 페이지 URL, 다운로드 수, 응용 프로그램 크기 
            APP_NAME, detail_url, download_num는, APP_SIZE 
'' ' 

에서 BS4 가져 오기 BeautifulSoup로
 #의 크롤러 부작 
# 1은 요청 전송 
가져 오기 요청
    DEF 다음 get_page (URL)를 
    reponse = requests.get (URL)
     #의 인쇄 (reponse.text) 
    반환 reponse에 

#을2.解析数据
수입 데프 parse_index (HTML) : 
    GAME_LIST = re.findall ( ' ".? (*)". <H2 클래스 = "응용 프로그램 제목-H2"> <A HREF = 제목 = "(*)? "클래스 ="이름 ">. *인가요? </a>. * <? 스팬 클래스 =" "> (. *?)万人安装</ SPAN> <스팬 클래스 ="카운트를 설치 한 점 "> * </ SPAN> <스팬 제목 = "MB (*.?)"> * MB </ SPAN>.? ' , 
                HTML, 
re.S)
인쇄 (GAME_LIST) 반환 GAME_LIST의 # 3.保存数据 데프 save_data (게임) : APP_NAME, detail_url, download_num,APP_SIZE = 게임 데이터 = F '' ' ========= =========에 오신 것을 환영합니다 게임 이름 : {APP_NAME} 세부 정보 페이지의 URL : {detail_url} 다운로드 수 : {download_num} 만 응용 프로그램의 크기 : MB} {APP_SIZE ========= 작별 ========= \ N- 형 '' ' 인쇄 (데이터) 열기 ( ' wandoujia.txt ' , ' ' , 인코딩 = ' . UTF-8 ' ) F AS : f.write (데이터) IF __name__ == ' __main__ ' : # 스플 라이스 홈페이지 URL = F ' HTTPS : // WWW .wandoujia.com / 카테고리 / 6001 '인쇄 (URL) # 1. 홈에 요청을 보내기 index_res = get_page (URL) # 게임 정보 2. 해결 홈 페이지 GAME_LIST = parse_index (index_res.text)을 위해 게임 GAME_LIST : # 3. 데이터 저장 #의 인쇄 (GAME_LIST를) save_data (게임)

 

추천

출처www.cnblogs.com/ningshao/p/11129319.html