위키 백과 항목을 크롤링 둘째 날 - 파이썬 파충류 작은 실천

  어제, 파충류의 간단한 구조에 대한 학습으로 : - 위키 백과 항목을 크롤링 오늘 우리는 특정 운동이 그 것이다했다

먼저 환경 일식 +의 python3.8

특정 프레임 워크 봐 :

url_manager : 홈페이지 관리자, html_downloader : 웹 사이트 다운 로더, html_parser : 페이지 파서 html_outputer : 취득 출력

- 일반적으로 페이지 모듈에있는 요소의 내용을 검토 할 수있는 권리를 선택 추출하는 방법을 참조하십시오 어디에 그가 어떻게 페이지에서 데이터를 추출하는 방법 : 일반적으로 우리는 더 많은 파서가 걱정  

 

예를 들어 오른쪽을 선택 

요소 검사

HTML로 마우스 오른쪽 편집

원하는 제품의 복사 모듈 코드

<DD 클래스 = "타이틀 lemmaWgt-lemmaTitle">
<H1의> 블록 사슬 </ H1>

파충류 파서에서 우리는 사용합니다 :

  title_node soup.find = ( ' DD ' , class_ = " lemmaWgt-lemmaTitle 타이틀 " ) .find ( " H1 " ) 
        res_data [ ' 제목 ' = title_node.get_text ()

추천

출처www.cnblogs.com/1983185414xpl/p/12177593.html