어제, 파충류의 간단한 구조에 대한 학습으로 : - 위키 백과 항목을 크롤링 오늘 우리는 특정 운동이 그 것이다했다
먼저 환경 일식 +의 python3.8
특정 프레임 워크 봐 :
url_manager : 홈페이지 관리자, html_downloader : 웹 사이트 다운 로더, html_parser : 페이지 파서 html_outputer : 취득 출력
- 일반적으로 페이지 모듈에있는 요소의 내용을 검토 할 수있는 권리를 선택 추출하는 방법을 참조하십시오 어디에 그가 어떻게 페이지에서 데이터를 추출하는 방법 : 일반적으로 우리는 더 많은 파서가 걱정
예를 들어 오른쪽을 선택
요소 검사
HTML로 마우스 오른쪽 편집
원하는 제품의 복사 모듈 코드
<DD 클래스 = "타이틀 lemmaWgt-lemmaTitle">
<H1의> 블록 사슬 </ H1>
파충류 파서에서 우리는 사용합니다 :
title_node soup.find = ( ' DD ' , class_ = " lemmaWgt-lemmaTitle 타이틀 " ) .find ( " H1 " ) res_data [ ' 제목 ' = title_node.get_text ()