Python- 구문 분석 HTML 페이지 (HTMLParser)

일반적인 방법 및 클래스의 정의 HTMLParser

클래스 정의

  • HTMLParser 주로 (HTML 태그 무효 포함) HTML 파일을 구문 분석하는 데 사용됩니다.
  • Python3.5 기본이 True 후 모든 문자 참조가 자동으로 유니 코드 형태로 변환할지 여부를 나타내는 매개 변수 Convert_charrefs.
  • HTMLParser 해당 HTML 콘텐츠를 수신 할 수 있으며, 파싱이 자동으로 처리 할 수있는 적절한 핸들러 (접근)를 호출 할 HTML 태그를 발생, 우리는 적절한 서브 클래스 상속 HTMLParser 자신을 작성해야하고, 복제 처리기 메서드에 대응.
  • HTMLParser는 시작과 끝 태그 한 쌍의 여부를 확인하지 않습니다.

일반적인 방법

응용 프로그램의 예

추천

출처www.cnblogs.com/liuhaidon/p/12060184.html