08.06 자기 요약
파이썬 웹 크롤러는 모듈 LXML을 구문 분석
A. 장착 모듈
Windows 시스템 설치 :
방법 1 :pip3 install lxml
두 번째 방법은 : 바퀴의 해당 파일 시스템 버전을 다운로드 : http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
pip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl
경로 # 파일이 있습니다
리눅스 설치 :
방법 1 :pip3 install lxml
방법 2 :yum install -y epel-release libxslt-devel libxml2-devel openssl-devel
모듈 II. 사용
from lxml.html import etree
표시
import requests
from lxml.html import etree
rp = requests.get('http://www.baidu.com')
html = etree.HTML(rp.text)
#解析后的对象可以使用xpath进行内容匹配