정적 페이지는 XPath를 얻을 수있는 간단한 방법

이 문서에서는 (신인 인을 찾기 위해 XPath를 사용) 예를 들어, 작은 테이블 스타 펀드 증권을 추출 
가져 오기
요청 에서 LXML 가져 오기 etree 가져 오기 CSV DEF #이 페이지의 텍스트를 가져옵니다 : getHtml (URL, 헤더) 은 try : REQ = requests.get를 (URL ) req.raise_for_status () req.encoding = ' GB18030 ' HTML = req.text 돌아 HTML 제외 : 인쇄 ( ' 오류 ' ) DEF 테이블 아래 # 모든 것을 획득 할 수 있지만, 제목을 포함하지 않습니다의 getContent (HTML) HTML = etree.HTML (HTML) 이름 = html.xpath ( ' // * [ID @ = "DataList에"] / TR은 // 텍스트 () ' ) # tobady = 이름 [0] TD = [] 에 대한 I 범위 (LEN (명)) td.append (이름 [I]) TD1은 = [TD가 [I는 :. I는 + 8] 에 대한 I 범위 (0, LEN (TD) ,. 8 )] # 라인 (8)에 의해 절단 곳 시간 후에 저장 CSV 용이 반환 TD1의 DEF의 합니다 (TD1, FNAME) save_data을 :로 저장 # CSV 파일 F (= 오픈 FNAME, ' W ' , 부호화 = '을GB18030 ' , NEWLINE = "" ) 작가 = csv.writer (F) writer.writerow (( ' 펀드 코드 ' , ' 펀드 이름 ' , ' NAV ' , ' 누적 순 ' , ' 매일 매출 성장 ' , ' 매일 성장률 ' , ' 구매 ' , ' 구속 ' )) 에 대한 I 에서 TD1 : writer.writerow (I) DEF 주 () : URL = ' 'http://quote.stockstar.com/fund/mixed.shtml 에 fname = ' E : /shuju/t.csv ' 헤더 = { ' 사용자 에이전트 ' : ' 모질라 / 5.0 (윈도우 NT 6.1; WOW64) AppleWebKit / 537.36 (도마뱀 같은 KHTML) 크롬 / 55.0.2883.87 사파리 / 537.36 ' } save_data (FNAME,의 getContent (gethtml (URL 헤더 = 헤더))) 경우 __name__ == ' __main__ ' : 주 ()

 

추천

출처www.cnblogs.com/zsf-note/p/11576604.html