선샤인 입학 시험 문제

가져 오기 요청 
가져 오기 시간
가져 오기 etree LXML에서

DEF get_html (URL) : # 요청 된 페이지
은 try :
헤더 = {
'는 User-- 에이전트': '모질라 / 5.0 (윈도우 NT 6.1하며 WOW64) AppleWebKit / 537.36 (KHTML, 도마뱀 등) 크롬 / 사파리 65.0.3325.181 / 537.36 '}
RES = requests.get (URL 헤더 = 헤더)
res.encoding = res.apparent_encoding
res.status_code의 == 200 인 경우 :
HTML = res.text
HTML 반환
다른 :
time.sleep (0.1)
(URL)를 반환 get_html
예외 전자를 제외하고는 AS :이 제외하고도 인쇄 할 수 #의 BaseException 전자가 오류의 원인
인쇄 (전자 "질문은")
패스

DEF 구문 분석 (HTML) :
#Print (HTML)
R & etree.HTML = LT (HTML)

#이 URL의 상세한리스트를 장착
list_detail = []

# 기반 URL
BASE_URL = 'https://gaokao.chsi.com.cn'

# 페이지 정보 목록
ppp_ = r.xpath ( "// DIV [클래스 = 'YXK - 테이블'@] // 텍스트 ()")

# 모든 반 URL의 수
(list_url = r.xpath을 "// DIV [클래스 @ = '테이블 YXK '] // TD [@ 클래스 =의'의 JS-YXK-yxmc '] / href를 @ A / ")

# 모든 URL을 접합
list_url의 URL에 :
BASE_URL + = URL을 detail_url
list_detail.append (detail_url)

# 복귀 모든 URL을
반환 list_detail
DEF의 url_join을 ()

URL_START = 'https://gaokao.chsi.com.cn/sch/search--ss-on,searchType-1,option-qg,start-'
로그 아웃 URL_END = '.dhtml'
URL_LIST = []
대 전 범위 (1139)
url_num = 20 * I - 20
URL = URL_START + STR (url_num) + url_end의
url_list.append (URL)를

리턴 URL_LIST
경우 __name__ == '__main__'
# URL_LIST = url_join ()
# 전단 ( URL_LIST)
#의
URL_LIST에서 URL에 대한 # :
#
# #访问
# HTML = get_html (URL)
# 구문 분석 (HTML)

URL = 'https://gaokao.chsi.com.cn/sch/search--ss-on,searchType -1, 옵션-QG, '- 0.dhtml을 시작
HTML = get_html (URL)
URL_LIST = 구문 분석 (HTML)
인쇄 (URL_LIST)

추천

출처www.cnblogs.com/yuanjia8888/p/11113859.html