네트워크에서이 문서의 텍스트와 이미지 만 배울 수있는, 교환,하지 상업적 목적, 질문이있는 경우, 치료를 위해 문의하시기 바랍니다, 저자에 속한다.
저자 : ZHU 샤오 오
PS : 필요한 파이썬 학습 자료는 작은 파트너에 추가 할 수 있다면 자신을 얻기 위해 아래 링크를 클릭
http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef
2019년 12월 1일 연간 최고 십의 유행어 발표 한 "딸랑 딸랑"을 "애매한"편집부. "문명 상호 학습", "블록 체인"및 "하드 코어", "금융 테리어", "×× 1000 만, 처음 ××", "레몬 정신"과 "996", "나는 너무 열심히 /이야 남쪽 "과"난 내가 선택 ","아빠 링 Zhuyi "10 유행어해야 기분을 느끼지 않는다.
XXX가 나열 할 수 있습니다 이유를 설명을의 microblogging에서 많은 친구들이이 말했다입니까? XXX 왜 목록하지 않았다?
이 그것입니다 샤오 우 상이해도 다른 통계적인 결론을 사용하여, 결국, 이해 나타냈다.
그래서, 다섯째 모두 자신의 통계 구경을 정의에 대한 [2019] 텐 네트워크 전문 용어의 "정의"를 다시
데이터 가져 오기
"네트워크 전문 용어"를 검색하여 이미 발견 우리가 마무리를 할 수 있도록 웹 사이트가 될 수있다.
사용 파이썬 파충류 사이트에 모든 년 2019 네트워크 전문 용어를 얻을 수 있습니다.
. (1) DEF 주 () : 2 데이터 = [] . (3) . N- = 1 . 4 대 I 의 범위 (4542,5589 :) . 5 DIC = {} . 6 URL = " https://www.lxybaike.com/index.php?doc -view- ' + STR (I) + ' .html 중에서 ' . 7 인쇄 ( ' 성공적으로 데이터 {}의 조각을 획득하고있다 ' .format (N-)) . 8 HTML = 레스토랑 (URL) . 9 DOC = PQ (HTML) 10 DIC [ ' 획 '= 문서 ( ' #doctitle ' )는 .text () 11 DIC [ ' NUM ' = 문서 ( ' #-doc에 별도로> div.columns.ctxx> UL> 리튬 : n 번째 자식 (1) ' )는 .text ( ) 12 data.append (DIC) (13) time.sleep (random.random ()) (14) N = N + 1 개 15 리턴 데이터
√ 크롤링 성공
929 개 단어의 총.
우리는이 뜨거운 화두를 얻을 수 있지만,하지만 또한 뷰 및 발생 시간과 같은 그들의 다른 데이터의 일부를 얻을.
어려운 뷰는 판단 할 수 있지만, 인기 지표, 결국, 우리가 모든 사이트를 검색하지 않도록 여부 단어로, 그들은 여전히 데이터의 전체 네트워크가보다 정확한 지점입니다 필요합니다.
처음 바이두 지수로 선택했다, 많은 단어가 지불 할 필요 포함되지 않은 것을 발견했다. 내가 검색 개 인덱스를 선택했다 그래서!
당신은 URL은 다음과 같은 공식에 따라 구성 할 수 있으며, 929 개 네트워크 전문 용어 등반 얻을.
URL이 = ' http://zhishu.sogou.com/index/searchHeat?kwdNamesStr= ' + STR (이름) + ' timePeriodType = YEAR && dataType와 SEARCH_ALL = '
위해 크롤링을 재활용하면 연간 평균 검색 인덱스를 얻을 수 있습니다.
2019 연간 네트워크가 성공적으로 뜨거운 화두 차트 (고르지 연주 데이터 버전)를 얻을!
단어가 녹색 2018의 끝을 표시하기 위해 나타나는 경우, 그것은 2019에 인기가, 또한 2019 유행어에 포함 된 통계에 포함.
2019 네트워크 인기 화두 차트
다섯째, 상기 얻어진 설명도 인기 단어 열을 생성하는 PS를 이용하여, 인터넷에 관한 정보를 수집 인기 화두 차트에 따르면.
여기에 상을 시작했다 :
햄릿의 눈에는 천 만명이있다.
나는 모두가 자신의의 화두 목록을 가지고 있다고 생각합니다.
전체 코드
1 import requests 2 from pyquery import PyQuery as pq 3 import pandas as pd 4 import time 5 import random 6 from fake_useragent import UserAgent 7 ua = UserAgent() 8 9 headers = {'User-Agent':ua.random} 10 11 def main(): 12 data = [] 13 n = 1 14 for i in range(4543,4550): #自己设置id范围 15 dic = {} 16 url = 'https://www.lxybaike.com/index.php?doc-view-'+str(i)+'.html' 17 print('已成功采集{}条数据'.format(n)) 18 html = requests.get(url,headers=headers).text 19 doc = pq(html) 20 dic['tittle'] = doc('#doctitle').text() 21 dic['num'] = doc('#doc-aside > div.columns.ctxx > ul > li:nth-child(1)').text().replace('浏览次数:','').replace(' 次','') 22 dic['zan'] = doc('#ding > span').text().replace('[','').replace(']','') 23 dic['id'] = i 24 data.append (DIC) (25) time.sleep (random.random ()) (26) N = N + 1 개 27 리턴 데이터 (28) (29) 의 경우 __name__ == ' __main__ ' : 30 개 데이터 = 주 () 31 final_result = pd.DataFrame (데이터) 32 final_result.to_csv ( ' 凹凸玩数据.CSV ' 코딩 = " UTF_8 " 인덱스 = 거짓)