파이썬 재정 [2,019] 텐 네트워크 화두

머리말

네트워크에서이 문서의 텍스트와 이미지 만 배울 수있는, 교환,하지 상업적 목적, 질문이있는 경우, 치료를 위해 문의하시기 바랍니다, 저자에 속한다.

저자 : ZHU 샤오 오

PS : 필요한 파이썬 학습 자료는 작은 파트너에 추가 할 수 있다면 자신을 얻기 위해 아래 링크를 클릭

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

2019년 12월 1일 연간 최고 십의 유행어 발표 한 "딸랑 딸랑"을 "애매한"편집부. "문명 상호 학습", "블록 체인"및 "하드 코어", "금융 테리어", "×× 1000 만, 처음 ××", "레몬 정신"과 "996", "나는 너무 열심히 /이야 남쪽 "과"난 내가 선택 ","아빠 링 Zhuyi "10 유행어해야 기분을 느끼지 않는다.

XXX가 나열 할 수 있습니다 이유를 설명을의 microblogging에서 많은 친구들이이 말했다입니까? XXX 왜 목록하지 않았다?

이 그것입니다 샤오 우 상이해도 다른 통계적인 결론을 사용하여, 결국, 이해 나타냈다.

그래서, 다섯째 모두 자신의 통계 구경을 정의에 대한 [2019] 텐 네트워크 전문 용어의 "정의"를 다시

데이터 가져 오기

"네트워크 전문 용어"를 검색하여 이미 발견 우리가 마무리를 할 수 있도록 웹 사이트가 될 수있다.

그림 삽입 설명 여기

사용 파이썬 파충류 사이트에 모든 년 2019 네트워크 전문 용어를 얻을 수 있습니다.

. (1)  DEF 주 () :
 2      데이터 = []
 . (3)      . N- = 1
 . 4       I  범위 (4542,5589 :) 
 . 5          DIC = {}
 . 6          URL = " https://www.lxybaike.com/index.php?doc -view- ' + STR (I) + ' .html 중에서 ' 
. 7          인쇄 ( ' 성공적으로 데이터 {}의 조각을 획득하고있다 ' .format (N-))
 . 8          HTML = 레스토랑 (URL)
 . 9          DOC = PQ (HTML)
 10          DIC [ ' '= 문서 ( ' #doctitle ' )는 .text ()
 11          DIC [ ' NUM ' = 문서 ( ' #-doc에 별도로> div.columns.ctxx> UL> 리튬 : n 번째 자식 (1) ' )는 .text ( )
 12          data.append (DIC)
 (13)          time.sleep (random.random ())
 (14)          N = N + 1 개
 15      리턴 데이터  

 

√ 크롤링 성공

929 개 단어의 총.

우리는이 뜨거운 화두를 얻을 수 있지만,하지만 또한 뷰 및 발생 시간과 같은 그들의 다른 데이터의 일부를 얻을.

그림 삽입 설명 여기

어려운 뷰는 판단 할 수 있지만, 인기 지표, 결국, 우리가 모든 사이트를 검색하지 않도록 여부 단어로, 그들은 여전히 ​​데이터의 전체 네트워크가보다 정확한 지점입니다 필요합니다.

처음 바이두 지수로 선택했다, 많은 단어가 지불 할 필요 포함되지 않은 것을 발견했다. 내가 검색 개 인덱스를 선택했다 그래서!

그림 삽입 설명 여기

당신은 URL은 다음과 같은 공식에 따라 구성 할 수 있으며, 929 개 네트워크 전문 용어 등반 얻을.

URL이 = ' http://zhishu.sogou.com/index/searchHeat?kwdNamesStr= ' + STR (이름) + ' timePeriodType = YEAR && dataType와 SEARCH_ALL = '

위해 크롤링을 재활용하면 연간 평균 검색 인덱스를 얻을 수 있습니다.

2019 연간 네트워크가 성공적으로 뜨거운 화두 차트 (고르지 연주 데이터 버전)를 얻을!

그림 삽입 설명 여기

단어가 녹색 2018의 끝을 표시하기 위해 나타나는 경우, 그것은 2019에 인기가, 또한 2019 유행어에 포함 된 통계에 포함.

2019 네트워크 인기 화두 차트

다섯째, 상기 얻어진 설명도 인기 단어 열을 생성하는 PS를 이용하여, 인터넷에 관한 정보를 수집 인기 화두 차트에 따르면.

여기에 상을 시작했다 :

그림 삽입 설명 여기

그림 삽입 설명 여기

그림 삽입 설명 여기

그림 삽입 설명 여기

그림 삽입 설명 여기

그림 삽입 설명 여기

그림 삽입 설명 여기

그림 삽입 설명 여기

그림 삽입 설명 여기

그림 삽입 설명 여기

 

햄릿의 눈에는 천 만명이있다.

나는 모두가 자신의의 화두 목록을 가지고 있다고 생각합니다.

전체 코드

 1 import requests
 2 from pyquery import PyQuery as pq
 3 import pandas as pd
 4 import time
 5 import random  
 6 from fake_useragent import UserAgent
 7 ua = UserAgent()
 8  9 headers = {'User-Agent':ua.random}
10 11 def main():
12     data = []
13     n = 1
14     for i in range(4543,4550): #自己设置id范围
15         dic = {}
16         url = 'https://www.lxybaike.com/index.php?doc-view-'+str(i)+'.html'
17         print('已成功采集{}条数据'.format(n))
18         html = requests.get(url,headers=headers).text
19         doc = pq(html)
20         dic['tittle'] = doc('#doctitle').text()
21         dic['num'] = doc('#doc-aside > div.columns.ctxx > ul > li:nth-child(1)').text().replace('浏览次数:','').replace('','')
22         dic['zan'] = doc('#ding > span').text().replace('[','').replace(']','')
23         dic['id'] = i
24          data.append (DIC)
 (25)          time.sleep (random.random ())
 (26)          N = N + 1 개
 27      리턴 데이터  
 (28)  (29) 의 경우 __name__ == ' __main__ ' :
 30 개      데이터 = 주 ()
 31      final_result = pd.DataFrame (데이터)
 32      final_result.to_csv ( ' 凹凸玩数据.CSV ' 코딩 = " UTF_8 " 인덱스 = 거짓)  

추천

출처www.cnblogs.com/Qqun821460695/p/12059589.html