유명한 대학 리뷰 근처 크롤링 파이썬 웹 크롤러에서 당신과 함께 손

파란색 "을 클릭 파이썬 공간 "아 내 관심

는 "추가 스타 매일 함께 '행복 학습

지금

수프

나는 타워 아래에 나와 함께 할 모든 분주 한 아무도 없었다.

/ 1 소개 /

  요약 : 이 문서는 파이썬으로 유명한 대학 리뷰 근처 호텔을 크롤링하고, 우리가 얼마나 유명한 대학 근처 호텔에 발견하여 분석하는 방법에 대해 설명합니다.

/ 2 특정 구현 /

  특정 구현은 주로 세 가지 단계로 분할되어, 특정 동작은 다음이다.

첫째, 대학 호텔 정보 근처 잡아

  내가 전화 웹 페이지의 끝에서 시작되도록 코멘트없이 미국 임무 호텔 컴퓨터 클라이언트 정보로서, 웹 주소는 다음과 같습니다 https://i.meituan.com/awp/h5/hotel/search/search.html

  베이징 대학 근처 호텔을 검색, 호텔 JSON URL에 패킷 캡처 정보를 점했습니다.

  어느 호텔 시작점 각 반환 (최대 50 인 제한, 시험 후) 호텔에 다시 오프셋 양 대표의 최대 수를 제한 cityId이 도시의 상징으로, 페이지 정보에서 찾을 수 있습니다, 시간 매개 변수 종류의 반환을 수정할 수 있습니다 정렬 호텔 정보는, 종류 = 거리 거리, Q로 검색을 나타내고 키워드 대학 이름입니다.

  반환 된 데이터는 아래와 같이된다 :

    정보는 호텔의 이름, 위치, 평가, realPoiId (호텔의 ID 번호에 해당하는 언급을 등반 다음), 거리, 다른 호텔 및 대학을 포함한다.

    여기에서 우리는 (나는의 혼란을 찾을 대학 순위에 대한 상관 없어 학습 기반)이 호텔 근처에 정상의 10 대학 순위 상승하기 시작 :

(인터넷 사진)

  코드의 일부는 다음과 같습니다 :

  어떤 cityId 및 제어 변수라는 이름의 대학, 2,000m에서 제어 호텔에서 반환 된 정보로부터, 출력은 다음과 같습니다

  근처 2,000m 근처에 이들 10 개 대학에서 얼마나 많은 호텔을 봐 :

  우리는 난징 대학 근처 대부분의 호텔을 볼 수 있습니다, 453가, 적어도 상해 교통 대학 민항 캠퍼스 근처 호텔, 75이있다.

二、抓取每家酒店的点评信息

  这个从这个url可以返回每家酒店的评论数量,poiId是酒店的“身份证号”。

  这个url可以返回酒店的所有评论信息,其中limit为返回的评论数量,可以直接用上个url返回的评论数量,一次全部以json格式返回,非常方便,返回结果如下:

三、遇到的坑

  1.刚开始爬评论是1次返回15个,后来发现可以Limit可以为评论的最大值,但是第一步返回的酒店信息中包含酒店评论数量是不准确的,要用第二步的方法;

  2.评论中乱七八糟的表情、符号也是大坑,去了好久也去不干净;

  3.最好用代理IP地址爬,否则评论太多,会被封。

/3 结语/

  本文基于Python网络爬虫,抓取了高校旁边的酒店数量及其评论数量,如果你想抓取其他地方的其他信息,也是可行的,可以纵向拓展。

  

-END-

推荐阅读:
出不了门的日子,我选择在 GitHub 上快乐的打游戏

神级宝库!GitHub 标星 1.2w+,Chrome 最天秀的插件都在这里啦!

全!全!全!GitHub 总星 5.7w+,最赞的操作系统软件都在这里啦!

卸载 x 雷某度!GitHub 标星 1.5w+,从此我只用这款全能高速下载工具!
B站收藏 6.1w+!GitHub 标星 3.9k+!这门神课拯救了我薄弱的计算机基础





????扫描上方二维码即可关注
发布了609 篇原创文章 · 获赞 6756 · 访问量 114万+

추천

출처blog.csdn.net/u013486414/article/details/104528713