파충류 - 오늘의 헤드 라인

오늘의 헤드 라인 1. 분석

  페이지에서 보여주기 위해 헤드 라인을 볼 때 데이터는 패키지의 일부 JS 코드 나 CSS 코드를 가지고있다 찾을 수 있습니다, 그래서 당신은 데이터 페이지를 고려할 필요가 이번에는 내부 쿠키에 동봉되지 않은

  당신이 s_v_web_id에게 쿠키 필드를 찾은 다음 이동 현재 웹 페이지 정말 소스 코드를 얻으려고, 그래서 우리는 쿠키 및 웹 서버를 기반으로 함께 생각할 수있는 쿠키를보기 위해 찾고 실제 데이터를 얻기 위해 과거를 보낸다

2, 적절한 방법을 선택 크롤링

  우리가 안으로 이동하는 것입니다 이것의 내용을 분석 한 후 실제 데이터를 얻을, 나는 좀 더 자세히 살펴보고 내가 사전 내부 자료에있는 모든 정보, 그래서 사이클 데이터를 찾을 때, 얻을 제목과 아이디 내부 (ID는 이렇게 수동으로 만 배분하고, 바느질 필요가 있음을 기억해야 할)

3 선택 기억

  나는 스토리지 내부의 코드를 작성하지 못했지만, 나는 일반적으로 MongoDB를 더 사용, 그래서 당신은 몽고에 직접 데이터를 저장할 수 있습니다

 

특정 코드 : https://github.com/1213William/toutiao_spider

추천

출처www.cnblogs.com/tulintao/p/11486268.html