광주 데이터 분석 홈 링크 간접 하우징 - 데이터 크롤링



블로그 공유 기반 방법 연구 및 rvest 패키지 크롤러 전에. 지금에 대처하기 위해 : 간접 주거 자료의 홈 네트워크 광저우 40,000 세트의 크롤링 체인.
lianjia 홈페이지

전에 R 용으로 긁어 웹 파충류이 방법에 말했다 반복에 있지 않습니다. 여기에 데이터의 웹 사이트 페이지를 크롤링하는 방법을 공유 할 수 있습니다.


>> 웹 여러 페이지에 걸쳐 긁어

먼저 법 URL이 광저우 홈 링크 간접 하우징 데이터로서 페이지를 플립 관찰 :

첫 번째 페이지 : https://gz.lianjia.com/ershoufang/

두 번째 페이지 : https://gz.lianjia.com/ershoufang/pg2/

세 번째 페이지 : https://gz.lianjia.com/ershoufang/pg3/

......

유추 할 수있는 URL은 " https://gz.lianjia.com/ershoufang/pg "페이지 +는

1) 우리는 100 페이지의 주택 가격 페이지 1까지 상승 할 필요가 가정하자. 그런 다음 우리는 첫 번째 페이지의 데이터를 크롤링 시도하고 함수로 패키징 할 수 있습니다.

getHouseInfo <- function(pageNum, urlWithoutPageNum) {
  url <- paste0(urlWithoutPageNum, pageNum)
  webpage <- read_html(url,encoding="UTF-8")
  total_price_data_html <- html_nodes(webpage,'.totalPrice span')
  total_price_data <- html_text(total_price_data_html)
  data.frame(totalprice = total_price_data)
}

2) 다음에 페이지 (100)로 데이터 페이지 1 크롤링 상술 기능 루프를 사용하고, 데이터의 복수의 페이지 병합 된 데이터 프레임에

url <- "https://gz.lianjia.com/ershoufang/pg"
houseInfo <- data.frame()
for (ii in 1:1553){
  houseInfo <- rbind(houseInfo, getHouseInfo(ii, url))
}


>> 샘플 코드

우리가 (또는 리프트를 사용하지 않고, 등, 지역, 지구, 여러 홀 여러 객실 포함) 크롤링을 4w + 자세한 광저우 홈 링크 온라인 중고 주택을 완료하기 위해 시도 할 수있는 데이터를 반전하는 방법을 알고 크롤링.

여기 다운로드

많은 양의 데이터는 데이터를 크롤링 시간이 좀 걸릴 것입니다. 당신이 크롤링 완전한 데이터를 저장하려면 적절한 코딩, 또는 왜곡 될 가능성을 선택하기 위해주의를 기울여야합니다. 맥 엑셀 CVS에서 열린 형식을 제공합니다.

데이터

추천

출처www.cnblogs.com/yukiwu/p/10975337.html