[Jingdong] 상품상세페이지 + 상품리스트 데이터 수집

중국에서 가장 큰 전자상거래 플랫폼 중 하나인 JD.com의 데이터 수집은 다차원적입니다. 

 

어떤 사람들은 카테고리, 브랜드, 제품 이름, 가격, 판매 및 기타 분야를 포함한 제품 정보를 수집하여 제품 판매 상태, 인기 있는 제품 속성을 이해하고 시장 확장 및 중요한 결정을 내릴 필요가 있습니다. 

어떤 사람들은 제품의 장단점, 시장 의도를 명확히 하고 신제품 연구 및 최적화를 수행하기 위해 제품 리뷰를 수집해야 합니다. 

위의 것 외에도 탐색을 기다리는 많은 응용 시나리오가 있습니다. 다음은 Jingdong 데이터 수집 방법에 대한 자세한 소개입니다. 

Jingdong 데이터 수집 방법 

JD.com에서 데이터를 수집하는 것은 필수인데 어떻게 해야 할까요? 수집할 Jingdong 웹 사이트를 찾아 데이터를 하나씩 Excel 테이블에 복사하여 붙여넣기 위한 것입니까? 아니면 크롤러 엔지니어를 찾아 수집용 크롤러 프로그램을 작성하시겠습니까? 

보통 사람들에게 이 두 가지 방법은 비용이 많이 들고 비효율적입니다. 첫 번째 방법은 인력이 많이 소모되고 실수가 많을 수 있으며 두 번째 방법은 비용이 많이 들고 학습 시간이 오래 걸리며 단기간에 배우기 어렵습니다. 끝. 일반인들이 쉽게 징동을 모을 수 있는 방법이 없을까요? 

다음은 우리가 편집한 몇 가지 JD 데이터 수집 자습서입니다.그래픽 설명에 따라 작업할 수 있으며 실제 필요에 따라 필드 추출을 늘리거나 줄일 수 있습니다. 

1. JD.com 상품정보 수집 

수집내용 : 제이디닷컴이 키워드를 검색한 후 나타나는 상품목록정보 수집 

수집 항목: 상품명, 상품 링크, 상품 가격, 상품 사진 링크, 상품 평가 수량, 상품 매장 이름, 상품 매장 링크 

Jingdong 제품 세부 정보 페이지(예: URL: https://item.jd.com/100016944073.html)를 열고 다양한 매개변수(색상, 버전 등)를 클릭한 후 얻은 데이터를 수집합니다(제품 번호, 가격, 메인 이미지 링크). 등)은 매개변수에 따라 달라집니다).

수집 분야

상품명, 색상, 버전, 가격, 상품명, 상품번호, 이미지 URL 등

수집 결과

수집 결과는 Excel, CSV, HTML, 데이터베이스 및 기타 형식으로 내보낼 수 있습니다. Excel로 내보내기의 예:

 

 Jingdong 제품 세부 정보 데이터(JD.item_get_app) 인터페이스 코드 표시로 캡슐화됨

1. 요청 방식: HTTP GET POST

2. 공용 매개변수 요청:

이름 유형 ~ 해야 하다 설명하다
열쇠 호출 키(GET 모드에서 URL에 연결해야 함, 요청 링크: http://c0b.cc/R4rbK2 )
비밀 통화 키(카피 v: Taobaoapi2014)
api_name API 인터페이스 이름(요청 주소에 포함) [item_search, item_get, item_search_shop 등]
은닉처 아니요 [예, 아니오] 기본값은 예, 캐시된 데이터가 호출되며 속도는 비교적 빠름
result_type 아니요 [json,jsonu,xml,serialize,var_export]는 데이터 형식을 반환하고 기본값은 json이며 jsonu의 콘텐츠 출력은 중국어로 직접 읽을 수 있습니다.
아니요 [cn,en,ru] 번역 언어, 기본값 cn 중국어 간체
버전 아니요 API 버전

3. 요청 코드 예제, 높은 동시 요청 지원(CURL, PHP, PHPsdk, Java, C#, Python...)

# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 请求示例 url 默认请求参数已经做URL编码
url = "https://api-gw.19970108018.cn/jd/item_get/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=10335871600"
headers = {
    "Accept-Encoding": "gzip",
    "Connection": "close"
}
if __name__ == "__main__":
    r = requests.get(url, headers=headers)
    json_obj = r.json()
    print(json_obj)

4. 코드 오류 코드 설명

추천

출처blog.csdn.net/tbprice/article/details/130321559