중국에서 가장 큰 전자상거래 플랫폼 중 하나인 JD.com의 데이터 수집은 다차원적입니다.
어떤 사람들은 카테고리, 브랜드, 제품 이름, 가격, 판매 및 기타 분야를 포함한 제품 정보를 수집하여 제품 판매 상태, 인기 있는 제품 속성을 이해하고 시장 확장 및 중요한 결정을 내릴 필요가 있습니다.
어떤 사람들은 제품의 장단점, 시장 의도를 명확히 하고 신제품 연구 및 최적화를 수행하기 위해 제품 리뷰를 수집해야 합니다.
위의 것 외에도 탐색을 기다리는 많은 응용 시나리오가 있습니다. 다음은 Jingdong 데이터 수집 방법에 대한 자세한 소개입니다.
Jingdong 데이터 수집 방법
JD.com에서 데이터를 수집하는 것은 필수인데 어떻게 해야 할까요? 수집할 Jingdong 웹 사이트를 찾아 데이터를 하나씩 Excel 테이블에 복사하여 붙여넣기 위한 것입니까? 아니면 크롤러 엔지니어를 찾아 수집용 크롤러 프로그램을 작성하시겠습니까?
보통 사람들에게 이 두 가지 방법은 비용이 많이 들고 비효율적입니다. 첫 번째 방법은 인력이 많이 소모되고 실수가 많을 수 있으며 두 번째 방법은 비용이 많이 들고 학습 시간이 오래 걸리며 단기간에 배우기 어렵습니다. 끝. 일반인들이 쉽게 징동을 모을 수 있는 방법이 없을까요?
다음은 우리가 편집한 몇 가지 JD 데이터 수집 자습서입니다.그래픽 설명에 따라 작업할 수 있으며 실제 필요에 따라 필드 추출을 늘리거나 줄일 수 있습니다.
1. JD.com 상품정보 수집
수집내용 : 제이디닷컴이 키워드를 검색한 후 나타나는 상품목록정보 수집
수집 항목: 상품명, 상품 링크, 상품 가격, 상품 사진 링크, 상품 평가 수량, 상품 매장 이름, 상품 매장 링크
Jingdong 제품 세부 정보 페이지(예: URL: https://item.jd.com/100016944073.html)를 열고 다양한 매개변수(색상, 버전 등)를 클릭한 후 얻은 데이터를 수집합니다(제품 번호, 가격, 메인 이미지 링크). 등)은 매개변수에 따라 달라집니다).
수집 분야
상품명, 색상, 버전, 가격, 상품명, 상품번호, 이미지 URL 등
수집 결과
수집 결과는 Excel, CSV, HTML, 데이터베이스 및 기타 형식으로 내보낼 수 있습니다. Excel로 내보내기의 예:
Jingdong 제품 세부 정보 데이터(JD.item_get_app) 인터페이스 코드 표시로 캡슐화됨
1. 요청 방식: HTTP GET POST
2. 공용 매개변수 요청:
이름 | 유형 | ~ 해야 하다 | 설명하다 |
---|---|---|---|
열쇠 | 끈 | 예 | 호출 키(GET 모드에서 URL에 연결해야 함, 요청 링크: http://c0b.cc/R4rbK2 ) |
비밀 | 끈 | 예 | 통화 키(카피 v: Taobaoapi2014) |
api_name | 끈 | 예 | API 인터페이스 이름(요청 주소에 포함) [item_search, item_get, item_search_shop 등] |
은닉처 | 끈 | 아니요 | [예, 아니오] 기본값은 예, 캐시된 데이터가 호출되며 속도는 비교적 빠름 |
result_type | 끈 | 아니요 | [json,jsonu,xml,serialize,var_export]는 데이터 형식을 반환하고 기본값은 json이며 jsonu의 콘텐츠 출력은 중국어로 직접 읽을 수 있습니다. |
랭 | 끈 | 아니요 | [cn,en,ru] 번역 언어, 기본값 cn 중국어 간체 |
버전 | 끈 | 아니요 | API 버전 |
3. 요청 코드 예제, 높은 동시 요청 지원(CURL, PHP, PHPsdk, Java, C#, Python...)
# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 请求示例 url 默认请求参数已经做URL编码
url = "https://api-gw.19970108018.cn/jd/item_get/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=10335871600"
headers = {
"Accept-Encoding": "gzip",
"Connection": "close"
}
if __name__ == "__main__":
r = requests.get(url, headers=headers)
json_obj = r.json()
print(json_obj)
4. 코드 오류 코드 설명