--B 역은 파이썬 전투 크롤링 파충류를 커버

거리가 미토는이 문서에 대한 개정 교사 추이 및 다른 블로그에 근거하여 주로 크롤링 이길, 내가 인해 제한된 용량으로, 비디오 커버 B 역을 크롤링 배운 코드는 한 번만 크롤링 가.

첫째, 홈 스테이션 B로 이동

 

 그렇다하더라도, 당신은 잘 생긴 비디오를 느끼는 하나를 선택의 포인트, 또는이 열 네트워크의 정보를 관찰

 

 

마지막으로, 우리는 막대 정보를 발견

 

 이 칼럼에서 우리는, 우리가 온라인 검색에서 URL을 해당 그림을 직접 데이터가 동영상에 대해 많은 정보를 포함 볼 수있는 표지에 도착,

 

 그래서 우리가 지금해야 할 것은 URL에서 파이썬을 사용하는 것입니다 = 'HTTPS :? 원조 = 66698107 & CID = 115,671,196 //api.bilibili.com/x/web-interface/view'다음 그림에서 추출되는 결과를 얻기 위해 요청, 아래 직접 코드에

. (1)  오기 JSON
 2  오기 OS
 3.  오기 다시
 4 개.  오기 요청
 5.  에서 URLLIB의 반입 요청
 6. = INPUT AV ( ' AV를 조회 번호 입력 ' )
 . 7 URL = " https://api.bilibili.com/x/web ? -interface / 전망 AID S = % ' % (AV)
 8.  
9. 헤더 = { ' User-- 에이전트 ' : ' 모질라 / 5.0 (윈도우 NT 10.0하며 WOW64) AppleWebKit / 537.36 (KHTML, 도마뱀 등) 크롬 / 64.0. 사파리 3282.167 / 537.36 ',
 10              ' 리퍼러 ' : ' https://www.bilibili.com/v/douga?spm_id_from=333.334.b_62696c695f646f756761.2 ' ,
 11.              # '수락': '텍스트 / HTML 파일 응용 프로그램 / XHTML + XML 파일 응용 프로그램 / XML ; Q는, 이미지 / WebP 형식, 이미지 / APNG, * / * = 0.9, Q = 0.8, 파일 응용 프로그램 / 서명 - 교환, V는 = B3 ' 
(12)는              # 이 섹션의 헤더가 제공되어, 직접 기록 찾을 수 없음 블로그를 확인 등반 할 수있다 
(13)              # '는 인코딩 수락': 'gzip을을은 폐의, BR', 
14              # '수락 - 언어': 'ZH - 더 CN, ZH, Q = 0.9', 
15              # '캐시 - 제어': '최대 - 나이 =', 
16              # '연결': '유지] - 살아'
17              }
 18= requests.get 응답 (URL 헤더 = 헤더)
 . 19 함량 = json.loads (response.text)
 (20)가된다  # 취득 STR 문자열 데이터 JSON에 해석 될 필요 
21된다 statue_code = content.get ( " 코드 " )
 (22)는  IF statue_code == 0 :                                    
 23 인      프린트 (content.get ( " 데이터 " ) 갔지 ( ' PIC ' ))
 (24)      이 전단 (content.get ( " 데이터 " ) 갔지 ( ' 제목 ' ))
 25      IMG = content.get은 (' 데이터 ' ) 갔지 ( ' PIC는 ' )
 (26)은      = (의 re.sub 이름 " [A-ZA-Z0-9 \! \ % \ [\] \ \ ./] " , "," (content.get ' 데이터 ' ) 갔지 ( ' 제목 ' )) 일반에 #이 부분이 일부 비디오 B 역 이름은 일부 문장은 파일 이름이 아닙니다으로 이어질 것입니다 될 것으로 발견 되었기 때문에 
                                                          그렇게 만 N 인 파일로 한자의 문자열을 추출 #을 이름을
27 request.urlretrieve (IMG, 이름 + ' .JPG를 ' ) #을 제목으로 저장 28 다른 : 29 인쇄 ( '는 AV 번호가 존재하지 않습니다 ')
코드 statue_code 데이터를 분석 한 후에는 statue_code == 0에있는 요구 된 데이터의 상태를 표시하는 데 사용됩니다 알고, 데이터에서 볼 수있는 데이터가있을 것이다 
파일 이름이 이름을 일부 비디오 B 국이 때문에 일부 문장은 파일 이름을하지으로 이어질 것입니다, 그래서 일반의 추가는 영어 외에 다른 문자를 제거합니다.
마지막으로 결과를 크롤링 :

 

 폴더에서 :

 

 함께 학습을 탐험에 오신 것을 환영합니다



 

추천

출처www.cnblogs.com/KangZP/p/11468316.html