파이썬 추출물의 URL에있는 모든 한자

예를 들어 "관상 동맥 심장 질환"단어 :

 

우리가 거기 코딩 왜곡되는이 시점에서 어떤 치료, 이번에는 자바 스크립트 요청 URL과 브라우저 메커니즘에 따라 인코딩 된 URL 코드의 중국어 파라미터 중국 전기 매개 변수의 존재를 수행하지 않기 때문에, URL을 복사 한 후.

# - * - 코딩 : UTF-8 - * - 
가져 오기 에서 urllib.request 가져 오기 인용, 인용을 끝내 


# 관상 동맥 심장 질환 백과 사전 URL 
URL = ' https://baike.baidu.com/item/%E5%86%A0%E7 %. 8A % B6 % E5 %. 8A %의 A8의 % E8 % 84 % 89 % E7 % B2 % A5 % E6 % A0 % B7 % E7 % A1 % 교류 % E5 % 8C % 96 % E6 %의 80 % A7에서의 %의 E ' \
       ' . 5 % BF % 83 % E8 %의 84 % 8F % E7 % 97 % 85 / 2,252,719? fromtitle = % E5 % 86 % A0 % E5 % BF의 % 83 % E7의 % 97 % 85 fromid = 547 914 및 FR = 알라딘 ' 
H = 맺다 ( URL, 인코딩 = " UTF-한다. 8 " )   #의 디코딩 한자 인코딩 통과 URL 코드 
패턴 = re.compile ( " [^ \ u4e00- \ u9fa5] " )   #의 패턴이 모두 일치하는 한자
의 re.sub = m (패턴 ' , H)는   # 모든 문자가 빈 외부 모드, 즉, 비 한자로 대체 
출력 (m)

 

결과 :

추천

출처www.cnblogs.com/cttcarrotsgarden/p/12219948.html