파이썬의 jieba 라이브러리 항목을 사용하여

  원하는 추출 단어 안에 만 당신은 예를 들어, 분할 문자열 처리 () 메소드를 사용해야 할 경우 약간의 영어를 들어, "중국은 큰 나라입니다."

 

 

 그러나 중국의 텍스트, 중국어와 중국 고유의 유사하다 중국어 단어 사이의 분리의 부족 "단어 문제."

  jieba는 ( "더듬") 파이썬은 중요한 타사 중국어 단어 라이브러리입니다. jieba 라이브러리 그러므로, 우리가 핍 지시를 설치할 필요가 타사 라이브러리가 아닌 파이썬 설치 패키지를 제공합니다.

Windows를 설치하는 명령을 사용하여 네트워크 모드에서는 명령 줄 입력  pip install jieba 설치, 설치가 성공적으로 설치하라는 메시지가 표시됩니다 완료됩니다.

 

  • 세 가지 모드의 jieba의 말씀 

           정밀 모드, 전체 모드, 검색 엔진 모드 

           정확한 모델 : 텍스트 정확한 컷을 분리, 중복성 단어가 없습니다
           -  전체 모드 : 텍스트의 가능한 모든 단어가 스캔이 중복

           -  검색 엔진 모드 : 장기 재분할에 기초하여 정확한 모드

  •  일반적으로 사용되는 기능의 jieba 라이브러리

 

 

  •  예를 들어로는 다음과

 jieba._lcut ( "중국의 인민 공화국은 위대한 나라입니다.")

jieba._lcut (cut_all = 진정한 "중국의 인민 공화국은 위대한 나라입니다")

jieba._lcut_for_search ( "중국의 인민 공화국은 위대한 나라입니다.")

 결과 :

 

추천

출처www.cnblogs.com/DrcProgrammingCool/p/11700116.html