원하는 추출 단어 안에 만 당신은 예를 들어, 분할 문자열 처리 () 메소드를 사용해야 할 경우 약간의 영어를 들어, "중국은 큰 나라입니다."
그러나 중국의 텍스트, 중국어와 중국 고유의 유사하다 중국어 단어 사이의 분리의 부족 "단어 문제."
jieba는 ( "더듬") 파이썬은 중요한 타사 중국어 단어 라이브러리입니다. jieba 라이브러리 그러므로, 우리가 핍 지시를 설치할 필요가 타사 라이브러리가 아닌 파이썬 설치 패키지를 제공합니다.
Windows를 설치하는 명령을 사용하여 네트워크 모드에서는 명령 줄 입력 pip install jieba
설치, 설치가 성공적으로 설치하라는 메시지가 표시됩니다 완료됩니다.
- 세 가지 모드의 jieba의 말씀
정밀 모드, 전체 모드, 검색 엔진 모드
- 정확한 모델 : 텍스트 정확한 컷을 분리, 중복성 단어가 없습니다
- 전체 모드 : 텍스트의 가능한 모든 단어가 스캔이 중복
- 검색 엔진 모드 : 장기 재분할에 기초하여 정확한 모드
- 일반적으로 사용되는 기능의 jieba 라이브러리
- 예를 들어로는 다음과
jieba._lcut ( "중국의 인민 공화국은 위대한 나라입니다.")
jieba._lcut (cut_all = 진정한 "중국의 인민 공화국은 위대한 나라입니다")
jieba._lcut_for_search ( "중국의 인민 공화국은 위대한 나라입니다.")
결과 :