TF-IDF의 NLP

   우선 내가 거기 놀이, 행복 수, 많은 것들이 희미 모르는,이 운동과 함께 재생하는 것입니다 사용 모르겠어요. 오늘 우리는 친구의 말의 원 항상 스크린 샷의 머리를 참조하십시오 텐센트는 시작 부분에 설립되었다 돈을 벌 수없는, 좋은 제품을 만드는 것입니다. 하, 하, 하, 하, 하, 하, 하

TF-IDF (장기 주파수 - 인버스 문서 빈도)를 사용하는 일반적인 가중 정보 검색 및 텍스트 마이닝 기술이다. TF-IDF는 코퍼스에있는 파일이나 문서의 용어 집합의 중요성을 평가하는 통계적 방법이다. 이 파일에 나타나는 횟수와 같은 단어의 중요성의 증가에 비례하지만, 주파수가 신체의 모양에 반비례로도 줄어 듭니다.

TF-IDF는 실제로 : TF의 *의 IDF. 주요 아이디어는 다음과 같습니다 다른 기사에서 기사 높은 (즉, 높은 TF) 희귀 (즉, 높은 IDF)에 표시되는 단어 또는 문구의 주파수, 단어를 고려 나 구문이 아주 좋은 범주가 있습니다 경우 차별적 전력 분류에 적합하다.

특정 용어 t의 TF (용어 주파수 용어 빈도)은 주어진 문서의 D의 발생 빈도를 나타낸다. TF는 문서의 D t에서 중요한 단어가 상기 TF 낮아 단어 t의 d는 덜 중요한 문서 인 높다. 그것은 TF 유사성 평가 기준 텍스트 그것으로 사용할 수 있는지 여부? 대답은, 예를 들어, 일반적으로 같은 중국어 단어를 충분히 사용하지 않는 "I," "가", "A,"등등, 중국에서 주어진 문서의 발생 빈도가 매우 높은이지만, 중국어 단어 거의을 유사성 평가 기준 텍스트로 TF가, 각 문서는 거의 타격을받을 수있는 경우 각각의 문서는 매우 높은 단어 빈도가있다.

IDF (역 문서 빈도, 역 문서 빈도)의 주요 아이디어 : t는 t은 전체 설명서 세트 레벨에 걸쳐 카테고리를 구분하는 좋은 능력을 가지고 단어를 나타내는,수록 IDF를 문서의 적은 단어를 포함하는 경우. IDF는 문제를 보여? 예를 하나 들어, 일반적으로 같은 중국어 단어를 사용 "나는," "는이", "a"는 거의 각 문서에서 매우 높은 용어 주파수가 다음 문서의 전체 집합에 대해,이 단어는 중요하지 않습니다. 문서의 전체 세트의 경우, 평가 기간은 중요한 기준은 IDF입니다.

 

 

추천

출처www.cnblogs.com/students/p/8998971.html