【2025算法面试通关】【五.自然语言处理-传统NLP】【34.自然语言处理面试题解析:TF-IDF与词袋模型、隐马尔可夫模型(HMM)词性标注 】 业界资讯 2025-04-12 19:02 0 阅读 第一部分:TF-IDF与词袋模型的稀疏性问题 一、基础概念题(1-20题) 什么是词袋模型(Bag of Words, BoW)? 答:将文本视为无序的词集合,忽略语法和词序,通过统计词频构建向量表示,每个维度对应一个词,值为词频。 词袋模型的核心假设是什么? 答:假设文本语义由词的出现频率决定,不考虑词的顺序和上下文关系。 TF-IDF的全称是什么?其数学公式如何定义? 答:全称是词频-逆文档频率(Term Frequency-Inverse Document Frequency)。 词频(TF): 猜你喜欢