目录
机器问答系统演进
早期文本处理方法
- N-Gram 和 Bag-of-Words (BoW):
- N-Gram:一种基于统计的语言模型,它考虑了文本中连续出现的N个词的序列(即N元组)。这种方法有助于捕捉文本的局部结构和词序信息。
- Bag-of-Words:一种简化的文本表示方法,它将文本视为一个无序的词袋,忽略词序,只关注词频。这种方法在处理大量文本时计算效率高,但缺乏上下文信息。
词嵌入方法
- Word2Vec:
- Word2Vec是一种将词转换为向量表示的方
目录