机器学习算法学习---处理聚类问题常用算法(五)

统计文本建模

目的:观察语料库的词序列如何生成

1、Unigram Model(一元分词)

假设词典中共有V个词,产生文本的规则:

(1)一个色子有V个面,每个面对应一个词,概率不一。

(2)每掷一次色子,产生一个词。若一个文档中含有n个词,相当于独立掷了n次色子产生n个词。

各个面的概率记为:

该实验记为:(多项式分布)

一篇文档是n个词组成的
生成概率:
扫描二维码关注公众号,回复: 6223674 查看本文章
 

猜你喜欢

转载自www.cnblogs.com/zhenpengwang/p/10857264.html