统计文本建模
目的:观察语料库的词序列如何生成
1、Unigram Model(一元分词)
假设词典中共有V个词,产生文本的规则:
(1)一个色子有V个面,每个面对应一个词,概率不一。
(2)每掷一次色子,产生一个词。若一个文档中含有n个词,相当于独立掷了n次色子产生n个词。
各个面的概率记为:
![](https://upload-images.jianshu.io/upload_images/1911666-cb7a03a9aaa14c2e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/144)
该实验记为:(多项式分布)
![](https://upload-images.jianshu.io/upload_images/1911666-4fbea0f1787c0535.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/116)
![](https://upload-images.jianshu.io/upload_images/1911666-c925f202e8c8fee1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/182)
扫描二维码关注公众号,回复:
6223674 查看本文章
![](/qrcode.jpg)
统计文本建模
目的:观察语料库的词序列如何生成
1、Unigram Model(一元分词)
假设词典中共有V个词,产生文本的规则:
(1)一个色子有V个面,每个面对应一个词,概率不一。
(2)每掷一次色子,产生一个词。若一个文档中含有n个词,相当于独立掷了n次色子产生n个词。
该实验记为:(多项式分布)