Jieba分词原理与解析

https://www.jianshu.com/p/dfdfeaa7d01f

1 HMM模型

 
image.png

马尔科夫过程:

 
image.png

 
image.png
  • 以天气判断为例:引出隐马尔科夫模型


     
    image.png

     
    image.png

以天气判断为例:由海藻信息推测天气

 
image.png

于是我们可以将这种类型的过程建模为有一个隐藏的马尔科夫过程和一个与这个隐藏马尔科夫过程概率相关的并且可以观察到的状态集合。这就是本文重点介绍的隐马尔可夫模型。
隐马尔可夫模型(Hidden Markov Model) 是一种统计模型,用来描述一个含有隐含未知参数的马尔可夫过程。

  • 马尔科夫假设


     
    image.png

     
    image.png

     
    image.png

     
    image.png

2 三个问题

 
image.png

 
image.png

 
image.png

 
image.png

 
image.png

 
image.png

 
image.png
  • 源码架构
    ├── jieba
    │ ├── analyse
    │ │ ├── analyzer.py
    │ │ ├── idf.txt
    │ │ ├── init.py
    │ │ ├── textrank.py
    │ │ └── tfidf.py
    │ ├── _compat.py
    │ ├── dict.txt
    │ ├── finalseg
    │ │ ├── init.py
    │ │ ├── prob_emit.p
    │ │ ├── prob_emit.py
    │ │ ├── prob_start.p
    │ │ ├── prob_start.py
    │ │ ├── prob_trans.p
    │ │ └── prob_trans.py
    │ ├── init.py
    │ ├── main.py
    │ └── posseg
    │ ├── char_state_tab.p
    │ ├── char_state_tab.py
    │ ├── init.py
    │ ├── prob_emit.p
    │ ├── prob_emit.py
    │ ├── prob_start.p
    │ ├── prob_start.py
    │ ├── prob_trans.p
    │ ├── prob_trans.py
    │ └── viterbi.py
    ├── LICENSE
    ├── MANIFEST.in
    ├── README.md
    ├── setup.py
    └── test
 
image.png

3 Jieba源码分块解析

 
image.png

 
image.png

 
image.png

 
image.png

 
image.png

 
image.png

 
image.png

 
image.png

Jieba应用实践

 
image.png

 
image.png

 
image.png

 
image.png

 
image.png

小白学习 无关利益

感谢:

隐马尔可夫模型(HMM)攻略
HMM的(五个基本要素,三个假设,三个解决的问题)
HMM学习最佳范例七:前向-后向算法3
中文分词技术(中文分词原理)
鬼吹灯文本挖掘
https://blog.csdn.net/zhuzuwei/article/details/80775078



作者:林桉
链接:https://www.jianshu.com/p/dfdfeaa7d01f
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

猜你喜欢

转载自www.cnblogs.com/jfdwd/p/11094998.html