文本分类--朴素贝叶斯

本文先介绍一下文本特征提取(根据原始数据中的每一篇文章的内容,提取出该文章关键词的频数或者重要性),然后,用朴素贝叶斯算法来实现文本的分类。


目录
1、文本特征提取
2、概率基础
3、贝叶斯公式


1、文本特征提取

第一种方式:统计单词出现的频数
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
对于中文的问题:
在这里插入图片描述

我们可以使用 jieba 进行分词

import jieba
# 先下载包

在这里插入图片描述
在这里插入图片描述
第二种方式:重要性
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


2、概率基础

前提:把每个特征之间看作相互独立的。

  • 联合概率
  • 条件概率

在这里插入图片描述


3、贝叶斯公式

在这里插入图片描述在这里插入图片描述
举个例子解释一下公式原理,如下图所示
在这里插入图片描述
因此,需要添加一个参数(拉普拉斯平滑),保证概率不会出现0的情况。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43606419/article/details/86601624
今日推荐