朴素贝叶斯进行文本分类 - 代码天地

朴素贝叶斯进行文本分类

其他 2019-01-29 15:17:32 阅读次数: 0

准备数据：从文本中构建词向量

将句子转换为向量

该函数的的第一个变量返回的是词条切分的文档集合，数据来源为斑点犬爱好者留言板；classVec为类别标签的集合，有两类：侮辱性和非侮辱性，由人工标注，用于训练程序可以自动检测侮辱性留言。

创建一个包含在所有在文档中出现的不重复的列表，set函数可以输出一个无重复元素的词表，|用以求两个集合的并集。

输入参数为词汇表或某个文档，输出的是文档向量，向量的每一元素为1或0，分别表示单词在输入文档中是否出现。思路为：创建一个和词汇表等长的向量，向量元素都为0；然后遍历文档中的所有单词，若出现词汇表中的单词，则将输入的文档向量中的对应值设为1。

试运行结果如下：Python3对于格式要求很严格，编码规范得牢记！

可以得出，在postingList中第一个和第四个列表所拥有的元素，在整个文档中的位置。

即完成了单词向向量的转换。

训练算法：从词向量计算概率

思路：w为词向量，i表示文本类别：侮辱或非侮辱，p(ci)为每类文档占总文档的比例,假设每个词向量相互独立，p(w|ci)=p(w0|ci)p(w1|ci)p(w2|ci)p(w3|ci)...p(wN|ci)

伪代码为：

计算每个类别中的文档数目

对每篇训练文档：

对每个类别：

如果词条出现在文档中→增加该词条的计数值

增加所有词条的计数值

对每个类别：

对每个词条：将该词条的数目除以总词条数目得到条件概率

返回每个类别的条件概率

猜你喜欢

转载自blog.csdn.net/weixin_38527856/article/details/83755071

朴素贝叶斯进行文本分类

NLP系列(2)_用朴素贝叶斯进行文本分类(上)

NLP用朴素贝叶斯进行文本分类（二）

利用TfidfVectorizer+朴素贝叶斯进行文本分类

NLP系列(3)_用朴素贝叶斯进行文本分类(下)

文本分类--朴素贝叶斯

朴素贝叶斯&基于朴素贝叶斯的文本分类算法

朴素贝叶斯算法文本分类原理

朴素贝叶斯在文本分类中的应用

基于朴素贝叶斯的文本分类(二)

文本分类---朴素贝叶斯(2)

朴素贝叶斯实现的文本分类

sklearn+python:朴素贝叶斯及文本分类

(三)朴素贝叶斯运用——文本分类

机器学习-文本分类实例-朴素贝叶斯

朴素贝叶斯原理及文本分类

文本分类（朴素贝叶斯算法）

文本分类之朴素贝叶斯算法

使用朴素贝叶斯进行文档分类

基于贝叶斯的文本分类

朴素贝叶斯模型+文本分类+垃圾邮件分类源代码

python分类分析--朴素贝叶斯算法原理与文本分类分析案例

迁移学习应用—基于朴素贝叶斯的文本分类

文本分类和朴素贝叶斯，你真的理解了吗？

Python自然语言处理—文本分类—朴素贝叶斯

利用spark做文本分类（朴素贝叶斯模型）

机器学习实战：朴素贝叶斯模型之文本分类

自然语言处理朴素贝叶斯新闻文本分类

基于ml的spark中文文本分类（朴素贝叶斯）

基于TF-IDF及朴素贝叶斯的短文本分类

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)