Python:文本分类
计算文档d属于类别或类别c的概率的公式,表示为P(c | d)。
我们已经将P(c | d)的标准公式(因为它在许多论文中使用)转换为数字稳定的形式。
我们在Python中使用Naive Bayes分类器进行实现。
Python是文本分类的理想选择,因为它具有强大的字符串类和强大的方法。此外,Python的正则表达式模块为用户提供了超越其他编程语言的工具。
唯一的缺点可能是这个Python实现没有针对效率进行调整。
Python实现
警告:实现是在Python 3中,它与Python 2.x不兼容!
文件表示
文档表示基于单词模型包,如下图所示:
需要进口
我们的实现需要正则表达式模块re和os模块:
import re,os
BagOfWords类
文件类
DocumentClass类
DocumentClass类是Document类的类。它继承自我们的Document类。
Pool 类
池是类,学习和保存文档类:
使用分类器