Python...你知道的够多吗?

Python:文本分类

计算文档d属于类别或类别c的概率的公式,表示为P(c | d)。 

我们已经将P(c | d)的标准公式(因为它在许多论文中使用)转换为数字稳定的形式。 

我们在Python中使用Naive Bayes分类器进行实现。

Python是文本分类的理想选择,因为它具有强大的字符串类和强大的方法。此外,Python的正则表达式模块为用户提供了超越其他编程语言的工具。 

唯一的缺点可能是这个Python实现没有针对效率进行调整。 

Python实现

警告:实现是在Python 3中,它与Python 2.x不兼容! 

文件表示

文档表示基于单词模型包,如下图所示:

需要进口

我们的实现需要正则表达式模块re和os模块:

 

import re,os

BagOfWords类

文件类

DocumentClass类

DocumentClass类是Document类的类。它继承自我们的Document类。

Pool 类

池是类,学习和保存文档类:

使用分类器

猜你喜欢

转载自blog.csdn.net/PyhtonChen/article/details/95210132