北邮数据挖掘与数据仓库 LAB1:海量文本分类实验

本文是2019学年秋季学期北邮计算机数据挖掘实验一的总结
实验模型:朴素贝叶斯,SVM

实验目的:

通过对数据仓库与数据挖掘课程的学习,了解一些数据挖掘的基本算法,在整体上认识和加深对数据挖掘的理解,并掌握以下技术:

  1. 收集语料库并对语料进行预处理;
  2. 掌握分类算法的原理,基于朴素贝叶斯算法训练文本分类器;
  3. 利用训练的文本分类器,对新输入文本进行分类;
  4. 评价分类器算法。

实验环境:

如果使用本总结处理数据请先安装Anaconda
pip install jieba; pip install sklearn
请自行阅读jieba和skleran的官方文档

操作系统:Windows10
处理器:Corei7-9750H 6核心12线程
内存: 16GB
软件环境:Python3.7,Jieba分词包,Sklearn机器学习库

Anaconda_链接
Skleran_doc
Jieba_分词工具_doc

数据收集:

本次实验数据部分采用部分来自于爬虫收集的搜狐新闻语料库,另外一部分采用清华大学的开源语料库,共计100W条文本数据。

THUCNews是清华大学根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
THUCNews链接
Git爬虫链接

数据处理和模型训练

  1. 分词
  2. 去除停用词
  3. 只保留名词
  4. 划分训练集和测试集
  5. TFIDF向量化
  6. 朴素贝叶斯训练和推理
  7. K方降维
  8. svm训练和推理
发布了7 篇原创文章 · 获赞 6 · 访问量 856

猜你喜欢

转载自blog.csdn.net/qq_38022493/article/details/103970613
今日推荐