8.5 Python机器学习--微博聚类和音乐分类理论记录

Python机器学习:
隆重推出scikit-learn机器学习库
Scikit-Learn是基于python的机器学习模块
Scikit-Learn中的机器学习模型非常丰富,包括SVM,决策树, GBDT,KNN等等,可以根据问题的类型选择合适的模型
Scikit-Learn的安装需要numpy,scipy,matplotlib等模块
微博聚类:
数据集(微博数据)
算法使用(scikit-learn中的kmeans)
期望结果(相似微博聚到同一类)
额外支持模块(jieba中文分词库)
案例流程:
一行行读入原始微博
读的同时进行分词并存入语料库
使用sklearn包中feature_extraction的方法计算出每条微博每个词 中的tf-idf值
将计算出的微博向量矩阵带入到算法中去聚类
将聚类结果和原始微博数据进行整合存入一个结果文件

音乐分类:
数据集(音乐数据)
算法使用(scikit learn中的logistic regression(逻辑回归))
期望结果(输入一首歌,可以对输入的歌曲进行分类)
额外支持模块(安装dateutil-->six-->pyparsing-->pytz-->matplotlib)
案例流程:
["classical", "jazz", "country", "pop", "rock", "metal"]
通过傅里叶变换将以上6类里面所有原始wav格式音乐文件转换为 特征,并取前1000个特征,存入文件以便后续训练使用
读入以上6类特征向量数据作为训练集
使用sklearn包中LogisticRegression的fit方法计算出分类模型
读入黑豹乐队歌曲”无地自容”并进行傅里叶变换同样取前1000维 作为特征向量
调用模型的predict方法对音乐进行分类,结果分为rock即摇滚类

猜你喜欢

转载自blog.csdn.net/u011418530/article/details/80980095
8.5