数据挖掘与机器学习

利用机器学习、统计学等方法在相对大量的数据集中发现模式和知识，涉及数据预处理、模型与推断、可视化等。

异常检测
对不符合预期模式的样本、事件进行识别。异常也被称为离群值、偏差和例外等。异常检测常用于入侵检测、银行欺诈、疾病检测、故障检测等。
关联分析
在数据库中发现变量之间的关系(强规则)。例如，在购物篮分析中，发现规则{面包，牛奶}→{酸奶}，表明如果顾客同时购买了面包和牛奶，很有可能也会买酸奶，利用这些规则可以进行营销。
聚类
一种探索性分析，在未知数据结构的情况下，根据相似性把样本分为不同的簇或子集，不同簇的样本具有很大的差异性，从而发现数据的类别与结构。
分类
根据已知样本的某些特征，判断一个新样本属于哪种类别。通过特征选择和学习，建立判别函数以对样本进行分类。
回归
一种统计分析方法，用于了解两个或多个变量之间的相关关系，回归的目标是找出误差最小的拟合函数作为模型，用特定的自变量来预测因变量的值。

机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的方法，可以分成下面几种类别：监督学习、无监督学习、强化学习。

监督学习
监督学习是从有标记的训练数据中学习一个模型，然后根据这个模型对未知样本进行预测。其中，模型的输入是某一样本的特征，函数的输出是这一样本对应的标签。常见的监督学习算法包括回归分析和统计分类。监督学习包括分类和数字预测两大类别，前者包括逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯等，后者包括线性回归、KNN、Gradient Boosting和AdaBoost等。
无监督学习
无监督学习又称为非监督式学习，它的输入样本并不需要标记，而是自动从样本中学习特征实现预测。常见的无监督学习算法有聚类和关联分析等，在人工神经网络中，自组织映射（SOM）和适应性共振理论（ART）是最常用的无监督学习。
强化学习
强化学习是通过观察来学习做成什么样的动作。每个动作都会对环境有所影响，学习对象根据观察到的周围环境的反馈来做出判断。强化学习强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。

分为回归、分类、聚类三大常见机器学习任务。

网络安全、搜索引擎、产品推荐、自动驾驶、图像识别、语音识别、量化投资、自然语言处理等。例卷积神经网络（CNN）——图像识别、照片分类、图像隐藏、图片生成、美化、修复和图片场景描述。

发布了22 篇原创文章 · 获赞 3 · 访问量 3098

私信关注