机器学习笔记(了解)

1、概念

机器学习,就是通过历史数据找出一定的规律,并使用这些规律对将来不确定的场景进行决策。

机器学习VS数据分析

数据分析,是人为的从历史交易数据中找规律,从而决策。
机器学习,是机器使用算法,从历史行为数据中找规律,从而决策。

交易数据是少量的,行为数据是海量的。

数据分析的准确性,主要取决于分析的这个专家的能力高低。
机器学习的准确性,主要取决于历史数据。

专家再厉害,他的判断也会带有片面性和个人主观性。

所以由数据分析到机器学习,其实就是用数据代替专家的过程。

机器学习VS统计学

统计学,海量数据抽样分析,得到结论,反向校验,优化结论。
机器学习,海量数据全量分析,得到结论。

统计学,最早是因为数据量太大,没法全量处理,才不得已用了抽样的方法。
当有了机器学习,这个问题其实也算被解决了。

离线机器学习VS在线机器学习

大部分机器学习,都是离线的,比如攒一天的数据,每天凌晨批量机器学习一次。
特殊业务场景,需要在线实时机器学习。不断的通过新数据去刺激模型,电商的推荐一般都是实时的。比如猜你喜欢,总能在你搜索完一个商品后,在后续的浏览中就把你刚刚搜索过的类似商品推荐给你。

2、机器学习的应用

购物分析(关联规则算法)

经典案例:美国的啤酒和纸尿裤,总是同时被购买。商家进行对应的捆绑营销,提高销售额。

精准营销(聚类算法)

将人精确的分为不同的类,每类进行不同的营销。

垃圾邮件的识别(朴素贝叶斯算法)

识别垃圾邮件

信用卡欺诈(决策树算法)

信贷风险识别(还款能力不足和骗贷)

互联网广告(ctr预估算法,线性逻辑回归)

对用户的点击率进行预估,比如搜索,对于展示的每一条结果,都会评价一个用户点击的概率,然后按照这个概率的大小进行排列展示,让最有可能点的排在最前面。

推荐系统(协同过滤算法)

电商的推荐系统,猜你喜欢。通过推荐一些用户可能买的东西,提高销量。

自然语言处理

情感分析,通过一个人的评论,分析出这个人的可能性格,从而归类。
实体识别,提取一篇文章的主干信息,比如人名地名等,从而尝试确定一个实体。
等等。。。

图像识别(深度学习)

人脸识别,还有支付宝那个扫一扫就知道是什么植物的功能

其他

语音识别
自动驾驶
视频识别
手势控制
智慧机器人
等等。。。

3、常用算法分类

3.1、按监督分类

y=f(x)

有监督学习:明确指出数据属于哪些标签,再去学习,最终得到模型。

分类算法
回归算法

无监督学习:提前不知道要训练成什么样子

聚类算法

半监督学习:也叫强化学习,一开始训练效果不好,随着时间慢慢强化模型

3.2、按模型分类

生成模型(万事好商量)

使用生成模型,最终你给一个入参,模型会给你不同结果的概率。

判别模型(非黑即白)

判别模型,最终模型会给你一个函数,你给他入参,他就给你出参。

4、机器学习解决问题的套路

4.1、确定目标

1、根据业务需求,确定目标
2、收集历史数据
3、做特征工程(数据预处理,清理,整合),提取出特征

最终的模型,能达到多大的效果,绝大部分因素取决于特征工程做的好不好。所以特征工程是最重要的一步

4.2、训练模型

1、定义模型:定义好一个公式,各个参数需要训练得出
2、定义损失函数:定义最终结果的偏差的大小,最终能量化的知道预测结果和真实结果的差值
3、优化算法:损失函数取最小

4.3、模型评估

1、交叉验证
2、效果评估

发布了203 篇原创文章 · 获赞 186 · 访问量 21万+

猜你喜欢

转载自blog.csdn.net/java_zhangshuai/article/details/105376730
今日推荐