Week One - 2. Andrew Ng - 监督学习

情景一

假设你想预测房价, 你朋友的房子面积是750,你想知道这房子能卖多少钱,机器学习算法如何做到这一点呢?


这里写图片描述

  横坐标:房子的面积
  纵坐标:房子的价格,单位是1000$

方法一:
拟合出一条直线,使其尽量匹配到所有数据,然后用这条直线的方程预测房价。
方法二:
拟合出一条曲线,使其尽量匹配到所有数据,然后用这条曲线的方程预测房价。

定义:
预测连续值的监督学习称为回归:在已知正确答案的数据集中找到规律,帮助预测更多的正确答案。

情景二:

假设现在我们想预测肿瘤是恶性肿瘤还是良性肿瘤: 有个人不幸得了肿瘤,现在我们要预测他的肿瘤是良性的还是恶性的。

这里写图片描述

纵轴:1表示恶性肿瘤,0表示良性肿瘤
横轴:肿瘤的大小

定义:
预测离散值的监督学习称为分类:在已知正确答案的数据集中找到规律,帮助预测更多的正确答案。

补充:
1. 分类问题的另外一种表现形式,利用不同的形状表示,而不是0,1这样的标签。

这里写图片描述

2. 现实中可能不只是二分类问题,而是多分类的问题,例如恶性肿瘤的进一步细分-1号恶性,2号恶性,3号恶性
3. 现实中往往有两个特征,而不仅仅是肿瘤大小一项,已知病人年龄和肿瘤大小,而机器学习要做的任务就是在恶性和良性肿瘤之间找到一条线,将它们区分开来。如下
这里写图片描述

4. 还可能会涵盖更多的特征: 例如肿瘤厚度,肿瘤细胞大小和形状的一致性等等, 而我们一般用到的学习算法能够处理无穷多个特征。那么问题来了,在特征无穷增长的情况下,我们如果处理内存不足的问题呢?后面我们会讲到支持向量机这一算法,能够很好的解决多特征机器学习的问题。\

扫描二维码关注公众号,回复: 3910737 查看本文章

总结:

监督学习: 对于数据集中的每个数据,已知其正确答案,算法会基于已经存在的样本进行学习,发现规律。
回归:预测连续值的监督学习
分类:预测离散值的监督学习

小测验:

请问以下问题,哪些是分类问题,哪些是回归问题?
问题一: 你有一堆货物的清单,你想预测接下里有多少货物会卖出。回归问题
问题二: 你想让计算机检测用户的账户是否被盗窃。分类问题

猜你喜欢

转载自blog.csdn.net/ZenG_xiangt/article/details/81878757