吴恩达机器学习(一)-初识机器学习

一.什么是机器学习

首先要明白机器学习是什么?实际上,即使是在机器学习的专业人士中,也不存在一个被广泛认可的定义来准确定义机器学习是什么或不是什么。来看一些大牛们尝试的定义:

 Arthur Samuel:在进行特定编程的情况下,给予计算机学习能力的领域。

Tom Mitchell:一个好的学习问题定义如下,他说,一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值
P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。

我比较同意TOM的说法。这就好比有一个人在下棋,他在与他人下棋的过程中,学会了该怎么下,遇到这个格局要怎么下,下一步怎么走,从而提升自己了下棋的技术,然后打败其他人,成为很厉害的选手一样。其中E就是不断与他人下棋,然后学习,任务T就是去战胜别人,而P就是它在与其他人下棋的时候,战胜他人的概率。

二.机器学习的学习算法

机器学习发展到现在有很多种算法,大致可以分为以监督学习,无监督学习两大类,在之后还出现了在线学习,半监督学习等基于前面两种学习算法发展得来的算法。

1.监督学习

什么是监督学习?

监督式学习(英语:Supervised learning),是一个机器学习中的方法,可以由训练资料中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

监督学习与无监督学习最主要的区别就在于数据有没有标签。即给定一组数据集,若该数据集种的每一个样本都有对应的“正确答案”与之对应,那么使用该数据集训练算法的方式就叫做监督学习。

1.1监督学习的类别

监督学习可以分类为回归和分类问题。回归问题或者是分类问题也好,都是通过给定一组数据集,通过学习算法,进而对未知的数据进行预测和分析。

1.1.1回归问题

回归问题,举个例子:假如说你想预测房价。前阵子,一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。

我们应用学习算法,可以在这组数据中画一条直线,或者换句话说,拟合一条直线,根据这条线我们可以推测出,这套房子可能卖$150, 000,当然这不是唯一的算法。可能还有更好的,比如我们不用直线拟合这些数据,用二次方程去拟合可能效果会更好。根据二次方程的曲线,我们可以从这个点推测出,这套房子能卖接近$200, 000。

在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案,这是监督学习中的回归问题。

1.1.2分类问题

举个例子:让我们来看一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出 1 和 0 表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为 1 ,不是恶性,或者说良性记为 0。

我有 5 个良性肿瘤样本,在 1 的位置有 5 个恶性肿瘤样本。现在我们有一个朋友很不幸检查出乳腺肿瘤。假设说她的肿瘤大概这么大,那么机器学习的问题就在于,你能否估算出肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题。

在这个例子中特征只有一个即瘤的大小。 对于大多数机器学习的问题, 特征往往有多个(上面的房价问题也是, 实际中特征不止是房子的面积). 例如下图, 有“年龄”和“肿瘤大小”两个特征。(还可以有其他许多特征,如下图右侧所示)

2.无监督学习

在上面的房价预测或者是肿瘤预测中,我们已知的数据都是知道“正确答案”的,就好比我们知道这个病人是否得了癌症,这个房子多少钱一样。而在无监督学习中,数据集是没有正确答案的,就好比知道有一个人,但是我们不知道他是不是得了癌症一样。

针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。事实证明,它能被用在很多地方。

聚类应用的一个例子就是在谷歌新闻中。如果你以前从来没见过它,你可以到这个 URL网址 news.google.com 去看看。谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到一起。所以,这些新闻事件全是同一主题的,所以显示到一起。

视频详情:https://study.163.com/course/搜索吴恩达机器学习。

猜你喜欢

转载自blog.csdn.net/weixin_42073553/article/details/82194453