机器学习(一)——基本概念

基本术语

西瓜样例数据

ID 色泽 根蒂 敲声 酸甜程度 销量
1 红色 蜷缩 浊响 60 100
2 绿色 蜷缩 清脆 80 150
3 红色 硬挺 清脆 90 300


数据集(dataset):一组数据的集合,如:这里的3组数据。

样本(示例 sample):反映事件或者对象的某些方面的变现或性质的事项。如:这里每一行数据都是一个样本。

属性(特征feature):这里的色泽,敲声都可以称为西瓜的属性或者特征。

样本空间(属性空间 attribute space):假设每一个属性都是被描述的对象的一个维度,那么多个属性或者特征即可把其描述成空间中的一个点,该点的坐标就是其在不同维度(也就是属性)的取值。

特征向量(feature vector):构建成上述的样本空间后,每一条数据在样本空间里都有一个点后,那么每个点对应一个坐标向量。因此也把每一个示例称为一个特征向量。


(不知道怎么输入公式,原谅我的截图~)

学习(learn):通过执行某种学习算法来学得模型对应了关于数据的某种潜在的规律,因此亦称假设。学习过程就是为了找出或逼近真相,也称为学习器,可以看作是学习算法在给定的数据和参数空间上的实例化。

训练样本(training):用来训练学习器的样本数据。考虑到学得的模型应具有很好的泛化能力,所以选取的训练样本虽然是样本空间的一个很小采样,我们仍希望它能很好地反反映样本空间的特性,通常假设样本空间中全体服从一个未知分布(distribution),通过相应的采样规则从这个分布中进行采样。

测试样本(testing):用来评价学习器的好坏的样本数据。

分类(classification):学习任务是预测()的是离散值,如:“好瓜",”坏瓜“。如果分类结果只有正类和反类则称为二分类任务,如果是多个类别则称为多分类任务。

回归(regression):学习任务是预测的是连续值。如:西瓜的成熟度0.9,0.75

泛化(generalization)能力:学得的模型适用于新样本的能力,称为泛化能力。

有无监督(supervised and unsupervised)学习:根据训练数据是否拥有标记信息,学习任务可大致划分为有监督和无监督学习。

归纳(induction):从特殊到一般的泛化过程,即从具体的事实归结出一般性规律。例如:从样本数据中学习。

演绎(deduction):从一般到特殊的“特化”过程,即从基本原理推演出具体状况。例如:数学公理系统中基于一组公理和推理规则推导出定理。

归纳学习:广义上可以理解为从样本数据中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept)因此称为“概念学习”。概念学习技术目前研究、应用都比较少,因为要学的泛化性能好且语义明确的概念实在太困难了,现实常用的技术大多是产生“黑箱”模型。

假设空间:把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设。例如找一个规律是(色泽=?,根蒂=?,敲声=?;则该瓜为好/坏瓜。)。在表示的时候,*表示通配符,表示空


西瓜问题的假设空间

版本空间(version space):由于实际问题中假设空间非常庞大,但是学习过程是基于有限样本训练进行的,因此可能有多个假设与训练集一致,及存在着一个与训练

归纳偏好(inductive bias): 指的是学习算法在学习过程中的偏好,任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法产生确定的学习结果。它可以被看作是学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观"。

事实上,归纳偏好对应了学习算法的关于”什么样的模型更好“的假设。在具体实际问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

奥卡姆剃刀(Occam's razor):是一种常用的、自然科学研究中最基本的原则,即”若有多个假设与观察一致时,选择最简单的那个“。

NFL(No Free Lunch Theorem,没有免费的午餐):这个定理论证了无论学习算法多聪明或者多么笨拙,它们的期望性能都是相同的,它清楚的告诉了我们脱离具体问题,空谈”什么学习算法好“是毫无意义的。






猜你喜欢

转载自blog.csdn.net/maizi1045/article/details/80872727
今日推荐