机器学习西瓜书学习笔记

1.2关键词提取:

人看西瓜→机器识别西瓜
人的经验→数据形式的经验

机器学习:
从数据产生模型→模型提供相应的判断
机器学习是研究学习算法的学问
有文献用模型指全局性结果,模式指局部性结果

基本术语:
一批关于西瓜的数据(色泽=青绿,根缔=蜷缩,啥啥=啥啥特性)()()每个括号表示每个西瓜的数据 记录;形式为特性=结果;“=”表示取值为。例如“色泽=乌黑”

记录 的集合称为一个 数据集,每条记录是关于事件或对象的描述。称为一个 示例( i n t e n s e intense intense)或 样本。

属性( a t t r i b u t e attribute attribute)/特征( f e a t u r e feature feature)=属性值( a t t r i b u t e   v a l u e attribute\ value attribute value)/特征值( f e a t u r e   v a l u e feature\ value feature value)

属性张成的空间称为 属性空间 样本空间($$sample\ value) 输入空间

假设把西瓜的三个属性作为三个坐标轴,张成一个用于描述西瓜的三维空间。每个西瓜都可以在空间中找到一个坐标位置,由于每个点对应一个坐标向量。因此也把一个示例称为 特征向量( f e a t u r e   v e c t o r feature\ vector feature vector)

一般地,令 D = x 1 , x 2 , . . . , x m D={x_1,x_2,...,x_m} D=x1,x2,...,xm表示包含 m m m个示例的数据集,每个示例由 d d d个属性描述,则每个示例 x i x_i xi d d d维样本空间 X X X中的一个向量, x i ∈ X x_i\in X xiX,其中 x i j x_{ij} xij x i x_i xi在第 j j j个属性上的取值, d d d表示样本 x i x_i xi的维数( d i m e n s i o n a l i t y dimensionality dimensionality)。

学习( l e a r n i n g learning learning)或训练( t r a i n i n g training training):从数据中获取模型
训练数据(training data):训练使用的数据
训练样本(training sample):数据样本
训练集(training set):训练样本组成的集合

假设(hypothesis)
潜在规律自身:真相/真实(ground truth)
模型 学习器(learner):可以看作学习算法在给定数据和参数空间上的实例化

要建立关于预测( p r e d i c t i o n prediction prediction)的模型:仅有示例数据显然是不够的,需要获得训练样本的结果信息
例如((色泽=青绿,根缔=蜷缩,啥啥=啥啥特性),好瓜),好瓜即结果,称为 标记

扫描二维码关注公众号,回复: 13004519 查看本文章

样例:拥有了标记的信息的样例

一般地,用 ( x i , y i ) (x_i,y_i) (xi,yi)表示第 i i i个样例( e x a m p l e example example),其中 y i ∈ Y y_i\in Y yiY表示示例 x i x_i xi的标记( l a b e l label label), Y Y Y是所有标记的集合,亦称为标记空间输出空间

分类:预测结果是离散值的学习任务
回归:预测结果是连续值得学习任务
二分类( b i n a r y c l a s s i f i c a t i o n binary classification binaryclassification):正类( p o s i t i v e c l a s s positive class positiveclass) 反类( n e g a t i v e   c l a s s negative\ class negative class)
多分类( m u t i − c a s s   c l a s s i f i c a t i o n muti-cass\ classification muticass classification):涉及多个类别

一般地,预测任务是希望通过对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} { (x1,y1),(x2,y2),...,(xm,ym)}进行学习,建立一个从输入空间 X X X到输出空间 Y Y Y的映射 f : X → Y f:X→Y f:XY

对二分类任务,通常令 Y = − 1 , + 1 Y={-1,+1} Y=1,+1或{0,1};

对多分类任务, ∣ Y ∣ > 2 |Y|>2 Y>2;对回归任务, Y = R Y=R Y=R, R R R为实数集。

测试( t e s t i n g testing testing):学的模型后,使用其进行预测的过程
测试样本( t e s t i n g   s a m p l e testing\ sample testing sample):被预测的样本
例如在学得 f f f后,对测试集 x x x,可得到其预测标记 y = f ( x ) y=f(x) y=f(x).

对西瓜进行聚类( c l u s t e r i n g clustering clustering)→ 这些自动形成的簇可能存在一些潜在的概念划分

监督学习( s u p e r v i s e d   l e a r n i n g supervised\ learning supervised learning) 代表:分类和回归
无监督学习( u n s u p e r v i s e d   l e a r n i n g unsupervised\ learning unsupervised learning) 代表:聚类

机器学习目标:使学的的模型能很好地适用于“新样本”

泛化能力 g e n e r a l i z a t i o n generalization generalization):学得模型适用于新样本的能力,具有强泛化能力的模型能适用整个样本空间

通常认为训练集是样本空间一个很小的采样。仍希望它能很好地反映出样本空间的特性。

通常假设样本服从一个未知分布 D D D,我们获得的每个样本都是独立同分布 i n d e p e n d e n t   a n d   i d e n t i c a l l y   d i s t r i b u t e d independent\ and\ identically\ distributed independent and identically distributed 简称 i . i . d i.i.d i.i.d),一般而言,训练样本越多,我们得到的关于 D D D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

猜你喜欢

转载自blog.csdn.net/ohhardtoname/article/details/92002210
今日推荐