final 3

1. Bias-Variance Decomposition

bias:模型真实值与预测值之间的差距(模型本身问题)

variance:由于训练数据不同导致的误差

2. stability

variance小,bias大的模型

同一个数据集产生两个set,同一个training algorithm对其训练;若两个结果很像,则为stable,否则为unstable

stable:KNN,K越大越stable

unstable:decision tree

3. Ensemble methods:把几种方法组合起来

simple ensemble:

a) 少数服从多数

b) a基础上添加weight

mixture of experts:

a) 不同维度用不同方法做

b) 采取不同权重

4. Bagging method

针对unstable模型(low bias, high variance), 降低variance

不训练所有数据,有放回的从全部数据里抽取与原数据相同数量的数据

得到多个训练集,用其训练同一种算法,得到不同的模型,然后采取major vote

即:同一个机器学习算法,仍产生差异化

5. Random Forest

随机性更强,不仅data set是随机的,每个set里选取哪些features也是随机的

6. boosting

针对weak learner(high bias,low variance)效果仅比随机预测好一点

给每一个data增加了一个weight,先训练一个model,下一个model用来解决第一个model中没有解决的问题

对做错的部分,增加weight;做错的地方,减小weight

7. MLP

8. 7中采用sigmoid function是因为求导很简单

a(x) = 1 / (1 + e^-x)

a(x)的导数是a(x)(1-a(x))

td为真实值,od预测值,希望预测与真实差值的平方尽量小,利用这个不断更新w

故而利用error对w求导

 9. MLP for classification(loss function)

 

10. Deep learning---CNNs

1) Conv Layer: window遍历,对应相乘相加,直至遍历结束

但多数情况下不是只有一个channel

原图像的每一层与filter的每一层逐层进行操作,然后每一层加起来只得到一个结果

stride指步长,即filter移动时移动多少

zero-padding:周围补零,使output与input的size相同

output size:

weights per neuron: bias+F*F*3(默认情况下为3)

neurons:output size*output size

connections:neurons*weights per neuron

independent parameters:weights per neuron*number of filter

2) Pooling layer

downsampling,减小size

mean pool/max pool

no independent parameters does this add to the model!!!

3) ReLU Layer(Rectified Linear Unit)

f(x) = max(0, x)

4) FC layer

将卷积层输出拉成一维形式. 

 11. Dropout

随机禁用一些节点,每一轮采用不同的禁用节点,避免overfitting

12. Loss Function

 

13. data augumentation

对一个图像进行物理变化,使其可以在不同的情况下也能进行实别

14. unsupervised learning

数据没有label信息

15. cluster analysis

a) hierarchical methods

a.1) K-means: 随机初始化k个中心点,将剩下的点都归到距离最近的中心点中

选取每个cluster的mean值作为新的中心点,不断重复

可以去除outliers,如那些距离中心点太远的

a.2) expectation maximization(EM)

有K个高斯分布,选取一个,产生一个数据点,,不断重复产生set。但是不知道产生数据的高斯分布的means都是什么以及哪个点是由哪个产生的

如两百个学生的身高数据已知,但是不知道学生性别信息

E step中,任选两个数字作为两个性别的mean值,根据mean判断每个数据由两个高斯分布产生的概率:p1/(p1+p2), p2/(p1+p2)

M step中,将概率作为已知值,更新μ1,μ2(前者对男生身高的均值)

对于200个数据,每个数据乘其是男生的概率,相加,再除以这些概率的和得到μ1;同时再乘是女生的概率,相加

新的μ作为新的mean,不断重复

每个数据都有一定概率属于两个cluster,不是一定属于某个cluster

a.3) Hierarchical Clustering

有bottom up以及top down两种形式

bottom up常见有三种方法:Single linkage, complete linkage, average linkage

single linkage即两个cluster之间的距离用两个cluster之间距离最近的两个点表示

complete linkage即用距离最远的两个点表示

average link: 平均值表示

centroid distance:用两个cluster之间的中心点之间的距离表示

对于single link来讲,先找最大的两个点合并,然后其对于本身的距离为1,别的点到其距离为别的店到原始两个点最近的,即更大的(数字代表相似度)

group average:即根据原始的数据,如12与3的关系,则求1 2 3三者之间的数据均找到求均值

想要几个cluster就在对应位置划开;几个cluster最好的确定方法有Elbow method

Elbow method即计算所有点到其中心点的距离的平方求和,将其与number of cluster对应图片画出来,拐点即为所求

或者采用silhouette plot,针对每一点计算a(i),即该点到同一cluster所有点距离的均值

d(i, c)即计算这个点到其他cluster所有点距离的均值,b(i)是其中的最小值

最好的情况是b(i)远大于a(i)

b) partitioning methods

 16. PCA

降维的

17. autoencoders

将input dataencoder成features。再decoder成原始data,计算其与真实值之间的loss function,降低loss function,做到信息压缩

猜你喜欢

转载自www.cnblogs.com/eleni/p/12818018.html