seven老师直播课笔记(7月9号,流水账式,没整理)

raw 数据——>能被学习的数据的过程:特征工程

分类:离散的输出空间
回归:连续的输出空间

线性分类器:
D维的空间映射到K维的空间的空间,W=W*D维
向量的点积:其物理意义是计算两个变量之间的相关度和相似性

softmax:输出的是概率空间

y i y_i 是一个独热编码列向量, y i ^ \hat{y_i} 也是列向量
所以 L i = y i . l o g ( y i ^ ) L_i=-y_i.log(\hat{y_i}) , y i = 1 y_i=1 ,

数据损失,过拟合的风险
L2Norm:在相同结果的原则下,优先选择权重小的值,原因:不希望输入变化一点点时带来很大的输出变化。
L1 norm的形式相当于做一次特征选择,W为0时相当于把一部分特征过滤掉了,LASSO,

a:0.1-0.3
当模型参数远远大于样本个数时,容易过拟合(方程个数大于未知数)
1.测试时不做dropout,相当于做了融合,能够提高预测能力
batch-size的大小影响loss的幅度,要让loss变小,batch-size需要增大

增加训练的数据

embedding: 语义相关性
特征关联

FM layer:干特征工程的事=Dense embedding中的特征之间的内积

发布了113 篇原创文章 · 获赞 51 · 访问量 17万+

猜你喜欢

转载自blog.csdn.net/weixin_43055882/article/details/95235508
今日推荐