机器学习与深度学习记录

DSSM最大的卖点在检索场景下 使用点击数据来训练语义层次的匹配,简单的来说,传统检索场景下的匹配主要有:

字面匹配:TFIDF、BM25等
使用LSA类模型进行语义匹配,但是效果不好

这里写图片描述
这里写图片描述
上图中的Semantic feature 可用作词向量。这也是DSSM的优势之一。
DSSM的优势:

DSSM看起来在真实检索场景下可行性很高,一方面是直接使用了用户天然的点击数据,出来的结果可行度很高,另一方面文中的doc可以使用title来表示,同时这个部分都是可以离线进行语义向量计算的,然后最终query和doc的语义相似性也是相当诱人
DSSM出的结果不仅可以直接排序,还可以拿中间见过做文章:semantic feature可以天然的作为word embedding。
资料三:
代码分析
https://blog.csdn.net/zkq_1986/article/details/79128844
进度条:基本了解,论文未看,代码未看。

LDA模型主题模型

https://blog.csdn.net/huagong_adu/article/details/7937616

不平衡数据下的机器学习方法简介

https://www.jianshu.com/p/3e8b9f2764c8
这里写图片描述

半监督学习中的协同学习

http://lamda.nju.edu.cn/huangsj/dm11/files/gaoy.pdf
这里写图片描述

猜你喜欢

转载自blog.csdn.net/m0_37561765/article/details/80302933
今日推荐