数据挖掘 — Learn To Rank(LTR)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_20095389/article/details/88189644
1、文本特征向量提取方式
  • TF - IDF:单词在当前文档出现的频率 * log(总文档/单词在总文档中出现的文档数 ) 统计单词的TF-IDF,作为文本特征向量
  • CountVectorizer:只统计单词的词频,作为文本特征向量

上面两种方式参考这篇 https://blog.csdn.net/The_lastest/article/details/79093407

  • Word2Vec
    隐藏层求得onehot维度 * 隐藏层神经节点的个数,就是我们需要的wordvec,每一行就是对应单词的编码后的向量
    • CBOW:输入是上下文,输出是种子单词
    • Skip-Gram: 输入是种子单词,输出是上下文

word2vec 参考

2、LTR算法

(TODO 每个方式找个具体的算法看下怎么做的)
https://blog.csdn.net/manduner/article/details/80702762

  • Pointwise
  • Pairwise
  • Listwise
3、评价标准

https://blog.csdn.net/manduner/article/details/80702762
https://www.cnblogs.com/eyeszjwang/articles/2368087.html

  • MAP
  • NDCG

猜你喜欢

转载自blog.csdn.net/qq_20095389/article/details/88189644