八,论文研读

八,论文研读

  • 论文名称:邢春晓,高凤荣,战思男,周立柱.适应用户兴趣变化的协同过滤推荐算法.
  • 研究对象
    通过研究不同的用户兴趣,主动为用户推荐最需要的资源,进行个性化推荐。
  • 研究动机
    为及时反应用户兴趣变化,提出两种改进(基于时间的数据权重,和基于资源相似度的数据权重)
  • 文献综述
    • 协同过滤算法
      典型的协同过滤算法是基于用户的,利用用户访问行为的相似性互相推荐用户可能感兴趣的资源。推荐系统中输入的数据可以表述为mxn的用户--资源访问矩阵R,m是用户数,n是资源数。矩阵值(0,1)表示用户访问资源与否。
      通过对用户(u)历史访问记录及特定相似度函数,计算出与其访问行为最相近的k个用户作为该用户的最近邻居集,统计出近邻用户访问过,而u未访问过的资源生成推荐集,计算每个资源对u的推荐度,取前N个作为推荐集。
    • 基于资源的协同过滤算法
      由当前用户已访问的资源集合推荐未访问的资源,资源的相似性要比用户的相似性稳定,解决算法的可扩展性问题。
      相似度计算是影响推荐算法性能的重要因素
      相似度计算方法有:余弦相似度,Pearson相关系数,条件概率等。
      该论文采用的是条件概率计算资源之间的相似性,对于资源i,j用P(i|j)表示他们被同一用户访问的条件概率可以衡量资源间的相似性,计算i和j之间相似性公式:



      \(sim(i,j)=\frac{P(i|j)}{Freq(i)^{\alpha }}=\frac{Freq(i,j)}{Freq(j)\times Freq(i)^{\alpha }}\)

      Freq是访问资源的用户数,α是一个 0 ~ 1 之间的数, 称为缩放系数,引入 α的目的是削弱被访问过很多次的资源在相似度计算中的影响。
    • 基于时间的数据权重函数


      $ WT(u,i)=(1-\alpha )+\alpha \frac{D_{ui}}{L_{u}}$


      WT(u,i)表示资源i对用户的权重,D_{ui}是用户访问资源i的时间与用户u最早访问某资源的时间间隔,L_{u}是使用推荐系统的时间跨度, a ∈(0, 1)权重增长指数,可动态调整。

    • 基于资源相似度权重函数


      \(WS(u,i)=\overline{sim(i,I_{uT})}=\frac{\sum_{j\in I_{uT}}^{}sim(i,j)}{size(I_{uT})}\)


      size(I_{uT})表示I_{uT}中资源数目,计算WS(u,i)需要计算i和I_{uT}中每个资源相似度

    • 两种权重结合


      \(WTS(u,i)=\beta \times WT(u,i)+(1-\beta )\times WS(u,i)\)


      比例因子β∈[ 0,1] , β 和(1 -β)分别代表两种权重值所占得比例。

  • 研究方案设计
    设计3组实验,进行对比试验。
  • 使用数据集
    KDD2000 的网上交易数据集
  • 研究结论
  • 学习心得
    参数要根据不同推荐系统不同方案进行选取,文中最后提到对权重函数中参数的自动确定,也是一个很好的研究切入点。

猜你喜欢

转载自www.cnblogs.com/zaw-315/p/11266423.html