八，论文研读

八，论文研读

论文名称：邢春晓，高凤荣，战思男，周立柱.适应用户兴趣变化的协同过滤推荐算法.
研究对象
通过研究不同的用户兴趣，主动为用户推荐最需要的资源，进行个性化推荐。
研究动机
为及时反应用户兴趣变化，提出两种改进（基于时间的数据权重，和基于资源相似度的数据权重）
文献综述
- 协同过滤算法
  典型的协同过滤算法是基于用户的，利用用户访问行为的相似性互相推荐用户可能感兴趣的资源。推荐系统中输入的数据可以表述为mxn的用户--资源访问矩阵R，m是用户数，n是资源数。矩阵值（0,1）表示用户访问资源与否。
  通过对用户（u）历史访问记录及特定相似度函数，计算出与其访问行为最相近的k个用户作为该用户的最近邻居集，统计出近邻用户访问过，而u未访问过的资源生成推荐集，计算每个资源对u的推荐度，取前N个作为推荐集。
- 基于资源的协同过滤算法
  由当前用户已访问的资源集合推荐未访问的资源，资源的相似性要比用户的相似性稳定，解决算法的可扩展性问题。
  相似度计算是影响推荐算法性能的重要因素。
  相似度计算方法有：余弦相似度，Pearson相关系数，条件概率等。
  该论文采用的是条件概率计算资源之间的相似性，对于资源i，j用P（i|j）表示他们被同一用户访问的条件概率可以衡量资源间的相似性，计算i和j之间相似性公式：
  
  $sim(i,j)=\frac{P(i|j)}{Freq(i)^{\alpha }}=\frac{Freq(i,j)}{Freq(j)\times Freq(i)^{\alpha }}$
  
  Freq是访问资源的用户数，α是一个 0 ～ 1 之间的数, 称为缩放系数，引入 α的目的是削弱被访问过很多次的资源在相似度计算中的影响。
- 基于时间的数据权重函数
  
  $ WT(u,i)=(1-\alpha )+\alpha \frac{D_{ui}}{L_{u}}$
  
  WT(u,i)表示资源i对用户的权重，D_{ui}是用户访问资源i的时间与用户u最早访问某资源的时间间隔，L_{u}是使用推荐系统的时间跨度， a ∈(0, 1)权重增长指数，可动态调整。
- 基于资源相似度权重函数
  
  $WS(u,i)=\overline{sim(i,I_{uT})}=\frac{\sum_{j\in I_{uT}}^{}sim(i,j)}{size(I_{uT})}$
  
  size(I_{uT})表示I_{uT}中资源数目，计算WS(u,i)需要计算i和I_{uT}中每个资源相似度
- 两种权重结合
  
  $WTS(u,i)=\beta \times WT(u,i)+(1-\beta )\times WS(u,i)$
  
  比例因子β∈[ 0,1] , β 和(1 -β)分别代表两种权重值所占得比例。
研究方案设计
设计3组实验，进行对比试验。
使用数据集
KDD2000 的网上交易数据集
研究结论
学习心得
参数要根据不同推荐系统不同方案进行选取，文中最后提到对权重函数中参数的自动确定，也是一个很好的研究切入点。

猜你喜欢