推荐系统中用户画像

用户画像的构建方法

1.第一类——基础信息，就是直接使用用户在注册时的原始数据，如人口统计学信息或者一些一旦发生就不再改变的行为信息，如第一次注册时间，第一次查看内容等，这部分内容也被称为静态信息（Static）。这个基础信息类似于查户口，其实没有什么技术含量，但是对于用户冷启动场景非常有用；
2.第二类——行为信息，这里就是不断的堆积用户的历史行为数据，做统计，也是最常见的用户画像数据之一，可以理解为是堆数据。这里如果要做得更细，也可以将行为信息分为以下两类：
- 基本行为，通过单次统计就得到的行为信息，如登录次数，付费次数等；
- 衍生行为，需要基于基本行为统计信息二次计算得到的行为信息，如近1个月的登录频次及消费频次；
3.第三类——模型标签，其实就是黑盒子，通过机器学习方法或深度学习，学习出人类无法制管理界的稠密向量embedding，也不被非技术人员重视，**但实际在推荐系统中承担的作用非常大。**也包括两类：
- 可直观理解，在有标注数据的情况下用机器学习方法对用户或者物品进行分层或分群，这种层级是用户可以直接理解并使用的；
- 不可直观理解，比如使用浅语义模型构建用户阅读兴趣，或者使用矩阵分解得到的隐因子，或者使用深度学习模型学习用户的Embedding向量。这类用户画像数据通常是不可解释，不能被人直接看懂。

用户画像并非推荐系统的目的，而是在构建推荐系统的过程中产生的一个关键环节的副产品。

用户画像的关键因素

维度
- 1.每个维度的名称都是可理解的
- 2.维度的数量
- 3.有哪些维度
量化，在实际生产系统上，用户画像每个维度的量化，应该交给机器去做，并且以目标为导向，以推荐效果好坏来反向优化出用户画像才有意义；
效果，不要为了用户画像而用户画像，它只是推荐系统的一个副产品，所以要根据使用效果（排序好坏、召回覆盖等指标）来指导用户画像的量化。

---------------------华丽的分割线----------------

用户画像本质应该是：将基于用户的基本属性和用户行为将物品的信息转嫁到用户身上，形成用户画像（核心，干货）
上面写到的两方面，具体来说就是：

1 用户的基本属性包括，性别，年龄，爱好等
2 用户通过点击，阅读，分享等行为作用于物品，而这些物品自带的标签（第一步挖掘的文本信息，如tfidf 关键词，textrank关键词，lda主题词）都可以通过简单的加权平均转移到用户身上，如果嫌上面方法得出的物品自带的标签有点多，希望用于用户分组的标签可以少一点，（这样用户分组的组合数就可以少一点），就可以通过（卡方检验或者信息增益）来筛选选择少量更重要的标签来形成用户画像。

根据用户画像推送相应的本文信息

简单的文本搜索可以通过用elasticsearch ,如果将这些转换成矩阵，可以用faiss来进行矩阵的检索。

波波虾遁地兽

发布了93 篇原创文章 · 获赞 8 · 访问量 1万+

私信关注

推荐系统中用户画像

推荐系统中用户画像

---------------------华丽的分割线----------------

根据用户画像推送相应的本文信息

猜你喜欢