强化学习用在推荐和搜索领域的文献调研 - 代码天地

强化学习用在推荐和搜索领域的文献调研

其他 2019-01-31 16:54:39 阅读次数: 0

强化学习

我在机器学习读书会的分享ppt，关于DP、MC、TD方法：

https://mp.weixin.qq.com/s/r8wZw4iZwFCz0nnakutY3Q

推荐

强化学习在阿里的技术演进与业务创新

https://www.jiqizhixin.com/articles/2018-02-06-3

强化学习在淘宝锦囊推荐系统中的应用

细化搜索的关键词卡片

状态：

扫描二维码关注公众号，回复： 5134465 查看本文章

用户：性别，年龄，购买力，偏好，当前的行为，page_id，查看/点击的商品特征

Query：类型，此类型下的用户整体偏好

动作：

锦囊：类型（>2万种）

回报：

R1 = is_click * (1 + alpha * exp{-page_num})

R2 = is_click * exp{-item_click_this_user_per_recent_100_pv)

R = r1 + beta * r2

算法：

value_based：DQN

搜索：

Reinforcement Learning to Rank with Markov Decision Process

http://www.bigdatalab.ac.cn/~junxu/publications/SIGIR2017_RL_L2R.pdf

State:

Rank pos, cand doc set

(t, {D_t})

Action(s_t):

a_t = d_idx(a_t) from {D_t}

Trans(S,A):

(t, {D_t}) -> (t+1, {D_t}\d_idx(a_t))

Reward(S,A):

R(s_t, a_t) =

2^y_idx(a_t) - 1 for t=0;

(2^y_idx(a_t) - 1) / log_2(t+1) for t>0

Policy(a|s):

exp{w^T d_idx(a_t)} / sum_{a in A(s_t)} exp{w^T d_idx(a_t)}

Learning：

Policy gradient

猜你喜欢

转载自www.cnblogs.com/yaoyaohust/p/10342535.html

强化学习用在推荐和搜索领域的文献调研

强化学习入门推荐的一些文献

对话系统论文集（16）- GAN+逆强化学习用在文本生成

强化学习RL应用在youtube推荐系统 2019谷歌论文解读

强化学习教学推荐

强化学习【RL】推荐

强化学习用于流体形状生成

Udacity强化学习系列（一）——什么是强化学习，强化学习用来解决什么问题

深度学习在搜索和推荐领域的应用

使用强化学习完成迷宫搜索

使用强化学习的神经架构搜索

基于强化学习的自动搜索

强化学习了解强化学习的目标和回报

深度强化学习在机器人领域的研究和应用

深度学习实战62-强化学习在简单游戏领域的应用，利用强化学习训练Agent程序的代码和步骤

DNN结构构建：NAS网络结构搜索和强化学习、迁移学习

深度学习和强化学习的关系

机器学习和强化学习--note

深度学习和强化学习的区别

使用强化学习和YOLOFlow实现基于自主无人机的目标搜索、跟踪

【强化学习笔记】9.1 基于确定性策略搜索的强化学习方法

推荐系统遇上深度学习(十五)--强化学习介绍

随机游走和强化学习

【强化学习】入门和资料

强化学习（1）-Qlearning和policygradient

深度强化学习总结和理解

强化学习的state和observation

强化学习笔记：DQN和DDQN

通用场和强化学习RL

【强化学习】强化学习分类

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)