Interprétation! Résumé de 10 articles d'apprentissage intensif, y compris l'Université Tsinghua et Google

L'apprentissage par renforcement (RL) est en train de devenir l'un des domaines de recherche les plus populaires en apprentissage automatique aujourd'hui. Différent de l'apprentissage supervisé commun et de l'apprentissage non supervisé, l'apprentissage par renforcement met l'accent sur l'interaction entre l'agent et l'environnement. Pendant l'interaction, l'agent doit choisir l'action suivante en fonction de son état.), Après avoir exécuté l'action, l'agent entrera dans le état suivant, et en même temps obtenir la récompense pour cette transition d'état de l'environnement.

Le but de l'apprentissage par renforcement est d'obtenir des informations sur le processus d'interaction entre l'agent et l'environnement, d'apprendre la cartographie entre les états et les actions, et de guider l'agent pour qu'il prenne la meilleure décision en fonction de l'état et maximise la récompense.

Dans un système d'apprentissage par renforcement, en plus de l'agent et de l'environnement, les éléments importants comprennent la fonction de valeur, la politique et le signal de récompense. Basés sur la valeur et fondés sur des politiques sont deux idées majeures pour la conception d'algorithmes d'apprentissage par renforcement. Au cours de l'interaction entre l'agent et l'environnement, la récompense est le retour d'information que l'agent obtient immédiatement après avoir effectué une action dans un certain état, et la fonction de valeur reflète l'évaluation par l'agent de tous les états possibles après avoir considéré les actions futures.

Cet article interprète les articles sur l'apprentissage par renforcement qui ont été publiés lors de sommets sur l'IA tels que l'ICLR et l'ICML au cours des deux dernières années pour les lecteurs.

Poser les bonnes questions : Reformulation active des questions avec apprentissage par renforcement

: 作者 : Christian Buck, Jannis Bulian, Massimiliano Ciaramita, Wojciech Gajewski, Andrea Gesmundo, Neil Houlsby, Wei Wang (谷 歌)

Adresse papier: https://arxiv.org/pdf/1705.07830v2.pdf

Résumé: Cet article considère la réponse aux questions comme une tâche d'apprentissage par renforcement. L'idée principale est d'ajouter un module de reconstruction de questions entre l'utilisateur et le système de réponse aux questions. Ce module peut réécrire les questions des utilisateurs sous différentes formes. Ces questions réécrites peuvent obtenir plusieurs réponses via le système de questions et réponses. Le module sélectionne ensuite la réponse de la plus haute qualité parmi ces réponses et la renvoie à l'utilisateur. Le noyau du module de reconstruction de questions est un modèle séquence à séquence similaire à la traduction automatique. Le modèle est d'abord pré-formé sur un corpus monolingue, puis utilisé Gradient de politique pour le processus d'apprentissage par renforcement. L'objectif est de créer la question répondeur obtenez la meilleure réponse.

2019111910.jpg

Promenez-vous et arrivez à la réponse : Raisonnement sur les chemins dans les bases de connaissances à l'aide de l'apprentissage par renforcement

Auteurs: Rajarshi Das, Shehzaad Dhuliawala, Manzil Zaheer, Luke Vilnis, Ishan Durugkar, Akshay Krishnamurthy, Alex Smola, Andrew McCallum (University of Massachusetts, Carnegie Mellon University, University of Texas at Austin, Amazon)

Adresse papier: https://arxiv.org/pdf/1711.05851.pdf

Résumé: Cet article propose l'algorithme MINERVA pour résoudre le problème de raisonnement automatique dans le graphe de connaissances. L'algorithme MINERVA est principalement utilisé pour les questions et réponses automatiques basées sur le graphe de connaissances: étant donné la relation entre le triplet et l'une des entités, complétez l'autre entité. L'auteur adopte une méthode basée sur la recherche de chemin, en partant des nœuds d'entité connus, et en choisissant le chemin approprié pour atteindre le nœud de réponse en fonction de la question. L'auteur a formalisé le problème comme un processus de décision de Markov partiellement observable et a représenté la séquence d'observation et la séquence de décision historique avec un réseau de politiques basé sur le LSTM. La formation LSTM utilise la méthode Policy Gradient.

2019111911.jpg

Localisation neuronale active

Auteurs: Devendra Singh Chaplot, Emilio Parisotto, Ruslan Salakhutdinov (Université Carnegie Mellon)

Adresse papier: https://www.aminer.cn/pub/5a9cb66717c44a376ffb8b95/active-neural-localization

Résumé: Cet article présente le modèle de localisation neuronale active, qui peut estimer l'emplacement de l'agent en fonction d'une carte environnementale donnée et des observations de l'agent. Cette méthode permet d'apprendre directement des données et de prédire activement les actions de l'agent pour obtenir un positionnement précis et efficace. Cette méthode combine des méthodes de positionnement traditionnelles basées sur des filtres et des modèles de stratégie, et peut utiliser l'apprentissage par renforcement pour une formation de bout en bout. Le modèle comprend un modèle de perception et un modèle de stratégie. Le modèle de perception calcule les croyances (croyance) des emplacements possibles en fonction des observations de l'agent actuel. Le modèle de stratégie estime l'action suivante en fonction de ces croyances et effectue un positionnement précis.

2019111912.jpg

The Reactor : Un agent critique d'acteur rapide et efficace pour l'apprentissage par renforcement

Auteurs: Audrunas Gruslys, Mohammad Gheshlaghi Azar, Marc G. Bellemare, Remi Munos (DeepMind)

Adresse papier: https://arxiv.org/pdf/1704.04651.pdf

Résumé: Cet article propose le modèle Reactor, qui combine les avantages de la faible complexité de l'échantillon de la lecture d'expérience hors politique et de l'efficacité d'entraînement élevée des algorithmes asynchrones. A3C a un temps de fonctionnement inférieur. L'auteur a utilisé un certain nombre de techniques dans le modèle, notamment: le nouvel algorithme de gradient de politique beta-LOO, l'algorithme d'apprentissage par renforcement distribué à plusieurs étapes hors politique Retrace, la méthode de relecture prioritaire et le cadre de formation distribué.

2019111913.jpg

Apprentissage par renforcement pour la classification des relations à partir de données bruyantes

Auteurs: Jun Feng, Minlie Huang, Li Zhao, Yang Yang, Xiaoyan Zhu (Tsinghua University, Microsoft Research Asia, Zhejiang University)

Adresse papier: https://www.aminer.cn/pub/5b1642388fbcbf6e5a9b54be/reinforcement-learning-for-relation-classification-from-noisy-data

Résumé: Les méthodes de classification des relations existantes ont deux limites principales: elles ne peuvent pas effectuer de classification des relations au niveau sentece; elles reposent sur des données étiquetées de supervision à distance (supervision à distance), mais il y a de grandes erreurs dans les données étiquetées. Cet article présente un algorithme de classification des relations au niveau des phrases. L'algorithme se compose de deux parties, à savoir "sélecteur d'instance" et "classificateur de relations". Le sélecteur d'instance est utilisé pour sélectionner des phrases de haute qualité comme données d'apprentissage du classificateur de relations. Ce processus peut être considéré comme un problème d'apprentissage par renforcement. L'auteur définit séparément l'espace d'action, l'espace d'états et la fonction de récompense du sélecteur d'instance, et donne une méthode d'optimisation basée sur le gradient de politique.

2019111914.jpg

Apprentissage de la représentation structurée pour la classification de texte via l'apprentissage par renforcement

Auteurs: Tianyang Zhang, Minlie Huang, Li Zhao (Université Tsinghua, Microsoft Research Asia)

Adresse papier: https://www.microsoft.com/en-us/research/wp-content/uploads/2017/11/zhang.pdf

Résumé: Cet article propose un algorithme de représentation de phrases basé sur l'apprentissage en profondeur, qui permet d'apprendre la représentation structurée de phrases pour des tâches. L'algorithme ne nécessite pas d'arborescence d'analyse ou d'autres annotations de représentation structurée affichées en entrée, mais reconnaît automatiquement la structure de phrase liée à la tâche par le biais de données d'apprentissage. L'auteur utilise la méthode d'apprentissage par renforcement pour construire la représentation de la structure de la phrase liée à la tâche. Le modèle se compose de trois parties, à savoir le réseau de politiques (PNet), le modèle de représentation structurée et le réseau de classification (CNet). PNet génère une séquence d'actions pour la phrase, et le modèle de représentation structurée sera La séquence d'action est transformée en une représentation structurée, CNet fournit un signal de récompense et les paramètres du modèle peuvent être optimisés en utilisant la méthode de gradient de politique.

2019111915.jpg

Dynamique des réseaux neuronaux pour l'apprentissage par renforcement profond basé sur un modèle avec réglage fin sans modèle

Auteurs: Anusha Nagabandi, Gregory Kahn, Ronald S.Fearing, Sergey Levine (Université de Californie, Berkeley)

Adresse papier: https://www.aminer.cn/pub/5a260c8417c44a4ba8a31564/neural-network-dynamics-for-model-based-deep-reinforcement-learning-with-model-free

Résumé: Cet article propose une nouvelle méthode d'apprentissage par renforcement basée sur un modèle qui peut être utilisée pour initialiser des algorithmes sans modèle. L'algorithme basé sur un modèle proposé par l'auteur utilise un réseau de neurones pour s'adapter à un modèle dynamique, et combine MPC (modèle de contrôle prédictif). L'auteur utilise le modèle dynamique obtenu par l'optimisation basée sur un modèle comme initialisation de l'algorithme sans modèle, qui peut simultanément conserver les avantages de la faible complexité de l'échantillon de l'algorithme basé sur un modèle et de la forte capacité de généralisation de l'algorithme sans modèle.

2019111916.jpg

Apprendre à collaborer : Classement multi-scénarios via l'apprentissage par renforcement multi-agents

Auteurs: Jun Feng, Heng Li, Minlie Huang, Shichen Liu, Wenwu Ou, Zhirong Wang, Xiaoyan Zhu (Université Tsinghua, Ali Baba)

Adresse papier: https://arxiv.org/pdf/1809.06260v1.pdf

Résumé: Cet article propose un algorithme de tri conjoint multi-scénario, le but est d'améliorer l'effet global du multi-scénario. Il existe une relation de jeu entre plusieurs scènes et l'amélioration d'une seule scène ne peut garantir l'amélioration globale. Cet article considère le tri multi-scénario comme un problème de prise de décision de séquence multi-agents entièrement coopératif et partiellement observable, et utilise le cadre de l'apprentissage par renforcement multi-agents pour modéliser. L'auteur propose l'algorithme MA-RDPG (Multi-Agent Recurrent Deterministic Policy Gradient), qui utilise DRQN ​​pour modéliser les informations historiques de l'utilisateur, et utilise DPG pour explorer l'état continu et l'espace d'action continu.

2019111917.jpg

Apprentissage du curriculum pour l'intégration d'un réseau en étoile hétérogène via l'apprentissage par renforcement profond

Auteurs: Meng Qu, Jian Tang, Jiawei Han (Université de l'Illinois à Urbana-Champaign)

Adresse papier: https://www.aminer.cn/pub/5a9cb60d17c44a376ffb3c89/curriculum-learning-for-heterogeneous-star-network-embedding-via-deep-reinforcement-learning

Résumé: Cet article applique l'apprentissage par renforcement profond à l'apprentissage des représentations de réseaux d'étoiles hétérogènes. Dans le processus d'apprentissage de la représentation de réseaux d'étoiles hétérogènes, il est généralement nécessaire d'échantillonner une série d'arêtes pour obtenir la similitude entre les points.L'auteur a constaté que l'ordre de ces arêtes affectera considérablement l'effet de l'apprentissage de la représentation. L'auteur s'appuie sur l'idée de Curriculum Learning pour étudier comment apprendre l'ordre d'échantillonnage de ces arêtes dans l'apprentissage de la représentation de réseau. Ce problème peut être formalisé comme un processus décisionnel de Markov, l'auteur propose une solution basée sur l'apprentissage par renforcement profond.

2019111918.jpg

Soft Actor-Critic : Apprentissage par renforcement profond à entropie maximale hors politique avec un acteur stochastique

Auteurs: Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine (Université de Californie, Berkeley)

Adresse papier: https://arxiv.org/pdf/1801.01290.pdf

Résumé: Cet article propose l'algorithme soft acteur-critique. Cet algorithme est un algorithme acteur-critique hors politique basé sur un apprentissage par renforcement d'entropie maximale, qui maximise l'entropie tout en maximisant les récompenses, rendant les actions aussi aléatoires que possible. L'auteur a prouvé la convergence de l'algorithme et a surpassé les algorithmes existants sur politique ou hors politique sur plusieurs points de repère.

2019111919.jpg

Tout le monde regarde:

AAAI2020 a été publié sur la liste et les critiques se sont plaints frénétiquement! Regardez les huit articles sélectionnés à l'avance!

ICCV2019 | Megvii propose ThunderNet, un réseau léger de détection de cibles

 

 

Je suppose que tu aimes

Origine blog.csdn.net/AMiner2006/article/details/103139004
conseillé
Classement