NS-VQA: réponse visuelle aux questions combinant raisonnement symbolique et réseau neuronal

Lien d'origine: https://arxiv.org/pdf/1810.02338.pdf

Motivation

Cet article est le même que les deux derniers articles, à savoir le raisonnement visuel. Pour les réponses aux questions de la figure, le raisonnement humain est clair et interprétable. Le raisonnement visuel espère que le processus de raisonnement de la VQA peut être clairement exprimé.

Structure

Le modèle de cet article comprend trois parties. Tout d'abord, l'analyseur de scène (c'est-à-dire le décompresseur) divise l'image d'entrée en différents objets (via le masque R-CNN), puis génère une description de scène structurée via CNN (c'est-à-dire le tableau de la figure, la taille de chaque objet, Forme, matériau, couleur, emplacement); ensuite, l'analyseur de problème convertit le problème en un programme exécutable via LSTM; enfin, l'exécuteur de programme exécute le programme sur la scène structurée et obtient le résultat. Les deux dernières parties sont similaires à la structure de l'article précédent Inférer et exécuter des programmes.

Expériences

NS-VQA surpasse les performances des modèles existants, y compris le MAC et l'IEP mentionnés la semaine dernière. Lorsque le nombre de programmes sur le terrain atteint 270, le taux de précision peut atteindre un niveau étonnant de 99,8%, dépassant même les performances humaines.

L'auteur a mené des expériences sur le processus de formation du modèle. L'étude a révélé que NS-VQA n'a besoin que d'environ 500 programmes pour atteindre une précision de pointe dans l'apprentissage par renforcement, montrant une très grande efficacité. Dans le même nombre de programmes sur le terrain et de données de formation, NS-VQA a dépassé les modèles existants et obtenu les meilleurs résultats.

L'auteur montre les résultats qualitatifs sur l'ensemble de données CLEVR, le bleu représente la procédure / le résultat correct et le rouge représente l'erreur. NS-VQA dépasse la référence IEP en matière de robustesse de la génération de programmes.

Enfin, l'auteur a également généré des problèmes de raisonnement visuel basés sur les images du jeu Minecraft, en a fait un ensemble de données et s'est entraîné sur cet ensemble de données pour tester l'effet d'entraînement. Les résultats montrent que NS-VQA peut toujours obtenir de meilleurs résultats sur l'ensemble de données Minecraft.

NS-VQA: réponse visuelle aux questions combinant raisonnement symbolique et réseau neuronal

Je suppose que tu aimes