Laissez GPT-3, ChatGPT et GPT-4 faire des casse-tête ensemble, et GPT-4 sera le meilleur !

Auteur | python

Une crêpe pendant une minute d'un côté, deux crêpes pendant deux minutes des deux côtés ?

Laissez-vous répondre, êtes-vous accidentellement tombé dans le fossé ? Et si vous laissiez un grand modèle linguistique faire ce genre de casse-tête ? L'étude a révélé que plus le modèle est grand, plus la réponse tombera probablement dans le fossé, même un grand modèle avec des centaines de milliards de paramètres n'est pas à l'abri. Mais ChatGPT peut très bien répondre à ces questions. Nous allons jeter un coup d'oeil.

论文题目 :
Comportement intuitif de type humain et biais de raisonnement apparus dans les modèles de langage et disparus dans GPT-4

Lien papier :
https://arxiv.org/pdf/2306.07622.pdf

Grand portail de test de recherche de modèles

Portail GPT-4 (libre de mur, peut être testé directement, si vous rencontrez un point d'avertissement avancé du navigateur/continuez à visiter) :
Bonjour, GPT4 !

casse-tête

L'auteur utilise les données CRT (Cognitive Reflection Test) comme données de test pour les casse-tête. Dans le domaine de la psychologie, ces données sont largement utilisées pour mesurer les habitudes de pensée humaines et juger si elles sont habituées à la pensée intuitive.

▲Exemple de données de casse-tête

Comme le montre la figure ci-dessus, l'auteur a exploré 3 types de données CRT et 1 type de piège logique de langage. Par exemple:

CRT-1 : Les pommes et les poires coûtent 1 yuan, et les pommes coûtent 1 yuan de plus que les poires. Combien coûte la poire ? Réponse intuitive : 0.1 bloc = 1.1-1, bonne réponse : 0.05 bloc.
CRT-2 : Il faut 5 minutes à 5 personnes pour planter 5 arbres, combien de minutes faut-il à 10 personnes pour planter 10 arbres ? Réponse intuitive : 10 minutes, bonne réponse : 5 minutes.
CRT-3 : La surface des bactéries dans la boîte de Pétri double toutes les minutes et elle peut être remplie en 48 minutes. Combien de temps faudra-t-il pour en remplir la moitié ? Réponse intuitive : 24 minutes, bonne réponse : 47 minutes.
Piège logique linguistique : Xiaohong, qui vient d'entrer à l'école primaire, va passer l'examen d'entrée à l'université, combien de matières va-t-elle suivre ? La réponse intuitive est 6 matières, la bonne réponse : les élèves du primaire ne passent pas l'examen d'entrée au collège.

performances du modèle

Les performances du modèle sont présentées dans la figure ci-dessous. On peut voir que lorsque le modèle est petit (de 117M GPT-1 à 2,7B GPT-Neo), à mesure que le modèle augmente, la proportion du modèle répondant à la bonne réponse (vert) et la réponse intuitive (rouge) augmente. , la proportion de réponses non pertinentes (jaune) diminue. Cependant, à mesure que le modèle augmente encore (de 2,7 B GPT-Neo à 175 B GPT-3), la proportion de réponses non pertinentes diminue encore, la proportion de réponses intuitives augmente encore, mais la proportion de réponses correctes n'augmente pas mais diminue. Les grands modèles de langage, notamment BLOOM, LLAMA et GPT-3, tombent évidemment dans le piège des casse-tête. Même le texte davinci-002/003 avec ajustements de commande et RLHF n'a pas été épargné.

▲ Comparaison des performances de différents modèles

Dans l'image ci-dessus, ChatGPT et GPT-4 ajustés par des instructions ont une proportion beaucoup plus élevée de réponses correctes à la fois. Quelle est la magie qui fait tourner les cerveaux de ChatGPT ? Nous ne savons pas.

La figure ci-dessous compare les performances de GPT-3 (texte davinci-003, à gauche), ChatGPT (au milieu) et GPT-4 (à droite) dans plusieurs casse-tête différents, ce qui peut mettre en évidence le phénomène ci-dessus.

▲ Comparaison des performances du modèle sur différents types de casse-tête

Que se passe-t-il si le formulaire de saisie est modifié ? La figure ci-dessous montre la forme de la question et de la réponse, qui est la même que l'expérience ci-dessus. La figure ci-dessous et celle du bas sont respectivement les formes de sélection multiple et de continuation. On peut voir qu'après modification du formulaire de question, le taux correct a légèrement augmenté, mais la différence globale n'est pas significative.

La figure ci-dessous montre que le taux correct de GPT-3 augmentera grâce à un apprentissage d'affichage moins supervisé. Mais même avec environ 40 échantillons, il y a toujours un écart entre la précision et le ratio ChatGPT non supervisé, sans parler de GPT-4.

en conclusion

Cet article trouve un phénomène intéressant de grands modèles de langage pour une classe très intéressante de problèmes (casse-tête). L'auteur a également essayé diverses méthodes, mais qu'il s'agisse de changer la forme du questionnement ou d'ajouter des données de supervision, les performances de GPT-3 (texte davinci-003) sur les casse-tête ont encore du mal à atteindre le niveau de ChatGPT. Quel genre de magie utilise ChatGPT pour faire tourner le cerveau du modèle ?