Baidu Wenxin Yiyan officiellement dévoilé

OpenAI vient de publier GPT-4 et le produit de dialogue généré par l'IA tant attendu de Baidu est enfin apparu. Hier après-midi, Wenxin Yiyan (ERNIE Bot),  un nouveau membre de la nouvelle génération de modèles linguistiques à grande échelle enrichis par les connaissances de Baidu et de la famille de modèles à grande échelle Wenxin, a été officiellement publié dans la salle de conférence "Waving the World" au siège de Baidu .

Dès l'ouverture de la conférence de presse, le PDG de Baidu, Robin Li, a donné une chance à tout le monde :

En un sens, Baidu s'y prépare (en publiant Wenxin Yiyan) depuis de nombreuses années. Nous avons commencé à investir dans la recherche sur l'IA il y a plus de dix ans et avons lancé le grand modèle de langage Wenxin en 2019. Wenxin Yiyan d'aujourd'hui est une continuation des efforts des dernières années.

Mais on ne peut pas dire que nous sommes complètement prêts. Wenxin a déclaré que le seuil de référence par rapport à ChatGPT, ou même GPT-4, est très élevé. Aucun grand fabricant mondial n'a encore réussi, et Baidu est le premier. Mon propre test sent qu'il y a encore beaucoup d'imperfections.

Li Yanhong a souligné : « Quelle que soit l'entreprise, il est impossible de créer un modèle de langage aussi vaste en quelques mois. L'apprentissage en profondeur et le traitement du langage naturel nécessitent des années de persévérance et d'accumulation, et il n'y a aucun moyen de l'accélérer. ."

Wenxin a dit, que pouvez-vous faire?

En tant que premier produit d'IA génératif né de plusieurs grands fabricants nationaux, quel type de fonctions Wenxin Yiyan peut-il atteindre ? Le PDG de Baidu, Robin Li, ne l'a pas caché non plus.Au début de la conférence de presse, il a montré cinq scénarios d'utilisation de Wenxin Yiyan et a démontré les fonctions de ces scénarios d'utilisation un par un.

  • Écriture créative;

  • Création de rédaction d'entreprise;

  • Calculs mathématiques et logiques;

  • Compréhension chinoise;

  • génération multimodale ;

À l'heure actuelle, lorsque les utilisateurs font l'expérience d'une IA générative telle que ChatGPT, ils trouveront un problème, c'est-à-dire que même s'il existe une base factuelle, l'IA dira toujours des bêtises de manière sérieuse (comme les erreurs commises par Google Bard il y a quelque temps), si l'utilisateur n'a pas été vérifié et fait confiance à l'IA Le contenu généré fera plutôt une grosse erreur. Alors face à un tel problème, Wen Xin Yiyan peut-il y faire face facilement ?

Scène 1 : Dans la première scène du dialogue, Wenxin a fourni des informations précises sur les similitudes et les différences entre l'auteur de "Three-Body", le contenu principal, les acteurs et l'équipe de la série télévisée, et même les acteurs eux-mêmes. le cas d'erreurs, il démontre également la capacité créative de continuer à écrire du contenu.

Scénario 2 : Pour la rédaction commerciale, il y a trois séries de démonstrations de dialogue sur place, impliquant la dénomination de l'entreprise, la rédaction d'un slogan et la rédaction d'un communiqué de presse. À en juger par la démonstration sur place, Wenxinyiyan a une bonne compréhension des préférences du peuple chinois et de la signification profonde contenue dans les mots chinois. Prenant le lien de nommer une entreprise de services technologiques comme exemple, les réponses données sont tout à fait conformes à l'imagination des Chinois pour nommer de telles entreprises.Les clients peuvent connaître le type d'entreprise et même la direction de l'entreprise en un coup d'œil grâce au nom.

Scène 3 : Dans la partie de la déduction logique mathématique, il démontre un problème bien connu de poulet et de lapin dans la même cage, mais Baidu a secrètement mis en place un "piège" afin de montrer la capacité de Wenxin Yiyan, et a donné un complètement problème insoluble. Cependant, cela n'a pas dérangé Wen Xinyiyan, il a immédiatement constaté que la question était fausse, et après révisions, Wenxin a répondu à la question avec précision et a donné une idée simple pour résoudre le problème.

Scène 4 : Lors de la conférence de presse, le PDG de Baidu, Robin Li, a également généreusement admis que bien que Wenxin Yiyan prenne également en charge les questions-réponses en anglais, sa force est encore limitée. Quant à la compréhension principale du chinois, que ce soit la signification de l'idiome "Luoyang Zhigui", ou les principes économiques derrière l'idiome, ou même la compréhension du mot "Poésie tibétaine", ainsi que les vers finaux, dans ce rond c'est pour montrer de façon éclatante.

Scénario 5 : La génération multimodale est une fonctionnalité majeure qui a été améliorée lors de la sortie de GPT-4 il y a quelques jours. À cette époque, OpenAI a démontré sa capacité à générer du code à partir de croquis. Wenxin Yiyan a également montré une génération multimodale dans ce lien. En plus de la capacité de dialogue textuel montrée dans les scènes précédentes, il a également démontré les capacités de génération d'image, de vidéo et de voix (dialecte) dans la scène cinq. , le ChatGPT actuel est toujours incapable d'implémenter les fonctions listées ci-dessous.

Comparaison avec Bing Chat et ChatGPT

Par rapport à ChatGPT et Bing Chat, la plus grande différence de "Wen Xin Yi Yan" est la génération multimodale, c'est-à-dire que des affiches, de la voix et même du contenu vidéo peuvent être générés par le langage. Lors de la présentation de la conférence de presse, Li Yanhong a démontré l'utilisation de Wenxin Yiyan pour générer des affiches d'événement, des voix en dialecte et générer des vidéos liées à l'événement en fonction du contenu des questions. Cependant, le coût de génération de la vidéo est relativement élevé et elle n'est pas encore ouverte à tous les utilisateurs à ce stade.

La possibilité de générer des images et des vidéos a vraiment fait briller nos yeux.Robin Li a également déclaré que l'IA générative multimodale est une tendance de développement claire.

Au cours de la démonstration, Li Yanhong a souligné à plusieurs reprises que Baidu occupe une position unique dans le traitement de la langue chinoise.

L'exemple suivant montre comment utiliser le contenu présenté dans la conférence pour demander des réponses à ChatGPT (version 3.5) et Bing Chat.

La première est la question sur "Le problème des trois corps". Bing Chat et Wenxin Yiyan peuvent répondre correctement à la question de savoir qui est l'auteur et d'où il vient, tandis que ChatGPT a mal qualifié la ville natale de Liu Cixin de Shandong.

La réponse de Bing Chat montre également que sa source d'information est l'encyclopédie Baidu.

Dans la question sur les acteurs de la série télévisée "Three-Body" mise en scène début 2023, ChatGPT, dont la base d'informations est restée en 2021, a commis une autre erreur en disant que la série télévisée "Three-Body" n'avait pas encore commencé le tournage, et Bing Chat a trouvé la réponse à Douban.

En termes de rédaction commerciale, tous les trois peuvent donner leur avis, et ChatGPT a également judicieusement attaché le nom anglais.

Cependant, Bing Chat a mal identifié le sens de la question lorsqu'il a été posé pour la première fois et n'a pas fourni de nom d'entreprise précis, mais a fourni une solution sur la façon de choisir un nom d'entreprise.

Bien que lors d'une utilisation précédente, qu'il s'agisse de ChatGPT ou de Bing Chat, ils ne nous donnent pas une totale tranquillité d'esprit lorsque nous résolvons des problèmes mathématiques. Cependant, le problème des poulets et des lapins dans la même cage mentionné dans la conférence de presse de Baidu ne les a pas dérangés, et ils y ont tous deux répondu avec précision.

On peut voir que l'interprétation de Bing Chat est comme un enseignant persuasif, tandis que la réponse de Wen Xinyiyan est un peu comme une réponse de référence après les cours.

En ce qui concerne la compréhension du chinois, les avantages de Wenxinyiyan se reflètent.

En demandant "Combien coûte le papier à Luoyang à cette époque", ChatGPT a pensé à tort qu'il posait des questions sur le prix de la dynastie Tang, donc l'information renvoyée était que le papier à Luoyang n'était pas cher du tout. dans l'identification de Bing Chat, mais il n'a pas donné de données précises.

Et le prix de Wenxin de deux à trois mille Wen est au moins cohérent avec les données obtenues à partir de la recherche.

Je crois que vous avez également remarqué que, sans parler du contenu de l'écriture, ni ChatGPT ni Bing Chat ne comprennent ce que sont les acrostiches tibétains.En comparaison, la performance de Baidu Wenxin Yiyan est en effet remarquable.

On peut voir que les performances de Wenxin Yiyan dans le domaine chinois sont en effet meilleures que ChatGPT et Bing Chat. Cependant, Li Yanhong a également mentionné lors de la conférence de presse que bien que la langue chinoise présente des avantages évidents, Wenxinyiyan ne s'est pas suffisamment entraîné pour la langue anglaise et les scénarios de code, et ses performances ne sont pas assez bonnes. Je pense que Baidu s'améliorera rapidement à l'avenir.

Architecture technique et fonctionnalités

Le directeur de la technologie de Baidu, Wang Haifeng, a expliqué en détail le modèle Wenxin et les caractéristiques techniques derrière Wenxin Yiyan lors de la conférence de presse.

Baidu a une disposition de pile complète dans l'architecture d'intelligence artificielle à quatre couches : y compris la puce sous-jacente, le cadre d'apprentissage en profondeur, le grand modèle et les applications de recherche de niveau supérieur ; Wenxinyiyan est situé dans la couche de modèle.

Wang Haifeng a déclaré que le lancement rapide de Wenxin Yiyan est principalement basé sur l'accumulation de Baidu au cours des 11 dernières années, et sur la formation d'une rétroaction couche à couche et d'une optimisation de bout en bout entre les quatre couches. En particulier, l'optimisation collaborative entre la pagaie volante au niveau de la couche cadre et le grand modèle Wenxin au niveau de la couche modèle a joué un rôle essentiel dans le développement de Wenxin Yiyan.

Selon l'introduction, Wenxin Yiyan est une nouvelle génération de grand modèle de langage amélioré par la connaissance, développé sur la base des modèles des séries ERNIE et PLATO ; il adopte six technologies de base, y compris : l'ajustement supervisé, l'apprentissage par renforcement de la rétroaction humaine, l'incitation, amélioration des connaissances, amélioration de la récupération et amélioration du dialogue. Les trois premiers éléments sont les capacités communes de modèles de langage à grande échelle similaires. Ils ont été appliqués et accumulés dans ERNIE et PLATO, et ont été encore renforcés et affinés en un mot ; les trois derniers éléments sont la réinnovation de l'existant de Baidu. techniques caractéristiques.

Les données de formation du modèle à grande échelle de Wenxinyiyan comprennent des milliards de données de pages Web, des milliards de données de recherche et de données d'image, des dizaines de milliards d'appels vocaux par jour et des graphiques de connaissances de 550 milliards de faits. Mais Wang Haifeng a également admis que la formation actuelle des grands modèles n'est pas suffisante. À l'avenir, avec de plus en plus de commentaires d'utilisateurs réels, l'effet et la capacité de Wenxinyiyan s'amélioreront progressivement.

Parcours d'expérience

Baidu a annoncé le plan de test sur invitation pour Wenxin Yiyan.

À partir du 16 mars, le premier groupe d'utilisateurs peut découvrir le produit sur le site officiel de Wenxin Yiyan en invitant un code de test, et il sera ouvert successivement à davantage d'utilisateurs .

Les entreprises clientes peuvent utiliser l'interface API "Wen Xin Yi Yan"
( https://cloud.baidu.com/survey_summit/wenxin.html?track=C896034  ) ouverte par Baidu Smart Cloud. Les entreprises qui n'ont pas obtenu l'API peuvent utiliser Baidu Plateforme Smart Cloud pour prendre rendez-vous.

Je suppose que tu aimes

Origine www.oschina.net/news/232945/baidu-ernie-bot-released
conseillé
Classement