Baidu Wenxin Yiyan offiziell enthüllt

OpenAI hat gerade GPT-4 veröffentlicht , und Baidus lang erwartetes KI-generiertes Dialogprodukt ist endlich erschienen. Gestern Nachmittag wurde Wenxin Yiyan (ERNIE Bot),  ein neues Mitglied von Baidus neuer Generation von wissensgestützten Großsprachenmodellen und der Wenxin-Großmodellfamilie, offiziell im Konferenzraum von „Waving the World“ in der Baidu-Zentrale vorgestellt .

Sobald die Pressekonferenz eröffnet wurde, gab Robin Li, CEO von Baidu, allen eine Chance:

In gewissem Sinne bereitet sich Baidu (Verlag Wenxin Yiyan) seit vielen Jahren darauf vor. Wir haben vor mehr als zehn Jahren begonnen, in die KI-Forschung zu investieren, und 2019 das große Sprachmodell Wenxin eingeführt. Das heutige Wenxin Yiyan ist eine Fortsetzung der Bemühungen der vergangenen vielen Jahre.

Aber man kann nicht sagen, dass wir vollständig bereit sind. Wenxin sagte, dass die Schwelle für Benchmarking mit ChatGPT oder sogar GPT-4 sehr hoch sei. Kein großer globaler Hersteller hat es bisher geschafft, und Baidu ist der erste. Mein eigener Test zeigt, dass es noch viele Unvollkommenheiten gibt.

Li Yanhong betonte: „Egal um welches Unternehmen es sich handelt, es ist unmöglich, ein so großes Sprachmodell in wenigen Monaten zu erstellen. Deep Learning und die Verarbeitung natürlicher Sprache erfordern jahrelange Beharrlichkeit und Akkumulation, und es gibt keine Möglichkeit, dies zu beschleunigen ."

Wenxin sagte, was kannst du tun?

Welche Funktionen kann Wenxin Yiyan als erstes generatives KI-Produkt erreichen, das von mehreren großen einheimischen Herstellern entwickelt wurde? Auch Baidu-CEO Robin Li verhehlte es nicht: Zu Beginn der Pressekonferenz zeigte er fünf Nutzungsszenarien von Wenxin Yiyan und demonstrierte nacheinander die Funktionen dieser Nutzungsszenarien.

  • Kreatives Schreiben;

  • Erstellung von Geschäftstexten;

  • Mathematische und logische Berechnungen;

  • chinesisches Verständnis;

  • multimodale Generierung;

Wenn Benutzer derzeit generative KI wie ChatGPT erleben, werden sie ein Problem finden, das heißt, selbst wenn es eine sachliche Grundlage gibt, wird die KI immer noch ernsthaft Unsinn reden (wie die Fehler von Google Bard vor einiger Zeit), wenn der Benutzer nicht verifiziert wurde und der KI vertraut, wird der generierte Inhalt stattdessen einen großen Fehler machen. Kann Wen Xin Yiyan angesichts eines solchen Problems also leicht damit umgehen?

Szene 1: In der ersten Szene des Dialogs lieferte Wenxin genaue Informationen über die Gemeinsamkeiten und Unterschiede zwischen dem Autor von „Three-Body“, dem Kerninhalt, der Besetzung und Crew der TV-Serie und sogar den Schauspielern selbst. In Im Falle von Fehlern demonstriert es auch die kreative Fähigkeit, Inhalte weiterzuschreiben.

Szenario 2: Für das Verfassen von Werbetexten gibt es drei Runden von Dialogdemonstrationen vor Ort, bei denen der Firmenname genannt, ein Slogan geschrieben und eine Pressemitteilung verfasst werden. Nach der Vorführung vor Ort zu urteilen, hat Wenxinyiyan ein gutes Verständnis für die Vorlieben der Chinesen und die tiefe Bedeutung chinesischer Wörter. Am Beispiel der Nennung eines Technologiedienstleistungsunternehmens entsprechen die gegebenen Antworten voll und ganz der Vorstellung der Chinesen, solche Unternehmen zu benennen: Kunden können anhand des Namens auf einen Blick erkennen, um welche Art von Unternehmen es sich handelt und sogar die Geschäftsrichtung.

Szene 3: Im Teil der mathematischen Logik-Deduktion zeigt es ein bekanntes Problem von Huhn und Kaninchen im selben Käfig, aber Baidu stellte heimlich eine "Falle" auf, um die Fähigkeit von Wenxin Yiyan zu zeigen, und gab vollständig auf unlösbares Problem. Dies störte Wen Xinyiyan jedoch nicht, er stellte sofort fest, dass die Frage falsch war, und nach Überarbeitung beantwortete Wenxin die Frage genau und gab eine einfache Idee zur Lösung des Problems.

Szene 4: Während der Pressekonferenz gab auch Baidu-CEO Robin Li großzügig zu, dass Wenxin Yiyan zwar auch englisches Q&A unterstützt, seine Stärke aber noch begrenzt ist. Was das Hauptverständnis des Chinesischen betrifft, sei es die Bedeutung der Redewendung „Luoyang Zhigui“, oder die wirtschaftlichen Prinzipien hinter der Redewendung, oder sogar das Verständnis des Wortes „Tibetische Poesie“, sowie die letzten Verse, in diesem rund ist es anschaulich zu zeigen.

Szenario 5: Multimodale Generierung ist ein wichtiges Feature, das bei der Veröffentlichung von GPT-4 vor einigen Tagen verbessert wurde: Damals demonstrierte OpenAI die Fähigkeit, Code aus Skizzen zu generieren. Wenxin Yiyan zeigte in diesem Link auch eine multimodale Generierung. Zusätzlich zu den in den vorherigen Szenen gezeigten Textdialogfähigkeiten demonstrierte es in Szene fünf auch die Generierungsfähigkeiten für Bilder, Videos und Sprache (Dialekt). , das aktuelle heiße ChatGPT ist Die unten aufgeführten Funktionen können immer noch nicht implementiert werden.

Vergleich mit Bing Chat und ChatGPT

Verglichen mit ChatGPT und Bing Chat ist der größte Unterschied von „Wen Xin Yi Yan“ die multimodale Generierung, das heißt, Poster, Sprach- und sogar Videoinhalte können durch Sprache generiert werden. In der Präsentation der Pressekonferenz demonstrierte Li Yanhong die Verwendung von Wenxin Yiyan zur Erstellung von Veranstaltungsplakaten, Dialektstimmen und veranstaltungsbezogenen Videos basierend auf dem Inhalt von Fragen. Die Kosten für die Erstellung von Videos sind jedoch relativ hoch und es steht zu diesem Zeitpunkt noch nicht allen Benutzern offen.

Die Fähigkeit, Bilder und Videos zu generieren, brachte unsere Augen zum Strahlen.“ Auch Robin Li sagte, dass multimodale generative KI ein klarer Entwicklungstrend sei.

Während der Vorführung betonte Li Yanhong immer wieder, dass Baidu in der Verarbeitung der chinesischen Sprache eine Alleinstellung habe.

Das folgende Beispiel zeigt die Verwendung der in der Konferenz demonstrierten Inhalte, um ChatGPT (Version 3.5) und Bing Chat um Antworten zu bitten.

Die erste ist die Frage nach „The Three-Body Problem". Sowohl Bing Chat als auch Wenxin Yiyan können die Frage, wer der Autor ist und woher er kommt, korrekt beantworten, während ChatGPT die Heimatstadt von Liu Cixin fälschlicherweise als Shandong bezeichnete.

Die Antwort von Bing Chat zeigt auch, dass die Informationsquelle Baidu Encyclopedia ist.

Bei der Frage nach den Schauspielern der Anfang 2023 inszenierten TV-Serie „Three-Body“ machte ChatGPT, dessen Informationsbasis im Jahr 2021 blieb, einen weiteren Fehler und sagte, dass die Dreharbeiten für die TV-Serie „Three-Body“ noch nicht begonnen hätten, und Bing Chat fand die Antwort in Douban.

In Bezug auf das Verfassen von Geschäftstexten können alle drei ihre Meinung äußern, und ChatGPT hat auch den englischen Namen mit Bedacht beigefügt.

Bing Chat hat die Bedeutung der Frage jedoch bei der ersten Frage falsch identifiziert und keinen genauen Firmennamen angegeben, aber eine Lösung zur Auswahl eines Firmennamens bereitgestellt.

Obwohl sie uns bei früheren Verwendungen, sei es ChatGPT oder Bing Chat, bei mathematischen Problemen nicht völlig beruhigt geben. Das in Baidus Pressekonferenz erwähnte Problem von Hühnern und Kaninchen im selben Käfig störte die beiden jedoch nicht und sie beantworteten es beide treffend.

Es ist ersichtlich, dass die Interpretation von Bing Chat wie ein überzeugender Lehrer ist, während die Antwort von Wen Xinyiyan ein bisschen wie eine Referenzantwort nach dem Unterricht ist.

Bei der chinesischen Verständigung spiegeln sich die Vorzüge des Wenxinyiyan wider.

Bei der Frage „Wie teuer ist die Zeitung in Luoyang zu dieser Zeit“ dachte ChatGPT fälschlicherweise, dass nach dem Preis der Tang-Dynastie gefragt wurde, also war die zurückgegebene Information, dass die Zeitung in Luoyang überhaupt nicht teuer war in der Identifizierung von Bing Chat, aber es gab keine genauen Daten.

Und der Preis von Wenxin von zwei- bis dreitausend Wen stimmt zumindest mit den bei der Suche erhaltenen Daten überein.

Ich glaube, Sie haben auch bemerkt, dass, ganz zu schweigen vom Inhalt des Schreibens, weder ChatGPT noch Bing Chat verstehen, was tibetische Akrostichon ist.Im Vergleich dazu ist die Leistung von Baidu Wenxin Yiyan in der Tat hervorragend.

Es ist ersichtlich, dass die Leistung von Wenxin Yiyan im chinesischen Bereich tatsächlich besser ist als ChatGPT und Bing Chat. Allerdings erwähnte Li Yanhong in der Pressekonferenz auch, dass, obwohl die chinesische Sprache offensichtliche Vorteile hat, Wenxinyiyan nicht genug für die englische Sprache und Code-Szenarien trainiert hat und seine Leistung nicht gut genug ist. Ich glaube, dass Baidu sich in Zukunft schnell verbessern wird.

Technische Architektur und Funktionen

Wang Haifeng, Chief Technology Officer von Baidu, erklärte auf der Pressekonferenz ausführlich das Wenxin-Modell und die technischen Merkmale hinter Wenxin Yiyan.

Baidu hat ein Full-Stack-Layout in der vierschichtigen Architektur der künstlichen Intelligenz: einschließlich des zugrunde liegenden Chips, des Deep-Learning-Frameworks, des großen Modells und der Suchanwendungen auf oberster Ebene; Wenxinyiyan befindet sich in der Modellschicht.

Wang Haifeng sagte, dass der schnelle Start von Wenxin Yiyan hauptsächlich auf der Akkumulation von Baidu in den letzten 11 Jahren und der Bildung von Schicht-zu-Schicht-Feedback und End-to-End-Optimierung zwischen den vier Schichten basiere. Insbesondere die gemeinsame Optimierung zwischen dem fliegenden Paddel auf der Fachwerkschicht und dem Wenxin-Großmodell auf der Modellschicht spielte eine entscheidende Rolle bei der Entwicklung von Wenxin Yiyan.

Laut der Einführung ist Wenxin Yiyan eine neue Generation von wissensgestützten großen Sprachmodellen, die auf der Grundlage der Modelle der Serien ERNIE und PLATO entwickelt wurden; es übernimmt sechs Kerntechnologien, darunter: überwachte Feinabstimmung, bestärkendes Lernen von menschlichem Feedback, Eingabeaufforderung, Wissensverbesserung und Abrufverbesserung und Dialogverbesserungen. Die ersten drei Elemente stellen die gemeinsamen Fähigkeiten ähnlicher groß angelegter Sprachmodelle dar. Sie wurden in ERNIE und PLATO angewendet und akkumuliert und mit einem Wort weiter gestärkt und ausgefeilt; die letzten drei Elemente sind die Neuinnovation von Baidus bestehenden charakteristische Technologien.

Die Trainingsdaten des groß angelegten Modells von Wenxinyiyan umfassen Billionen von Webseitendaten, Milliarden von Suchdaten und Bilddaten, zig Milliarden Sprachanrufe pro Tag und Wissensgraphen mit 550 Milliarden Fakten. Aber Wang Haifeng räumte auch ein, dass die derzeitige Ausbildung großer Models nicht ausreiche. In Zukunft wird sich die Wirkung und Fähigkeit von Wenxinyiyan mit immer mehr Feedback von echten Benutzern allmählich verbessern.

Erlebnisweg

Baidu hat den Einladungstestplan für Wenxin Yiyan angekündigt.

Ab dem 16. März können die ersten Benutzer das Produkt auf der offiziellen Website von Wenxin Yiyan testen, indem sie einen Testcode einladen, und es wird nacheinander für weitere Benutzer geöffnet .

Unternehmenskunden können die  von Baidu Smart Cloud geöffnete „Wen Xin Yi Yan"-API-Schnittstelle
( https://cloud.baidu.com/survey_summit/wenxin.html?track=C896034 ) verwenden. Unternehmen, die die API nicht erhalten haben, können Baidu verwenden Smart Cloud-Plattform, um einen Termin zu vereinbaren.

Ich denke du magst

Origin www.oschina.net/news/232945/baidu-ernie-bot-released
Empfohlen
Rangfolge