Das von der Stanford University entwickelte AlpacaEval Leaderboard zur Bewertung großer Sprachmodelle genießt in der Branche hohes Ansehen. In der am 7. Dezember 2023 aktualisierten Rangliste übertraf Yi-34B-Chat LLaMA2 Chat 70B, Claude 2 und ChatGPT mit einer Gewinnquote von 94,08 %. In der Kategorie der zertifizierten Modelle hat sich Alpaca zu einem großen Sprachmodell entwickelt, das bei den Englischkenntnissen nur von GPT-4 übertroffen wird.
In derselben Woche wurde der Leiter der Zweigstelle der University of California in Kalifornien LMSYS ORG Executive Practice,< a i=3>Yi- 34B-Chat 也い1102 的 Elo Prüfung, neueste Entwicklungsquelle SOTA Entwicklungsmodellreihe, Leistungstabelle hinzugefügt GPT -3,5 a>.
Mehrere Benchmarks weit voraus
Unter den verschiedenen großen Modellbewertungen verwendet Berkeley LMSYS ORG Das Ranking verwendet dasjenige, das der Benutzererfahrung am nächsten kommt< a i =3> "Chatbot Arena"Der spezielle Bewertungsmodus ermöglicht vielen großen Sprachmodellen die zufällige Durchführung von Einzeltests auf der Bewertungsplattform20 wurde für 25000 Monat Die Gesamtzahl der echten Benutzerstimmen von 11 , durch Crowdfunding echter Benutzer, um Online-Echtzeit-Blindtests und anonyme Abstimmungen durchzuführen, Kampf
Elo Je höher die Punktzahl, desto besser ist die Leistung des Modells in der realen Benutzererfahrung, die in vielen großen Modellbewertungssätzen als die beste gilt „Moment of Truth“Der wirklich kritische Moment“ Ein benutzerorientierter Erlebnis-Showdown.
Im Open-Source-Modell ist Yi-34B-Chat der wohlverdiente „stärkste König“ geworden Eins (Englischkenntnisse), LMSYS ORG in 12 Monaten a> . GPT-3.5"s Angriff auf die Open-Source-Community Die Leistung entspricht Tulu-2-DPO-70B und Yi-34B-Chat Monatlich insgesamt Ranking-Auswertung: „11 Japanische offizielle Ankündigung 8
Der Sturm endet und die Kontroverse ist geklärt
Yi-34B Nach der Open-Source-Veröffentlichung entdeckte der Entwickler Eric Hartford ein Problem mit dem Modell, hinterlassen Sie einfach eine kurze Nachricht auf Yis Projektseite. Allerdings hatte Eric selbst nicht damit gerechnet, dass seine Nachricht später eine öffentliche Meinung über Yi LLaMA .
Er schrieb in der E-Mail: „Vielen Dank für die Bereitstellung eines hervorragenden Modells.Yi Das Modell verwendet < a i=3 >LLaMA Das Modell hat genau die gleiche Struktur, außer dass die beiden Tensoren umbenannt wurden. Aufgrund des umgebenden LLaMA Es sind viele Investitionen und Tools in die Architektur gesteckt, und es ist wertvoll, Tensornamen konsistent zu halten.“, schlug Eric vor, in Yi stellt den Tensornamen rechtzeitig wieder her, bevor er weit verbreitet wird.
Objektiv betrachtet basiert der Kerntechnologiegraben eines Modells auf der Architektur und den durch Datentraining erhaltenen Parametern und Codes. Die meisten Teams, die an der Teilnahme am Wettbewerb für groß angelegte Basismodelle interessiert sind, beginnen bei Null und verwenden hochwertige Datensätze für das Training. Sie verwenden im Allgemeinen LLaMA LLaMA < a i= 2> Architektur. Zero One erklärte später, dass sie einige Inferenzparameter umbenannt hätten, um Vergleichsexperimente durchzuführen. Der ursprüngliche Ausgangspunkt bestand darin, das Modell vollständig zu testen, anstatt die Quelle absichtlich zu verbergen.
Mitten in diesem Sturm der öffentlichen MeinungEric erkannte, dass dies bei manchen Menschen zu Missverständnissen geführt haben könnte und begann, seine vorherigen Bemerkungen zu erklären .
JetztEric selbst verwendet die Yi-34B-Serie, mit Yi-34b-200k Der Datensatz wird zum Trainieren anderer Modellprodukte verwendet.
Yi Das Modell wurde im ersten Monat geöffnet und die Anzahl der Zeichen war hoch. Derzeit Umarmendes Gesicht Shelter District Lower Pass 16,8 0000, Unterer Schrein des Dämonenturms Betrag 1,2 Millionen. Derzeit GitHub Überschreitet 4900 个 Sterne.
Aufgrund der starken Leistung haben viele bekannte Unternehmen und Institutionen fein abgestimmte Modelle auf den Markt gebracht, die auf derYi-Modellbasis basieren, wie beispielsweise Cheetah's Orion OrionStar-Yi-34B-Chat -Modell, eingeführt von Star Company, Southern University of Science and Technology und Guangdong-Hong Kong-Macao Greater Bay Area Digital Economy Forschungsinstitut (bezeichnet als IDEA Institut) Cognitive Computing and Natural Language Research Center (bezeichnet als CCNL usw. weisen alle eine hervorragende Leistung auf. SUS-Chat-34B Center) gemeinsam Die veröffentlichten
und AMD 和 Hugging Face Gemeinsam a>Arbeitsbeispielelement. Yi-6B Beschleunigte große Modellimplementierung, auch ausgewählt GPU
Ob das Modell gut ist oder nicht, wissen die Entwickler am besten
Wenn es um das tatsächliche Nutzungserlebnis großer Modelle geht, haben die Entwickler an vorderster Front das meiste Mitspracherecht.
Su Yang, ein bekannter technischer Autor, sagte, dass in der kürzlich von ihm beobachteten Liste Hugging Face mehr als die Hälfte der Spitzenreiter war 30 waren Yi und andere vom Benutzer fein abgestimmte Variantenmodelle von Yi-34B , Die Anzahl der 68B und 70B Modelle, die ursprünglich besetzt waren Ganz oben auf der Liste stehen jetzt nur noch wenige: „Aus dieser Sicht ist Yi immer noch sehr hilfreich für das Open-Source-Ökosystem.“< /span>
Er wird von Zeit zu Zeit die Liste der HF durchsuchen. Mehr als die Hälfte der Top 30 in der aktuellen Liste sind und anderen Benutzern. Die Anzahl der 68B- und 70B-Modelle, die ursprünglich besetzt waren Ganz oben auf der Liste stehen derzeit nur wenige. Aus dieser Sicht ist Yi immer noch sehr hilfreich für das Open-Source-Ökosystem. Yi-34B-Variantenmodelle, verfeinert von Yi Yi
Su Yang teilte auch seine Trainingserfahrungen und Erkenntnisse zu CSDN (https://blog.csdn.net/soulteary/article/details/134904434).
Su Yang glaubt, dass 34 B normale Benutzer es immer noch zu relativ geringen Kosten selbst betreiben können, wenn sie hart arbeiten, 68 und 70B Modelle, die lokal ausgeführt werden sollen, benötigen mehr Ressourcen. Tatsächlich liegen die aktuellen Werte aber tatsächlich bei 34B und können nicht zu weit gestreut werden. Es handelt sich um einen Durchschnittswert von drei oder vier Punkten, aber der Anzahl der Parameter wird verdoppelt. Mit anderen Worten: Wenn Unternehmen es bereitstellen und nutzen möchten, können auch die erforderlichen Kosten erheblich eingespart werden.
Derzeit stehen inländische Großmodelle bereits auf der ersten Stufe der Open-Source-Liste. Wenn der Wettbewerbsumfang jedoch auf Closed-Source-Modelle, insbesondere Modelle aus Übersee, ausgeweitet wird, ist der Rückstand noch weit. Die aktuelle allgemeine Erfahrung ist, dass das Open-Source-Modell höchstens auf dem Niveau von GPT-3.5 + liegt.
Su Yang glaubt, dass im Inland produzierte große Modelle schnell zur Spitzengruppe aufschließen können. Die Zeit wird auch den Wert des großen Modells selbst beweisen und prüfen, ob das Team wirklich weiterhin in Open Source investiert hat.