Nach dem Open-Source-Aufruhr ist AlpacaEval auf der Suche nach GPT4. Wie setzt Zero One auf Technologie, um das ökologische Vertrauen wiederherzustellen?

0bfdca1a84759f3e5508a102adea1561.gif

Das von der Stanford University entwickelte AlpacaEval Leaderboard zur Bewertung großer Sprachmodelle genießt in der Branche hohes Ansehen. In der am 7. Dezember 2023 aktualisierten Rangliste übertraf Yi-34B-Chat LLaMA2 Chat 70B, Claude 2 und ChatGPT mit einer Gewinnquote von 94,08 %. In der Kategorie der zertifizierten Modelle hat sich Alpaca zu einem großen Sprachmodell entwickelt, das bei den Englischkenntnissen nur von GPT-4 übertroffen wird.

7cf51368f2da674b67cf25cad7150968.jpeg

In derselben Woche wurde der Leiter der Zweigstelle der University of California in Kalifornien LMSYS ORG Executive Practice,< a i=3>Yi- 34B-Chat 也い1102 的 Elo Prüfung, neueste Entwicklungsquelle SOTA Entwicklungsmodellreihe, Leistungstabelle hinzugefügt GPT -3,5 a>.

bfdc074765fb1491e765a516b7309e5a.png

Mehrere Benchmarks weit voraus

Unter den verschiedenen großen Modellbewertungen verwendet Berkeley LMSYS ORG Das Ranking verwendet dasjenige, das der Benutzererfahrung am nächsten kommt< a i =3> "Chatbot Arena"Der spezielle Bewertungsmodus ermöglicht vielen großen Sprachmodellen die zufällige Durchführung von Einzeltests auf der Bewertungsplattform20  wurde für 25000  Monat Die Gesamtzahl der echten Benutzerstimmen von 11 , durch Crowdfunding echter Benutzer, um Online-Echtzeit-Blindtests und anonyme Abstimmungen durchzuführen, Kampf 

Elo Je höher die Punktzahl, desto besser ist die Leistung des Modells in der realen Benutzererfahrung, die in vielen großen Modellbewertungssätzen als die beste gilt „Moment of Truth“Der wirklich kritische MomentEin benutzerorientierter Erlebnis-Showdown.

6ecc5d2dd6f21a7eda548f05291c561d.jpeg

Im Open-Source-Modell ist Yi-34B-Chat  der wohlverdiente „stärkste König“ geworden  Eins (Englischkenntnisse), LMSYS ORG in 12 Monaten a> . GPT-3.5"s Angriff auf die Open-Source-Community Die Leistung entspricht Tulu-2-DPO-70B und Yi-34B-Chat Monatlich insgesamt Ranking-Auswertung: „11  Japanische offizielle Ankündigung 

70a6f79e7ee952cfdbd78b53745c9236.png

Der Sturm endet und die Kontroverse ist geklärt

Yi-34B Nach der Open-Source-Veröffentlichung entdeckte der Entwickler Eric Hartford  ein Problem mit dem Modell, hinterlassen Sie einfach eine kurze Nachricht auf Yis Projektseite. Allerdings hatte Eric  selbst nicht damit gerechnet, dass seine Nachricht später eine öffentliche Meinung über Yi  LLaMA  .

Er schrieb in der E-Mail: „Vielen Dank für die Bereitstellung eines hervorragenden Modells.Yi Das Modell verwendet < a i=3 >LLaMA Das Modell hat genau die gleiche Struktur, außer dass die beiden Tensoren umbenannt wurden. Aufgrund des umgebenden LLaMA Es sind viele Investitionen und Tools in die Architektur gesteckt, und es ist wertvoll, Tensornamen konsistent zu halten.“, schlug Eric  vor, in  Yi  stellt den Tensornamen rechtzeitig wieder her, bevor er weit verbreitet wird.

Objektiv betrachtet basiert der Kerntechnologiegraben eines Modells auf der Architektur und den durch Datentraining erhaltenen Parametern und Codes. Die meisten Teams, die an der Teilnahme am Wettbewerb für groß angelegte Basismodelle interessiert sind, beginnen bei Null und verwenden hochwertige Datensätze für das Training. Sie verwenden im Allgemeinen LLaMA LLaMA < a i= 2> Architektur. Zero One erklärte später, dass sie einige Inferenzparameter umbenannt hätten, um Vergleichsexperimente durchzuführen. Der ursprüngliche Ausgangspunkt bestand darin, das Modell vollständig zu testen, anstatt die Quelle absichtlich zu verbergen.

Mitten in diesem Sturm der öffentlichen MeinungEric erkannte, dass dies bei manchen Menschen zu Missverständnissen geführt haben könnte und begann, seine vorherigen Bemerkungen zu erklären .

14ca2f7fd4c9881be2f2047ecdafcad4.jpeg

Das ist er  X ( twitter ) schrieb: "Sie lügen über nichts. Alle Modelle leihen Architekturen voneinander aus. Architekturen sind das Produkt akademischer Forschung, wurden in Artikeln veröffentlicht und können von jedem frei verwendet werden. Ohne Ablenkung aus den Erfolgen des Yi -Teams. Sie trainierten Yi von Grund auf anhand eines von ihnen erstellten Datensatzes sich selbst. , sein Beitrag zum Open-Source-Bereich ist lobenswert. Verwendung  Llama  Es gibt kein Problem mit der Architektur. Training ist der Schlüssel. Yi  hat uns das derzeit beste Modell zur Verfügung gestellt, keinerlei Beschwerden. "

JetztEric selbst verwendet die Yi-34B-Serie, mit Yi-34b-200k Der Datensatz wird zum Trainieren anderer Modellprodukte verwendet.

Yi Das Modell wurde im ersten Monat geöffnet und die Anzahl der Zeichen war hoch. Derzeit Umarmendes Gesicht Shelter District Lower Pass 16,8 0000, Unterer Schrein des Dämonenturms Betrag 1,2  Millionen. Derzeit GitHub Überschreitet 4900 个 Sterne.

Aufgrund der starken Leistung haben viele bekannte Unternehmen und Institutionen fein abgestimmte Modelle auf den Markt gebracht, die auf derYi-Modellbasis basieren, wie beispielsweise Cheetah's Orion OrionStar-Yi-34B-Chat -Modell, eingeführt von Star Company, Southern University of Science and Technology und Guangdong-Hong Kong-Macao Greater Bay Area Digital Economy Forschungsinstitut (bezeichnet als  IDEA  Institut) Cognitive Computing and Natural Language Research Center (bezeichnet als CCNL  usw. weisen alle eine hervorragende Leistung auf. SUS-Chat-34B  Center) gemeinsam Die veröffentlichten 

und AMD 和 Hugging Face Gemeinsam a>Arbeitsbeispielelement. Yi-6B Beschleunigte große Modellimplementierung, auch ausgewählt GPU

be048d5ae67cecbeb7da91c433a81c7c.png

Ob das Modell gut ist oder nicht, wissen die Entwickler am besten

Wenn es um das tatsächliche Nutzungserlebnis großer Modelle geht, haben die Entwickler an vorderster Front das meiste Mitspracherecht.

Su Yang, ein bekannter technischer Autor, sagte, dass in der kürzlich von ihm beobachteten Liste Hugging Face  mehr als die Hälfte der Spitzenreiter war 30 waren Yi und andere vom Benutzer fein abgestimmte Variantenmodelle von Yi-34B , Die Anzahl der 68B und 70B Modelle, die ursprünglich besetzt waren Ganz oben auf der Liste stehen jetzt nur noch wenige: „Aus dieser Sicht ist Yi immer noch sehr hilfreich für das Open-Source-Ökosystem.“< /span>

Er wird von Zeit zu Zeit die Liste der HF durchsuchen. Mehr als die Hälfte der Top 30 in der aktuellen Liste sind und anderen Benutzern. Die Anzahl der 68B- und 70B-Modelle, die ursprünglich besetzt waren Ganz oben auf der Liste stehen derzeit nur wenige. Aus dieser Sicht ist Yi immer noch sehr hilfreich für das Open-Source-Ökosystem. Yi-34B-Variantenmodelle, verfeinert von Yi Yi

Su Yang teilte auch seine Trainingserfahrungen und Erkenntnisse zu CSDN (https://blog.csdn.net/soulteary/article/details/134904434).

5b7163b34e78b9a333b2d6d55f96fdb2.png

Su Yang glaubt, dass 34 B normale Benutzer es immer noch zu relativ geringen Kosten selbst betreiben können, wenn sie hart arbeiten, 68 und 70B Modelle, die lokal ausgeführt werden sollen, benötigen mehr Ressourcen. Tatsächlich liegen die aktuellen Werte aber tatsächlich bei 34B und können nicht zu weit gestreut werden. Es handelt sich um einen Durchschnittswert von drei oder vier Punkten, aber der Anzahl der Parameter wird verdoppelt. Mit anderen Worten: Wenn Unternehmen es bereitstellen und nutzen möchten, können auch die erforderlichen Kosten erheblich eingespart werden.

Derzeit stehen inländische Großmodelle bereits auf der ersten Stufe der Open-Source-Liste. Wenn der Wettbewerbsumfang jedoch auf Closed-Source-Modelle, insbesondere Modelle aus Übersee, ausgeweitet wird, ist der Rückstand noch weit. Die aktuelle allgemeine Erfahrung ist, dass das Open-Source-Modell höchstens auf dem Niveau von GPT-3.5 + liegt.

Su Yang glaubt, dass im Inland produzierte große Modelle schnell zur Spitzengruppe aufschließen können. Die Zeit wird auch den Wert des großen Modells selbst beweisen und prüfen, ob das Team wirklich weiterhin in Open Source investiert hat.

おすすめ

転載: blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/134985148