Tencent gab bekannt, dass das große Modell Hunyuan Wenshengtu Open Source ist: Sora hat die gleiche Architektur und kann kostenlos für die kommerzielle Nutzung genutzt werden

Am 14. Mai gab Tencent bekannt, dass sein Hunyuan Wensheng-Graphmodell vollständig aktualisiert und als Open Source verfügbar ist. Es wurde auf der Hugging Face-Plattform und Github veröffentlicht und enthält vollständige Modelle wie Modellgewichte, Inferenzcode und Modellalgorithmen von Unternehmen und Einzelpersonen kostenlos für die kommerzielle Nutzung durch Entwickler genutzt werden.

Dies ist das branchenweit erste Vincentian-Graph-Open-Source-Modell mit chinesisch-nativer DiT-Architektur, das die zweisprachige Eingabe und das Verständnis von Chinesisch und Englisch mit 1,5 Milliarden Parametern unterstützt. Das aktualisierte Hunyuan Vincentian-Großmodell übernimmt die mit Sora konsistente DiT-Architektur, die nicht nur Vincentian-Bilder unterstützen kann, sondern auch als Grundlage für die multimodale visuelle Generierung wie Videos dienen kann.

Die Auswertungsdaten zeigen, dass das neueste Vincentian-Graphmodell von Tencent Hunyuan weitaus effektiver ist als das Open-Source-Stable-Diffusion-Modell und derzeit das beste Open-Source-Vincentian-Graphmodell ist.

 

Selbstentwickeltes Vincent-Diagrammmodell der neuen Generation

Die hervorragende Leistung großer Modelle ist untrennbar mit der führenden technischen Architektur verbunden. Das verbesserte Tencent Hunyuanwenshengtu-Großmodell übernimmt die neue DiT-Architektur (DiT, Diffusion With Transformer), die dieselbe Architektur und Schlüsseltechnologie wie Sora und Stable Diffusion 3 darstellt. Es handelt sich um ein Diffusionsmodell, das auf der Transformer-Architektur basiert.

In der Vergangenheit basierte das Diffusionsmodell der visuellen Generierung hauptsächlich auf der U-Net-Architektur. Mit zunehmender Anzahl von Parametern zeigte das auf der Transformer-Architektur basierende Diffusionsmodell jedoch eine bessere Skalierbarkeit, was zur weiteren Verbesserung der Generierungsqualität beiträgt und Effizienz des Modells. Tencent Hunyuan ist einer der ersten in der Branche, der ein großes Sprachmodell in Kombination mit einer DiT-Struktur erforscht und anwendet, um ein vincentisches Graphenmodell zu erstellen. Ab Juli 2023 hat das Team von Tencent Hunyuan Wenshengtu die Richtung von Modellen auf Basis der DiT-Architektur geklärt und mit der Entwicklung einer neuen Generation von Modellen begonnen. Zu Beginn dieses Jahres wurde das große Modell Hunyuanwenshengtu vollständig auf die DiT-Architektur aktualisiert.

Basierend auf der DiT-Architektur hat das Hunyuan-Team von Tencent die Langtext-Verständnisfunktionen des Modells auf Algorithmusebene optimiert und kann die Eingabe von Inhalten mit bis zu 256 Zeichen unterstützen und damit das branchenführende Niveau erreichen. Gleichzeitig wurden auf Algorithmusebene innovativ Funktionen zur Bildgenerierung und zum Dialog in mehreren Zyklen implementiert, die durch eine Beschreibung in natürlicher Sprache basierend auf einem ursprünglich generierten Bild angepasst werden können, wodurch zufriedenstellendere Ergebnisse erzielt werden.

Muttersprachliches Chinesisch ist auch ein Highlight des Hunyuanwenshengtu-Großmodells von Tencent. Bisher waren die Kerndatensätze gängiger Open-Source-Modelle wie Stable Diffusion hauptsächlich auf Englisch und verfügten nicht über ausreichende Kenntnisse der chinesischen Sprache, des Essens, der Kultur und der Bräuche. Hunyuan Wenshengtu ist das erste chinesisch-native DiT-Modell mit zweisprachigen Verständnis- und Generierungsfunktionen in Chinesisch und Englisch. Es eignet sich gut für die Generierung chinesischer Elemente wie alte Poesie, Slang, traditionelle Architektur und chinesisches Essen.

Die Bewertungsergebnisse zeigen, dass der gesamte visuelle Generierungseffekt der neuen Generation des großen Tencent Hunyuanwenshengtu-Modells mehr als 20 % höher ist als der der vorherigen Generation, mit umfassenden Verbesserungen im semantischen Verständnis, der Bildtextur und Authentizität sowie bei Dialogen mit mehreren Runden. Multi-Themen und chinesische Elemente , echte Porträtgenerierung und andere Szenarien, der Effekt wird deutlich verbessert.

 

Umfassende Open Source zum Nutzen der Branche

Die Hunyuan Wensheng-Grafikfunktion von Tencent wird in vielen Unternehmen und Szenarien wie der Materialerstellung, der Produktsynthese und der Spielgrafik weit verbreitet eingesetzt. Anfang dieses Jahres veröffentlichte Tencent Advertising Tencent Advertising Miaosi, eine One-Stop-KI-Werbe-Kreativplattform, die auf dem Hunyuan-Modell von Tencent basiert und Werbetreibenden kreative Tools für mehrere Szenarien wie textbasierte Bilder, bildbasierte Bilder usw. bieten kann. und Produkthintergrundsynthese, wodurch die Effizienz der Werbeproduktion und -auslieferung effektiv verbessert wird. Mehr als 20 Medienunternehmen, darunter CCTV News, Xinhua Daily, Shenzhen Special Economic Zone Daily, Southern Metropolis Daily und Yangcheng Evening News, haben ebenfalls Tencent Hunyuan Wenshengtu für die Produktion von Nachrichteninhalten genutzt.

Lu Qinglin, Leiter von Tencent Wenshengtu, sagte: „Tencents Hunyuan Wenshengtu-Forschungs- und Entwicklungsidee ist praktisch und besteht darauf, aus der Praxis zu kommen und in die Praxis zu gehen. Dieses Mal ist das Modell der neuesten Generation vollständig Open Source, in der Hoffnung, die innovativen Ideen von Tencent zu teilen.“ Mit der Industrie werden praktische Erfahrungen und Forschungsergebnisse im Bereich der vinzentinischen Grafik das Open-Source-Ökosystem der chinesischen vinzentinischen Grafik bereichern, gemeinsam die nächste Generation des Open-Source-Ökosystems der visuellen Generation aufbauen und die beschleunigte Entwicklung der großen Modellindustrie fördern.“

Basierend auf dem Open-Source-Vincentian-Diagrammmodell von Tencent können Entwickler und Unternehmen es ohne Umschulung direkt zum Denken verwenden und exklusive KI-Malanwendungen und -Dienste basierend auf dem Vincentian-Diagramm von Hunyuan erstellen, wodurch viel Personal und Rechenleistung eingespart werden kann. Der transparente und offene Algorithmus gewährleistet zudem die Sicherheit und Zuverlässigkeit des Modells.

Gleichzeitig trägt es, basierend auf dem offenen und hochmodernen Hunyuan Wenshengtu-Grundmodell, dazu bei, neben der von Stable Diffusion dominierten englischen Open-Source-Community auch das in China ansässige Wenshengtu-Open-Source-Ökosystem zu bereichern und vielfältigere Eingeborene zu bilden Plug-ins fördern die Forschung, Entwicklung und Anwendung der chinesischen Kulturbildtechnologie.

Es versteht sich, dass Tencent immer offen für Open Source war und mehr als 170 hochwertige Projekte als Open Source bereitgestellt hat, die alle aus den realen Geschäftsszenarien von Tencent abgeleitet sind und Kerngeschäftsbereiche wie WeChat, Tencent Cloud, Tencent Games und Tencent abdecken AI und Tencent Security haben derzeit mehr als 470.000 Entwickleraufmerksamkeit und Likes auf Github erhalten.

Wie viel Umsatz kann ein unbekanntes Open-Source-Projekt bringen? Das chinesische KI-Team von Microsoft hat zusammengepackt und ist mit Hunderten von Menschen in die USA gegangen. Huawei gab offiziell bekannt, dass Yu Chengdongs Jobwechsel an der „FFmpeg-Säule der Schande“ festgenagelt wurden vor, aber heute muss er uns danken – Tencent QQ Video rächt seine vergangene Demütigung? Die Open-Source-Spiegelseite der Huazhong University of Science and Technology ist offiziell für den externen Zugriff geöffnet. Bericht: Django ist immer noch die erste Wahl für 74 % der Entwickler. Zed-Editor hat Fortschritte bei der Linux-Unterstützung gemacht brachte die Nachricht: Nachdem er von einem Untergebenen herausgefordert wurde, wurde der technische Leiter wütend und unhöflich, wurde entlassen und schwanger. Die Mitarbeiterin von Alibaba Cloud veröffentlicht offiziell Tongyi Qianwen 2.5. Microsoft spendet 1 Million US-Dollar an die Rust Foundation
{{o.name}}
{{m.name}}

Ich denke du magst

Origin my.oschina.net/u/6852546/blog/11114841
Empfohlen
Rangfolge