Tencent a annoncé que le grand modèle Hunyuan Wenshengtu est open source : Sora a la même architecture et peut être utilisé gratuitement à des fins commerciales

Le 14 mai, Tencent a annoncé que son modèle graphique Hunyuan Wensheng avait été entièrement mis à niveau et open source. Il a été publié sur la plateforme Hugging Face et Github. Il comprend des modèles complets tels que les poids de modèle, le code d'inférence et les algorithmes de modèle, et peut être utilisé. être utilisé par les entreprises et les particuliers. Gratuit pour un usage commercial par les développeurs.

Il s'agit du premier modèle open source de graphique vincentien à architecture DiT native chinoise de l'industrie, qui prend en charge la saisie et la compréhension bilingues chinois et anglais, avec 1,5 milliard de paramètres. Le grand modèle vincentien Hunyuan amélioré adopte l'architecture DiT cohérente avec sora, qui peut non seulement prendre en charge les images vincentiennes, mais également servir de base à la génération visuelle multimodale telle que la vidéo.

Les données d'évaluation montrent que le dernier modèle de graphique vincentien Tencent Hunyuan est bien plus efficace que le modèle de diffusion stable open source et qu'il est actuellement le meilleur modèle de graphique vincentien open source et que ses capacités globales se situent au premier niveau international ;

 

Modèle de diagramme Vincent nouvelle génération auto-développé

Les excellentes performances des grands modèles sont indissociables d’une architecture technique de pointe. Le grand modèle Tencent Hunyuanwenshengtu amélioré adopte la nouvelle architecture DiT (DiT, Diffusion With Transformer), qui est la même architecture et la même technologie clé que Sora et Stable Diffusion 3. Il s'agit d'un modèle de diffusion basé sur l'architecture Transformer.

Dans le passé, le modèle de diffusion de génération visuelle était principalement basé sur l'architecture U-Net, mais avec l'augmentation du nombre de paramètres, le modèle de diffusion basé sur l'architecture Transformer a montré une meilleure évolutivité, ce qui contribue à améliorer encore la qualité de la génération. et l'efficacité du modèle. Tencent Hunyuan est l'un des premiers du secteur à explorer et à appliquer un grand modèle de langage combiné à une structure DiT pour créer un modèle de graphique vincentien. À partir de juillet 2023, l'équipe Tencent Hunyuan Wenshengtu a clarifié l'orientation des modèles basés sur l'architecture DiT et a lancé le développement d'une nouvelle génération de modèles. Au début de cette année, le grand modèle Hunyuanwenshengtu a été entièrement mis à niveau vers l'architecture DiT.

Sur la base de l'architecture DiT, l'équipe Hunyuan de Tencent a optimisé les capacités de compréhension de textes longs du modèle au niveau de l'algorithme et peut prendre en charge la saisie de contenu allant jusqu'à 256 caractères, atteignant ainsi le niveau de pointe du secteur. Dans le même temps, au niveau de l'algorithme, il a mis en œuvre de manière innovante des capacités de génération d'images et de dialogue multi-cycles, qui peuvent être ajustées via une description en langage naturel basée sur une image générée initiale, obtenant ainsi des résultats plus satisfaisants.

Le chinois natif est également un point fort du grand modèle Hunyuanwenshengtu de Tencent. Auparavant, les ensembles de données de base des modèles open source traditionnels tels que Stable Diffusion étaient principalement en anglais et ils ne comprenaient pas suffisamment la langue, la nourriture, la culture et les coutumes chinoises. Hunyuan Wenshengtu est le premier modèle DiT d'origine chinoise doté de capacités de compréhension et de génération bilingues en chinois et en anglais. Il fonctionne bien dans la génération d'éléments chinois tels que la poésie ancienne, l'argot, l'architecture traditionnelle et la cuisine chinoise.

Les résultats de l'évaluation montrent que l'effet global de génération visuelle de la nouvelle génération du grand modèle Tencent Hunyuanwenshengtu est plus de 20 % supérieur à celui de la génération précédente, avec des améliorations complètes dans la compréhension sémantique, la texture et l'authenticité de l'image, et dans les dialogues à plusieurs tours, multi-sujets et éléments chinois , génération de portraits réels et autres scénarios, l'effet est considérablement amélioré.

 

Un open source complet au profit de l'industrie

La capacité graphique Hunyuan Wensheng de Tencent a été largement utilisée dans de nombreuses entreprises et scénarios tels que la création de matériaux, la synthèse de produits et les graphismes de jeux. Au début de cette année, Tencent Advertising a lancé Tencent Advertising Miaosi, une plate-forme de création publicitaire unique basée sur l'IA basée sur le modèle Hunyuan de Tencent, qui peut fournir aux annonceurs des outils de création multi-scénarios tels que des images basées sur du texte, des images basées sur des images, et la synthèse de l'arrière-plan du produit, améliorant efficacement l'efficacité de la production et de la livraison de la publicité. Plus de 20 médias, dont CCTV News, Xinhua Daily, Shenzhen Special Economic Zone Daily, Southern Metropolis Daily et Yangcheng Evening News, ont également utilisé Tencent Hunyuan Wenshengtu pour la production de contenu d'information.

Lu Qinglin, directeur de Tencent Wenshengtu, a déclaré : « L'idée de recherche et développement Hunyuan Wenshengtu de Tencent est pratique, insistant sur le fait de venir de la pratique et d'aller à la pratique. Cette fois, le modèle de dernière génération est entièrement open source dans l'espoir de partager les idées innovantes de Tencent. avec l'industrie. L'expérience pratique et les résultats de la recherche dans le domaine du graphisme vincentien enrichiront l'écosystème open source du graphisme vincentien chinois, construiront conjointement la prochaine génération d'écosystème open source de génération visuelle et favoriseront le développement accéléré de la grande industrie du modèle.

Basé sur le modèle de diagramme vincentien open source de Tencent, les développeurs et les entreprises peuvent l'utiliser directement pour raisonner sans formation supplémentaire, et peuvent créer des applications et des services exclusifs de peinture d'IA basés sur le diagramme vincentien de Hunyuan, ce qui peut économiser beaucoup de main d'œuvre et de puissance de calcul. L'algorithme transparent et ouvert garantit également la sécurité et la fiabilité du modèle.

Dans le même temps, basé sur le modèle de base ouvert et de pointe Hunyuan Wenshengtu, il est également propice à l'enrichissement de l'écosystème open source Wenshengtu basé en Chine en plus de la communauté open source anglaise dominée par Stable Diffusion, et à la formation d'une communauté native plus diversifiée. plug-ins. Promouvoir la recherche, le développement et l’application de la technologie des images culturelles chinoises.

Il est entendu que Tencent a toujours été ouvert à l'open source et a ouvert plus de 170 projets de haute qualité, tous dérivés de scénarios commerciaux réels de Tencent et couvrant des secteurs d'activité de base tels que WeChat, Tencent Cloud, Tencent Games, Tencent AI et Tencent Security. Actuellement, il a reçu l'attention et les likes de plus de 470 000 développeurs sur Github.

Combien de revenus un projet open source inconnu peut-il rapporter ? L'équipe chinoise d'IA de Microsoft a fait ses valises et s'est rendue aux États-Unis, impliquant des centaines de personnes. Huawei a officiellement annoncé que les changements d'emploi de Yu Chengdong étaient cloués au « pilier de la honte FFmpeg » 15 ans. il y a, mais aujourd'hui il doit nous remercier—— Tencent QQ Video venge son humiliation passée ? Le site miroir open source de l'Université des sciences et technologies de Huazhong est officiellement ouvert à l'accès externe : Django est toujours le premier choix pour 74 % des développeurs. L'éditeur Zed a progressé dans la prise en charge de Linux. Un ancien employé d'une société open source bien connue . a annoncé la nouvelle : après avoir été interpellé par un subordonné, le responsable technique est devenu furieux et impoli, et a été licencié et enceinte. Une employée d'Alibaba Cloud publie officiellement Tongyi Qianwen 2.5 Microsoft fait un don d'un million de dollars à la Fondation Rust.
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/6852546/blog/11114841
conseillé
Classement