Tencent anunció que el modelo grande de Hunyuan Wenshengtu es de código abierto: Sora tiene la misma arquitectura y se puede utilizar de forma gratuita para uso comercial.

El 14 de mayo, Tencent anunció que su modelo gráfico Hunyuan Wensheng se actualizó por completo y fue de código abierto. Se lanzó en la plataforma Hugging Face y Github. Incluye modelos completos como pesos de modelo, código de inferencia y algoritmos de modelo. ser utilizado por empresas y particulares. Gratis para uso comercial por parte de desarrolladores.

Este es el primer modelo de código abierto de gráfico vicentino de arquitectura DiT nativa de China de la industria, que admite entrada y comprensión bilingüe en chino e inglés, con 1.500 millones de parámetros. El modelo grande vicenciano de Hunyuan actualizado adopta la arquitectura DiT consistente con sora, que no solo puede admitir imágenes vicencianas, sino que también sirve como base para la generación visual multimodal, como el video.

Los datos de evaluación muestran que el último modelo de gráfico vicenciano de Tencent Hunyuan es mucho más efectivo que el modelo de difusión estable de código abierto y actualmente es el mejor modelo de gráfico vicenciano de código abierto, y sus capacidades generales se encuentran a nivel internacional.

 

Modelo de diagrama Vincent de nueva generación de desarrollo propio

El excelente rendimiento de los modelos grandes es inseparable de una arquitectura técnica líder. El modelo grande actualizado de Tencent Hunyuanwenshengtu adopta la nueva arquitectura DiT (DiT, Diffusion With Transformer), que es la misma arquitectura y tecnología clave que Sora y Stable Diffusion 3. Es un modelo de difusión basado en la arquitectura Transformer.

En el pasado, el modelo de difusión de generación visual se basaba principalmente en la arquitectura U-Net, pero con el aumento en el número de parámetros, el modelo de difusión basado en la arquitectura Transformer ha mostrado una mejor escalabilidad, lo que ayuda a mejorar aún más la calidad de la generación. y eficiencia del modelo. Tencent Hunyuan es uno de los primeros en la industria en explorar y aplicar un modelo de lenguaje grande combinado con una estructura DiT para crear un modelo gráfico vicenciano. A partir de julio de 2023, el equipo de Tencent Hunyuan Wenshengtu aclaró la dirección de los modelos basados ​​en la arquitectura DiT y lanzó el desarrollo de una nueva generación de modelos. A principios de este año, el modelo grande Hunyuanwenshengtu se actualizó por completo a la arquitectura DiT.

Basado en la arquitectura DiT, el equipo Hunyuan de Tencent ha optimizado las capacidades de comprensión de texto largo del modelo a nivel de algoritmo y puede admitir la entrada de contenido de hasta 256 caracteres, alcanzando el nivel líder en la industria. Al mismo tiempo, a nivel de algoritmo, ha implementado de manera innovadora capacidades de diálogo y generación de imágenes de múltiples ciclos, que se pueden ajustar mediante una descripción en lenguaje natural basada en una imagen generada inicial, logrando así resultados más satisfactorios.

El chino nativo también es un punto destacado del gran modelo Hunyuanwenshengtu de Tencent. Anteriormente, los conjuntos de datos centrales de los principales modelos de código abierto, como Stable Diffusion, estaban principalmente en inglés y no tenían suficiente comprensión del idioma, la comida, la cultura y las costumbres chinas. Hunyuan Wenshengtu es el primer modelo DiT nativo de China con capacidades de generación y comprensión bilingüe en chino e inglés. Funciona bien en la generación de elementos chinos como poesía antigua, jerga, arquitectura tradicional y comida china.

Los resultados de la evaluación muestran que el efecto general de generación visual de la nueva generación del modelo grande Tencent Hunyuanwenshengtu es más de un 20% mayor que el de la generación anterior, con mejoras integrales en la comprensión semántica, la textura y autenticidad de la imagen, y en los diálogos de múltiples turnos. temas múltiples y elementos chinos, generación de retratos reales y otros escenarios, el efecto mejora significativamente.

 

Código abierto integral para beneficiar a la industria

La capacidad de gráficos Hunyuan Wensheng de Tencent se ha utilizado ampliamente en muchos negocios y escenarios, como la creación de materiales, la síntesis de productos y los gráficos de juegos. A principios de este año, Tencent Advertising lanzó Tencent Advertising Miaosi, una plataforma creativa publicitaria de IA integral basada en el modelo Hunyuan de Tencent, que puede proporcionar a los anunciantes herramientas creativas de múltiples escenarios, como imágenes basadas en texto, imágenes basadas en imágenes, y síntesis de antecedentes del producto, mejorando efectivamente la producción de publicidad y la eficiencia de entrega. Más de 20 medios de comunicación, incluidos CCTV News, Xinhua Daily, Shenzhen Special Economic Zone Daily, Southern Metropolis Daily y Yangcheng Evening News, también han utilizado Tencent Hunyuan Wenshengtu para la producción de contenidos informativos.

Lu Qinglin, director de Tencent Wenshengtu, dijo: "La idea de investigación y desarrollo de Hunyuan Wenshengtu de Tencent es práctica e insiste en venir de la práctica e ir a la práctica. Esta vez, el modelo de última generación es completamente de código abierto con la esperanza de compartir las ideas innovadoras de Tencent. "La experiencia práctica y los resultados de la investigación en el campo de los gráficos vicencianos enriquecerán el ecosistema de código abierto de los gráficos vicencianos chinos, construirán conjuntamente la próxima generación de ecosistemas de código abierto de generación visual y promoverán el desarrollo acelerado de la gran industria de modelos".

Basado en el modelo de diagrama vicenciano de código abierto de Tencent, los desarrolladores y las empresas pueden usarlo directamente para razonar sin volver a capacitarse, y pueden crear aplicaciones y servicios exclusivos de pintura de IA basados ​​​​en el diagrama vicenciano de Hunyuan, lo que puede ahorrar mucha mano de obra y potencia informática. El algoritmo transparente y abierto también garantiza la seguridad y fiabilidad del modelo.

Al mismo tiempo, basado en el modelo básico abierto y de vanguardia de Hunyuan Wenshengtu, también favorece el enriquecimiento del ecosistema de código abierto Wenshengtu con sede en China, además de la comunidad de código abierto en inglés dominada por Stable Diffusion, y la formación de nativos más diversos. complementos Promover la investigación, el desarrollo y la aplicación de la tecnología de imágenes culturales chinas.

Se entiende que Tencent siempre ha estado abierto al código abierto y ha abierto más de 170 proyectos de alta calidad, todos los cuales se derivan de escenarios comerciales reales de Tencent y cubren sectores comerciales centrales como WeChat, Tencent Cloud, Tencent Games, Tencent. AI y Tencent Security actualmente, ha recibido la atención y me gusta de más de 470.000 desarrolladores en Github.

¿Cuántos ingresos puede generar un proyecto desconocido de código abierto? El equipo chino de inteligencia artificial de Microsoft empacó colectivamente y se fue a los Estados Unidos, involucrando a cientos de personas. Huawei anunció oficialmente que los cambios de trabajo de Yu Chengdong estaban clavados en el "Pilar de la vergüenza de FFmpeg" durante 15 años. Hace, pero hoy tiene que agradecernos—— ¿Tencent QQ Video venga su humillación pasada? El sitio espejo de código abierto de la Universidad de Ciencia y Tecnología de Huazhong está oficialmente abierto para acceso externo : Django sigue siendo la primera opción para el 74% de los desarrolladores. El editor Zed ha logrado avances en el soporte de Linux. Un ex empleado de una conocida empresa de código abierto . dio la noticia: después de ser desafiada por un subordinado, la líder técnica se puso furiosa y grosera, fue despedida y quedó embarazada. La empleada Alibaba Cloud lanza oficialmente Tongyi Qianwen 2.5 Microsoft dona 1 millón de dólares a la Fundación Rust.
{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/u/6852546/blog/11114841
Recomendado
Clasificación