AI Daily ｜ Google lanza Astra para contrarrestar GPT-4o, Byte lanza 9 modelos grandes de desarrollo propio, modelo grande Wenshengtu de código abierto de Tencent Hunyuan ...

El equipo de la comunidad de código abierto de China realizó su primera transmisión en vivo, contando la historia detrás de la comunidad de código abierto de China en nombre de compartir".

Recomendaciones de artículos

Se lanzó GPT-4o y los usuarios lo revisaron de inmediato. ¿Hay alguna exageración en OpenAI?

Cuenta regresiva de transmisión en vivo de OpenAI, se confirma que GPT-5 está ausente, GPT-3.5 a 5, ¡comprenda la gran diferencia en la evolución de la IA en un artículo!

Temas candentes en este número

Google celebra I/O 2024: se lanza el Proyecto Astra para contrarrestar GPT-4o, se actualizan los modelos de la serie Gemini

El cofundador y pionero de la IA, Ilya Sutskever, deja OpenAI

Estados Unidos y China celebrarán conversaciones sobre seguridad sobre IA para evitar "errores de cálculo y conflictos accidentales"

ByteDance lanza oficialmente una serie de modelos grandes de pufs de desarrollo propio, “99,3% más baratos que la industria”

Actualice al modelo grande de gráfico Wensheng de código abierto de Sora y Tencent Hunyuan

...

Google I/O 2024: se lanza el Proyecto Astra para contrarrestar GPT-4o, se actualizan los modelos de la serie Gemini

En la conferencia Google I/O 2024, Google compartió cómo usar la IA para crear productos y funciones más útiles. La conferencia incluyó el siguiente contenido para compartir:

Actualizaciones del modelo de la serie Gemini:

Actualización Gemini 1.5 Pro: amplía la ventana de contexto a 2 millones de tokens y también mejora la generación de código, el razonamiento y la planificación lógicos, el diálogo de múltiples turnos y la comprensión de audio e imágenes a través de avances en datos y algoritmos. Gemini 1.5 Pro es una actualización que puede seguir instrucciones cada vez más complejas y detalladas, incluida la especificación de instrucciones de comportamiento que involucran roles, formatos y estilos.

Lanzamiento de Gemini 1.5 Flash: 1.5 Flash es el miembro más reciente de la familia de modelos Gemini y el modelo Gemini más rápido en la API. Está optimizado para tareas de gran escala, gran volumen y alta frecuencia, y el servicio es más rentable.

Gemini Advanced: con la introducción de Gemini 1.5 Pro, puede manejar múltiples documentos grandes y hacer planes complejos, y se lanzará Gemini Live para los suscriptores de Gemini Advanced para lograr una mejor interacción lingüística.

Lanzamiento del Proyecto Astra, un asistente de IA con memoria visual:

Puede procesar texto, video y audio en tiempo real, responder preguntas entre sí e interpretarlas, o generar resultados creativos, y puede reconocer e interpretar diagramas o códigos de programa en una pizarra.

En comparación con Sora, se lanza el modelo de generación de vídeo Veo:

Veo puede generar más de un minuto de vídeo de alta calidad con resolución de 1080p en una variedad de estilos visuales y cinematográficos. Y los matices y el tono de una señal se pueden capturar con precisión, lo que proporciona un nivel de control creativo sin precedentes: comprensión de señales para una variedad de efectos cinematográficos, como lapsos de tiempo o tomas aéreas de paisajes.

Google Search AI lanza descripciones generales de IA:

Basado en las capacidades de razonamiento de varios pasos de los modelos Gemini personalizados, AI Overviews ayudará a resolver problemas cada vez más complejos. En lugar de dividir su pregunta en varias búsquedas, puede hacer las preguntas más complejas de una sola vez, con todos los matices y advertencias que se le ocurran.

La familia Gemma ha añadido nuevos miembros:

PaliGemma, el primer modelo abierto para lenguaje visual, está optimizado para subtítulos de imágenes, respuesta visual a preguntas y otras tareas de etiquetado de imágenes.

Gemma2, el modelo abierto de próxima generación que se lanzará en junio de este año, supera a algunos modelos en más del doble de su tamaño y puede ejecutarse de manera eficiente en una GPU o en un único host de TPU en Vertex AI.

Aprende más:

https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/

El cofundador y pionero de la IA, Ilya Sutskever, deja OpenAI

Ilya Sutskever, cofundadora de OpenAI y coautora del artículo fundamental de AlexNet, deja la empresa después de casi 10 años para dedicarse a un nuevo proyecto de "importancia personal" para ella. Jakub Pachocki asumirá el cargo de director de investigación. Jakub ha trabajado en OpenAI durante más de siete años y el director ejecutivo Sam Altman lo describe como uno de los pensadores más brillantes de su generación. Según Sam, dirige la mayoría de los proyectos importantes de la empresa. En noviembre de 2022, Ilya participó en la destitución temporal del director ejecutivo Sam Altman, quien había sido criticado por comercialización forzada y riesgos de seguridad relacionados. Sin embargo, una investigación concluyó que el despido era injustificado. Ilya se disculpó, ayudó a reinstalar a Altman y luego abandonó la junta. Horas después de que Ilya dimitiera, el investigador de seguridad de IA, Jan Leike, también anunció su marcha. Leike e Ilya codirigieron el equipo de Superalignment establecido por OpenAI en el verano de 2023, con el objetivo de alinear gradualmente de forma iterativa la superinteligencia y crear un investigador de alineación automatizado con capacidades humanas.

Aprende más:

https://the-decoder.com/co-founder-and-ai-pioneer-ilya-sutskever-leaves-openai/

ByteDance lanza oficialmente una serie de modelos grandes de pufs de desarrollo propio, “99,3% más baratos que la industria”

En la Conferencia Spring Volcano Engine FORCE Motive Power Conference de 2024 celebrada hoy, ByteDance lanzó su serie de desarrollo propio “Bean Bag Large Model”. Esta gran familia de modelos abarca el modelo general de puf Pro y liti, así como el modelo de juego de rol, el modelo de síntesis de voz, el modelo de reproducción de sonido, el modelo de reconocimiento de voz, el modelo de diagrama de Vensen del puf, el llamado de función del puf Los nueve modelos principales, incluido el modelo, demuestran de manera integral las profundas capacidades de acumulación e innovación de ByteDance en el campo de la inteligencia artificial. "Sólo con un gran uso podemos pulir un buen modelo y reducir significativamente el costo unitario de la inferencia del modelo. El precio del modelo principal de Doubao en el mercado empresarial es de sólo 0,0008 yuanes/mil tokens, y el 0,8% puede procesar más de 1.500 caracteres chinos. que es más barato que la industria en un 99,3%". Tan Dai dijo que el cambio de precios en centavos a centavos ayudará a las empresas a acelerar la innovación empresarial a costos más bajos.

Aprende más:

https://mp.weixin.qq.com/s/WPs7Gt3Dt_SqkN1PJXsmmw

Actualice al modelo grande de gráfico Wensheng de código abierto de Sora y Tencent Hunyuan

Tencent anunció que su modelo gráfico Hunyuan Wensheng ha sido actualizado y de código abierto. Se lanzó en Hugging Face y Github. Incluye modelos completos como pesos de modelo, código de inferencia y algoritmos de modelo, y está disponible para uso comercial gratuito por parte de las empresas. y desarrolladores individuales. El modelo grande actualizado de Hunyuan Wenshengtu adopta la misma arquitectura DiT que Sora dijo que Hunyuan DiT es la primera arquitectura DiT bilingüe en chino e inglés. Hunyuan DiT es un modelo de generación de texto a imagen basado en el transformador de difusión. Este modelo tiene capacidades de comprensión detallada en chino e inglés y puede realizar múltiples rondas de diálogo con los usuarios para generar y mejorar imágenes según el contexto. Este es también el primer modelo de código abierto de gráfico vicentino de arquitectura DiT nativa de China de la industria, que admite entrada y comprensión bilingües en chino e inglés, con 1.500 millones de parámetros.

Aprende más:

https://www.ithome.com/0/767/876.htm

Si hay alguna infracción, contáctenos para eliminarla.

"Trusted AI Progress" La cuenta oficial está dedicada a la difusión de la última tecnología de inteligencia artificial confiable y al cultivo de tecnología de código abierto, que cubre el aprendizaje de gráficos a gran escala, razonamiento causal, gráficos de conocimiento, modelos grandes y otros campos técnicos. escanea el código QR para seguir y desbloquear más información de IA ~