Se lanzó GPT-4o y los usuarios lo revisaron de inmediato. ¿Hay alguna exageración en OpenAI?

El equipo de la comunidad de código abierto de China realizó su primera transmisión en vivo, contando la historia detrás de la comunidad de código abierto de China en nombre de compartir".

En la madrugada del 14 de mayo, OpenAI lanzó su modelo insignia de nueva generación GPT-4o y su aplicación de escritorio en el tan esperado "Lanzamiento de nuevos productos de primavera" y demostró una serie de nuevas capacidades. Durante la transmisión en vivo, se mencionó que GPT-4o se proporcionaría a los usuarios de forma gratuita. El editor inició sesión en su cuenta lo antes posible por la mañana, pero no lo vio. Adivinando que este modelo todavía está en escala de grises, Krypton Gold se convirtió en un blogger de evaluación de IA e implementó el modelo GPT-4o promovido oficialmente por OpenAI. ¡La ocasión! ¡Prueba! ¡Controlar!

En primer lugar, el blog oficial de OpenAI mencionó que GPT-4o es particularmente bueno en comprensión visual y auditiva en comparación con los modelos existentes.

El editor vio el video de demostración de OpenAI. El personal de OpenAI interactuó con GPT-4o a través de conversaciones de video como amigos, ¡y me conmovió mucho! ¡Con ganas de intentarlo!

¡¡¡Pero lamento decirles que la función de interacción de video no está disponible actualmente para usuarios comunes. Solo podemos interactuar con ChatGPT cargando imágenes y archivos.

Además, la función oficial de traducción de voz en tiempo real también atrajo la atención de las personas que comen melones. OpenAI respondió que el teléfono móvil se puede utilizar como traductor para traducir casi 20 idiomas de uso común.

El editor lo probó y descubrió que la traducción de voz en tiempo real aún no está disponible... Después de la interacción de voz con ChatGPT, todavía quedan unos segundos de espera.

OpenAI también declaró en el blog oficial que "planeamos proporcionar las nuevas capacidades de audio y video de GPT-4o a un pequeño número de socios confiables a través de API en las próximas semanas, además de esto, todos lo esperan con ansias". no hay forma de experimentar la función, la publicación del blog oficial también publicó una serie de imágenes de Vincent y capacidades de reconocimiento de imágenes, voz y video. A continuación, ¡el editor mostrará estas capacidades! ¡abierto! ¡Medición! ¡Comentario! Copiamos la entrada en el blog oficial como un mensaje para generar y comparamos nuestros propios resultados generados con el diagrama oficial generado para su referencia ~

Guión gráfico del cómic: el cuello de botella de la escritura del robot

Esta visualización de efectos puede, por un lado, reflejar las poderosas capacidades de generación de imágenes de GPT-4o, incluidas mejoras en la generación de redacción publicitaria en imágenes y la capacidad de mantener la coherencia de los caracteres al generar múltiples imágenes. Pero el efecto...

En la primera imagen, puede ver que todavía hay errores tipográficos en el texto generado por la autoevaluación y la escritura está borrosa.

En la segunda imagen, la mano del robot ha cambiado significativamente y no es consistente, y el papel también ha cambiado.

La tercera imagen básicamente está aprobada, pero el texto en el papel es completamente diferente al de las dos primeras imágenes...

Guión gráfico cómico: La historia del cartero Sally

¡muy bien! GPT-4o generó una belleza de cartero al estilo de un cómic japonés, que es incluso más hermosa que la imagen oficial publicada.

Espera, ¿por qué ha cambiado el estilo de pintura? ¿Cómo es que los cómics japoneses se han convertido en marionetas y la perspectiva no es la correcta?

La tercera imagen tiene un estilo diferente. Aunque las imágenes individuales y el texto se corresponden bien, es difícil contar una historia coherente...

avatar cómico

La siguiente característica es mi favorita y también es el mejor rendimiento de GPT-4o. Sube una foto para tener un avatar cómico diseñado para ti y el fondo también se puede personalizar.

Esta es la imagen original, Alex Nichol, técnico de OpenAI.

Este es un avatar cómico generado por GPT-4o. Aunque la autoprueba no es tan realista como la oficial, también restaura las características básicas.

fuente artística

El efecto es asombroso, ¡incluso mejor que en la imagen oficial!

¿Pero por qué cada vez hay menos letras?

representaciones 3D

La estética es bastante buena, pero ¿se puede seguir usando el logo si se ve así?

tipografía creativa

La letra es bastante hermosa, pero la precisión del texto aún es un poco pobre...

Reconocimiento de emociones de personajes

El editor subió una foto de una persona con ricas emociones, y GPT-4o la reconoció con mucha precisión y también inventó una historia.

Reconocimiento de grabaciones de conferencias

El editor subió una grabación de una conferencia de varias personas y le preguntó cuántas personas había en esta grabación. GPT-4o respondió a través del análisis de la pista de audio, lo cual fue un poco escandaloso...

A juzgar por la experiencia real general, el GPT-4o actualmente disponible para usuarios comunes no es tan fácil de usar como se anuncia. Esta versión se parece más a un comportamiento de relaciones públicas apresurado sin mucha sinceridad. El editor no tiene ninguna duda de que se sospecha que el video publicado por OpenAI edita el video como el protagonista del mañana, Google, pero obviamente el GPT-4o usado en el teléfono móvil del empleado de OpenAI en el video es diferente al que uso ahora. Para cuando sea lo mismo interna y externamente, sólo podemos esperarlo.

Bienvenido a prestar atención

"Trusted AI Progress" La cuenta oficial está dedicada a la difusión de la última tecnología de inteligencia artificial confiable y al cultivo de tecnología de código abierto, que cubre el aprendizaje de gráficos a gran escala, razonamiento causal, gráficos de conocimiento, modelos grandes y otros campos técnicos. escanea el código QR para seguir y desbloquear más información de IA ~