O GPT-4o foi lançado e os usuários o analisaram imediatamente. Existe algum exagero no OpenAI?

Na madrugada de 14 de maio, a OpenAI lançou seu modelo principal de nova geração GPT-4o e aplicativo de desktop no tão aguardado "Lançamento de Novo Produto de Primavera" e demonstrou uma série de novos recursos. Durante a transmissão ao vivo, foi mencionado que o GPT-4o seria fornecido gratuitamente aos usuários. O editor fez login em sua conta o mais rápido possível pela manhã, mas não o viu. Adivinhando que este modelo ainda está em escala de cinza, Krypton Gold se tornou um blogueiro de avaliação de IA e implementou o modelo GPT-4o promovido oficialmente pela OpenAI! A ocasião! Teste! Verificar!

Em primeiro lugar, o blog oficial da OpenAI mencionou que o GPT-4o é particularmente bom na compreensão visual e sonora em comparação com os modelos existentes.

O editor assistiu ao vídeo de demonstração do OpenAI. A equipe do OpenAI interagiu com o GPT-4o por meio de conversas em vídeo como amigos, e fiquei muito emocionado! Ansiosa para experimentar!

Mas!!! Lamento informar que a função de interação de vídeo não está aberta para usuários comuns. Só podemos interagir com o ChatGPT enviando fotos e arquivos.

Além disso, a função oficial de tradução de voz em tempo real também atraiu a atenção de pessoas que comem melões. A OpenAI respondeu que o telefone celular pode ser usado como tradutor para traduzir quase 20 idiomas comumente usados.

O editor tentou e descobriu que a tradução de voz em tempo real ainda não está disponível... Após a interação de voz com o ChatGPT, ainda há alguns segundos de espera.

A OpenAI também declarou no blog oficial que “Planejamos fornecer os novos recursos de áudio e vídeo do GPT-4o a um pequeno número de parceiros confiáveis ​​por meio de API nas próximas semanas. não há como experimentar a função, a postagem do blog oficial também postou uma série de imagens de Vincent e recursos de reconhecimento de imagem, voz e vídeo. A seguir, o editor mostrará esses recursos! abrir! Medição! Comente! Copiamos a entrada no blog oficial como um prompt para gerar e comparamos nossos próprios resultados gerados com o diagrama oficial gerado para sua referência ~

Storyboard em quadrinhos: gargalo na escrita do robô

Esta exibição de efeitos pode, por um lado, refletir os poderosos recursos de geração de imagens do GPT-4o, incluindo melhorias na geração de direitos autorais em imagens e a capacidade de manter a consistência dos caracteres ao gerar múltiplas imagens. Mas o efeito...

Na primeira foto você pode ver que ainda há erros de digitação no texto gerado pelo autoteste e a caligrafia está borrada.

Na segunda foto, a mão do robô mudou significativamente e não é consistente, e o papel também mudou.

A terceira foto é basicamente passada, mas o texto no papel é completamente diferente das duas primeiras fotos...

Storyboard em quadrinhos: a história do carteiro Sally

muito bom! GPT-4o gerou uma beleza de carteiro em estilo de quadrinhos japonês, que é ainda mais bonita do que a imagem oficial postada.

Espere, por que o estilo de pintura mudou? Como é que os quadrinhos japoneses se transformaram em fantoches e a perspectiva não está certa?

A terceira imagem tem um estilo diferente Embora as imagens individuais e o texto correspondam bem, é difícil contar uma história coerente em conjunto...

Avatar em quadrinhos

O próximo recurso é o meu favorito e também é o melhor desempenho do GPT-4o. Faça upload de uma foto para ter um avatar cômico projetado para você, e o plano de fundo também pode ser personalizado.

Esta é a imagem original, Alex Nichol, técnico da OpenAI

Este é um avatar cômico gerado pelo GPT-4o. Embora o autoteste não seja tão realista quanto o oficial, ele também restaura as características básicas.

fonte artística

O efeito é incrível, ainda melhor que a foto oficial!

Mas por que há cada vez menos letras?

Renderizações 3D

A estética é boa o suficiente, mas o logotipo ainda pode ser usado se tiver esta aparência?

tipografia criativa

A caligrafia é muito bonita, mas a precisão do texto ainda é um pouco ruim...

Reconhecimento de emoções de personagens

O editor carregou a foto de uma pessoa com emoções ricas, e o GPT-4o a reconheceu com muita precisão e também inventou uma história.

Reconhecimento de gravação de conferência

O editor carregou uma gravação de conferência com várias pessoas e perguntou quantas pessoas estavam nesta gravação. O GPT-4o respondeu por meio da análise da trilha de áudio, o que foi um pouco ultrajante.

A julgar pela experiência geral real, o GPT-4o atualmente disponível para usuários comuns não é tão fácil de usar quanto anunciado. Este lançamento é mais como um comportamento de relações públicas precipitado, sem muita sinceridade. O editor não tem dúvidas de que o vídeo divulgado pela OpenAI é suspeito de editar o vídeo como o protagonista de amanhã, o Google, mas obviamente o GPT-4o usado no celular do funcionário da OpenAI no vídeo é diferente daquele que uso agora. pois quando for o mesmo interna e externamente, só podemos esperar por isso.

Bem-vindo a prestar atenção

"Trusted AI Progress" A conta oficial é dedicada à disseminação da mais recente tecnologia confiável de inteligência artificial e ao cultivo de tecnologia de código aberto, abrangendo aprendizado de gráficos em grande escala, raciocínio causal, gráficos de conhecimento, grandes modelos e outros campos técnicos. escaneie o código QR para seguir e desbloquear mais informações de IA ~

Quanta receita um projeto de código aberto desconhecido pode trazer? A equipe chinesa de IA da Microsoft fez as malas e foi para os Estados Unidos, envolvendo centenas de pessoas. A Huawei anunciou oficialmente que as mudanças de emprego de Yu Chengdong foram fixadas no "Pilar da Vergonha FFmpeg" por 15 anos. atrás, mas hoje ele tem que nos agradecer—— Tencent QQ Video vinga sua humilhação passada? O site espelho de código aberto da Universidade de Ciência e Tecnologia de Huazhong está oficialmente aberto para acesso externo : Django ainda é a primeira escolha para 74% dos desenvolvedores. O editor Zed fez progressos no suporte ao Linux. deu a notícia: Depois de ser desafiado por um subordinado, o líder técnico ficou furioso e rude, foi demitido e engravidou. Funcionária Alibaba Cloud lança oficialmente Tongyi Qianwen 2.5 Microsoft doa US$ 1 milhão para a Rust Foundation.
{{o.nome}}
{{m.nome}}

Acho que você gosta

Origin my.oschina.net/u/7032067/blog/11121442
Recomendado
Clasificación