AI Daily｜Google lança Astra para combater GPT-4o, Byte lança 9 modelos grandes autodesenvolvidos, modelo grande Wenshengtu de código aberto Tencent Hunyuan...

A equipe da comunidade de código aberto da China fez sua primeira transmissão ao vivo, contando a história por trás da comunidade de código aberto da China em nome do compartilhamento."

Recomendações de artigos

O GPT-4o foi lançado e os usuários o analisaram imediatamente. Existe algum exagero no OpenAI?

Contagem regressiva de transmissão ao vivo da OpenAI, GPT-5 está ausente, GPT-3.5 a 5, entenda a grande diferença na evolução da IA em um artigo!

Tópicos importantes nesta edição

Google realiza I/O 2024: Projeto Astra é lançado para combater GPT-4o, modelos da série Gemini são atualizados

Cofundador e pioneiro em IA, Ilya Sutskever deixa OpenAI

EUA e China realizarão negociações sobre segurança de IA para evitar “erros de cálculo e conflitos acidentais”

ByteDance lança oficialmente uma série de modelos grandes de pufes autodesenvolvidos, “99,3% mais baratos que a indústria”

Atualização para benchmark Sora, modelo grande de gráfico Wensheng de código aberto Tencent Hunyuan

...

Google I/O 2024: Projeto Astra é lançado para combater GPT-4o, modelos da série Gemini são atualizados

Na conferência Google I/O 2024, o Google compartilhou como usar IA para construir produtos e funções mais úteis. A conferência incluiu o seguinte conteúdo de compartilhamento:

Atualizações do modelo da série Gemini:

Atualização Gemini 1.5 Pro: expande a janela de contexto para 2 milhões de tokens e também aprimora sua geração de código, raciocínio lógico e planejamento, diálogo multivoltas e compreensão de áudio e imagem por meio de avanços em dados e algoritmos. Gemini 1.5 Pro é uma atualização que pode seguir instruções cada vez mais complexas e detalhadas, incluindo a especificação de instruções comportamentais envolvendo funções, formatos e estilos.

Gemini 1.5 Flash lançado: 1.5 Flash é o membro mais recente da família de modelos Gemini e o modelo Gemini mais rápido na API. Ele é otimizado para tarefas de grande escala, alto volume e alta frequência, e o serviço é mais econômico.

Gemini Advanced: Com a introdução do Gemini 1.5 Pro, você pode lidar com vários documentos grandes e fazer planos complexos, e o Gemini Live será lançado para assinantes do Gemini Advanced para obter uma melhor interação linguística.

Lançamento do Projeto Astra, um assistente de IA com memória visual:

Ele pode processar texto, vídeo e áudio em tempo real, ser capaz de responder perguntas uns sobre os outros e interpretá-las, ou gerar resultados criativos, e pode reconhecer e interpretar diagramas ou códigos de programa em um quadro branco.

Comparando com Sora, é lançado o modelo de geração de vídeo Veo:

Veo pode gerar mais de um minuto de vídeo de alta qualidade com resolução 1080p em uma variedade de estilos cinematográficos e visuais. E a nuance e o tom de uma sugestão podem ser capturados com precisão, proporcionando um nível sem precedentes de controle criativo – compreensão de pistas para uma variedade de efeitos cinematográficos, como lapsos de tempo ou fotos aéreas de paisagens.

Google Search AI lança visões gerais de IA:

Com base nos recursos de raciocínio em várias etapas dos modelos Gemini personalizados, as visões gerais de IA ajudarão a resolver problemas cada vez mais complexos. Em vez de dividir sua pergunta em várias pesquisas, você pode fazer as perguntas mais complexas de uma só vez, com todas as nuances e advertências que imaginar.

A família Gemma adicionou novos membros:

PaliGemma, o primeiro modelo aberto para linguagem visual, é otimizado para legendagem de imagens, resposta visual a perguntas e outras tarefas de rotulagem de imagens.

Gemma2, o modelo aberto de próxima geração com lançamento previsto para junho deste ano, supera alguns modelos em mais de duas vezes seu tamanho e pode ser executado com eficiência em uma GPU ou em um único host TPU no Vertex AI.

Saber mais:

https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/

Cofundador e pioneiro em IA, Ilya Sutskever deixa OpenAI

Ilya Sutskever, cofundadora da OpenAI e coautora do artigo seminal AlexNet, está deixando a empresa depois de quase 10 anos para prosseguir um novo projeto de “significado pessoal” para ela. Jakub Pachocki assumirá o cargo de diretor de pesquisa. Jakub trabalha na OpenAI há mais de sete anos e é descrito pelo CEO Sam Altman como um dos pensadores mais brilhantes de sua geração. Segundo Sam, ele lidera a maioria dos grandes projetos da empresa. Em novembro de 2022, Ilya participou da demissão temporária do CEO Sam Altman, que havia sido criticado pela comercialização forçada e riscos de segurança relacionados. No entanto, uma investigação concluiu que a demissão foi injustificada. Ilya pediu desculpas, ajudou a reintegrar Altman e depois deixou o conselho. Horas depois de Ilya renunciar, o pesquisador de segurança de IA Jan Leike também anunciou sua saída. Leike e Ilya co-lideraram a equipe de Superalinhamento estabelecida pela OpenAI no verão de 2023, com o objetivo de alinhar gradualmente a superinteligência de forma iterativa e criar um pesquisador de alinhamento automatizado com capacidades humanas.

Saber mais:

https://the-decoder.com/co-founder-and-ai-pioneer-ilya-sutskever-leaves-openai/

ByteDance lança oficialmente uma série de modelos grandes de pufes autodesenvolvidos, “99,3% mais baratos que a indústria”

Na Conferência Spring Volcano Engine FORCE Motive Power 2024 realizada hoje, a ByteDance lançou sua série “Bean Bag Large Model” autodesenvolvida. Esta grande família de modelos abrange o modelo geral do saco de feijão Pro e liti, bem como o modelo de role-playing do saco de feijão, o modelo de síntese de fala do saco de feijão, o modelo de reprodução de som do saco de feijão, o modelo de reconhecimento de fala do saco de feijão, o modelo de diagrama de bean bag · Vensen, o bean bag · Chamada de função Os nove modelos principais, incluindo o modelo, demonstram de forma abrangente as profundas capacidades de acumulação e inovação da ByteDance no campo da inteligência artificial. "Somente com grande uso podemos aprimorar um bom modelo e reduzir significativamente o custo unitário da inferência do modelo. O preço do principal modelo da Doubao no mercado corporativo é de apenas 0,0008 yuans/mil tokens, e 0,8% pode processar mais de 1.500 caracteres chineses, que é 99,3% mais barato do que a indústria." Tan Dai disse que a mudança de preços em centavos para centavos ajudará as empresas a acelerar a inovação empresarial a custos mais baixos.

Saber mais:

https://mp.weixin.qq.com/s/WPs7Gt3Dt_SqkN1PJXsmmw

Atualização para benchmark Sora, modelo grande de gráfico Wensheng de código aberto Tencent Hunyuan

A Tencent anunciou que seu modelo gráfico Hunyuan Wensheng foi atualizado e de código aberto. Ele foi lançado no Hugging Face e no Github. Ele inclui modelos completos, como pesos de modelo, código de inferência e algoritmos de modelo, e está disponível para uso comercial gratuito por empresas. e desenvolvedores individuais. O grande modelo Hunyuan Wenshengtu atualizado adota a mesma arquitetura DiT que Sora disse que Hunyuan DiT é a primeira arquitetura DiT bilíngue em chinês e inglês. Hunyuan DiT é um modelo de geração de texto para imagem baseado no transformador de difusão. Este modelo possui recursos de compreensão refinados em chinês e inglês. Este também é o primeiro modelo de código aberto de gráfico vicentino de arquitetura DiT nativa chinesa da indústria, que suporta entrada e compreensão bilíngue em chinês e inglês, com 1,5 bilhão de parâmetros.

Saber mais:

https://www.ithome.com/0/767/876.htm

Se houver alguma violação, entre em contato conosco para excluí-la.

"Trusted AI Progress" A conta oficial é dedicada à disseminação da mais recente tecnologia confiável de inteligência artificial e ao cultivo de tecnologia de código aberto, abrangendo aprendizado de gráficos em grande escala, raciocínio causal, gráficos de conhecimento, grandes modelos e outros campos técnicos. escaneie o código QR para seguir e desbloquear mais informações de IA ~