AI Daily｜O novo iPad Pro da Apple está equipado com um chip AI, DeepSeek-V2 é de código aberto e um milhão de tokens custa apenas 1 yuan...

A equipe da comunidade de código aberto da China fez sua primeira transmissão ao vivo, contando a história por trás da comunidade de código aberto da China em nome do compartilhamento."

Todos são bem-vindos para nos estrelar no GitHub:

Sistema distribuído de aprendizagem causal de link completo OpenASCE: https://github.com/Open-All-Scale-Causal-Engine/OpenASCE

Grande gráfico de conhecimento baseado em modelo OpenSPG: https://github.com/OpenSPG/openspg

Sistema de aprendizagem de gráficos em grande escala OpenAGL: https://github.com/TuGraph-family/TuGraph-AntGraphLearning

Tópicos importantes nesta edição:

Apple lança novo iPad Pro, equipado com o mais recente chip AI

O poderoso modelo de linguagem MoE DeepSeek-V2 é oficialmente de código aberto, com 1 milhão de tokens, e seu desempenho está próximo do GPT-4-turbo

OpenAI SearchGPT pode ser lançado na próxima semana

Autor do LSTM lança nova arquitetura LLM destinada a substituir o Transformer

O Copilot Chat agora está totalmente disponível no GitHub mobile

...

01. Apple lança novo iPad Pro, equipado com o mais recente chip AI

A Apple lançou as versões mais recentes de seus tablets iPad Pro e iPad Air, bem como um novo Apple Pencil Pro. No coração do novo iPad Pro está o novo processador M4 personalizado da Apple, que é quatro vezes mais poderoso do que os modelos existentes do iPad Pro.

M4 é mais um avanço para os chips da Apple. Ele é construído no processo de 3nm de segunda geração e tem melhor eficiência energética. Ele também possui um novo mecanismo de exibição que pode trazer melhor precisão, cor e brilho à tela.

O novo motor neural equipado com o chip M4 é quase feito sob medida para recursos de IA e seu poder de computação aumentou de 10% a 15% em comparação com a geração anterior M3. O mecanismo de rede neural é o principal responsável pela parte de aprendizado de máquina, como desbloqueio facial, processamento de imagens, etc., e os produtos equipados com chips M4 melhorarão muito a eficiência de execução nessas aplicações.

Saber mais:

https://www.cnn.com/2024/05/07/tech/apple-unveils-new-ipad-lineup/index.html

02. O poderoso modelo de linguagem MoE DeepSeek-V2 é oficialmente de código aberto, com 1 milhão de tokens e seu desempenho está próximo do GPT-4-turbo

DeepSeek abriu o código-fonte de um poderoso modelo de linguagem de especialista misto (MoE) DeepSeek-V2. DeepSeek-V2 alcança desempenho mais forte enquanto economiza 42,5% em custos de treinamento, reduz o cache KV em 93,3% e aumenta o rendimento máximo de geração em 5,76 vezes. O desempenho do modelo DeepSeek-V2 é muito impressionante: excede o GPT-4 no benchmark AlignBench e está próximo do GPT-4-turbo, é comparável ao LLaMA3-70B e melhor que o Mixtral 8x22B no MT-Bench; em matemática, código e raciocínio.

Em termos de preço, a API DeepSeek-V2 tem o seguinte preço: a entrada por milhão de tokens é de US$ 0,14 (aproximadamente 1 RMB) e a saída é de US$ 0,28 (aproximadamente 2 RMB, contexto de 32K em comparação com o preço do GPT-4-Turbo). o preço é apenas quase um por cento deste último.

Saber mais:

https://stanforddaily.com/2024/04/25/openai-ceo-sam-altman-talks-ai-development-and-society/

03. OpenAI SearchGPT pode ser lançado na próxima semana

OpenAI está prestes a lançar o mecanismo de busca "SearchGPT", conhecido internamente como "Sonic". Além da busca de texto, também fornecerá busca de imagens, previsão do tempo, calculadora, fuso horário e outros widgets e prompts para perguntas de acompanhamento. Isso se baseia em capturas de tela vazadas e informações do desenvolvedor web Tibor Blaho.

“SearchGPT” exibirá os resultados em uma janela de bate-papo semelhante ao ChatGPT e resumirá a página da web em até 300 caracteres. Segundo Blaho, o modelo de linguagem utilizado pelo SearchGPT é GPT-4 Lite, GPT-4 ou GPT-3.5.

Saber mais:

https://the-decoder.com/openais-searchgpt-might-be-shown-next-monday-together-with-gpt-4-lite/

04. O autor do LSTM lança uma nova arquitetura LLM destinada a substituir o Transformer

Sepp Hochreiter, o inventor do LSTM, lançou uma nova arquitetura LLM: xLSTM A arquitetura xLSTM é baseada no LSTM tradicional e introduz portas exponenciais com memória híbrida e uma nova estrutura de memória. Ele tem um bom desempenho na modelagem de linguagem em comparação com métodos de última geração, como Transformadores e Modelos de Espaço de Estados. Modelos xLSTM maiores se tornarão concorrentes sérios dos grandes modelos de linguagem atualmente construídos com a tecnologia Transformer. Além disso, o xLSTM tem o potencial de impactar várias outras áreas de aprendizagem profunda, incluindo aprendizagem por reforço, previsão de séries temporais e modelagem de sistemas físicos.

Saber mais:

https://analyticsindiamag.com/the-inventor-of-lstm-unveils-new-architecture-for-llms-to-replace-transformers/

05.O Copilot Chat agora está totalmente disponível no GitHub mobile

O GitHub anunciou na terça-feira que o Copilot Chat, sua interface de bate-papo de IA para fazer perguntas relacionadas à codificação e geração de código, agora está disponível em seu aplicativo móvel. Mario Rodriguez, recém-promovido vice-presidente sênior de produto do GitHub, disse que o aplicativo móvel é muito popular e pode realizar tarefas como repositórios estrela e alguns dos recursos sociais do GitHub. Os desenvolvedores também estão usando o recurso de bate-papo móvel para fazer perguntas sobre repositórios específicos. o problema.

Saber mais:

https://techcrunch.com/2024/05/07/copilot-chat-in-githubs-mobile-app-is-now-generally-available/

Recomendações de artigos

[Recomendação especial para o primeiro de maio] Dez documentários de IA selecionados, adicione-os à sua lista de visualização de férias!

Do mecanismo de atenção ao RLHF, uma lista de leitura obrigatória para começar a usar a tecnologia de modelos grandes

O salário anual pode chegar a um milhão! Quer entrar na indústria de IA, mas não sabe programar? Um artigo desbloqueia 9 posições principais de IA que podem ser gerenciadas mesmo sem nenhum conhecimento de programação

Se houver alguma violação, entre em contato conosco para exclusão.