AI Daily｜Google lance Astra pour contrer GPT-4o, Byte publie 9 grands modèles auto-développés, le grand modèle open source Wenshengtu Tencent Hunyuan...

L'équipe de la communauté open source chinoise a réalisé sa première diffusion en direct, racontant l'histoire de la communauté open source chinoise au nom du partage.

Recommandations d'articles

GPT-4o a été publié et les utilisateurs l'ont immédiatement examiné. Y a-t-il une exagération dans OpenAI ?

Compte à rebours de diffusion en direct d'OpenAI, GPT-5 est confirmé absent, GPT-3.5 à 5, comprenez la grande différence dans l'évolution de l'IA en un seul article !

Sujets d'actualité dans ce numéro

Google organise I/O 2024 : le projet Astra est lancé pour contrer GPT-4o, les modèles de la série Gemini sont mis à jour

Le co-fondateur et pionnier de l'IA Ilya Sutskever quitte OpenAI

Les États-Unis et la Chine tiendront des négociations sur la sécurité de l'IA pour éviter « des erreurs de calcul et des conflits accidentels »

ByteDance lance officiellement une grande série de modèles de poufs auto-développés, « 99,3 % moins chers que l'industrie »

Mise à niveau vers le benchmark Sora, Tencent Hunyuan open source Wensheng graph grand modèle

...

Google I/O 2024 : le projet Astra est lancé pour contrer GPT-4o, les modèles de la série Gemini sont mis à jour

Lors de la conférence Google I/O 2024, Google a expliqué comment utiliser l'IA pour créer des produits et des fonctions plus utiles. La conférence comprenait le contenu de partage suivant :

Mises à jour des modèles de la série Gemini :

Mise à niveau Gemini 1.5 Pro : étend la fenêtre contextuelle à 2 millions de jetons et améliore également la génération de code, le raisonnement et la planification logiques, le dialogue à plusieurs tours et la compréhension de l'audio et de l'image grâce aux progrès des données et des algorithmes. Gemini 1.5 Pro est une mise à niveau qui peut suivre des instructions de plus en plus complexes et détaillées, notamment la spécification d'instructions comportementales impliquant des rôles, des formats et des styles.

Sortie de Gemini 1.5 Flash : 1.5 Flash est le dernier membre de la famille de modèles Gemini et le modèle Gemini le plus rapide de l'API. Il est optimisé pour les tâches à grande échelle, à volume élevé et à haute fréquence, et le service est plus rentable.

Gemini Advanced : avec l'introduction de Gemini 1.5 Pro, vous pouvez gérer plusieurs documents volumineux et élaborer des plans complexes, et Gemini Live sera lancé pour les abonnés Gemini Advanced afin d'obtenir une meilleure interaction linguistique.

Sortie de Project Astra, un assistant IA à mémoire visuelle :

Il peut traiter du texte, de la vidéo et de l'audio en temps réel, être capable de répondre à des questions les uns sur les autres et de les interpréter, ou de générer une sortie créative, et peut reconnaître et interpréter des diagrammes ou du code de programme sur un tableau blanc.

En comparaison avec Sora, le modèle de génération vidéo Veo est lancé :

Veo peut générer plus d'une minute de vidéo de haute qualité en résolution 1080p dans une variété de styles cinématographiques et visuels. Et les nuances et le ton d'un signal peuvent être capturés avec précision, offrant un niveau de contrôle créatif sans précédent : compréhension des signaux pour une variété d'effets cinématographiques, tels que des time-lapses ou des prises de vue aériennes de paysages.

Google Search AI publie des aperçus de l'IA :

Basés sur les capacités de raisonnement en plusieurs étapes des modèles Gemini personnalisés, les aperçus IA aideront à résoudre des problèmes de plus en plus complexes. Au lieu de diviser votre question en plusieurs recherches, vous pouvez poser les questions les plus complexes en une seule fois, avec toutes les nuances et mises en garde auxquelles vous pensez.

La famille Gemma a ajouté de nouveaux membres :

PaliGemma, le premier modèle ouvert pour le langage visuel, est optimisé pour le sous-titrage d'images, la réponse visuelle aux questions et d'autres tâches d'étiquetage d'images.

Gemma2, le modèle ouvert de nouvelle génération qui devrait être lancé en juin de cette année, surpasse certains modèles de plus de deux fois sa taille et peut fonctionner efficacement sur un GPU ou un seul hôte TPU dans Vertex AI.

Apprendre encore plus:

https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/

Le co-fondateur et pionnier de l'IA Ilya Sutskever quitte OpenAI

Ilya Sutskever, co-fondateur d'OpenAI et co-auteur de l'article phare AlexNet, quitte l'entreprise après près de 10 ans pour poursuivre un nouveau projet « d'importance personnelle » pour elle. Jakub Pachocki prendra la relève en tant que directeur de la recherche. Jakub travaille chez OpenAI depuis plus de sept ans et est décrit par le PDG Sam Altman comme l'un des penseurs les plus brillants de sa génération. Selon Sam, il dirige la plupart des grands projets de l'entreprise. En novembre 2022, Ilya a participé à l’éviction temporaire du PDG Sam Altman, qui avait été critiqué pour sa commercialisation forcée et les risques de sécurité associés. Cependant, une enquête a révélé que ce licenciement était injustifié. Ilya s'est excusé, a aidé à réintégrer Altman, puis a quitté le conseil d'administration. Quelques heures après la démission d’Ilya, Jan Leike, chercheur en sécurité en IA, a également annoncé son départ. Leike et Ilya ont codirigé l’équipe Superalignment créée par OpenAI à l’été 2023, dans le but d’aligner progressivement et de manière itérative la superintelligence et de créer un chercheur en alignement automatisé doté de capacités humaines.

Apprendre encore plus:

https://the-decoder.com/co-founder-and-ai-pioneer-ilya-sutskever-leaves-openai/

ByteDance lance officiellement une grande série de modèles de poufs auto-développés, « 99,3 % moins chers que l'industrie »

Lors de la conférence Spring Volcano Engine FORCE Motive Power qui s'est tenue aujourd'hui, ByteDance a lancé sa série auto-développée « Bean Bag Large Model ». Cette grande famille de modèles couvre le modèle général de pouf Pro et liti, ainsi que le modèle de pouf · jeu de rôle, le modèle de pouf · synthèse vocale, le modèle de pouf · reproduction sonore, le modèle de pouf · reconnaissance vocale, le pouf · Modèle de diagramme de Vensen, le pouf · Appel de fonction Les neuf modèles principaux, y compris le modèle, démontrent de manière exhaustive les profondes capacités d'accumulation et d'innovation de ByteDance dans le domaine de l'intelligence artificielle. « Ce n'est qu'avec une utilisation massive que nous pouvons peaufiner un bon modèle et réduire considérablement le coût unitaire de l'inférence du modèle. Le prix du modèle principal de Doubao sur le marché des entreprises n'est que de 0,0008 yuans/millier de jetons, et 0,8 % peut traiter plus de 1 500 caractères chinois. ce qui est moins cher que l'industrie 99,3 %. » Tan Dai a déclaré que le passage d'une tarification en cents à des cents aidera les entreprises à accélérer l'innovation commerciale à moindre coût.

Apprendre encore plus:

https://mp.weixin.qq.com/s/WPs7Gt3Dt_SqkN1PJXsmmw

Mise à niveau vers le benchmark Sora, Tencent Hunyuan open source Wensheng graph grand modèle

Tencent a annoncé que son modèle graphique Hunyuan Wensheng a été mis à niveau et open source. Il a été publié sur Hugging Face et Github. Il comprend des modèles complets tels que les poids de modèle, le code d'inférence et les algorithmes de modèle, et est disponible pour une utilisation commerciale gratuite par les entreprises. et les développeurs individuels. Le grand modèle Hunyuan Wenshengtu amélioré adopte la même architecture DiT que Sora, qui a déclaré que Hunyuan DiT est la première architecture DiT bilingue en chinois et en anglais. Hunyuan DiT est un modèle de génération de texte en image basé sur le transformateur de diffusion. Ce modèle possède des capacités de compréhension fine en chinois et en anglais et peut mener plusieurs cycles de dialogue avec les utilisateurs pour générer et améliorer des images en fonction du contexte. Il s'agit également du premier modèle open source de graphique vincentien à architecture DiT native chinoise de l'industrie, qui prend en charge la saisie et la compréhension bilingues chinois et anglais, avec 1,5 milliard de paramètres.

Apprendre encore plus:

https://www.ithome.com/0/767/876.htm

En cas d'infraction, veuillez nous contacter pour la supprimer.

"Trusted AI Progress" Le compte officiel est dédié à la diffusion des dernières technologies d'intelligence artificielle fiables et à la culture de la technologie open source, couvrant l'apprentissage des graphes à grande échelle, le raisonnement causal, les graphiques de connaissances, les grands modèles et d'autres domaines techniques. Bienvenue sur. scannez le code QR pour suivre et débloquer plus d'informations sur l'IA ~