La rumeur dit que Google a commencé à tester Gemini à petite échelle : il dispose d'une puissance de calcul 5 fois supérieure à celle de la formation GPT-4, et ses capacités multimodales ont été grandement améliorées.

        Aux dernières nouvelles, selon trois personnes directement informées, Google a autorisé un petit nombre d'entreprises à utiliser une première version du logiciel Gemini, ce qui signifie que Google est sur le point de l'incorporer dans les services aux consommateurs et de le vendre aux entreprises via les services de cloud computing de l'entreprise.

        Lors de la conférence Google I/O en mai de cette année, Pichai a annoncé PaLM 2, un grand modèle qui compare GPT-4, mais a également mentionné que l'accent de recherche de Google se déplace vers Gemini, qui est un modèle multimodal et efficace. outils.

        Afin de développer Gemini plus rapidement, Google a fusionné en avril de cette année deux laboratoires internes d'intelligence artificielle : Google Brain et DeepMind. Ce projet commun de Gemini est composé d'une équipe de chercheurs des deux laboratoires.

        Au cours des mois suivants, le mystère de Gemini s'est dévoilé petit à petit : nous savons généralement que le modèle a été développé après la fusion de Google Brain et DeepMind et qu'il comportera des milliards de paramètres comme GPT-4 ; Gemini a déjà été formé. Démonstration des capacités multimodales jamais vues dans les modèles précédents ; une fois affiné et rigoureusement testé pour la sécurité, Google fournira également des versions Gemini de différentes tailles et fonctions pour garantir le déploiement sur différents produits, applications et appareils.

        Aux dernières nouvelles, selon trois personnes directement informées, Google a autorisé un petit nombre d'entreprises à utiliser une première version du logiciel Gemini, ce qui signifie que Google est sur le point de l'incorporer dans les services aux consommateurs et de le vendre aux entreprises via les services de cloud computing de l'entreprise.


Peut-il surpasser GPT-4 ?

        Récemment, les analystes de SemiAnalysis, Dylan Patel et Daniel Nishball, ont apporté d'autres révélations sur Gemini. Dylan Patel a exposé l'architecture de GPT-4 le 11 juillet de cette année.

image

        Dylan Patel et Daniel Nishball ont révélé que la première génération de Gemini devrait être formée sur TPUv4, et que ces pods n'intégraient pas le nombre maximum de puces - 4096 puces, mais utilisaient un plus petit nombre de puces pour garantir la fiabilité et la fiabilité des puces. échangeable. Si les 14 pods sont utilisés à un niveau raisonnable d'utilisation du champ de masque (MFU) pendant environ 100 jours, les FLOPS matériels pour l'entraînement de Gemini dépasseront 1e26.

        Cependant, Gemini a commencé à s'entraîner sur le nouveau pod TPUv5, avec une puissance de calcul allant jusqu'à ~1e26 FLOPS, soit 5 fois supérieure à la puissance de calcul utilisée pour entraîner GPT-4.

        De plus, la base de données de formation de Gemini contient 9,36 milliards de minutes de sous-titres vidéo sur Youtube, et la taille totale de l'ensemble de données est environ deux fois supérieure à celle de GPT-4.

        Gemini se compose d'un ensemble de grands modèles de langage.Il peut utiliser l'architecture MOE et la technologie d'échantillonnage spéculatif pour générer des jetons à l'avance via de petits modèles et les transférer vers de grands modèles pour évaluation, améliorant ainsi la vitesse d'inférence globale du modèle.

        En termes de fonctionnalités, Gemini prend en charge tout, des chatbots à la synthèse de texte ou à la génération de texte brut (tels que des brouillons d'e-mails, des paroles de chansons ou des articles de presse) sur la base d'une description de ce que l'utilisateur souhaite lire. De plus, Gemini aide les ingénieurs logiciels à écrire du code et à générer des images originales en fonction des besoins des utilisateurs.

        Selon un précédent rapport de The Information, Google espère que Gemini améliorera considérablement les capacités de génération de code des développeurs de logiciels pour rattraper l'assistant de code GitHub Copilot de Microsoft.

        Les employés de Google ont également discuté de l'utilisation de Gemini pour exécuter des fonctions telles que l'analyse de graphiques, comme demander au modèle d'interpréter la signification d'un graphique terminé et utiliser des commandes textuelles ou vocales pour naviguer dans un navigateur Web ou un autre logiciel.

        Une personne qui a testé GPT-4 a déclaré que Gemini avait un avantage sur GPT-4 sur au moins un point : en plus des informations publiques sur le Web, Gemini exploite les grandes quantités de données exclusives que Google obtient de ses produits grand public. Par conséquent, le modèle devrait être particulièrement précis pour comprendre l’intention de l’utilisateur pour une requête spécifique, et il semble produire moins de réponses incorrectes (c’est-à-dire des hallucinations).


Possibilité pour les services Google Cloud de rattraper leur retard

        Depuis qu'OpenAI a commencé à vendre l'accès à GPT-4 plus tôt cette année, Google a activement mis son modèle commercial existant à la disposition d'un plus grand nombre de développeurs au cours des derniers mois.

        En mai de cette année, Google a annoncé qu'il fournirait PaLM 2 aux clients Google Cloud via Vertex AI. Une autre personne proche du dossier a déclaré que Google envisageait de fournir "Gemini" aux entreprises via le service Google Cloud Vertex AI, y compris des versions de différentes tailles, afin que les développeurs puissent choisir de payer pour une version moins complexe pour gérer des tâches simples, ou d'acheter Une version suffisamment petite pour fonctionner sur des appareils personnels.

        La personne a ajouté que Google permet actuellement aux développeurs d'utiliser la version relativement volumineuse de Gemini, mais pas la plus grande version en développement, qui est plus proche de GPT-4.

image

        Pour Google, le lancement de Gemini est une grosse affaire. Google a dépensé beaucoup de ressources informatiques et de main d'œuvre pour le développer en tant qu'outil pour concurrencer OpenAI, dans l'espoir que le logiciel non seulement favoriserait son activité de location de serveurs cloud, mais fournirait également un support pour de nouvelles fonctionnalités, du chatbot Bard au logiciel Workspace.

        OpenAI et d'autres éditeurs de logiciels tels que Databricks, qui aident les entreprises à développer et à utiliser l'intelligence artificielle, prédisent également qu'ils généreront des revenus importants grâce à l'IA conversationnelle, a rapporté The Information. Cependant, la montée en puissance des grands modèles open source pourrait diminuer l’intérêt porté par Google et OpenAI à la vente de l’accès à leurs modèles propriétaires.

        Peut-être qu'un jour vous vous réveillerez et que Gemini sera officiellement libéré et que son mystère sera complètement dévoilé.

        Google peut-il changer la donne avec Gemini ? Nous devons juste être patients et attendre.

Je suppose que tu aimes

Origine blog.csdn.net/leyang0910/article/details/132911829
conseillé
Classement