Comprendre les stratégies de formation, d'inférence et de déploiement de grands modèles de plusieurs fabricants dans un seul article

Le 20 avril, la 102e Conférence de Yuanchuang s'est tenue avec succès à Wuhan. Ce numéro invite des experts en intelligence artificielle de l'Institut de recherche sur l'intelligence artificielle de Wuhan, Huawei, MindSpore, JD Cloud et Gitee AI à prononcer des discours sur le thème de [Concurrence de grands modèles et optimisation des performances]. Revenons ensuite sur les merveilleux moments de cet événement !
Obtenez une photo de groupe ✅
Les pizzas et les cadeaux sont indispensables !
Vient ensuite la révision du discours d’ouverture. Vous pouvez scanner le code QR ci-dessous, suivre le compte vidéo « OSC Open Source Community » et accéder à la page « Live Replay » pour voir la critique vidéo complète :

Liu Hao : analyse de grands modèles et perspectives de tendances

Liu Hao, directeur du département de transformation du capital-risque de l'Institut de recherche sur l'intelligence artificielle de Wuhan, a partagé le thème « Analyse des grands modèles et perspectives des tendances ». L'Institut d'intelligence artificielle de Wuhan, où travaille Liu Hao, a commencé à rechercher la technologie des grands modèles dès 2020. En juillet 2021, il a publié le premier grand modèle trimodal au monde avec 100 milliards de paramètres, couvrant les images, le texte et la voix.
 
Liu Hao a souligné que dans les premières recherches sur la technologie de l'intelligence artificielle, il y avait trois problèmes majeurs : premièrement, la capacité de généralisation était très faible et ne pouvait résoudre que des problèmes similaires ; deuxièmement, la capacité du modèle était unique et ne pouvait pas résoudre des textes riches ; plusieurs modèles ont dû être intégrés ; Troisièmement, au cours de la période écoulée, la demande d'annotation de données a été un peu trop forte. Les grands modèles peuvent résoudre les problèmes sous ces trois aspects, surtout après l’émergence de ChatGPT. Le succès de ChatGPT signifie que de nombreuses tâches ou modèles d'intelligence artificielle en aval peuvent entrer dans la chaîne de production, ouvrant ainsi une ère de production de l'intelligence artificielle, permettant aux techniciens de se concentrer sur la création de modèles de base, permettant à davantage de personnes de s'impliquer dans l'industrie de l'intelligence artificielle. .
 
En outre, le grand modèle a stimulé la stimulation du stockage, de la puissance de calcul, de la capacité de transport et d'autres liens, et a connecté de nombreuses industries en amont et en aval grâce au grand modèle.
 
Techniquement parlant, de nombreux grands modèles nationaux et étrangers utilisent encore essentiellement l'ancienne architecture MoE, mais les grands modèles ont subi une bonne transformation d'ingénierie et de produit. Après que les paramètres du modèle ont dépassé 66 milliards, l’inexplicable de l’intelligence artificielle est devenue plus forte, y compris l’émergence de capacités qui semblaient inexplicables. Liu Hao estime que la méthode utilisée par OpenAI pour rendre ChatGPT si efficace est encore une boîte noire, mais elle a exploré la voie d'une représentation et d'un raisonnement unifiés des connaissances, de la cognition et de la modélisation du monde et d'autres questions.
 
Les grands modèles ont changé non seulement le modèle de recherche, mais aussi le modèle de service et de développement. Par exemple, de nombreuses entreprises ont commencé à annuler leurs abonnements aux cartes graphiques grands modèles et ont arrêté le développement de grands modèles. En fin de compte, il ne reste peut-être que quelques grandes entreprises de mannequins dans l'industrie qui fabriquent de grands modèles de base, tandis qu'un plus grand nombre sont des professionnels de l'industrie. Cela signifie également que les grands modèles sont entrés dans la phase de production industrielle et que de nombreux outils seront formés sur les grands modèles.
 
Actuellement, Zidong Taichu 2.0 a été mis à niveau vers un grand modèle entièrement modal, ajoutant des modalités d'information telles que des nuages ​​de points tridimensionnels. Dans le même temps, l'Institut de recherche sur l'intelligence artificielle de Wuhan a également construit une plate-forme nationale de services ouverts d'intelligence artificielle complète. Il utilise de grands modèles comme base pour déployer une plate-forme unique et adopte un nouveau modèle de puissance de calcul + plate-forme. d'une part, il utilise la base pour affiner les données, et d'autre part, il utilise En termes d'aspects, la plate-forme et la puissance de calcul peuvent être combinées de manière transparente. Actuellement, plusieurs AICC ont été mis en œuvre à travers le pays, complétant l'adaptation complète de la localisation, utilisant une puissance de calcul inclusive hautes performances, intégrant profondément les scénarios industriels et accélérant l'application de grands modèles pour responsabiliser des milliers d'industries.
 
Enfin, Liu Hao a également donné ses quatre jugements majeurs sur les tendances de développement des grands modèles :
  • Tendance 1 : les applications des technologies de l'information et l'écologie de l'innovation ont subi d'énormes changements, tels que l'alimentation continue de données pour mener à bien diverses activités intelligentes, le développement d'applications entrant dans le mode de programmation en langage naturel, etc. ;
  • Tendance 2 : Remodeler le paradigme de l'intelligence décisionnelle, comme l'alignement homme-machine pour aider à la prise de décision ;
  • Tendance 3 : Évoluer dans le sens de la miniaturisation et de la domaineisation, vers une intelligence artificielle professionnelle basée sur l’IA cognitive générale ;
  • Tendance 4 : Vers une intelligence artificielle plus générale, comme les grands modèles interagissant avec des robots humanoïdes.
Scannez le code QR pour regarder le replay de la conférence "Large Model Analysis and Trend Outlook" ⬇️

Li Shuqiao : Application et mise en œuvre de la technologie d'optimisation de grands modèles sur Shengteng

L'ingénieur logiciel de Huawei, Li Shuqiao, a prononcé un discours d'ouverture sur « l'application et la mise en œuvre de la technologie d'optimisation des grands modèles sur Ascend ». Il a présenté les fonctionnalités d'Ascend en matière de puissance de calcul des grands modèles sous trois aspects, notamment la prise en charge native d'Ascend de la bibliothèque d'accélération open source et l'autonomie d'Ascend. développement de grands modèles. Technologie d'optimisation et mise en œuvre de la production basée sur le cloud natif.
 
Tout d'abord, il prend en charge diverses bibliothèques open source, couvrant quatre aspects principaux : les modèles tiers, les frameworks d'IA tiers, les bibliothèques d'accélération tierces et les services de raisonnement tiers. Par exemple, concernant la prise en charge de Pytorch & Torch NPU, Pytorch est un framework d'IA qui peut être divisé en deux parties : la couche supérieure est la partie Pytorch et la couche inférieure est la Torch NPU. Au niveau de la couche supérieure, Ascend enregistre les opérateurs natifs et les opérateurs personnalisés sur PyTorch via l'enregistrement, afin que PyTorch puisse s'exécuter dans Ascend. Pour le NPU Torch inférieur, grâce à des contributions open source, de nombreux modules tels que checkpoint, FSDP et Dataloader sont optimisés. capacités de prise en charge, permettant la prise en charge native de NPU.
 
De plus, Ascend prend également en charge le cadre de modèle universel onnxRuntime. Différents frameworks, dont Pytorch, TensorFlow, MindSpore, etc., peuvent être enregistrés au format onnx, et onnxRuntime peut exécuter et appeler le format unifié. Le support natif d'Ascend prend déjà en charge la bibliothèque onnxRuntime, ce qui rend très pratique la connexion de plusieurs frameworks et facilite son utilisation.
 
En termes de compression de modèles, DeepSpeed ​​​​peut compresser de grands modèles afin qu'ils puissent être déployés et mieux fonctionner. Actuellement, il prend également en charge le support natif de Shengteng.
 
Pour la bibliothèque de vision par ordinateur OpenCV qui fournit le traitement d'images, l'apprentissage automatique, l'analyse vidéo, etc. Ascend implémente un support back-end, fournissant la structure de données Ascend NPU AscendMat et 18 interfaces haute fréquence, et améliore les performances de la plupart des opérateurs de 30 %.
 
Migration de codes. Basé sur Pytorch et TorchNPU, la prise en charge native d'OpenCLIP pour Shengteng est implémentée. 3 lignes de code peuvent être implémentées pour migrer le modèle vers l'appareil Shengteng.
 
Deuxièmement, Shengteng a auto-développé une technologie d’optimisation de grands modèles. Bibliothèque d'accélération de grands modèles AscendSpeed ​​​​​​auto-développée par Ascend. La formation de grands modèles est un processus très complexe qui implique de nombreuses technologies et défis. La formation de grands modèles nécessite une grande quantité de ressources de mémoire vidéo, ce qui constitue un problème difficile et pose un défi considérable aux cartes informatiques. Afin d'effectuer des calculs via plusieurs cartes informatiques lorsque les ressources de mémoire vidéo d'une seule carte informatique sont insuffisantes, des bibliothèques tierces d'accélération de grands modèles telles que Megatron et DeepSpeed ​​​​ont émergé dans l'industrie pour segmenter les modèles, saisir des données, etc. et les répartir sur différentes cartes informatiques. Enfin, les résultats sont synthétisés à travers une communication collective. Ascend fournit la bibliothèque d'accélération AscendSpeed ​​​​pour permettre aux clients de migrer rapidement des services de grands modèles vers les appareils Ascend, et prend en charge les algorithmes propriétaires d'Ascend pour garantir une convivialité prête à l'emploi.
 
Ascend fournit également une chaîne d'outils AIT (Ascend Inference Tools) relativement complète, qui sert d'entrée à la chaîne d'outils d'inférence unifiée, fournit aux clients des outils de développement intégrés et prend en charge le débogage et le réglage à guichet unique.
 
Enfin, en termes de mise en œuvre de production basée sur le cloud natif. Le planificateur de volcan K8S prend en charge la planification d'affinité des appareils Ascend. De plus, le plug-in de périphérique Kubernetes Ascend peut signaler le nombre de périphériques qu'il découvre au système Kubernetes. Lorsqu'un périphérique est dans un état défectueux, il est signalé au système Kubernetes et supprimé. Après une panne de périphérique, un nouveau conteneur est créé. automatiquement tiré et un appareil sain sera monté, et reconstruira la mission de formation. Actuellement, le backend Space pris en charge nativement par Vicuna utilise déjà le plug-in de périphérique Kubernetes.
 
Scannez le code QR pour regarder la rediffusion de la conférence « Application et mise en œuvre de la technologie d'optimisation des grands modèles sur Shengteng » ⬇️

Yuan Lijiang : La sagesse inspire l'avenir - Plateforme grand modèle Yanxi

Yuan Lijiang, directeur produit de JD Cloud, a prononcé un discours sur « Inspirer l'avenir avec l'intelligence - Yanxi Large Model Platform ». Yuan Lijiang a présenté cinq défis majeurs dans la mise en œuvre de grands modèles au niveau de l'entreprise : le temps réel, l'explicabilité, la sécurité et la contrôlabilité, la prise de décision complexe et le professionnalisme. La clé de la mise en œuvre est de savoir comment prendre les bonnes décisions en temps réel. et dans un environnement incertain et en évolution dynamique.
 
Yuan Lijiang a expliqué qu'il existe deux manières principales de mettre en œuvre de grands modèles : l'une est le modèle Copilot. L'IA ne sert que d'assistant dans certains scénarios, comme la génération de contenu textuel. traitement. , Vincent Tu, etc. En fait, les entreprises doivent libérer autant de main-d'œuvre que possible. L'autre mode est le mode Agent, plus adapté aux scénarios complexes dans les entreprises. Dans ce mode, les humains se situent dans une perspective de dimension supérieure et agissent comme « mentor » ou « coach » de l'intelligence artificielle, fixant des objectifs et supervisant les résultats. Le grand modèle peut exercer sa capacité de raisonnement, utiliser des outils et des excuses appropriés, et enfin donner un retour sur les résultats correspondants.
 
Les principales technologies utilisées pour la mise en œuvre de grands modèles dans les entreprises ont également changé. Le pré-entraînement initial a le coût le plus élevé et un investissement énorme. Plus tard, le coût du mode SFT a diminué, mais l'effet de mise en œuvre n'a pas été bon ; Le mode RAG a été amélioré par la base de données vectorielles, mais l'effet a été amélioré. En fin de compte, les équipes techniques compétentes accordent plus d'attention au mode Agent et peuvent prendre en charge plusieurs scénarios.
 
Dans le secteur financier de JD.com, il est difficile d'améliorer la capacité des grands modèles à résoudre des problèmes pratiques simplement en s'appuyant sur de grands modèles SFT ou LoRA. Au lieu de cela, il est basé sur la technologie Agent pour permettre aux machines d'utiliser des outils pour résoudre les problèmes commerciaux. Plus précisément, il utilise l'agent pour comprendre les objectifs de l'utilisateur, démonter chaque sous-tâche et sélectionner les outils appropriés pour chaque sous-tâche. Ces outils sont quelques interfaces de l'activité d'origine de JD.com, et enfin combinés avec des capacités de modèle étendu pour fournir des commentaires. . De cette manière, les réponses aux questions complexes de certains utilisateurs seront plus précises.
 
À l'heure actuelle, la plate-forme de modèles complets de JD Yanxi a construit une matrice de produits multicouche. La couche la plus basse est la prise en charge des ressources, notamment les ressources informatiques, les ressources de stockage, le réseau haut débit et la planification des ressources. Dans la couche de ressources du modèle, il fournit des fonctionnalités telles que la gestion et la formation des modèles, le traitement des ensembles de données, ainsi que l'évaluation et le déploiement des modèles. Au-dessus de la couche de ressources du modèle se trouve la construction d'agents intelligents, axés sur l'intégration de divers outils. La couche supérieure est la couche de services d'application, qui s'adapte à plusieurs scénarios d'entreprise.
 
La plate-forme de grands modèles de JD Yanxi comporte 6 fonctions principales : la collaboration en matière de planification des ressources, qui permet une gestion et une planification efficaces des ressources informatiques, garantissant l'optimisation des performances et le contrôle des coûts du développement et de la gestion des données des applications de grands modèles, qui assure la gestion et la prise en charge de la formation de grands modèles ; La pré-formation, le réglage fin, l'apprentissage par renforcement, l'évaluation, etc. sont effectués efficacement ; la formation, la formation et le réglage fin du modèle via de grands modèles permettent aux entreprises de disposer de modèles personnalisés pour améliorer la précision et la pertinence. déployer des agents intelligents, combinés avec les systèmes informatiques existants de l'entreprise pour effectuer des tâches complexes ; la conformité en matière de sécurité garantit que toutes les applications à grand modèle sont conformes aux normes de sécurité et aux exigences légales et réglementaires ; que les entreprises peuvent déployer directement ou fournir des plug-ins Accès rapide au système.
 
Scannez le code QR pour regarder la rediffusion du discours "Inspiring the Future - Yanxi Large Model Platform" ⬇️

Lin Jiazhen : système d'inférence sans serveur à grand modèle

Actuellement, certaines parties ou plates-formes modèles fourniront aux utilisateurs individuels une puissance de calcul gratuite pour utiliser la technologie des grands modèles. Gitee.AI, en tant que plate-forme d'agrégation de grands modèles, fournit également une puissance de calcul gratuite aux utilisateurs individuels. Lin Jiazhen, consultant expert de Gitee AI et de l'Institut de calcul haute performance de l'Université Tsinghua, a prononcé un discours d'ouverture sur le « Grand modèle de système d'inférence sans serveur ».
 
Lin Jiazhen a souligné que Gitee.AI regroupe actuellement plus de 2 000 modèles, mais que les ressources informatiques gratuites sont limitées. Il est donc nécessaire d'allouer plus efficacement ces ressources informatiques gratuites aux développeurs à la demande, ce qui constitue un véritable défi à l'heure actuelle. problèmes. Par exemple, lorsque la technologie des conteneurs était utilisée dans le passé pour le développement externe, l'échange, le remplacement et le réveil d'un seul conteneur étaient très rapides. Cependant, cela est devenu difficile à l'ère des grands modèles. La mise en veille et la mise en veille du modèle rendent la gestion des échanges et des échanges de conteneurs difficile à réaliser dans le passé. La scène est tout aussi efficace.
 
L'IA sans serveur présente quatre avantages majeurs, notamment un déploiement simple, une utilisation prête à l'emploi, des coûts d'utilisation de la puissance de calcul réduits, une couverture des modèles grand public et la prise en charge d'une variété de matériel informatique. Il y a un problème avec le moteur de modèle actuel, ou la manière d'acheter et d'utiliser la puissance de calcul, c'est-à-dire que les programmes utilisateur, les modèles et les puces d'inférence sont tous liés à un conteneur, occupant la puce matérielle et utilisant les services de puissance de calcul. Le moteur d'inférence sans serveur intègre et optimise les ressources de puissance de calcul, réduit le couplage entre les applications, les modèles et la puissance de calcul grâce à plusieurs niveaux de désagrégation, alloue la puissance de calcul à la demande et améliore l'utilisation des ressources.
 
L'architecture du système sans serveur est divisée en trois couches. La couche la plus basse est la couche du compilateur. Le chargement du modèle dans le conteneur est modifié en mode d'appel rpc au service distant. L'interface n'est pas modifiée, mais elle est remplacée par. inférence back-end pour réaliser le modèle et la dépolymérisation de la puce. rpc est donné au moteur d'inférence au niveau supérieur. Le moteur d'inférence est le cluster où les calculs se produisent réellement. Ce niveau désagrège les données et la puissance de calcul. Par exemple, supposons un scénario de tâche dans lequel dix cartes satisfont la demande de planification de 3 000 modèles. À l'heure actuelle, il n'existe aucun moyen de charger un grand modèle de manière fixe sur une seule carte. Il est nécessaire de charger temporairement et dynamiquement le modèle souhaité en fonction. Par conséquent, les poids calculés de la puce et du modèle sont désagrégés et le modèle est placé sur TanserGraph, qui est un système de mémoire hétérogène qui peut prendre en charge la désagrégation des puces et des modèles de puissance de calcul. Au niveau de la couche supérieure, la couche sans serveur, l'application, l'inférence et l'agrégation sont effectuées.
 
La capacité principale de l'architecture système sans serveur est une mémoire interconnectée hétérogène pour résoudre le problème de poids du modèle. L'architecture globale du centre de données présente certaines limites, telles qu'une faible utilisation des ressources et une évolutivité matérielle limitée. La technologie de désagrégation peut séparer physiquement chaque composant de l'architecture globale et utiliser une certaine interconnexion pour relier l'interface de contrôle (plan de contrôle) de chaque composant et les données. interface (Data Plane) pour réaliser l’allocation et l’expansion à la demande de diverses ressources. En outre, la désagrégation de la mémoire présente également des avantages d'application dans les scénarios cloud, notamment en améliorant l'utilisation des ressources de l'environnement cloud et en facilitant la réponse à la demande croissante de ressources mémoire.
 
Cependant, le système de mémoire hiérarchique existant n'est pas adapté à la grande flexibilité matérielle de l'architecture de désagrégation, et l'évolutivité du système est également limitée. De plus, en raison des limitations de la structure interne du système, les capacités de l'interface de gestion de mémoire existante sont limitées. La mémoire interconnectée hétérogène peut résoudre ces problèmes à travers trois liens : les statistiques d'accès au matériel, les stratégies programmables et la migration de pages. En prenant le CPU comme exemple, pour les statistiques d'accès basées sur les PEB, le matériel est pris en charge pour collecter l'état d'accès à la mémoire du programme en cours d'exécution, enregistrer les instructions, le TID, l'adresse de destination, etc., puis charger les poids du modèle à la demande.
 
En outre, l'architecture du système sans serveur possède également diverses autres capacités, telles qu'une technologie d'optimisation de compilation de réseaux neuronaux à plusieurs niveaux basée sur MLIR et un mécanisme de service système léger basé sur la technologie d'isolation de l'espace utilisateur. Le moteur d'inférence sans serveur est construit sur la base de deux technologies de propriété intellectuelle de base. En outre, il intègre également diverses technologies actuelles d'optimisation des systèmes d'inférence.
 
Actuellement, Llama 3 a été lancé sur Gitee AI. Copiez le lien ci-dessous dans votre navigateur et entrez sur la plateforme pour en faire l'expérience (code d'invitation : lama3) :
https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-Chinese-Chat
 
Scannez le code QR pour regarder le replay de la conférence "Large Model Serverless Inference System" ⬇️

Chen Ziheng : Technologies clés et planification du grand modèle MindSpore

Chen Ziheng, ingénieur de recherche chez MindSpore, a prononcé un discours d'ouverture sur les « technologies clés et la planification du grand modèle MindSpore ». Chen Ziheng a déclaré que dans l'industrie, MindSpore se situe entre le matériel de puce sous-jacent et les applications industrielles de niveau supérieur. En termes de technologie de grands modèles, MindSpore construit d'abord une couche de base, couvrant plusieurs grands modèles sous-jacents, sur la couche supérieure, elle construit des modèles industriels avec des partenaires industriels. De plus, MindSpore est également compatible avec une variété de grands modèles open source grand public au pays et à l'étranger. Pour tous les grands modèles, MindSpore utilise trois packages de base : MindFormers, MindPET et MindRLHF pour unifier l'ensemble du processus de développement, de réglage et de déploiement de grands modèles, permettant une utilisation prête à l'emploi.
 
Pour la formation de grands modèles. MindSpore utilise un compilateur basé sur des graphiques de calcul pour mettre en œuvre des stratégies parallèles. Saisissez un graphique de calcul et le processus de compilation de graphiques de MindSpore segmentera le graphique selon la stratégie parallèle et y insérera automatiquement des opérateurs de réorganisation des données pour garantir que la logique de calcul parallèle de plusieurs machines est cohérente avec celle d'une seule machine. De cette manière, MindSpore atteint plusieurs niveaux d'optimisation, notamment la génération automatique de politiques de haut niveau, le parallélisme hybride multidimensionnel et l'optimisation prenant en charge le stockage multidimensionnel et l'hétérogénéité au moment de l'exécution.
 
Depuis l'année dernière, l'équipe MindSpore effectue également une formation parallèle de grands modèles. Dans des circonstances normales, la formation typique sur de grands modèles utilise un mélange de cinq stratégies parallèles, notamment le parallélisme des données, le parallélisme de l'optimiseur, le parallélisme des modèles, le parallélisme des pipelines et le recalcul. L'équipe MindSpore a analysé la situation chronophage des modèles typiques dans ces modes parallèles et a constaté que les principaux coûts ici se situent sous trois aspects, notamment le coût du parallélisme des modèles au niveau de l'opérateur, les bulles générées par le parallélisme des pipelines et le temps de queue des données. parallélisme. Et à mesure que l'échelle du cluster continuera d'augmenter, ces problèmes de frais généraux deviendront plus évidents lorsque l'on atteindra le cluster Wanka. Par exemple, en raison de la limitation de la taille globale du lot, le problème des bulles du pipeline deviendra plus grave, et en raison de la taille du lot global. augmentation dans le domaine de la communication, les performances de communication se détérioreront et le taux de queue du parallélisme des données augmentera.
 
Concernant ces problèmes, Chen Ziheng a également introduit certaines solutions, telles que la communication de modèle caché en mode parallèle multi-copie, qui divise les données en deux. Chaque donnée peut être calculée et communiquée indépendamment, tandis que le calcul et la communication entre plusieurs copies de données le sont. se cachent, optimisant ainsi le parallélisme des modèles au niveau de l'opérateur. Pour l'optimisation parallèle PipeLine, réduisez Bubble à moins de 10 % via PipeLine Interleave.
 
De plus, le problème des experts chauds et froids sera rencontré lors de la formation MoE. Pour la migration à chaud des experts, le volume de communication AlltoAll est réduit et les performances de formation du modèle MoE sont améliorées. En plus de la formation haute performance, un autre problème pour les grands modèles est de savoir comment mettre en œuvre le parallélisme stratégique. MindSpore adopte le parallélisme automatique, et le temps de réglage de la stratégie parallèle pour les grands modèles peut être réduit de plusieurs mois à quelques heures.
 
En termes de déploiement, MindSpore est équivalent au backend du sans serveur, et ce qui doit être résolu, ce sont les problèmes de performances. MindSpore utilise des opérateurs de raisonnement parallèle distribué, de cache KV, de séquence dynamique, de traitement par lots continu et de fusion de raisonnement hautes performances pour créer un cadre de raisonnement unifié avec une faible latence, un débit élevé et la prise en charge de longues séquences de grands modèles. L'architecture intégrée de formation et de push permet une connexion transparente de la formation à l'inférence.
 
Ensuite, les plans de MindSpore pour la formation de grands modèles couvrent l'optimisation des performances de la formation des grands clusters Wanka, l'optimisation des performances des grands modèles denses, l'optimisation des performances des grands modèles MoE clairsemés, etc. En termes d'inférence de grands modèles, MindSpore prévoit de mener des recherches plus approfondies sur l'intégration de grands modèles. formation de grands modèles et architecture push, accélération d'inférence de grands modèles denses, accélération d'inférence de grands modèles clairsemés, etc.
 
Scannez le code QR pour regarder la rediffusion de la conférence "Technologies clés et planification de MindSpore Large Model"⬇️

C'est tout pour cette revue d'événement. Les inscriptions pour la 103e Foire de Yuanchuang sont désormais ouvertes, cliquez pour voir⬇️.
[Technologie grand modèle dans le terminal] OSC Source Innovation Conference·Shenzhen Station·Numéro 103 https://www.oschina.net/event/2332004
Les lycéens créent leur propre langage de programmation open source en guise de cérémonie de passage à l'âge adulte - commentaires acerbes des internautes : S'appuyant sur la défense, Apple a publié la puce M4 RustDesk. Les services nationaux ont été suspendus en raison d'une fraude généralisée. À l'avenir, il envisage de produire un jeu indépendant sur la plateforme Windows Taobao (taobao.com) Redémarrer le travail d'optimisation de la version Web, destination des programmeurs, Visual Studio Code 1.89 publie Java 17, la version Java LTS la plus couramment utilisée, Windows 10 a un part de marché de 70 %, Windows 11 continue de décliner Open Source Daily | Google soutient Hongmeng pour prendre le relais ; l'anxiété et les ambitions de Microsoft ont fermé la plate-forme ouverte ;
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/4489239/blog/11105657
conseillé
Classement