实录分享 | Alluxio在AI/ML场景下的应用

欢迎来到【微直播间】,2min纵览大咖观点

本次分享主要包括五个方面:

  • 关于Alluxio;
  • 盘点企业在尝试AI时面临的挑战;
  • Alluxio在技术栈中的位置;
  • Alluxio在模型训练&模型上线场景的应用;
  • 效果对比:使用Alluxio前 VS 使用Alluxio后。

一、关于Alluxio

Alluxio——数据编排平台,一个高性能的数据接入层。

二、盘点企业在尝试AI时面临的挑战

1、GPU短缺;

2、模型上线慢;

3、GPU使用率低。

三、Alluxio在技术栈中的位置

√ Alluxio不是一个持久化的存储层,持久化存储比较依赖云上S3 Storage、Ceph或者是HDFS这种分布式存储;

√ Alluxio在AI领域是一个高性能的接入层;

√ Alluxio对Pytorch、TensorFlow的IO性能做了很多优化;

√ 再往上就是Ray或者是MLFlow这种AI/ML的编排层。

四、Alluxio在模型训练&模型上线场景的应用

√ 在需要的位置启动GPU集群;

√ 在现有数据湖上构建AI/ML;

√ 消除数据拷贝,降低成本/复杂度;

√ 实现更快的模型部署上线。

五、效果对比:使用Alluxio前 VS 使用Alluxio后

√ 使用前:用于数据加载的时间超过80%,GPU使用率不足20%;

√ 使用后:数据加载过程耗费的时间从82%减少到1% ,GPU利用率从17%提升到93%。

以上仅为大咖演讲概览,完整内容点击视频观看:

附件:大咖分享文字版完整内容可见下文


一、关于Alluxio

La popularité de la formation de modèles ne cesse de croître. Profitant de cette popularité, nous partagerons également l'application d'Alluxio dans les scénarios AI/ML. Je pense que tout le monde a déjà une bonne compréhension d'Alluxio, Spark et d'autres écosystèmes, mais je souhaite quand même le présenter en détail. Alluxio fournit une couche d'orchestration de données de couche virtuelle. Il fournit non seulement une couche d'accès aux données plus performantes, mais Il existe également de nombreuses optimisations en amont et en aval du cadre Big Data - notamment l'accès du stockage au moteur de calcul supérieur, les performances d'accès aux données et la facilité d'utilisation.

Alluxio - plateforme d'orchestration de données, une couche d'accès aux données hautes performances.

Projet né :

Alluxio (anciennement connu sous le nom de Tachyon) était à l'origine un projet frère d'Apache Spark dans le laboratoire AMP de l'UC Berkeley, recherchant comment utiliser la technologie distribuée pour gérer la mémoire externe de manière unifiée et fournir une accélération de l'accès aux données au niveau de la mémoire pour les applications Apache Spark. Le projet était dirigé par Li Haoyuan (qui était alors doctorant au laboratoire AMP), et d'autres enseignants et étudiants du même laboratoire y ont participé.

Alluxio s'est initialement concentré sur le Big Data et est très étroitement intégré à des moteurs de calcul tels que Spark et Presto. De 2020 à aujourd'hui, nous avons constaté qu'il existe de nombreux problèmes dans le scénario de l'IA qui ne peuvent pas être résolus par le système actuel. cadre système ou combiné La solution est encore relativement coûteuse, donc pendant que nous travaillons sur la pile technologique Big Data, nous commençons également à explorer la technologie de pointe des scénarios d'IA. Aujourd'hui, nous avons formé un produit relativement une solution orientée qui peut être fournie à tous. Aujourd'hui, nous ferons un partage systématique basé sur les défis rencontrés par les entreprises nationales et étrangères dans les scénarios d'IA :

2. Faites le point sur les défis auxquels les entreprises sont confrontées lorsqu'elles essaient l'IA

1. Pénurie de GPU

En fait, il y a quelques années, nous avons constaté qu'il était plus difficile d'utiliser des GPU sur le cloud ou d'acheter des GPU pour construire des IDC (entrepôts de données), l'infrastructure de l'IA était plus difficile. Les raisons peuvent être grossièrement divisées en trois situations :

1. De nombreuses entreprises ne peuvent pas acheter de GPU ;

2. Même si certaines entreprises achètent des GPU, la quantité n'est pas très importante et il est difficile de répondre aux besoins des entreprises ;

3. Certaines entreprises peuvent être en mesure d'acheter des GPU sur Alibaba Cloud ou Tencent Cloud, mais il est relativement difficile de transformer ces GPU en un pool informatique systématique destiné à une utilisation professionnelle de niveau supérieur.

2. Le modèle en ligne est lent

La solution d'entrepôt/stockage de données existante de l'entreprise est relativement ancienne et difficile à itérer. Après la formation GPU, comment lancer le modèle sur le cluster d'inférence est un lien indispensable, et c'est aussi un lien difficile :

1) De nombreux entrepôts de données et stockage sous-jacent sont encore des solutions de stockage relativement traditionnelles dans l'entreprise, telles que HDFS, qui ont peut-être été utilisées il y a plus de dix ans, et il est difficile d'ajuster les paramètres de stockage aujourd'hui ;

2) Les données sont sur le cloud, la limite actuelle est sérieuse et il existe de nombreuses restrictions d'utilisation.

Nous parlerons en profondeur plus tard de la manière de résoudre ce problème.

3. Faible utilisation du GPU

De nos jours, le taux d'utilisation des GPU dans le processus de formation de modèles de nombreuses entreprises est généralement relativement faible. Bien sûr, ce n'est pas un problème qu'Alluxio peut résoudre. Ce que nous avons vu, c'est que la plupart des données de l'entreprise se trouvent dans l'entrepôt de données. Comment importer ces données dans des clusters GPU est très difficile et comporte de nombreux défis. Plus tard, nous partagerons également comment Alluxio résout ce problème auprès de différents fournisseurs de cloud et de grandes entreprises nationales et étrangères.

Les pressions mentionnées ci-dessus sont principalement des pressions commerciales ou des pressions décisionnelles commerciales. Ces pressions deviendront essentiellement des pressions techniques pour les ingénieurs. Afin de pouvoir développer des modèles plus rapidement, nous avons en fait certaines attentes :

1) temps de développement du modèle plus rapide ;

2) Mises à jour plus fréquentes des données du modèle ;

3) Une plus grande précision et traçabilité ;

4) Adaptez-vous à des ensembles de données en croissance rapide.

Ces pressions reflétées sur le plan technique peuvent être résumées en trois points :

  1. Gestion étendue des tâches de copie de données

Par exemple, avec notre application actuelle, la mise en œuvre de ce système nécessite souvent des tâches complexes de copie de données, la copie des données de l'entrepôt de données vers le cluster de formation GPU, qu'elles soient copiées sur le NAS local, le système NFS ou la copie sur un serveur local. le disque pour la gestion des données est plus compliqué.

2. Stockage dédié

Afin de répondre aux besoins des scénarios d'IA, les exigences de performances seront relativement élevées. On peut comprendre qu'il y a 20 à 30 ans, le GPU était développé en collaboration avec le HPC (High Performance Computing), donc à cette époque tout le monde avait généralement tendance à avoir un ensemble de réseau IB, et il existe un ensemble de stockage haute performance (all-flash) pour soutenir le développement commercial. En fait, dans le cloud ou IDC, nous constatons que ce problème est très difficile à résoudre, car la plupart des entreprises Les installations /cloud n'ont aucun moyen de fournir un niveau de stockage dédié aussi élevé pour prendre en charge les tâches de formation ou de distribution de modèles.

3. Les coûts du cloud et de l'infrastructure sont hors de contrôle

Une fois le modèle lancé, avec la croissance de l'échelle de l'entreprise, le coût du cloud et de l'infrastructure est très facile à échapper à tout contrôle. Nous avons vu de nombreux scénarios, comme une multiplication par cinq des coûts du cloud en trois ans, ce qui est normale.

3. La position d'Alluxio dans la pile technologique

Avant d'entrer dans la discussion technique détaillée, introduisons systématiquement la position d'Alluxio dans la pile technologique AI/ML.

Tout d'abord, Alluxio n'est pas une couche de stockage persistante. Notre stockage persistant s'appuie davantage sur un stockage distribué tel que S3 Storage, Ceph ou HDFS sur le cloud. Ce sont toutes des interfaces sous Alluxio, et elles constituent une couche de stockage persistante. pas le même concept qu'Alluxio.

Plus haut, Alluxio est une couche d'accès hautes performances dans le domaine de l'IA, car pour la couche de stockage persistante, la plupart des entreprises recherchent l'efficacité des prix et des performances, et cette efficacité signifie avoir un pool de stockage très bon marché qui peut stocker beaucoup de ressources, et on ne s'attend pas à ce qu'il dispose d'un ensemble de stockage hautes performances très coûteux pour le stockage persistant. La raison en est que nous avons vu des centaines de volumes de données dans de nombreux fabricants Internet ou entreprises traditionnelles. Niveau PB ou même EB, mais en même temps, il n'y a pas tellement de données d'entraînement, qui peuvent représenter des dizaines de To, voire un peu plus de 1 Po. Si vous pouvez placer ces données dans un stockage haute performance pour une connexion ascendante, oui Pour les utilisateurs, le prix /performance est très faible, on s'appuie donc sur cette couche de stockage persistante pour faire un docking très simple, ou maintenant qu'il existe une couche de stockage persistante, on peut directement effectuer un docking de données sans changer son architecture.

En progressant, nous avons apporté de nombreuses optimisations aux performances IO de Pytorch et TensorFlow, y compris la stratégie de mise en cache, l'optimisation de la planification/comment s'y connecter et le déploiement de Kubernetes. Nous présenterons comment se connecter en détail plus tard.

Plus haut se trouve la couche d'orchestration AI/ML telle que Ray ou MLFlow.

C'est un schéma relativement clair, car Alluxio est une entreprise développée à partir d'un scénario big data. Nous faisons de l'IA depuis environ 4-5 ans. Pendant ces 4-5 ans, nous avons utilisé Alluxio Il y a beaucoup de valeurs vu dans l’environnement client/utilisateur, qui peut se résumer en 4 points :

1. Des performances plus élevées et un pipeline IA/ML évolutif

Nous ne modifions pas le déploiement de cluster existant, tel que le stockage d'objets existant, HDFS, etc., et souhaitons en même temps développer l'activité, il y a en fait deux points clés ici :

√ Généralement, bien que les deux équipes Big Data et AI soient sous la même grande architecture, les piles technologiques sont en réalité très différentes. Par exemple, la pile technologique Big Data aura Spark, Trino, Hive, HBase, etc., et la L'amarrage en aval est HDFS, certains stockages d'objets sur le cloud, etc. Ces données sont toujours là et le volume de données peut atteindre des centaines de Po, voire un niveau EB. Dans le même temps, une plate-forme AI Infra doit être construite. La pile technologique est en fait Pytorch et TensorFlow.Les suivants Docking La plupart d'entre eux sont des stockages d'objets, tels que Ceph, MinIO, etc. D'autres auront un stockage dédié, comme la fourniture de systèmes NFS et NAS pour l'amarrage vers le haut ;

√ En fait, l'existence de ces deux systèmes a créé un problème d'amarrage, c'est-à-dire que les données sont dans l'entrepôt de données, mais le traitement se fait dans AI Infra, ce qui devient un système très compliqué, et Alluxio peut aider à s'en sortir ce système ne nécessite pas à chaque fois une migration de données très compliquée.

2. Obtenez des données de modèle précises et opportunes à tout moment

Lorsque les données du modèle sortent du cluster de formation, elles doivent d'abord être déposées dans le stockage, puis extraites vers le cluster d'inférence. Ce processus est souvent très compliqué, comme Data Pipeline. De nombreuses sociétés Internet avec lesquelles nous avons communiqué Avant, il y avait un magasin de points de contrôle temporaire, puis il y avait un magasin de points de contrôle persistant. C'est un processus très compliqué pour eux de s'extraire les uns des autres avec des performances faibles et élevées.

3. Évitez les migrations de données compliquées

4. Le temps de connexion du modèle est 2 à 4 fois plus rapide que celui du stockage objet et de l'entrepôt de données traditionnel.

Le stockage sous-jacent est généralement un stockage d'objets ou un HDFS traditionnel. Par exemple, le HDFS traditionnel est conçu pour le stockage massif de données. Il n'est pas conçu pour les performances. Dans la plupart des cas, il s'agit de garantir la tolérance aux pannes. En même temps, il vise à stockage sur le cloud. Après avoir communiqué avec de nombreux fournisseurs de cloud, j'ai appris que dans de nombreux cas, ils ne peuvent pas utiliser directement le stockage objet pour prendre en charge les services d'IA sur le cloud.

Parlons en détail de la façon dont Alluxio construit ce système. Il contient de nombreuses scènes. Ici, je voudrais partager avec vous l'intention originale de la conception de l'architecture d'Alluxio :

Tout d'abord, nous avons constaté chez de nombreux fournisseurs Internet que la plupart des clients/utilisateurs ont une forte probabilité que leurs données se trouvent dans le lac de données (90 à 95 %) et que leurs données n'utilisent pas de cluster de données distinct pour ce faire. il y a beaucoup de données, y compris le magasin Hive Meta traditionnel, des données dans le lac de données populaire et de nombreuses données de streaming entrant directement, et de nombreuses données non structurées sont stockées dans le lac de données.

Alors, quel rôle Alluxio joue-t-il dans tout cela ?

Il est désormais plus courant d'utiliser l'architecture Spark ou Ray pour prétraiter les données et les remettre dans le lac de données. Plus tard, TensorFlow et Pytorch extrairont les données ici pour les entraîner. Par exemple, regardez l'image de gauche. Si vous n'utilisez pas Alluxio pour extraire. Qu'est-ce qui peut mal se passer avec les données ?

Par exemple, l'entrepôt de données d'origine utilise un cluster HDFS et la formation IA utilise un cluster Ceph :

√ Tout d'abord, les données traitées/non traitées doivent être extraites dans le cluster Ceph, puis les données extraites seront transmises vers le haut. Il y aura quelques problèmes ici : Premièrement, le processus d'extraction sera très compliqué, et de nombreuses entreprises le feront après avoir développé un système de gestion de données par nous-mêmes, il y aura plusieurs ensembles de processus différents.Par exemple, nous utilisons le métamagasin pour correspondre à l'emplacement de ces tables/données ;

√ Deuxièmement, il est nécessaire d’extraire les données progressivement ;

√ Enfin, les données doivent être vérifiées pour voir s'il y a des problèmes.

Il y a un long délai dans ce processus entre l'extraction et la disponibilité, nous souhaitons donc utiliser la fonction de cache Alluxio pour vous aider à résoudre ce problème.

Premièrement, nous pouvons précharger une partie des données dans Alluxio et les stocker plus près du calcul, réduisant ainsi la consommation de bande passante. Dans le même temps, même s'il n'y a pas de données préchargées, le mécanisme de mise en cache d'Alluxio peut aider à extraire rapidement les données vers le cluster de formation. Cette méthode est similaire à la transaction T+1 (T+0) en bourse, c'est-à-dire que les données peuvent être fournies rapidement dès le premier accès aux données, et il n'est pas nécessaire d'attendre plusieurs heures pour transférer les données. données, économisant ainsi beaucoup de temps.

Deuxièmement, Alluxio peut également réduire les problèmes de gouvernance des données causés par le développement personnel des utilisateurs. Si l'utilisateur dispose déjà d'un système de gouvernance des données, nous proposons également diverses API, notamment des API de mise à jour des données brutes, afin de faciliter le développement personnalisé pour les utilisateurs.

En outre, nous nous concentrons également sur la manière de réduire les coûts et d’améliorer l’efficacité du pôle de formation. Dans le passé, de nombreuses entreprises utilisaient des clusters de stockage hautes performances pour la formation, mais ce coût peut être très élevé, ce qui limite l'expansion de leur activité. Nous avons constaté que ce coût ne dépasse généralement pas 3 à 5 % par rapport au coût global du cluster GPU si seuls les nœuds de calcul GPU sont équipés de disque. En outre, de nombreuses entreprises disposent de nombreuses ressources de stockage, mais la manière de les utiliser pleinement reste un défi.

Alluxio propose de nombreux points d'intégration à cet égard. Nous pouvons déployer directement le cluster Alluxio sur les nœuds de formation, ce qui consomme très peu (environ 30 à 40 Go de mémoire), mais peut fournir un support de formation performant. Les utilisateurs ne doivent payer que 3 à 5 % du coût de l'ensemble du cluster informatique pour utiliser pleinement le cluster GPU et aider les utilisateurs à surmonter les goulots d'étranglement des E/S pour atteindre une utilisation à 100 % du GPU.

En plus du cluster de formation, nous accordons également une attention particulière au coût et à l'efficacité du cluster d'inférence. À mesure que le cluster d’inférence évolue, le coût peut être beaucoup plus élevé que celui du cluster de formation. Par conséquent, nous nous engageons à résoudre le problème du déploiement rapide du modèle généré par la formation sur le cluster en ligne.

De manière traditionnelle, le résultat de la formation sera réécrit dans un stockage Ceph, puis le cluster en ligne pourra être situé dans le même IDC ou dans un autre IDC, ce qui implique une gestion complexe. De nombreuses entreprises développeront un ensemble de leur propre passerelle de stockage (storage Gateway) pour résoudre les problèmes inter-domaines ou inter-IDC, mais la passerelle a un problème de table, qui résout un problème inter-domaine ou inter-IDC, mais ce n'est pas le cas. le résoudre réellement Il s'agit d'un problème de haute performance et inter-domaines. Une compréhension simple est que le cluster de formation et le ML en ligne peuvent être connectés, mais si la passerelle dans AWS est complètement incapable de prendre en charge le cluster d'inférence, par exemple une extension à 100 ou même un raisonnement à 1 000 nœuds. Après le cluster, il tremblera très fortement lors de sa mise en ligne. Autre exemple : Alluxio peut déployer l'intégralité du modèle sur le cluster d'inférence en 2 à 3 minutes. Généralement, ce type de système prend 10 fois plus de temps qu'il ne le ferait. , et ses P95 et P99 seront très longs.

4. Application d'Alluxio dans la formation de modèles et les scénarios de modèles en ligne

Ensuite, nous expliquerons en détail comment Alluxio fonctionne dans différents scénarios :

Le premier est le problème que nous avons évoqué plus haut. Dans le cas d'une grande pénurie de GPU, les entreprises que nous avons rencontrées n'avaient pas de stratégie multi-cloud auparavant. Le déploiement est souvent obligé de devenir ainsi. Par exemple, on voit que de nombreux clients/utilisateurs dont les données sont sur AWS ne souhaitent pas utiliser d'autres cloud comme Azure, Google Cloud, etc., mais nous avons découvert un problème cette année. Azure a acheté tous les GPU. Dans ce cas, c'est en fait difficile pour dire que tous les clusters peuvent être trouvés sur AWS. Ensuite, les clusters que nous voyons doivent être dans Azure, et il doit y avoir un moyen d'accéder directement à AWS. Les données, ce problème conduit à des performances de données très faibles si elles sont obtenues directement. Si le La bande passante du réseau est très faible, le taux d'utilisation du GPU ne dépasse généralement pas 10 %. Dans le cas d'un meilleur réseau (comme une ligne dédiée) Down, il peut atteindre 20 à 30 %.

Le deuxième problème est que si vous souhaitez créer une gestion de données multicluster, c'est très compliqué, y compris assurer la cohérence des données, comment mettre à jour et extraire ces données, mais pour Alluxio, nous avons fait beaucoup d'intégration, vous pouvez directement utiliser Alluxio pour résoudre ces problèmes. Deuxièmement, nous ne voulons pas que tout le monde achète un ensemble de solutions matérielles. Avant de rejoindre Alluxio, mon laboratoire faisait du HPC. Un gros problème avec le HPC est que son coût est très élevé. L'achat d'un ensemble de HPC est généralement possible. 10 ensembles de matériel Hadoop, ou matériel de stockage sur le cloud, donc si vous devez acheter un ensemble de matériel propriétaire pour construire l'architecture AI Infra, cela représente la moitié de l'effort et le coût est très cher. Après avoir vu ce scénario, Nous espérons toujours que nous pourrons directement construire des chemins de données IA et ML sur le lac de données, sans modifier le système de stockage, tout en utilisant ceux existants et en prenant en charge les besoins de formation sans acheter de matériel supplémentaire tel que IDMA. est notre vision. Dans le même temps, il n'est pas nécessaire de considérer le problème de l'isolement des données par rapport aux tâches de l'entrepôt de données d'origine (ce qu'on appelle l'isolement est la nécessité de migrer les données, puis de les exécuter dans deux systèmes très indépendants, ce qui est très problématique). pour l'extraction et l'acquisition de données).

L'image ci-dessus est mentionnée ci-dessus. Certaines fonctions fournies par Alluxio, telles que les fonctions de chargement/déchargement automatique des lacs de données et de mise à jour des données, peuvent améliorer la productivité de l'équipe d'ingénierie des données. Un scénario courant est le suivant : s'il est basé sur le système d'origine, add Pour un Ceph, le délai de base sera étendu à 3 à 6 mois. Il est très courant que les entreprises étrangères prolongent le délai à plus de 6 mois. L'ensemble du pipeline de données est construit à l'intérieur. Si vous êtes intéressé, vous pouvez apprendre En savoir plus sur les cas d'application de Zhihu . Il contient des interprétations très détaillées, vous expliquant comment construire ce système.

L'image ci-dessus montre un autre problème que nous avons mentionné précédemment : le déploiement du modèle est limité par le stockage sous-jacent, y compris les problèmes de bande passante, et est également limité par les différents emplacements de l'IDC. Notre Alluxio peut construire une multi-architecture multi-cloud, peu importe de le cloud public Qu'il s'agisse d'un cloud privé ou d'un déploiement de modèles entre différents cloud publics, ce problème sera résolu très rapidement.Nous fournirons un système de cache à haute concurrence pour prendre en charge l'attraction commerciale à haute concurrence.

Pour résumer, quelle est la place d’Alluxio dans l’architecture IA ? Quels problèmes Alluxio vous aide-t-il à résoudre ?

√ Le premier est de réduire les coûts de transformation et d'adaptation, et d'aider chacun à se concentrer davantage sur la logique de lancement du modèle ;

√ La seconde consiste à éliminer l'architecture de stockage dédiée. Par exemple, des systèmes tels que NAS et NFS doivent être utilisés dans le passé. Après avoir utilisé Alluxio, ce n'est plus nécessaire. Alluxio peut être construit avec le HDFS et le stockage d'objets existants ci-dessous. Plateforme d'IA ;

√ La troisième est que nous devons ajouter un cache pour augmenter l'utilisation du GPU à un niveau supérieur ;

√ Le quatrième est de répondre aux besoins de l'entreprise en matière de déploiement libre de GPU. Qu'il s'agisse d'un GPU acheté sur le cloud ou hors cloud, peu importe où se trouvent les données, il peut réaliser une adaptation très efficace des données. Un cas spécifique sera présenté plus tard. .

5. Comparaison des effets : avant d'utiliser Alluxio VS après avoir utilisé Alluxio

Ce sont les données que nous avons extraites du tableau tenseur. Je pense que de nombreux ingénieurs qui font de l'IA Infra utiliseront ce système. Nous avons constaté qu'il existe en fait un problème relativement important sur le cloud. Par exemple, si nous utilisons S3 Fuse, nous pouvons l'extraire directement de S3 Fuse. C'est une utilisation courante ces dernières années. Par exemple, s'il y a un disque local, les données peuvent être récupérées. Pour la formation du modèle, effectuez une tâche de copie et placez-la localement, ou utilisez une exposition similaire à l'interface Fuse pour extraire les données localement, puis fournir des services vers le haut. Si cette méthode est utilisée , la proportion de DataLoader est très élevée Oui, si vous avez une bonne compréhension de l'architecture de l'IA, son DataLoader le fait comme ça : il extrait les données du système de stockage vers la mémoire du CPU, le CPU effectue un traitement de préparation ou de ré-effacement , puis place les données dans la mémoire du processeur, puis le GPU les traite. , les deux derniers conviennent bien sur le cloud, car généralement le rapport CPU/GPU est relativement raisonnable, et le rapport mémoire est également relativement raisonnable, donc le problème sera relativement petit, mais étant donné qu'il est à l'origine dans le stockage cloud, il y a Le problème de l'extraction vers le CPU conduit à de très mauvaises performances dans la première étape de DataLoader. Bien qu'il s'agisse d'un processus asynchrone, les performances Il faut attendre la fin de l'étape précédente, car vous pouvez voir que le ratio DataLoader peut représenter 80% % de plus, l'utilisation du GPU n'est qu'environ 17%, ce qui est mesuré avec Resnt-50, un benchmark très standard.

Après avoir déployé Alluxio, le temps de DataLoader est tombé à moins de 1 % et le taux d'utilisation du GPU a augmenté à 93 %. Bien sûr, cela ne signifie pas qu'il ne peut pas être plus élevé, mais en fait, le taux d'utilisation du GPU est limité par les E/S d'une part, et d'autre part. Il est également limité par les performances du CPU, il s'agit donc d'un taux d'utilisation très élevé.

De plus, nous avons récemment lancé certains projets dans le domaine de l'IA, notamment le « Alluxio Assisted Model Training Plan ». En fait, de nombreux grands modèles ont déjà fonctionné sur Alluxio, utilisant Alluxio comme couche d'accès aux données haute performance. Pendant la période du 1er juillet au 30 septembre 2023, un plan d'inscription sera également ouvert à tous.Vous pourrez bénéficier de 3 mois de support technique de l'équipe professionnelle 1V1 pour vous aider à construire une formation sur modèle à grande échelle ou une formation en mode dynamique plus populaire. Scènes.

A propos de l'auteur

Si vous souhaitez en savoir plus sur les articles secs d'Alluxio, les événements populaires et le partage d'experts, cliquez pour entrer [Alluxio Think Tank] :

Annonce officielle de Microsoft : Visual Studio pour Mac retiré Le langage de programmation créé par l'équipe de développeurs chinois : MoonBit (Moon Rabbit) Père de LLVM : Mojo ne menacera pas Python, celui qui devrait avoir peur devrait être C++ Le père du C++ a partagé Bjarne Stroustrup conseils de vie Linus n'aime pas non plus l'acronyme, ce que TM s'appelle "GenPD" Rust 1.72.0 est publié et la version minimale prise en charge à l'avenir est Windows 10 Wenxin a déclaré qu'il ouvrirait WordPress à l'ensemble de la société et lancerait le "100- plan annuel" Microsoft ne parle pas d'arts martiaux et utilise des "pop-ups malveillants" Inviter les utilisateurs à déprécier les langages de programmation dynamiques de haut niveau, fonctionnels, interprétés et dynamiques de Google : Crumb
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/5904778/blog/10106565
conseillé
Classement