Système d'inférence sans serveur grand modèle

L'équipe de la communauté open source chinoise a réalisé sa première diffusion en direct, racontant l'histoire de la communauté open source chinoise au nom du partage.

Cliquez pour voir la revue complète de l'événement : https://my.oschina.net/u/4489239/blog/11105657

Cliquez pour accéder à l'aperçu de la conférence Shenzhen Yuanchuang du 18 mai : https://www.oschina.net/event/2332004

Le 20 avril, la 102e Conférence de Yuanchuang s'est tenue avec succès à Wuhan. Ce numéro invite des experts en intelligence artificielle de l'Institut de recherche sur l'intelligence artificielle de Wuhan, Huawei, MindSpore, JD Cloud et Gitee AI à prononcer des discours sur le thème de [Concurrence de grands modèles et optimisation des performances]. Actuellement, certaines parties ou plates-formes modèles fourniront aux utilisateurs individuels une puissance de calcul gratuite pour utiliser la technologie des grands modèles. Gitee.AI, en tant que plate-forme d'agrégation de grands modèles, fournit également une puissance de calcul gratuite aux utilisateurs individuels. Lin Jiazhen, consultant expert de Gitee AI et de l'Institut de calcul haute performance de l'Université Tsinghua, a prononcé un discours d'ouverture sur le « Grand modèle de système d'inférence sans serveur ».

Lin Jiazhen a souligné que Gitee.AI regroupe actuellement plus de 2 000 modèles, mais que les ressources informatiques gratuites sont limitées. Il est donc nécessaire d'allouer plus efficacement ces ressources informatiques gratuites aux développeurs à la demande, ce qui constitue un véritable défi à l'heure actuelle. problèmes. Par exemple, lorsque la technologie des conteneurs était utilisée dans le passé pour le développement externe, l'échange, le remplacement et le réveil d'un seul conteneur étaient très rapides. Cependant, cela est devenu difficile à l'ère des grands modèles. La mise en veille et la mise en veille du modèle rendent la gestion des échanges et des échanges de conteneurs difficile à réaliser dans le passé. La scène est tout aussi efficace.

L'IA sans serveur présente quatre avantages majeurs, notamment un déploiement simple, une utilisation prête à l'emploi, des coûts d'utilisation de la puissance de calcul réduits, une couverture des modèles grand public et la prise en charge d'une variété de matériel informatique. Il y a un problème avec le moteur de modèle actuel, ou la manière d'acheter et d'utiliser la puissance de calcul, c'est-à-dire que les programmes utilisateur, les modèles et les puces d'inférence sont tous liés à un conteneur, occupant la puce matérielle et utilisant les services de puissance de calcul. Le moteur d'inférence sans serveur intègre et optimise les ressources de puissance de calcul, réduit le couplage entre les applications, les modèles et la puissance de calcul grâce à plusieurs niveaux de désagrégation, alloue la puissance de calcul à la demande et améliore l'utilisation des ressources.

L'architecture du système sans serveur est divisée en trois couches. La couche la plus basse est la couche du compilateur. Le chargement du modèle dans le conteneur est modifié en mode d'appel rpc au service distant. L'interface n'est pas modifiée, mais elle est remplacée par. inférence back-end pour réaliser le modèle et la dépolymérisation de la puce. rpc est donné au moteur d'inférence au niveau supérieur. Le moteur d'inférence est le cluster où les calculs se produisent réellement. Ce niveau désagrège les données et la puissance de calcul. Par exemple, supposons un scénario de tâche dans lequel dix cartes satisfont la demande de planification de 3 000 modèles. À l'heure actuelle, il n'existe aucun moyen de charger un grand modèle de manière fixe sur une seule carte. Il est nécessaire de charger temporairement et dynamiquement le modèle souhaité en fonction. Par conséquent, les poids calculés de la puce et du modèle sont désagrégés et le modèle est placé sur TanserGraph, qui est un système de mémoire hétérogène qui peut prendre en charge la désagrégation des puces et des modèles de puissance de calcul. Au niveau de la couche supérieure, la couche sans serveur, l'application, l'inférence et l'agrégation sont effectuées.

La capacité principale de l'architecture système sans serveur est une mémoire interconnectée hétérogène pour résoudre le problème de poids du modèle. L'architecture globale du centre de données présente certaines limites, telles qu'une faible utilisation des ressources et une évolutivité matérielle limitée. La technologie de désagrégation peut séparer physiquement chaque composant de l'architecture globale et utiliser une certaine interconnexion pour relier l'interface de contrôle (plan de contrôle) de chaque composant et les données. interface (Data Plane) pour réaliser l’allocation et l’expansion à la demande de diverses ressources. En outre, la désagrégation de la mémoire présente également des avantages d'application dans les scénarios cloud, notamment en améliorant l'utilisation des ressources de l'environnement cloud et en facilitant la réponse à la demande croissante de ressources mémoire.

Cependant, le système de mémoire hiérarchique existant n'est pas adapté à la grande flexibilité matérielle de l'architecture de désagrégation, et l'évolutivité du système est également limitée. De plus, en raison des limitations de la structure interne du système, les capacités de l'interface de gestion de mémoire existante sont limitées. La mémoire interconnectée hétérogène peut résoudre ces problèmes à travers trois liens : les statistiques d'accès au matériel, les stratégies programmables et la migration de pages. En prenant le CPU comme exemple, pour les statistiques d'accès basées sur les PEB, le matériel est pris en charge pour collecter l'état d'accès à la mémoire du programme en cours d'exécution, enregistrer les instructions, le TID, l'adresse de destination, etc., puis charger les poids du modèle à la demande.

En outre, l'architecture du système sans serveur possède également diverses autres capacités, telles qu'une technologie d'optimisation de compilation de réseaux neuronaux à plusieurs niveaux basée sur MLIR et un mécanisme de service système léger basé sur la technologie d'isolation de l'espace utilisateur. Le moteur d'inférence sans serveur est construit sur la base de deux technologies de propriété intellectuelle de base. En outre, il intègre également diverses technologies actuelles d'optimisation des systèmes d'inférence.

Actuellement, Llama 3 a été lancé sur Gitee AI. Copiez le lien ci-dessous dans votre navigateur et entrez sur la plateforme pour en faire l'expérience (code d'invitation : lama3) :

https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-Chinese-Chat

Scannez le code QR pour regarder le replay de la conférence "Large Model Serverless Inference System" ⬇️

Système d'inférence sans serveur grand modèle

Je suppose que tu aimes