Verstehen Sie die Schulungs-, Inferenz- und Bereitstellungsstrategien für große Modelle mehrerer Hersteller in einem Artikel

Das Open-Source-Community-Team China machte seine erste Live-Übertragung und erzählte im Namen des Teilens die Geschichte hinter der Open-Source-Community China.“

Am 20. April fand in Wuhan erfolgreich die 102. Yuanchuang-Konferenz statt. Diese Ausgabe lädt Experten für künstliche Intelligenz vom Wuhan Artificial Intelligence Research Institute, Huawei, MindSpore, JD Cloud und Gitee AI ein, Vorträge zum Thema [Wettbewerb großer Modelle und Leistungsoptimierung] zu halten. Werfen wir als Nächstes einen Blick auf die wundervollen Momente dieser Veranstaltung!

Machen Sie ein Gruppenfoto ✅

Pizza und Geschenke sind ein Muss!

Als nächstes folgt die Rezension der Keynote-Rede. Sie können den QR-Code unten scannen, dem Videokonto „OSC Open Source Community“ folgen und die Seite „Live Replay“ aufrufen, um die vollständige Videorezension anzusehen:

Liu Hao: Große Modellanalyse und Trendausblick

Liu Hao, Direktor der Abteilung für Risikokapitaltransformation des Wuhan Artificial Intelligence Research Institute, sprach über das Thema „Großmodellanalyse und Trendausblick“. Das Wuhan Institute of Artificial Intelligence, an dem Liu Hao arbeitet, begann bereits 2020 mit der Erforschung der Großmodelltechnologie. Im Juli 2021 veröffentlichte es das weltweit erste dreimodale Großmodell mit 100 Milliarden Parametern, das Bilder, Text und Sprache umfasst.

Liu Hao wies darauf hin, dass es in der frühen Forschung zur Technologie der künstlichen Intelligenz drei Hauptprobleme gab: Erstens war die Generalisierungsfähigkeit sehr schlecht und konnte nur ähnliche Probleme lösen Es mussten mehrere Modelle integriert werden. Drittens war die Nachfrage nach Datenannotationen in der Vergangenheit etwas zu groß. Große Modelle können Probleme unter diesen drei Aspekten lösen, insbesondere nach dem Aufkommen von ChatGPT. Der Erfolg von ChatGPT bedeutet, dass viele nachgelagerte Aufgaben oder nachgelagerte Modelle künstlicher Intelligenz in die Produktionslinie gelangen können, was eine Ära der Produktisierung künstlicher Intelligenz einläutet, sodass sich Techniker auf die Erstellung von Basismodellen konzentrieren können und mehr Menschen in die Branche der künstlichen Intelligenz einsteigen können .

Darüber hinaus hat das große Modell die Förderung von Speicher, Rechenleistung, Transportkapazität und anderen Verbindungen angeregt und viele vor- und nachgelagerte Industrien durch das große Modell verbunden.

Technisch gesehen verwenden viele große Modelle im In- und Ausland im Wesentlichen immer noch die bisherige MoE-Architektur, aber die großen Modelle haben eine gute technische und Produkttransformation durchlaufen. Nachdem die Modellparameter 66 Milliarden überschritten hatten, wurde die Unerklärlichkeit in der künstlichen Intelligenz stärker, einschließlich der Entstehung von Fähigkeiten, die unerklärlich schienen. Liu Hao glaubt, dass die von OpenAI verwendete Methode, um ChatGPT so effektiv zu machen, immer noch eine Blackbox ist, aber sie hat einen Weg für eine einheitliche Darstellung und Begründung von Wissen, Weltkognition und -modellierung und anderen Themen erkundet.

Große Modelle haben nicht nur das Forschungsmodell, sondern auch das Service- und Entwicklungsmodell verändert. Beispielsweise begannen viele Unternehmen, Abonnements für große Grafikkartenmodelle zu kündigen und stoppten die Entwicklung großer Modelle. Am Ende gibt es in der Branche möglicherweise nur noch wenige große Modellunternehmen, die große Basismodelle herstellen, während es sich bei der Mehrzahl um Branchenprofis handelt. Dies bedeutet auch, dass große Modelle in die Phase der industriellen Produktion eingetreten sind und viele Werkzeuge auf großen Modellen geformt werden.

Derzeit wurde Zidong Taichu 2.0 zu einem vollmodalen Großmodell aufgerüstet, das Informationsmodalitäten wie dreidimensionale Punktwolken hinzufügt. Gleichzeitig hat das Wuhan Artificial Intelligence Research Institute auch eine offene Full-Stack-Plattform für künstliche Intelligenz aufgebaut. Es nutzt große Modelle als Basis für die Bereitstellung einer One-Stop-Plattform und führt ein neues Modell der Rechenleistung + Plattform ein Einerseits nutzt es die Basis zur Feinabstimmung von Daten, andererseits nutzt es die Plattform und die Rechenleistung hinsichtlich Aspekten nahtlos miteinander. Derzeit wurden im ganzen Land mehrere AICCs implementiert, die die Anpassung der Full-Stack-Lokalisierung abschließen, leistungsstarke inklusive Rechenleistung nutzen, Branchenszenarien tief integrieren und die Anwendung großer Modelle beschleunigen, um Tausende von Branchen zu stärken.

Abschließend gab Liu Hao auch seine vier wichtigsten Urteile zu den Entwicklungstrends großer Modelle ab:

Trend 1: Informationstechnologieanwendungen und Innovationsökologie haben enorme Veränderungen erfahren, wie z. B. die kontinuierliche Zuführung von Daten zur Durchführung verschiedener intelligenter Aktivitäten, die Einführung der Anwendungsentwicklung in den Programmiermodus in natürlicher Sprache usw.;
Trend 2: Neugestaltung des Paradigmas der Entscheidungsintelligenz, wie z. B. die Ausrichtung von Mensch und Maschine zur Unterstützung der Entscheidungsfindung;
Trend 3: Entwicklung in Richtung Miniaturisierung und Domänenisierung hin zu professioneller künstlicher Intelligenz auf Basis allgemeiner kognitiver KI;
Trend 4: Übergang zu einer allgemeineren künstlichen Intelligenz, beispielsweise großen Modellen, die mit humanoiden Robotern interagieren.

Scannen Sie den QR-Code, um die Wiederholung der Vorlesung „Large Model Analysis and Trend Outlook“ anzusehen ⬇️

Li Shuqiao: Anwendung und Implementierung der Technologie zur Optimierung großer Modelle auf Shengteng

Der Huawei-Softwareingenieur Li Shuqiao hielt eine Grundsatzrede zum Thema „Anwendung und Implementierung der Technologie zur Optimierung großer Modelle auf Ascend“. Er stellte die Funktionen von Ascend für die Rechenleistung großer Modelle unter drei Gesichtspunkten vor, darunter Ascends native Unterstützung für die Open-Source-Beschleunigungsbibliothek und Ascends Selbstoptimierung. entwickelte große Modelle zur Optimierung und Produktionsimplementierung auf Basis von Cloud Native.

Erstens unterstützt es verschiedene Open-Source-Bibliotheken, die vier Hauptaspekte abdecken: Modelle von Drittanbietern, KI-Frameworks von Drittanbietern, Beschleunigungsbibliotheken von Drittanbietern und Argumentationsdienste von Drittanbietern. Was beispielsweise die Unterstützung von Pytorch & Torch NPU betrifft, ist Pytorch ein KI-Framework, das in zwei Teile unterteilt werden kann: Die obere Schicht ist der Pytorch-Teil und die untere Schicht ist die Torch NPU. Auf der oberen Ebene registriert Ascend native Operatoren und benutzerdefinierte Operatoren bei PyTorch, sodass PyTorch in Ascend ausgeführt werden kann. Durch Open-Source-Beiträge werden viele Module wie Checkpoint, FSDP und Dataloader Device optimiert Unterstützungsfunktionen, die eine native Unterstützung für NPU ermöglichen.

Darüber hinaus unterstützt Ascend auch das universelle Modellframework onnxRuntime. Verschiedene Frameworks, darunter Pytorch, TensorFlow, MindSpore usw., können im Onnx-Format gespeichert werden, und onnxRuntime kann das einheitliche Format ausführen und aufrufen. Die native Unterstützung von Ascend unterstützt bereits die onnxRuntime-Bibliothek, was die Verbindung mehrerer Frameworks sehr bequem und benutzerfreundlich macht.

Im Hinblick auf die Modellkomprimierung kann DeepSpeed große Modelle komprimieren, damit sie besser bereitgestellt und ausgeführt werden können. Derzeit unterstützt es auch die native Unterstützung von Shengteng.

Für die Computer-Vision-Bibliothek OpenCV, die Bildverarbeitung, maschinelles Lernen, Videoanalyse und mehr bietet. Ascend implementiert Back-End-Unterstützung, stellt die Ascend NPU-Datenstruktur AscendMat und 18 Hochfrequenzschnittstellen bereit und verbessert die Leistung der meisten Betreiber um 30 %.

Codemigration. Basierend auf Pytorch und TorchNPU ist die native Unterstützung von OpenCLIP für Shengteng implementiert. Zur Migration des Modells auf das Shengteng-Gerät können 3 Codezeilen implementiert werden.

Zweitens hat Shengteng selbst eine Technologie zur Optimierung großer Modelle entwickelt. Ascend selbst entwickelte AscendSpeed-Beschleunigungsbibliothek für große Modelle. Das Training großer Modelle ist ein sehr komplexer Prozess, der viele Technologien und Herausforderungen beinhaltet. Das Training großer Modelle erfordert eine große Menge an Videospeicherressourcen, was ein schwieriges Problem darstellt und eine erhebliche Herausforderung für Computerkarten darstellt. Um Berechnungen über mehrere Computerkarten durchzuführen, wenn die Videospeicherressourcen einer einzelnen Computerkarte nicht ausreichen, sind in der Branche große Modellbeschleunigungsbibliotheken von Drittanbietern wie Megatron und DeepSpeed entstanden, um Modelle, Eingabedaten usw. zu segmentieren. und auf verschiedene Rechenkarten verteilen. Anschließend werden die Ergebnisse durch gemeinsame Kommunikation zusammengefasst. Ascend stellt die AscendSpeed-Beschleunigungsbibliothek bereit, um Kunden die schnelle Migration großer Modelldienste auf Ascend-Geräte zu ermöglichen, und unterstützt die proprietären Algorithmen von Ascend, um die Benutzerfreundlichkeit sofort zu gewährleisten.

Ascend bietet außerdem eine relativ vollständige Toolkette AIT (Ascend Inference Tools), die als Eingang zur einheitlichen Inferenz-Toolkette dient, Kunden integrierte Entwicklungstools bietet und Debugging und Optimierung aus einer Hand unterstützt.

Schließlich noch in Bezug auf die Produktionsimplementierung auf Basis von Cloud Native. Der K8S-Vulkan-Scheduler unterstützt die Affinitätsplanung von Ascend-Geräten. Darüber hinaus kann das Kubernetes Ascend Device Plugin die Anzahl der erkannten Geräte an das Kubernetes-System melden. Wenn sich ein Gerät in einem fehlerhaften Zustand befindet, wird es dem Kubernetes-System gemeldet und ein neuer Container gelöscht automatisch hochgezogen und ein gesundes Gerät montiert und die Trainingsmission rekonstruiert. Derzeit nutzt das von Vicuna nativ unterstützte Space-Backend bereits das Kubernetes Device Plugin.

Scannen Sie den QR-Code, um die Wiederholung der Vorlesung „Application and Implementation of Large Model Optimization Technology on Shengteng“ anzusehen ⬇️

Yuan Lijiang: Weisheit inspiriert die Zukunft – Yanxi große Modellplattform

Yuan Lijiang, Produktdirektor von JD Cloud, hielt eine Grundsatzrede zum Thema „Inspiring the Future with Intelligence – Yanxi Large Model Platform“. Yuan Lijiang führte aus, dass es bei der Implementierung großer Modelle auf Unternehmensebene fünf große Herausforderungen gibt: Echtzeit, Erklärbarkeit, Sicherheit und Kontrollierbarkeit, komplexe Entscheidungsfindung und Professionalität. Der Schlüssel zur Implementierung liegt darin, wie man in Echtzeit korrekte Entscheidungen trifft und in einem unsicheren und sich dynamisch verändernden Umfeld umzusetzen.

Yuan Lijiang stellte vor, dass es zwei Hauptmethoden gibt, um große Modelle zu implementieren. Die Interaktionsbeziehung wird von Menschen durchgeführt. In einigen Szenarien übernimmt die KI die Arbeit Verarbeitung. , Vincent Tu usw. Tatsächlich müssen Unternehmen so viele Arbeitskräfte wie möglich freisetzen. Der andere ist der Agentenmodus, der sich besser für komplexe Szenarien in Unternehmen eignet. In diesem Modus stehen Menschen in einer höherdimensionalen Perspektive und fungieren als „Mentor“ oder „Coach“ der künstlichen Intelligenz, indem sie Ziele festlegen und die Ergebnisse überwachen Das große Modell kann seine Denkfähigkeit einsetzen, geeignete Werkzeuge und Ausreden verwenden und schließlich entsprechendes Ergebnis-Feedback geben.

Die wichtigsten Technologien, auf die sich Unternehmen bei der Implementierung großer Modelle verlassen, haben sich ebenfalls geändert. Der anfängliche Pre-Train-Modus ist mit den höchsten Kosten verbunden, später sind die Kosten für den SFT-Modus gesunken, aber der Implementierungseffekt war nicht gut Der RAG-Modus der Vektordatenbank wurde verbessert, der Effekt kann jedoch nur auf Wissensfrage- und Antwortszenarien beschränkt werden. Kompetente technische Teams widmen dem Agentenmodus mehr Aufmerksamkeit und können Unterstützung für mehrere Szenarien erzielen.

Im Finanzgeschäft von JD.com ist es schwierig, die Fähigkeit großer Modelle zur Lösung praktischer Probleme zu verbessern, indem man sich einfach auf SFT oder LoRA für große Modelle verlässt. Stattdessen basiert es auf der Agententechnologie, die es Maschinen ermöglicht, Tools zur Lösung von Geschäftsproblemen zu verwenden. Insbesondere wird der Agent verwendet, um die Benutzerziele zu verstehen, jede Unteraufgabe zu zerlegen und geeignete Tools für jede Unteraufgabe auszuwählen. Diese Tools sind einige Schnittstellen des ursprünglichen Geschäfts von JD.com und werden schließlich mit großen Modellfunktionen kombiniert, um Feedback zu geben . Auf diese Weise werden die Antworten auf die komplexen Fragen einiger Benutzer genauer.

Derzeit hat die vollständige Modellplattform von JD Yanxi eine mehrschichtige Produktmatrix aufgebaut. Die unterste Ebene ist die Ressourcenunterstützung, einschließlich Rechenressourcen, Speicherressourcen, Hochgeschwindigkeitsnetzwerk und Ressourcenplanung. Auf der Modellressourcenschicht werden Funktionen wie Modellverwaltung und -schulung, Datensatzverarbeitung sowie Modellbewertung und -bereitstellung bereitgestellt. Über der Modellressourcenschicht liegt der Aufbau intelligenter Agenten, wobei der Schwerpunkt auf der Integration verschiedener Tools liegt. Die oberste Schicht ist die Anwendungsdienstschicht, die sich an mehrere Unternehmensszenarien anpasst.

Die Plattform für große Modelle von JD Yanxi verfügt über sechs Hauptfunktionen: Zusammenarbeit bei der Ressourcenplanung, die eine effiziente Verwaltung und Planung von Rechenressourcen ermöglicht und die Leistungsoptimierung und Kostenkontrolle bei der Entwicklung großer Modelle sowie die Datenverwaltung für Anwendungen gewährleistet, die Verwaltung und Unterstützung für die Schulung großer Modelle bietet Vorschulung, Feinabstimmung, Verstärkungslernen, Bewertung usw. werden effizient durchgeführt; Modellschulung, Schulung und Feinabstimmung durch große Modelle ermöglichen es Unternehmen, maßgeschneiderte Modelle zu haben, um die Genauigkeit und Relevanz von Unternehmen zu verbessern Durch den Einsatz intelligenter Agenten in Kombination mit den vorhandenen IT-Systemen des Unternehmens wird sichergestellt, dass alle Großmodellanwendungen den Sicherheitsstandards sowie gesetzlichen und behördlichen Anforderungen entsprechen. Der Markt für intelligente Anwendungen bietet eine Reihe vorgefertigter Großmodellanwendungen dass Unternehmen direkt bereitstellen oder Plug-Ins bereitstellen können. Schneller Zugriff auf das System.

Scannen Sie den QR-Code, um die Wiederholung der Rede „Inspiring the Future – Yanxi Large Model Platform“ anzusehen ⬇️

Lin Jiazhen: Serverloses Inferenzsystem mit großem Modell

Derzeit stellen einige Modellparteien oder -plattformen einzelnen Benutzern kostenlose Rechenleistung zur Verfügung, um die Technologie großer Modelle zu nutzen. Gitee.AI stellt als große Modellaggregationsplattform auch einzelnen Benutzern kostenlose Rechenleistung zur Verfügung. Lin Jiazhen, Fachberater von Gitee AI und Institute of High Performance Computing der Tsinghua-Universität, hielt eine Grundsatzrede zum Thema „Large Model Serverless Inference System“.

Lin Jiazhen wies darauf hin, dass Gitee.AI derzeit mehr als 2.000 Modelle aggregiert, die freien Rechenressourcen jedoch begrenzt sind. Daher ist es notwendig, diese freien Rechenressourcen den Entwicklern bei Bedarf effizienter zuzuweisen, was derzeit eine große Herausforderung darstellt Probleme. Wenn beispielsweise in der Vergangenheit die Container-Technologie für die externe Entwicklung verwendet wurde, ging das Ein- und Auswechseln sowie das Aufwecken eines einzelnen Containers sehr schnell vonstatten. Dies ist jedoch im Zeitalter großer Modelle schwierig geworden -Up und Sleep des Modells machen die Swap-In- und Swap-Out-Verwaltung von Containern in der Vergangenheit genauso effizient.

Serverlose KI bietet vier Hauptvorteile: einfache Bereitstellung, sofort einsatzbereite Nutzung, geringere Kosten für die Rechenleistung, Abdeckung gängiger Modelle und Unterstützung für eine Vielzahl von Computerhardware. Es gibt ein Problem mit der aktuellen Modell-Engine oder der Art und Weise, wie Rechenleistung erworben und genutzt wird. Das heißt, Benutzerprogramme, Modelle und Inferenzchips sind alle an einen Container gebunden, belegen den Hardware-Chip und nutzen Rechenleistungsdienste. Die serverlose Inferenz-Engine integriert und optimiert Rechenleistungsressourcen, reduziert die Kopplung zwischen Anwendungen, Modellen und Rechenleistung durch mehrere Deaggregationsebenen, weist Rechenleistung nach Bedarf zu und verbessert die Ressourcennutzung.

Die serverlose Systemarchitektur ist in drei Schichten unterteilt. Das Laden des Modells im Container wird nicht geändert, sondern durch ersetzt Back-End-Inferenz zur Realisierung der Modell- und Chip-Depolymerisation. rpc wird der Inferenz-Engine auf der oberen Ebene übergeben. Die Inferenz-Engine ist der Cluster, in dem die Berechnungen tatsächlich durchgeführt werden. Auf dieser Ebene werden Daten und Rechenleistung deaggregiert. Nehmen wir beispielsweise ein Aufgabenszenario an, in dem zehn Karten die Planungsanforderung von 3.000 Modellen erfüllen. Zu diesem Zeitpunkt gibt es keine Möglichkeit, ein großes Modell fest auf eine Karte zu laden. Es ist erforderlich, das gewünschte Modell vorübergehend und dynamisch zu laden Daher werden die berechneten Chip- und Modellgewichte deaggregiert und das Modell auf TanserGraph platziert, einem heterogenen Speichersystem, das die Deaggregation von Rechenleistungschips und -modellen unterstützen kann. Auf der obersten Ebene, der serverlosen Ebene, werden Anwendungen, Inferenz und Aggregation ausgeführt.

Die Kernfunktion der serverlosen Systemarchitektur ist heterogener, miteinander verbundener Speicher zur Lösung des Modellgewichtungsproblems. Die gesamte Rechenzentrumsarchitektur weist einige Einschränkungen auf, wie z. B. eine geringe Ressourcenauslastung und eine begrenzte Hardware-Skalierbarkeit. Die Disaggregationstechnologie kann jede Komponente in der Gesamtarchitektur physisch trennen und eine bestimmte Verbindung verwenden, um die Steuerschnittstelle (Kontrollebene) jeder Komponente und Daten zu verbinden Schnittstelle (Data Plane) zur bedarfsgerechten Zuweisung und Erweiterung verschiedener Ressourcen. Darüber hinaus bietet die Speicherdeaggregation auch Anwendungsvorteile in Cloud-Szenarien, einschließlich einer verbesserten Ressourcennutzung in der Cloud-Umgebung und einer einfacheren Deckung des wachsenden Bedarfs an Speicherressourcen.

Allerdings ist das bestehende hierarchische Speichersystem nicht für die hohe Hardwareflexibilität der Deaggregationsarchitektur geeignet und auch die Skalierbarkeit des Systems ist aufgrund der internen Strukturbeschränkungen des Systems begrenzt. Heterogener vernetzter Speicher kann diese Probleme über drei Verknüpfungen lösen: Hardware-Zugriffsstatistiken, programmierbare Strategien und Seitenmigration. Am Beispiel der CPU wird für Zugriffsstatistiken auf Basis von PEBs die Hardware dabei unterstützt, den Speicherzugriffsstatus des laufenden Programms zu erfassen, die Anweisungen, TID, Zieladresse usw. aufzuzeichnen und dann die Modellgewichte bei Bedarf zu laden.

Darüber hinaus verfügt die serverlose Systemarchitektur auch über verschiedene andere Funktionen, wie z. B. eine mehrstufige Optimierungstechnologie für die Kompilierung neuronaler Netze auf Basis von MLIR und einen leichtgewichtigen Systemdienstmechanismus auf Basis der User-Space-Isolation-Technologie. Die serverlose Inferenz-Engine basiert auf zwei Kerntechnologien für geistiges Eigentum. Darüber hinaus integriert sie auch verschiedene aktuelle Technologien zur Optimierung von Inferenzsystemen.

Derzeit wurde Llama 3 auf Gitee AI gestartet. Kopieren Sie den Link unten in Ihren Browser und betreten Sie die Plattform, um es zu erleben (Einladungscode: llama3):

https://ai.gitee.com/hf-models/shenzhi-wang/Llama3-8B-Chinese-Chat

Scannen Sie den QR-Code, um die Wiederholung der Vorlesung „Large Model Serverless Inference System“ anzusehen ⬇️

Chen Ziheng: Schlüsseltechnologien und Planung des MindSpore-Großmodells

Der MindSpore-Forschungsingenieur Chen Ziheng hielt eine Grundsatzrede zum Thema „Schlüsseltechnologien und Planung des MindSpore Large Model“. Chen Ziheng sagte, dass MindSpore in der Branche zwischen der zugrunde liegenden Chip-Hardware und den Branchenanwendungen der oberen Ebene angesiedelt sei. Im Hinblick auf die Technologie großer Modelle erstellt MindSpore zunächst eine Basisschicht, die mehrere zugrunde liegende große Modelle abdeckt. Auf der oberen Ebene erstellt es Industriemodelle mit Industriepartnern. Darüber hinaus ist MindSpore auch mit einer Vielzahl gängiger Open-Source-Großmodelle im In- und Ausland kompatibel. Für alle großen Modelle verwendet MindSpore drei Basispakete: MindFormers, MindPET und MindRLHF, um den gesamten Prozess der Entwicklung, Feinabstimmung und Bereitstellung großer Modelle zu vereinheitlichen und eine sofort einsatzbereite Nutzung zu ermöglichen.

Für die Ausbildung großer Modelle. MindSpore verwendet einen auf Berechnungsgraphen basierenden Compiler, um parallele Strategien zu implementieren. Geben Sie ein Berechnungsdiagramm ein, und der Diagrammkompilierungsprozess von MindSpore segmentiert das Diagramm gemäß der Parallelstrategie und fügt automatisch Datenumordnungsoperatoren ein, um sicherzustellen, dass die parallele Rechenlogik mehrerer Maschinen mit der einer einzelnen Maschine übereinstimmt. Auf diese Weise erreicht MindSpore mehrere Optimierungsebenen, einschließlich automatischer Richtliniengenerierung auf oberster Ebene, mehrdimensionaler Hybridparallelität und Optimierung, die mehrdimensionale Speicherung und Heterogenität zur Laufzeit unterstützt.

Seit letztem Jahr führt das MindSpore-Team auch paralleles Training großer Modelle durch. Unter normalen Umständen verwendet das typische Training großer Modelle eine Mischung aus fünf parallelen Strategien, darunter Datenparallelität, Optimiererparallelität, Modellparallelität, Pipelineparallelität und Neuberechnung. Das MindSpore-Team analysierte die zeitaufwändige Situation typischer Modelle in diesen Parallelmodi und stellte fest, dass die Hauptkosten hier in drei Aspekten liegen, darunter die Kosten für die Modellparallelität auf Bedienerebene, durch Pipeline-Parallelität erzeugte Blasen und die Endzeit der Daten Parallelität. Und wenn die Clustergröße weiter zunimmt, werden diese Overhead-Probleme beim Erreichen des Wanka-Clusters deutlicher. Aufgrund der Begrenzung der globalen Chargengröße wird das Blasenproblem der Pipeline beispielsweise schwerwiegender Bei einer Zunahme der Kommunikationsdomäne wird sich die Kommunikationsleistung verschlechtern und das Tailing-Verhältnis der Datenparallelität wird zunehmen.

In Bezug auf diese Probleme stellte Chen Ziheng auch einige Lösungen vor, wie z. B. die versteckte Modellkommunikation mit mehreren Kopien, bei der die Daten in zwei Teile geteilt werden können, während die Berechnung und Kommunikation zwischen mehreren Datenkopien möglich ist verbergen sich gegenseitig und optimieren so die Modellparallelität auf Bedienerebene. Reduzieren Sie für die parallele PipeLine-Optimierung die Blase durch PipeLine Interleave auf weniger als 10 %.

Darüber hinaus tritt beim MoE-Training das Problem von Hot- und Cold-Experten auf. Bei der Experten-Hot-Migration wird das Kommunikationsvolumen von AlltoAll reduziert und die Trainingsleistung des MoE-Modells verbessert. Neben dem Hochleistungstraining besteht ein weiteres Problem bei großen Modellen darin, wie man Strategieparallelität implementiert. MindSpore übernimmt die automatische Parallelität, und die Parallelstrategie-Optimierungszeit für große Modelle kann von Monaten auf Stunden reduziert werden.

In Bezug auf die Bereitstellung entspricht MindSpore dem Backend von Serverless, und es müssen Leistungsprobleme gelöst werden. MindSpore nutzt verteilte parallele Argumentation, KV-Cache, dynamische Sequenz, Batch-Fortsetzung und leistungsstarke Reasoning-Fusion-Operatoren, um ein einheitliches Reasoning-Framework mit geringer Latenz, hohem Durchsatz und Unterstützung für lange Sequenzen großer Modelle aufzubauen. Die integrierte Trainings- und Push-Architektur ermöglicht eine nahtlose Verbindung vom Training bis zur Inferenz.

Als nächstes umfassen die Pläne von MindSpore für das Training großer Modelle die Leistungsoptimierung des Wanka-Trainings großer Cluster, die Leistungsoptimierung dichter großer Modelle, die Leistungsoptimierung spärlicher MoE-großer Modelle usw. Im Hinblick auf die Inferenz großer Modelle plant MindSpore eine eingehendere Forschung zum Integrierten Großes Modelltraining und Push-Architektur, Dichte große Modellinferenzbeschleunigung, spärliche große Modellinferenzbeschleunigung usw.

Scannen Sie den QR-Code, um die Wiederholung der Vorlesung „Key Technologies and Planning of MindSpore Large Model“ anzusehen⬇️

Das ist alles für diesen Veranstaltungsrückblick. Die Anmeldung für die 103. Yuanchuang-Messe ist jetzt geöffnet. Klicken Sie hier, um sie anzuzeigen⬇️

[Große Modelltechnik im Terminal] OSC Source Innovation Conference·Shenzhen Station·Ausgabe 103 https://www.oschina.net/event/2332004