Modellquantifizierung und Anwendung der Quantifizierung in LLM|Dewu-Technologie

1. Optimierung der Modellinferenz

Mit der Implementierung von Modellen in verschiedenen Szenarien ist die Beschleunigung der Modellinferenz längst zu einem wichtigen Bestandteil der KI-Technik geworden. In den letzten Jahren sind große Modelle, die auf der Transformer-Architektur basieren, zum Mainstream geworden und erzielen SoTA-Ergebnisse bei verschiedenen Aufgaben. Ihre hohen Kosten für Training und Inferenz machen ihre Bereitstellungspraktiken zu angemessenen Kosten noch wichtiger.

Zu den Herausforderungen bei der Inferenz großer Modelle gehören hauptsächlich die folgenden zwei Punkte:

  • Der enorme Speicherbedarf (Videospeicher) ergibt sich hauptsächlich aus den unmittelbaren Anforderungen an Parameter und Schlussfolgerungen des Modells selbst.
    • Bei einem LLaMA2-30B-Modell erfordert das Laden des Modells selbst in den Videospeicher etwa 60 GB Videospeicher. Während des Inferenzvorgangs benötigt der KV-Cache eines einzelnen Tokens etwa 1,6 MB Videospeicher: 6656 (Schichtdimension) * 52 ( Layer-Nummer) *2 (K & V) * 2(fp16, 2 Bytes); für eine Anforderung von 2048 Token sind 3,3 GB Videospeicher erforderlich.
  • Die Parallelität ist schlecht, da der Generierungsprozess zeitlich gesehen normalerweise ein serieller Prozess ist, was die Parallelisierung des Decodierungsprozesses erschwert und zu einem rechnerischen Engpass führt.

Zu den gängigen Methoden zur Argumentationsoptimierung gehören Knowledge Distillation (KD), Pruning und Quantization sowie verschiedene vorgeschlagene Lösungen für die LLM-Speicheroptimierung (z. B. Flash Attention, Paged Attention usw.).

Unter Destillation versteht man die direkte Konstruktion eines kleinen Modells als Studentenmodell und das überwachte Erlernen des Wissens des Originalmodells durch die Kombination von Soft-Label und Original-Label, sodass das kleine Modell eine mit dem Originalmodell vergleichbare Leistung aufweist und schließlich das Originalmodell ersetzt großes Modell mit einem kleinen Modell, um die Argumentationseffizienz zu verbessern.

 

[Bildquelle: Wissensdestillation: Eine Umfrage, 2021, S. 2]

Das Beschneiden „verschlankt“ das Modell, indem unwichtige Gewichte im Modell beschnitten werden, und verbessert die Argumentationseffizienz des Modells. Um die Fähigkeiten des Modells sicherzustellen, muss der Bereinigungsprozess normalerweise auch von einer Feinabstimmung des Modells basierend auf Trainingsdaten begleitet werden . Je nach den unterschiedlichen Abmessungen der Schnittgewichte kann man in strukturierten Schnitt und unstrukturierten Schnitt unterscheiden.

  • Strukturierte Bereinigung: Normalerweise werden unwichtige Kanäle in Blöcken entsprechend einer oder mehreren Dimensionen des Gewichtungstensors beschnitten und die normale Matrixmultiplikation beibehalten. Da die beschnittenen Kanäle jedoch die Argumentation der oberen und unteren Schichten beeinflussen, muss die logische Genauigkeit des Netzwerks beeinträchtigt werden überprüft werden.
  • Unstrukturiertes Bereinigen: Beschneiden Sie unwichtige Elemente im Gewichtstensor nach dem Zufallsprinzip, sodass normalerweise die ursprüngliche Gewichtsstruktur beibehalten wird, was zu spärlichen Multiplikationsberechnungen führt. Es ist jedoch nicht für allgemeine Hardware geeignet, sodass für die Beschleunigung spezielle Hardware erforderlich ist.

Derzeit gibt es in LLM nur wenige Beschneidungsanwendungen, die beispielsweise auf der Grundlage von Activation-Aware [1] durchgeführt werden Der Gewichtstensor selbst ist spärlich und der Genauigkeitsverlust des Modells kann die technischen Anforderungen nicht erfüllen.

 

[Bildquelle: Ein einfacher und effektiver Bereinigungsansatz für große Sprachmodelle, 2021, S. 2]

Wie unten gezeigt, verwenden die jüngsten Arbeiten zum strukturierten Bereinigen [2] Suchmethoden, um Unterstrukturen im Modell zu finden, und behalten die Genauigkeit des bereinigten Modells im Vergleich zum Originalmodell bei im Vergleich zu anderen kleineren Modellen mit der gleichen Anzahl von Parametern (nach der Bereinigung), um die Bedeutung seiner Methode zu zeigen.

 

[Bildquelle: Sheared LLaMA: Beschleunigung des Vortrainings des Sprachmodells durch strukturiertes Bereinigen, 2023, S. 3]

 

[Bildquelle: Huggingface/Sheared-llama-1.3B]

Der Grund, warum Quantifizierung zur ersten Wahl für neuronale Netze und LLM geworden ist, sind die folgenden Vorteile:

  • Die intuitive Reflexion der Reduzierung des Videospeichers.
    • Im Allgemeinen werden LLM-Gewichte in FP16 gespeichert, und nachdem die Gewichte in int4 quantisiert wurden, wird das Volumen intuitiv auf 1/4 der ursprünglichen Größe reduziert (tatsächlich kann es aufgrund nicht quantifizierter Einbettungen, Speicherzuweisung usw. etwas größer sein). Gründe) und der Ressourcenbedarf für den Videospeicher stark reduziert.
  • Beschleunigung von Operatoren wie W4A16 und W8A16, um die Berechnungsgeschwindigkeit zu erhöhen.

2. Einführung in die Quantifizierung

Base

Der Kern der Quantifizierung besteht normalerweise darin, die Parameter des Modells oder den Argumentationsprozess des gesamten Modells von Gleitkomma in Ganzzahlen umzuwandeln.

Der Quantisierungsparameter besteht normalerweise aus zwei Werten: Skala und Nullpunkt. Ersterer ist ein Gleitkomma und letzterer eine Ganzzahl. Unter der Annahme, dass x ein Tensor ist (es kann eine Gewichtung oder eine Zwischenvariable zur Argumentation sein), kann der Quantifizierungsprozess wie folgt ausgedrückt werden:

 

Verwenden Sie b, um die Quantisierungsbitbreite darzustellen, q{min} und q{max} stellen jeweils den Bereich des ganzzahligen Wertebereichs dar. Beispielsweise kann die int-8-Quantisierung [-128,127] annehmen, also q{min}= -2^(b-1)=-128, q{max}=2^(b-1)-1=127, Klammer(a;q{min},q{max}) bedeutet, dass der Eingabewert a ist Basierend auf der Bereichskürzungsoperation [q{min}, q{max}] repräsentiert x{int} das quantisierte Ergebnis, s und z repräsentieren die Quantisierungsparameter Skala und Nullpunkt.

 

 

Eine Übersicht über Quantisierungsmethoden für effiziente neuronale Netzwerkinferenz, 2021, S. 5; Eine Einführung in die Quantisierung großer Sprachmodelle, S. 12.

Der Dequantisierungsprozess von Ganzzahl zu Gleitkomma ist wie folgt:

 

In Bezug auf Quantisierungsparameter gibt es viele Algorithmen, die auf Suche, Optimierung, LKD (Schicht-für-Schicht-Destillation) und anderen Algorithmen basieren, um ihre optimalen Lösungen zu berechnen und so den durch Quantisierung verursachten Genauigkeitsverlust zu minimieren Das basiert auf den Tensorelementen min/max.

 

Das Folgende ist ein einfaches Codebeispiel, das die Quantisierung des Tensors x von fp32 zum Ganzzahltyp int8 und die anschließende inverse Quantisierung zurück zu fp32 darstellt:

Ein Beispiel für die Prozedur x->x{int}->x_hat lautet wie folgt:

 

x vor Quantisierung:

 

Nach der Quantisierung x_hat:

 

Symmetrisch/asymmetrisch

Im Vergleich zur asymmetrischen Quantisierung besteht die Definition der symmetrischen Quantisierung darin, dass der durch die Quantisierung abgebildete ganzzahlige Wertebereich symmetrisch ist, basierend auf dem Wert 0, dh der Nullpunkt der obigen Formel ist 0, qmax = -qmin, was den Ausdruck ergibt Form der Quantisierung vereinfacht.

Eine asymmetrische Quantisierung ist vorteilhaft, um den Quantisierungsbereich vollständig auszunutzen. Beispielsweise hat der von Conv+ReLU ausgegebene Anregungstensor ausschließlich positive Werte. Wenn symmetrische Quantisierung verwendet wird, werden alle Gleitkommazahlen dem Bereich [0~127] zugeordnet, die Hälfte des Bereichs bleibt ungenutzt und die Quantisierungsgenauigkeit ist nicht vorhanden so gut wie asymmetrische Quantisierung.

 

[Bildquelle: A Survey of Quantization Methods for Efficient Neural Network Inference, 2021, S. 5]

In der Praxis wird häufig eine symmetrische Quantisierung des Gewichtungstensors und eine asymmetrische Quantisierung des Eingabetensors gewählt. Das Folgende ist eine Analyse aus dem Quantifizierungs-Whitepaper von Qualcomm. Wenn beispielsweise asymmetrische Quantisierung sowohl für Gewichte als auch für Eingaben ausgewählt wird, wird der Ausdruck am Beispiel der Matrixmultiplikation der linearen Ebene wie folgt erweitert:

 

  • Der erste Punkt ist die Multiplikationsoperation des ganzzahligen Tensors, die eine notwendige unmittelbare Operation ist;
  • Die Operationen des dritten und vierten Elements umfassen die Multiplikation von Skalen-, Null- und Ganzzahlgewichten. Diese werden alle im Voraus vorhergesagt und können daher im Voraus berechnet und als Offsets addiert werden.
  • Die Berechnung des zweiten Elements hängt von x{int} ab, das für jede Inferenz sofort berechnet werden muss, was zusätzliche Rechenleistung verursacht.

Wenn wir daher die Gewichtsquantisierung in eine symmetrische Quantisierung (zW = 0) ändern, wird die obige Formel wie folgt vereinfacht. Bei der Echtzeitberechnung müssen wir nur die Matrixmultiplikation des ersten Elements berechnen, und das zweite Element ist das Vorberechnetes Bias-Item:

 

Wenn beide symmetrisch quantisiert sind, werden die Ausdrücke wie folgt vereinfacht:

 

Beim Vergleich der Gleitkommaberechnung W{x} im Originalmodell ist W{int}x{int} die Multiplikation zwischen Ganzzahlen und Ganzzahlen. Letzteres ist auf der Nvidia-GPU viel schneller als das erstere Geschwindigkeit wird stark beschleunigt.

3. Quantifizierung von LLM

Herausforderungen bei der LLM-Quantisierung

Aus Sicht der Modellleistung besteht eine Prämisse, die die Quantifizierung von Anfang bis Ende lösen muss, darin, wie die Genauigkeit des quantisierten Modells aufrechterhalten werden kann, dh den Benutzern des Modells das Gefühl zu geben, dass das quantisierte Modell die ursprüngliche Leistung beibehalten und gleichzeitig die Leistung verbessern kann Argumentationseffizienz.

Die Operationen, die im neuronalen Netzwerk quantifiziert werden müssen, sind hauptsächlich die Faltungsschicht Conv (x; W) und die vollständig verbundene Schicht Wx, dh die Gewichtsquantisierung (WQ) und die Anregung von W bzw. x gemäß den beschriebenen Operationen im vorherigen Teil. Quantifizierung (Aktivierungsquantisierung, AQ).

Im Gegensatz zum CNN-Modell oder dem kleinen Transformer-Modell weist der durch die Matrixmultiplikation des großen Transformer-Modells erzeugte Anregungstensor normalerweise mehr Ausreißer auf, d Werte mit großem Absolutwert, aber geringem Anteil erhöhen die Schwierigkeit der Quantifizierung. Die Auswahl von Ausreißern ist normalerweise eine große Schwierigkeit bei der Quantifizierungsarbeit. Wenn Sie sie zu stark berücksichtigen, wird der Quantifizierungsausdrucksbereich zu groß Werte werden normalerweise in der Modellinferenz einen größeren Einfluss auf die Ergebnisse haben, was zu einer schlechten Modellleistung führt, und letzteres ist besonders offensichtlich bei der LLM-Quantifizierung.

Die folgenden Abbildungen zeigen die Elementwertstatistik einer bestimmten Schicht von Eingabetensoren von Resnet18 und Opt-13B, die die Standardabweichung ihrer jeweiligen Verteilungen darstellen. Der Maximalwert der Resnet18-Eingabe beträgt etwa 28 Sigma und der Anteil der absoluten Werte ​​außer 6 Sigma beträgt 0,05 %; und der maximale Eingabewert des Opt-13B-Netzwerks beträgt 325 Sigma, und der Anteil der absoluten Werte außer 6 Sigma beträgt 0,2 %. In Bezug auf den Quantifizierungseffekt weist die int-8-Genauigkeit von Resnet18 grundsätzlich keinen Verlust auf, während die Genauigkeit des int-8-Modells von Opt-13B zusammengebrochen ist.

 

[Bildquelle: Eine Einführung in die Quantisierung großer Sprachmodelle, S. 20]

Als Reaktion auf die Herausforderung der Anreizquantifizierung gibt es einige Lösungen, die versuchen, die Quantisierungsgenauigkeit zu verringern, wie beispielsweise die von SmoothQuant vorgeschlagene Idee.

 

 

[Bildquelle: SmoothQuant, S. 4]

Bei der Matrixmultiplikation verkleinern sie den Wert des Eingabetensors ) und diag(s)·W. Dies verringert die Schwierigkeit der Quantifizierung des Tensors X und stellt gleichzeitig sicher, dass das Produkt der Multiplikationsoperation unverändert bleibt. In der tatsächlichen Technik hat der durch dieses Quantisierungsschema verursachte Quantisierungsfehler immer noch einen relativ offensichtlichen Einfluss auf die Argumentationswirkung großer Modelle, und selbst bei der Int-8-Präzisionsquantisierung treten offensichtliche Fehler auf. Die folgenden SmoothQuant-Anwendungsergebnisse für Llama2-7B zeigen beispielsweise, dass seine Perplexität sehr gering und in der Praxis schwer anzuwenden ist.

 

Daher sind die meisten praktischen Lösungen im aktuellen technischen Einsatz reine Gewichtsquantifizierungslösungen, das heißt, sie verzichten auf die Quantifizierung der Aktivierung.

GPTQ

GPTQ ist das früheste für den technischen Einsatz akzeptierte Quantifizierungsschema. Der Quantifizierungseffekt von W8A16 oder W4A16 ähnelt in den meisten Szenarien dem ursprünglichen Modell und der Quantifizierungsprozess ist sehr schnell.

Quantifizierungsprozess

Am Beispiel der Grundeinheitsoperation der Matrixmultiplikation kann die folgende Optimierungsfunktion geschrieben werden, basierend auf dem mittleren quadratischen Fehler des Produkts vor und nach der Nur-Gewichts-Quantisierung:

 

W ist das Gewicht der linearen Schicht in Transformer und X stellt die entsprechende Eingabe dar. Der Prozess der Offline-Quantisierung besteht darin, Modul für Modul (Transformer) und Schicht für Schicht (Q, K, V, O, Fc1, Fc2) zu quantisieren.

Die Parameter und Daten sind wie folgt definiert:

  • W∈R^{K×M},X∈R^{M×N},Y=W×X∈R^{K ×N}
  • Kalibriersatz: Ein Teil der Daten wird zur Inferenz verwendet, um den Wertebereich des Eingabetensors jeder Schicht anzuzeigen und auf dieser Grundlage zu quantisieren.

Der spezifische Quantifizierungsprozess ist wie folgt:

  • Berechnen Sie die Hesse-Funktion (die obige Optimierungsfunktion gilt für die Hesse-Funktion von W_hat, nicht für die Hesse-Funktion bei der Rückausbreitung) und fügen Sie den Störungsterm hinzu:

 

  • Aktreihenfolgesortierung (desc_act, Spalten mit ähnlichen Wertebereichen werden zusammen quantifiziert), basierend auf diag(H), werden die Spalten von W basierend auf der M-Dimension neu angeordnet. Auf die gleiche Weise wird H in zwei Dimensionen entsprechend neu angeordnet.
  • Finden Sie die Umkehrung H^(-1) (Cholesky-Zerlegung).
  • Quantisieren Sie für W entlang der Dimension M Block für Block von links nach rechts, Blockgröße B = 128, und der unquantisierte Teil auf der rechten Seite wird basierend auf H^(-1) aktualisiert, um den Quantisierungsverlust zu kompensieren.

 

  • (Innere Schleife) Quantisieren Sie für jeden Block Spalte für Spalte, berechnen Sie den Fehler und aktualisieren Sie die nicht quantisierten Spalten innerhalb des Blocks basierend auf dem Fehler.

 

 

  • (äußere Schleife) Aktualisieren Sie nach der Ausführung des Blocks alle darauf folgenden Spalten:

 

Gruppengröße

  • Wenn die Gruppengröße nicht angegeben ist, ist der Standardwert g=-1. Die Quantisierungsparameter werden in Einheiten aller Spalten gezählt und das Gewicht jeder Zeile wird quantifiziert Quantisierungsparameter ist K×1.

 

  • Wenn die Gruppengröße angegeben ist, zum Beispiel g=128, werden die Quantisierungsparameter in Einheiten von 128 Spalten gezählt und das Gewicht jeder Zeile wird quantifiziert. Für W∈R^{K×M}, die Anzahl Quantisierungsparameter ist K×( M/g).

 

desc_act neu anordnen

Gemäß der Hessischen Matrix H wird W basierend auf der M-Dimension basierend auf diag(H) neu angeordnet. Der Zweck besteht darin, die der Aktivierung entsprechenden Gewichtsspalten mit größeren absoluten Werten zu priorisieren. Diese Spalten werden als wichtigere Spalten angesehen, die die Ergebnisse in der Argumentation beeinflussen. Daher wird erwartet, dass bei der Quantifizierung dieser Spalten ein möglichst kleiner Fehler entsteht. Verschiebt mehr Quantisierungsfehler in spätere, weniger wichtige Spalten.

Einige Experimente zeigen, dass der Effekt von desc_act auf den Quantisierungsverlust bei den meisten Aufgaben ein effektiver Trick ist.

 

Verwirrung von Pygmalion-7B mit GPTQ [7]

[Bildquelle: https://huggingface.co/reeducator/vicuna-13b-free/discussions/22]

Operator

Streng genommen weist W4A16, das nur auf der Gewichtung basiert, im Vergleich zum ursprünglichen W16A16 keine große Effizienzverbesserung auf, und der Quant/Dequant-Prozess wird auch zur Inferenz hinzugefügt, da die reine Gewichtung zum Mainstream der LLM-Quantifizierung wird und seine Anwendung immer mehr zunimmt und mehr Es gibt viele Open-Source-Werke, die auf dem Schreiben effizienter W4A16-Operatoren basieren, um die Argumentation quantisierter Algorithmen zu beschleunigen. Beispielsweise wurde das Python-Paket  AutoGPTQ von GPTQ in das Open-Source-Tool exllama integriert, das die parallele Berechnung der quantisierten Multiplikation neu schreibt basierend auf Triton und CUDA. In
exllama/exllama_ext/matrix.cuh können Sie die Implementierung von out=W_hat·x=(W{int}-z)s·x=(W{int}-z)x·s durch dot_product8_h sehen.

 

[Bildquelle: https://github.com/turboderp/exllama/blob/3b013cd53c7d413cf99ca04c7c28dd5c95117c0d/exllama_ext/matrix.cuh#L86]

AWQ

Im Vergleich zu GPTQ, das Lösungen auf der Grundlage von Optimierungsproblemen entwirft, ist AWQ eine quantitative Lösung, die auf der Suche basiert.

Unter Verwendung von Q(·) zur Darstellung des Quantisierungs- und Umkehrquantisierungsprozesses ist der Quantisierungsprozess vor der Änderung wie folgt:

 

Nach der Änderung ist der Quantisierungsprozess wie folgt, wobei W eine Skalierung hinzugefügt wird:

 

suchen

Der vollständige Name von AWQ lautet Aktivierungsbewusste Gewichtsquantisierung, was bedeutet, dass der Einfluss des Aktivierungswerts im Quantifizierungsprozess des Gewichts berücksichtigt wird. Der Ausgangspunkt basiert auch auf der Tatsache, dass in jedem Kanal der Gewichtung der Kanal mit einem größeren entsprechenden Aktivierungswert relativ wichtig ist, und umgekehrt wird seine Wichtigkeit dann mit einem Skalierungsfaktor Δ multipliziert, um seine Wichtigkeit und den Wert widerzuspiegeln von Δ ist gleich Der Bereich wird durch den Tensorwert der Eingabeaktivierung bestimmt.

 

Der Messstandard der Suche basiert auf dem Vergleich der Ausgabeergebnisse vor und nach der linearen Schichtquantisierung, und die Lösung mit dem kleinsten MSE-Ergebnis ist die optimale Lösung.

 

Wirkung

Im Hinblick auf die Modellleistung wird der optimale Skalierungskoeffizient durch schichtweise Skalensuche ermittelt, um die Lösung mit dem kleinsten Quantisierungsfehler zu erhalten. Der folgende Effektvergleich aus dem AWQ-Papier zeigt die Quantifizierungsergebnisse im Test von zwei Lama-Generationen Aus Sicht von Perplexity etwas besser als GPTQ und die sortierte Version von GPTQ.

 

[Bildquelle: AWQ, S. 6]

Gemessen an der Genauigkeit tatsächlicher Aufgaben ist die Genauigkeit von AWQ mit der act_order-Version von GPTQ (GPTQ-R) vergleichbar, während die Geschwindigkeit besser ist als bei letzterer.

 

[Bildquelle: AWQ, S. 5]

In Bezug auf die Rechenleistung des Modells verfügt GPTQ über eine Neuordnungsoperation und die Matrixmultiplikation ist MV (Matrix × Vektor), was ein diskontinuierlicher Speicherzugriff ist, während AWQ keine Neuordnungsoperation hat und die Matrixmultiplikation ( Matrix×Matrix), was schneller ist.

4. Zusammenfassung

Was die aktuelle SOTA-Leistung der LLM-Quantifizierungsarbeit betrifft, so basiert sie im Wesentlichen auf dem Nur-Gewichts-Quantisierungsmodus. Die Reduzierung des für die Ausführung des Modells auf der GPU erforderlichen Videospeichers ist ihr Hauptbeitrag.

Von der Leistung des Modells, da es unvermeidlich zu Quantisierungsverlusten kommt und das LLM-Modell normalerweise viel empfindlicher auf Quantisierung reagiert als das herkömmliche CNN-Modell, obwohl sich die Leistung des LLM nach der Quantisierung bei vielen Aufgaben nicht wesentlich von der vor der Quantisierung unterscheidet , aber möglicherweise können Sie einige Aufgaben immer noch nicht ausführen.

Aus Sicht der Modellbeschleunigung fördert die reine Gewichtungsquantifizierung die zugrunde liegende Beschleunigungsarbeit, die im Wesentlichen bei Multiplikationsoperatoren wie W4A16, W3A16 und W8A16 beschleunigt wird. Ausgehend von den in der Arbeit bereitgestellten theoretischen Daten ist dies im Vergleich zum FP16-Modell der Fall beträgt normalerweise nur das 1,x- bis 3,x-fache der Geschwindigkeitsverbesserung, aber der tatsächliche Einsatzeffekt kann niedriger als dieser Wert sein, und sein Beschleunigungseffekt ist weitaus schlechter als die herkömmliche Quantisierungsmethode von W4A4, W8A8 und anderen ganzzahligen Multiplikationsoperatoren .

Im Allgemeinen ist die quantitative Arbeit im Bereich LLM noch vorläufig. Wenn die Leistungsgenauigkeit des Modells bei tatsächlichen Aufgaben sehr hoch ist, wird empfohlen, Algorithmen und Tools zu verwenden, die ausschließlich auf dem KV-Cache basieren, um den Speicherdurchsatz der Einheit zu verbessern Flash Attention-2, Paged Attention usw.

5. Referenz

1. Ein einfacher und effektiver Bereinigungsansatz für große Sprachmodelle, 2023.

2. Sheared LLaMA: Beschleunigung des Vortrainings des Sprachmodells durch strukturiertes Pruning, 2023.

3. Ein Weißbuch zur Quantisierung neuronaler Netze, 2021.

4. SmoothQuant: Präzise und effiziente Quantisierung nach dem Training für große Sprachmodelle, 2023.

5. GPTQ: Genaue Quantisierung nach dem Training für generative vorab trainierte Transformatoren, 2023.

6. AWQ: Aktivierungsbewusste Gewichtsquantisierung für LLM-Komprimierung und -Beschleunigung, 2023.

7. Einige Bewertungen zur GPTQ-Leistung.

 

*Text/ xujiong

Dieser Artikel stammt ursprünglich von Dewu Technology. Weitere spannende Artikel finden Sie auf der offiziellen Website von Dewu Technology

Ein Nachdruck ohne die Genehmigung von Dewu Technology ist strengstens untersagt, andernfalls wird eine rechtliche Haftung gemäß dem Gesetz verfolgt!

Das Team der Google Python Foundation wurde entlassen , und die an Flutter, Dart und Python beteiligten Teams stürmten auf die GitHub-Hotlist – Wie können Open-Source-Programmiersprachen und Frameworks so süß sein? Xshell 8 startet Betatest: Unterstützt das RDP-Protokoll und kann eine Fernverbindung zu Windows 10/11 herstellen. Wenn Passagiere eine Verbindung zum Hochgeschwindigkeits-WLAN der Bahn herstellen , taucht der „35 Jahre alte Fluch“ chinesischer Programmierer auf, wenn sie sich mit Hochgeschwindigkeit verbinden Rail WiFi. MySQLs erstes KI-Suchtool mit Langzeitunterstützung für Version 8.4 GA : Vollständig Open Source und kostenlos, eine Open-Source-Alternative zu Perplexity. Hongmeng: Es verfügt trotz anhaltender Unterdrückung immer noch über ein eigenes Betriebssystem Das deutsche Automobilsoftwareunternehmen Elektrobit hat eine auf Ubuntu basierende Automobil-Betriebssystemlösung als Open Source bereitgestellt .
{{o.name}}
{{m.name}}

Ich denke du magst

Origin my.oschina.net/u/5783135/blog/11066139
Empfohlen
Rangfolge