TurboQuant-Vektorquantisierung reduziert den Speicherbedarf von LLMs

Die Vektorquantisierung TurboQuant ist Googles neuester Versuch, die Belastung des KV-Caches bei der Inferenz von LLMs zu verringern. Anstatt sich auf Modellgewichte zu konzentrieren, zielt die Methode auf den Arbeitsspeicher ab, mit Behauptungen von über einer sechsfache Kompression des KV-Caches, 3-Bit-Quantisierung und schnellere Aufmerksamkeitsberechnungen. Für Ingenieure ist der eigentliche Punkt einfach: Längere Kontexte und leistungsfähigere Modelle passen möglicherweise in dasselbe Hardware-Budget.

Die Vektorquantisierung TurboQuant ist Googles neuester Versuch, einen der sehr realen Engpässe bei der Inferenz großer Sprachmodelle zu bekämpfen: den ständig wachsenden Schlüssel-Wert-Cache (KV; Key-Value). Die Idee, die in einem Google-Research-Artikel-umrissen und durch ein arXiv-Paper unterstützt wird, dreht sich nicht um die Verkleinerung der Modellgewichte, sondern um die Kompression des Arbeitsspeichers, der zur Speicherung des Aufmerksamkeitsmechanismus verwendet wird. Für alle, die den breiteren Wandel hin zu modellbewusster Hardware beobachten, passt das gut zur früheren Einschätzung von Elektor zu AI-nativem Silizium.

Ergebnisse der TurboQuant-Vektorquantisierung

Wer versuchet, längere Kontexte zu verarbeiten, mehr Benutzer zu bedienen oder leistungsfähigere Modelle auf demselben Beschleuniger unterzubringen, wfür den wird der KV-Cache-Speicher schnell kostspielig. Google gibt an, dass TurboQuant den KV-Cache-Speicher um mindestens das Sechsfache bei "Needle in a Haystack"-Benchmarks reduzieren kann, den Cache auf 3 Bit quantisieren kann, ohne zu trainieren oder feinabzustimmen, und bis zu achtfache Geschwindigkeitssteigerungen bei der Berechnung von Attention-Logits auf H100-GPUs in den berichteten Tests liefern kann. Das ist der aufmerksamkeitsheischende Part, aber die praktischere Erkenntnis ist einfacher: Die Speicherbandbreite und die Cache-Größe sind jetzt wichtige Designbeschränkungen für moderne Inferenz, keine Nebensächlichkeiten mehr.

Was sich durch die TurboQuant-Vektorquantisierung ändert

Der Artikel beschreibt eine zweistufige Methode. Zuerst kommt PolarQuant, das die Daten rotieren lässt und umstrukturiert, sodass die skalare Quantisierung ungewöhnlich gut funktioniert, ohne zusätzlichen Ballast.

Diagramm mit dem Titel PolarQuant, das die ursprünglichen kartesischen Eingangsvektoren zeigt, die in polare Komponenten zur Quantisierung umgewandelt werden. — PolarQuant-Transformationsdiagramm. Quelle: Google

Dann kommt QJL (Quantized Johnson-Lindenstrauss), ein 1-Bit-Restschritt, der dazu gedacht ist, Verzerrungen bei der Schätzung des inneren Produkts zu entfernen. In einfachen Worten versucht das Schema, den KV-Cache stark zu komprimieren, ohne die Attention-Berechnungen zu komprimittieren, die das Modell überhaupt nützlich machen. Die Autoren berichten von absoluter Qualitätsneutralität bei 3,5 Bit pro Kanal und nur marginaler Verschlechterung bei 2,5 Bit pro Kanal in den KV-Cache-Experimenten, was eine bodenständigere Art ist, die Botschaft von "null Verlust" zu lesen.

Die echte Ingenieursfrage

Die nächste Frage ist nicht, ob die Mathematik interessant ist. Es ist, ob die Vektorquantisierung TurboQuant schnell genug in die gängigen Inferenz-Stacks Einzug hält, um außerhalb von Artikeln, Benchmark-Diagrammen und Blogbeiträgen von Bedeutung zu sein. Googles Arbeit wird später in diesem Monat auf der ICLR 2026 präsentiert, während die verwandte PolarQuant-Arbeit für die AISTATS 2026 geplant ist. Wenn sich die Implementierungsgeschichte als so sauber herausstellt wie die Theorie, könnte dies zu einem der Infrastrukturfortschritte werden, die still und leise verändern, was Entwickler lokal, an der Edge oder einfach auf Hardware, die sie bereits besitzen, ausführen können.

Tag-Benachrichtigung: Abonnieren Sie das Tag Embedded & AI und erhalten Sie eine E-Mail, sobald ein neuer Beitrag dazu auf unserer Website erscheint.

Mehr zu Brian Tristam Williams

Brian Tristam Williams ist ein Content-Ersteller, der seit dem Erhalt eines „Mikrocomputers“ im Alter von 10 Jahren eine Leidenschaft für Computer und Elektronik hat. Mit 16 kaufte er sein erstes Elektromagazin und bewegte sich seither im Ökosystem der Elektro... >>

Diesen Artikel bewerten

★ ★ ★ ★ ★