Turboquant erklärt: Googles Kompression ist nicht das Ende der Speicherkrise

https://rss.golem.de/rss.php?feed=RSS2.0 Hits: 50
Summary

Turboquant erklärt: Googles Kompression ist nicht das Ende der Speicherkrise Statt fallender Speicherpreise gibt es wohl bessere KI -Modelle. Wir erklären die Hintergründe des Kompressionsalgorithmus Turboquant. Manche Dinge brauchen einfach unnötig viel Platz. Bild: Long Tang, Pexels / CC0 1.0 Inhalt Turboquant erklärt: Googles Kompression ist nicht das Ende der Speicherkrise Polarkoordinaten sind intuitiv die bessere Wahl Ein Bit zur Fehlerkorrektur Mittels Quantisierung, die durch geschickte Abbildung die Anzahl der für Variablen benötigten Bits reduziert, lässt sich der Speicherbedarf von KI-Modellen stark reduzieren. Bei den Gewichtsparametern der KI-Modelle ist Quantisierung mittlerweile normal. Beim KV-Cache hingegen herrscht eher Zurückhaltung, hier sind größere Datentypen noch immer häufig zu finden. Googles Turboquant setzt hier an, wir erklären die Auswirkungen genauer. Sieht man sich den reinen Speicherbedarf an, scheint der Nutzen von Turboquant zunächst fraglich. Der KV-Cache, der die Aufmerksamkeit eines Modells steuert, ist im Vergleich zu den Gewichtsparametern relativ klein. Deepseek R1 etwa nutzt hierfür bei einer Kontextlänge von 128k Tokens mit FP16 rund 17,2 GByte – ein Bruchteil des Speicherbedarfs der 685 Milliarden Parameter. Doch der Schein trügt, denn jede Sitzung, die ein Modell bedient, hat einen eigenen KV-Cache. Je mehr Nutzer, desto mehr Speicher wird benötigt. Das führt dazu, dass KV-Caches oft zwischen verschiedenen Speichern verschoben werden. Aus diesem Grund führt Nvidia mit den Bluefield4-DPUs im Netzwerk verteilten SSD-Speicher als zusätzliche, schnelle Cache-Ebene ein. Hoffnungen auf fallende Speicherpreise unbegründet Der KV-Cache konkurriert zudem mit den Gewichtsparametern um die begrenzte Speicherbandbreite. Wie die Parameter wird er permanent vom High Bandwidth Memory (HBM) in den integrierten SRAM des Beschleunigers geladen. Da bei Mixture-of-Experts-Modellen (MoE) zudem nur ein Teil der Gewichtsparameter gleichzeitig ge...

First seen: 2026-03-27 13:25

Last seen: 2026-03-29 15:54