TurboQuant: Google will den Speicherhunger großer LLMs bändigen

https://www.heise.de/rss/heise-atom.xml Hits: 77

Summary

TurboQuant: Google will den Speicherhunger großer LLMs bändigen Google Research hat neue technische Details zu seinem Kompressionsalgorithmus TurboQuant veröffentlicht. Er solle den Key-Value-Cache großer Sprachmodelle auf bis zu 3 Bit pro Wert komprimieren – ohne messbare Einbußen bei der Modellgenauigkeit, teilten die Forscher mit. Auf Nvidia-H100-GPUs erreicht das Verfahren laut Google eine bis zu achtfache Beschleunigung bei der Berechnung von Attention-Logits gegenüber unquantisierten 32-Bit-Keys. Unquantisierte Key-Values sind in modernen Anwendungen jedoch normalerweise nicht anzutreffen. Viele Ansätze versuchen unter 4 Bit pro Wert zu erreichen, Google kombiniert für seine Herangehensweise die Verfahren PolarQuant und QJL. Weiterlesen nach der Anzeige Hintergrund Der Key-Value-Cache, in dem Transformer-Modelle bereits berechnete Kontext-Informationen für den schnellen Zugriff zwischenspeichern, erfordert große Mengen Arbeitsspeicher. Bei langen Eingabesequenzen wächst dieser Cache stark an und wird zum Flaschenhals. Bisherige Vektorquantisierung lindert das zwar, erzeugt aber selbst einen Speicher-Overhead: Für jeden kleinen Datenblock müssen Quantisierungskonstanten in voller Präzision gespeichert werden, was den Kompressionsgewinn um 1 bis 2 Bit pro Wert wieder schmälert. Dieses Problem soll TurboQuant mit der Kombination von PolarQuant und QJL TurboQuant beseitigen. PolarQuant: Kompression über Polarkoordinaten PolarQuant weicht vom üblichen Ansatz ab, Vektoren in kartesischen Koordinaten zu verarbeiten. Stattdessen rotiert das Verfahren die Datenvektoren zufällig und wandelt sie anschließend in Polarkoordinaten um. Die Daten werden also nicht mehr als Abstände entlang einzelner Achsen gespeichert, sondern als Kombination aus einem Radius, der die Signalstärke beschreibt, und Winkeln, die die Bedeutung kodieren. Da die entstehenden Winkelverteilungen stark konzentriert und vorhersagbar sind, entfällt der sonst nötige Normalisierungsschritt mitsamt seinem ...

First seen: 2026-03-26 11:06

Last seen: 2026-03-29 15:54

Read Full Article More from this Source

TurboQuant: Google will den Speicherhunger großer LLMs bändigen

Summary

Related News

Copyright: US Supreme Court hebt Milliarden-Urteil wegen Filesharing auf

Rückkehr namhafter Ex-Mitarbeiter bekräftigt KI-Initiative bei Meta Platforms

#heiseshow: Energie vs. KI, OpenAI schließt Sora, Windows-Speicherhunger

Finnische Regierung zieht Wahlsystem vorerst nicht zu AWS um

Donnerstag: US-Provider ohne Filesharing-Haftung, Finnland-Wahl ohne US-Cloud