A Google hatalmas mértékben csökkentette az AI-modellek memóriafelhasználását hat-szorosan, miközben megtartotta a pontosságot a TurboQuant algoritmusának köszönhetően

A Google hatalmas mértékben csökkentette az AI-modellek memóriafelhasználását hat-szorosan, miközben megtartotta a pontosságot a TurboQuant algoritmusának köszönhetően

8 hardware

Google Research bemutatta a KV‑cache tömörítésének új módszerét nagy nyelvi modellekhez – TurboQuant. Az algoritmus 3 bitre (4 bit, ha hibajavítást adunk hozzá) csökkenti a cache bitmélységét anélkül, hogy romlana a válaszok pontossága és nem igényel további tanulást. Nvidia H100 gyorsítókon TurboQuant nyolc-szorosabb logit‑figyelési számítási teljesítményt hozott létre, miközben hatábban csökkentette a KV‑cache méretét.

Mi az a KV‑cache és miért fontos
* A KV‑cache tárolja a kulcsokat (K) és értékeket (V), amelyeket a figyelési mechanizmus számítása során kapunk.
Ez lehetővé teszi, hogy a modell ne számolja újra ezeket minden token generálási lépésben.

* A kontextusablak növekedése esetén a cache exponenciálisan nő, ami magas memóriafelhasználáshoz vezet.

* A hagyományos kvantizációs módszerek csökkentik a cache méretét, de konstansokat (szótárakat) igényelnek, hasonlóan ZIP/RAR-hez.
Ezek a szótárak jelentős költségeket jelentenek.

Hogyan működik a TurboQuant
A TurboQuant két fázisból áll és teljesen megszünteti a szótárakat.

Fázis Mit csinál Miért fontos
1. PolarQuant A vektorok dekartes koordinátáiból polar (táv + szög) alakba történő átalakítása. A szöges eloszlások előre jelezhetőek és koncentráltak, ezért nem szükséges a drága normalizációs lépés minden blokkra. Minőségi tömörítés szótár nélkül.
2. 1‑bit hibajavító réteg Johnson–Lindenstrauss kvantizált algoritmus alkalmazása; a maradék hiba egy bitre csökken. Eltávolítja a rendszeres hibát a figyelési számításokban minimális további költséggel.

Gyakorlati eredmények
Teszt Algoritmusok Eredmények
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) TurboQuant vs KIVI
TurboQuant: minimum 6-szoros KV‑cache tömörítés; „gomba a fűben” keresési feladatokban pontosság nélkül. LongBench – nem rosszabb, néha jobb, mint KIVI.
Vektoriális keresés (GloVe) TurboQuant vs Product Quantization, RabbiQ
Még tanítás nélkül is a TurboQuant túlszárnyalta az edzett versenytársakat minőségben és memóriahasználatban.

Következtetések
* A TurboQuant erőteljes KV‑cache tömörítést tesz lehetővé 3–4 bitre, pontosság elvesztése nélkül és további tanulás nélkül.
* Nvidia H100-on a teljesítmény nyolc-szoros nőtt, a cache mérete hatábban csökkent.
* Az algoritmus nagy nyelvi modellekhez és vektoriális keresési feladatokhoz is működik, finomhangolás nélkül.

Így a TurboQuant készen áll a gyakorlati használatra magas terhelés mellett, új lehetőségeket nyitva a hatékony nagy modellekkel való munkához.

Hozzászólások (0)

Oszd meg a véleményed — kérjük, légy udvarias és maradj a témánál.

Még nincsenek hozzászólások. Írj hozzászólást és oszd meg a véleményed!

Hozzászóláshoz kérjük, jelentkezz be.

Jelentkezz be a hozzászóláshoz