A Google hatalmas mértékben csökkentette az AI-modellek memóriafelhasználását hat-szorosan, miközben megtartotta a pontosságot a TurboQuant algoritmusának köszönhetően
Google Research bemutatta a KV‑cache tömörítésének új módszerét nagy nyelvi modellekhez – TurboQuant. Az algoritmus 3 bitre (4 bit, ha hibajavítást adunk hozzá) csökkenti a cache bitmélységét anélkül, hogy romlana a válaszok pontossága és nem igényel további tanulást. Nvidia H100 gyorsítókon TurboQuant nyolc-szorosabb logit‑figyelési számítási teljesítményt hozott létre, miközben hatábban csökkentette a KV‑cache méretét.
Mi az a KV‑cache és miért fontos
* A KV‑cache tárolja a kulcsokat (K) és értékeket (V), amelyeket a figyelési mechanizmus számítása során kapunk.
Ez lehetővé teszi, hogy a modell ne számolja újra ezeket minden token generálási lépésben.
* A kontextusablak növekedése esetén a cache exponenciálisan nő, ami magas memóriafelhasználáshoz vezet.
* A hagyományos kvantizációs módszerek csökkentik a cache méretét, de konstansokat (szótárakat) igényelnek, hasonlóan ZIP/RAR-hez.
Ezek a szótárak jelentős költségeket jelentenek.
Hogyan működik a TurboQuant
A TurboQuant két fázisból áll és teljesen megszünteti a szótárakat.
Fázis Mit csinál Miért fontos
1. PolarQuant A vektorok dekartes koordinátáiból polar (táv + szög) alakba történő átalakítása. A szöges eloszlások előre jelezhetőek és koncentráltak, ezért nem szükséges a drága normalizációs lépés minden blokkra. Minőségi tömörítés szótár nélkül.
2. 1‑bit hibajavító réteg Johnson–Lindenstrauss kvantizált algoritmus alkalmazása; a maradék hiba egy bitre csökken. Eltávolítja a rendszeres hibát a figyelési számításokban minimális további költséggel.
Gyakorlati eredmények
Teszt Algoritmusok Eredmények
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) TurboQuant vs KIVI
TurboQuant: minimum 6-szoros KV‑cache tömörítés; „gomba a fűben” keresési feladatokban pontosság nélkül. LongBench – nem rosszabb, néha jobb, mint KIVI.
Vektoriális keresés (GloVe) TurboQuant vs Product Quantization, RabbiQ
Még tanítás nélkül is a TurboQuant túlszárnyalta az edzett versenytársakat minőségben és memóriahasználatban.
Következtetések
* A TurboQuant erőteljes KV‑cache tömörítést tesz lehetővé 3–4 bitre, pontosság elvesztése nélkül és további tanulás nélkül.
* Nvidia H100-on a teljesítmény nyolc-szoros nőtt, a cache mérete hatábban csökkent.
* Az algoritmus nagy nyelvi modellekhez és vektoriális keresési feladatokhoz is működik, finomhangolás nélkül.
Így a TurboQuant készen áll a gyakorlati használatra magas terhelés mellett, új lehetőségeket nyitva a hatékony nagy modellekkel való munkához.
Hozzászólások (0)
Oszd meg a véleményed — kérjük, légy udvarias és maradj a témánál.
Jelentkezz be a hozzászóláshoz