Az Nvidia megjegyezte, hogy a Blackwell architektúra fejlesztéseinek köszönhetően az ideális hálózatok inferenciájának költsége tízszeres szintre csökkent, és ezt a sikert nemcsak a hardvernek tulajdonítják.
Nvidia Blackwell architektúrára történő inferencia költségcsökkentés
Az új Nvidia Blackwell gyorsítók 4–10-szoros csökkentést tesznek lehetővé a betanított AI rendszerek futtatási árán. Ezek az adatok a Nvidia saját publikációi. Azonban programozási és infrastruktúra fejlesztések nélkül ez a növekedés nem elérhető.
Hogyan sikerült jelentős költségcsökkentést elérni
MutatóMi segítettA Blackwell architektúraGyorsítókModellekNyílt forráskód (MoE, NVFP4 és mások)PlatformokBaseten, DeepInfra, Fireworks AI, Together AISzoftverstacksOptimalizált alacsony pontosságú pipeline-ok
* A Blackwell-re történő átállás duplázza a hatékonyságot a korábbi generációs gyorsítókhoz képest.
* Az alacsony pontosságú formátumok (például NVFP4) további költségcsökkentést eredményeznek.
Gyakorlati példák
CégFeladatEredménySully.aiEgészségügy, nyílt modellek a Baseten-en 90 % inferencia megtakarítás (10-szoros csökkenés), 65 % válaszidő csökkentés. Kód- és egészségügyi dokumentáció automatizálása 30 millió munkaórát takarított meg.Latitude (AI Dungeon)Játékok, MoE modellek a DeepInfra-nál Az inferencia költsége 1 millió tokenre $0,20-ról $0,05-re csökkent: először MoE-vel ($0,10), majd NVFP4-vel.Sentient FoundationÜgynökségi csevegés, Fireworks AIGazdasági hatékonyság 25–50 % növekedett. A platform heti 5,6 millió kérést kezelte anélkül, hogy a késleltetés nőtt volna.DecagonVox támogatás, Together AIKérésköltség hatalmas csökkenése (hat-szor) a Blackwell többlépcsős stack-jének köszönhetően. Válaszidő <400 ms még több ezer token esetén is.
Miért fontosak a betöltési jellemzők
* Az érvelő modellek több tokent generálnak, ami erősebb gyorsítót igényel.
* A platformok *deaggregált szolgáltatást* használnak: külön előzetes kontextus és token-generálás, hogy hatékonyan kezeljék a hosszú sorozatokat.
* Nagy generációs mennyiség esetén akár 10-szoros hatékonyságnövekedés elérhető; kisebb esetekben csak 4-szorosra.
Alternatívák a Blackwell helyett
Az AMD Instinct MI300, Google TPU, Groq vagy Cerebras gyorsítókra történő átállás is csökkenti a költségeket. A kulcs az eszköz, szoftver és modell kombinációjának kiválasztása a konkrét betöltéshez, nem csupán a Blackwell használata.
Összegzés:
Az inferencia költségcsökkentése komplex megközelítést igényel: hardver (Blackwell), nyílt modellek, optimalizált stack-ek és helyes feladatelosztás. Ez lehetővé teszi a vállalatok számára, hogy egészségügyben, játékokban, ügynökségi AI-ban és hang támogatásban tízszeresen takarítsanak meg költségeket anélkül, hogy veszélyeztetnék a minőséget vagy sebességet.
Hozzászólások (0)
Oszd meg a véleményed — kérjük, légy udvarias és maradj a témánál.
Jelentkezz be a hozzászóláshoz