Az Nvidia megjegyezte, hogy a Blackwell architektúra fejlesztéseinek köszönhetően az ideális hálózatok inferenciájának költsége tízszeres szintre csökkent, és ezt a sikert nemcsak a hardvernek tulajdonítják.

Nvidia Blackwell architektúrára történő inferencia költségcsökkentés

Az új Nvidia Blackwell gyorsítók 4–10-szoros csökkentést tesznek lehetővé a betanított AI rendszerek futtatási árán. Ezek az adatok a Nvidia saját publikációi. Azonban programozási és infrastruktúra fejlesztések nélkül ez a növekedés nem elérhető.

Hogyan sikerült jelentős költségcsökkentést elérni
MutatóMi segítettA Blackwell architektúraGyorsítókModellekNyílt forráskód (MoE, NVFP4 és mások)PlatformokBaseten, DeepInfra, Fireworks AI, Together AISzoftverstacksOptimalizált alacsony pontosságú pipeline-ok
* A Blackwell-re történő átállás duplázza a hatékonyságot a korábbi generációs gyorsítókhoz képest.

* Az alacsony pontosságú formátumok (például NVFP4) további költségcsökkentést eredményeznek.

Gyakorlati példák
CégFeladatEredménySully.aiEgészségügy, nyílt modellek a Baseten-en 90 % inferencia megtakarítás (10-szoros csökkenés), 65 % válaszidő csökkentés. Kód- és egészségügyi dokumentáció automatizálása 30 millió munkaórát takarított meg.Latitude (AI Dungeon)Játékok, MoE modellek a DeepInfra-nál Az inferencia költsége 1 millió tokenre $0,20-ról $0,05-re csökkent: először MoE-vel ($0,10), majd NVFP4-vel.Sentient FoundationÜgynökségi csevegés, Fireworks AIGazdasági hatékonyság 25–50 % növekedett. A platform heti 5,6 millió kérést kezelte anélkül, hogy a késleltetés nőtt volna.DecagonVox támogatás, Together AIKérésköltség hatalmas csökkenése (hat-szor) a Blackwell többlépcsős stack-jének köszönhetően. Válaszidő <400 ms még több ezer token esetén is.

Miért fontosak a betöltési jellemzők
* Az érvelő modellek több tokent generálnak, ami erősebb gyorsítót igényel.

* A platformok *deaggregált szolgáltatást* használnak: külön előzetes kontextus és token-generálás, hogy hatékonyan kezeljék a hosszú sorozatokat.

* Nagy generációs mennyiség esetén akár 10-szoros hatékonyságnövekedés elérhető; kisebb esetekben csak 4-szorosra.

Alternatívák a Blackwell helyett
Az AMD Instinct MI300, Google TPU, Groq vagy Cerebras gyorsítókra történő átállás is csökkenti a költségeket. A kulcs az eszköz, szoftver és modell kombinációjának kiválasztása a konkrét betöltéshez, nem csupán a Blackwell használata.

Összegzés:
Az inferencia költségcsökkentése komplex megközelítést igényel: hardver (Blackwell), nyílt modellek, optimalizált stack-ek és helyes feladatelosztás. Ez lehetővé teszi a vállalatok számára, hogy egészségügyben, játékokban, ügynökségi AI-ban és hang támogatásban tízszeresen takarítsanak meg költségeket anélkül, hogy veszélyeztetnék a minőséget vagy sebességet.

Az Nvidia megjegyezte, hogy a Blackwell architektúra fejlesztéseinek köszönhetően az ideális hálózatok inferenciájának költsége tízszeres szintre csökkent, és ezt a sikert nemcsak a hardvernek tulajdonítják.

Related news

Az Apple‑Car így nézhetne ki: a Ferrari bemutatja az elektromos autó, a Luce belső terét, amelyet Johnny Aiv tervezett

A Mortal Kombat 1 eladása meghaladta a 8 millió példányt, de az előző játék rekordja még mindig elérhetetlen

Tesla indított kampányt a „csapdás” önvezető aktiválási módok ellen olyan régiókban, ahol annak használata tiltott.

Öt év alatt a memória iránti kereslet több mint 600‑szor nőni fog Dell feletti értékelése szerint az AI chipek növekedésének köszönhetően.

Hozzászólások (0)

Jelentkezz be a hozzászóláshoz