A Xiaomi egy 4,7 milliárd paraméteres MI-modellt fejlesztett ki, amely vizuális észlelést, beszédet és robotok irányítását ötvöz.

A Xiaomi egy 4,7 milliárd paraméteres MI-modellt fejlesztett ki, amely vizuális észlelést, beszédet és robotok irányítását ötvöz.

7 hardware

Xiaomi belép a robotika piacára

A kínai mobil eszközök és okos otthonok óriása, amelyet Xiaomi-nak hívnak, bejelentette új lépését: saját mesterséges intelligencia modell fejlesztése robotok számára. A vállalat bemutatta a Xiaomi‑Robotics‑0-t, egy nyílt forráskódú rendszert, amely ötvözi a vizuális felismerést, a nyelvi megértést és a valós idejű cselekvés irányítását. A modell 4,7 milliárd paraméterrel rendelkezik, és már több rekordot állított fel szimulációkban és gyakorlatban egyaránt.

Hogyan működik a modell
A robot általában a „érzékelés → döntés → cselekvés” ciklust követi. A Xiaomi‑Robotics‑0 a Mixture‑of‑Transformers (MoT) architektúrájának köszönhetően egyensúlyt tart fenn a helyzet széleskörű megértése és a motorika pontos irányítása között.

1. Vizuális-nyelvi modell (VLM) – a rendszer „agya”.
* Képzett arra, hogy értelmezze a parancsokat, még akkor is, ha homályosak („kérem, tekerje be a törölközőt”).
* Megérti a térbeli viszonyokat magas minőségű képek alapján.
* Feladatok: objektumfelismerés, vizuális kérdések megválaszolása és logikai gondolkodás.

2. Akciós szakértő (Action Expert) – mozgásgenerátor.
* Diffúziós transzformátorra (DiT) épül.
* Nem generál egy akciót egyszerre; helyette akciós sorozatot alkot a folyamatok összehangolásával, ami simaságot és pontosságot biztosít.

Megértés elvesztése nélküli tanulás
A hagyományos VLM-ek elveszítik részleges érzékelési képességeiket fizikai feladatokkal való betanításkor. A Xiaomi ezt a problémát megoldotta, miközben egyszerre tanított a modell multimodális adatokra (kép + szöveg) és cselekvési adatokra. A tanulási folyamat több fázisból áll:

1. Akciójavaslat – a VLM előre jelzi az akciók lehetséges eloszlását a képek alapján, szinkronizálva belső reprezentációját a valós műveletekkel.
2. Ezután a VLM „lekapcsolódik”, és a DiT külön tanulás során pontos sorozatokat generál zajból, kulcsjellemzőkre támaszkodva, nem pedig nyelvi tokenekre.

Késleltetések minimalizálása
A modell előrejelzései és a robot valós mozgásai közötti szünetek kiküszöbölésére aszinkron kimenetet használtak: az AI számítások és a robot cselekvései elkülönítve futnak. Ez lehetővé teszi a robot számára, hogy folyamatosan mozogjon még akkor is, ha további számításra van szükség.

* Clean Action Prefix – egy módszer korábban előrejelzett akció visszahívására, amely sima mozgást biztosít szakadékok nélkül.
* Figyelemmaszk fókuszál a jelenlegi vizuális sorozatra, figyelmen kívül hagyva a múltbeli állapotokat, így a robot reagálóbbá válik a környezet hirtelen változásaira.

Eredmények
A LIBERO, CALVIN és SimplerEnv szimulációs környezetekben a Xiaomi‑Robotics‑0 több mint 30 versenytársát felülmúlta. Egy valós roboton két manipulátorral a modell sikeresen kezelte a komplex feladatokat: törölközők hajtogatása, szerkezet bontása. A robot stabil koordinációt mutatott a kezek és a szemek között, hatékonyan manipulálva tárgyakat különböző szcenáriókban.

Így a Xiaomi nemcsak bővítette termékkínálatát, hanem alapot teremtett a „fizikai intelligencia” további kutatásához robotok számára.

Hozzászólások (0)

Oszd meg a véleményed — kérjük, légy udvarias és maradj a témánál.

Még nincsenek hozzászólások. Írj hozzászólást és oszd meg a véleményed!

Hozzászóláshoz kérjük, jelentkezz be.

Jelentkezz be a hozzászóláshoz