Az Apple saját AI-asszisztenst fejleszt az iPhone számára, amely képes alkalmazásokat indítani a felhasználó helyett
Apple egy kompakt helyi AI-ügynököt fejleszt felhasználói interfészek kezelésére
Apple dolgozik egy új algoritmussal – Ferret‑UI Lite, amely képes „érteni” az alkalmazások felületeit és azokkal a felhasználó nevében interakcióba lépni, de mindez a készüléken belül történik. A modell 3 milliárd paraméterrel rendelkezik, és tesztek során olyan eredményeket mutat, amelyek összehasonlíthatók vagy akár meghaladják a 24-szer nagyobb nagyméretű modelleket.
A projekt eredete
2023. decemberében egy kilenc kutatóból álló csapat publikálta a FERRET: Refer and Ground Anything Anywhere at Any Granularity cikkét. Ebben bemutatták a multimodális nyelvi modellt, amely különböző adatformátumokon tanul és képes szöveges leírásokat konkrét kép részekhez társítani.
Azóta az Apple kibővítette a Ferret‑modellek családját:
| Modell | Cél |
|---|---|
| Ferretv2 | Fejlesztett alapmodell |
| Ferret‑UI | Mobil interfészekre specializált MLLM |
| Ferret‑UI 2 | Több platformot és magasabb felbontást támogató |
A Ferret‑UI különösen megold egy problémát a modern multimodális nagy nyelvi modellek (MLLM) között: rosszul felismerik az UI elemeket. A modell „véletlen felbontást” ad Ferrett fölé, növelve a képek részletességét és használva fejlettebb vizuális jeleket.
Új eredmények
Nemrég Apple két további változatot mutatott be:
1. Ferret‑UI Lite – könnyű modell 3 milliárd paraméterrel, optimalizált helyi futtatásra mobil eszközökön.
2. Ferret‑UI 2 – kibővített verzió, amely több platformot és magasabb felbontású képernyőkép támogatást kínál.
A Ferret‑UI Lite fő különbsége a nagy szerveres modellekhez képest: versenyképes marad jelentősen alacsonyabb számítási igények mellett.
Miért fontos
A legtöbb meglévő GUI-ügynök hatalmas alapmodelleken alapul, mert erős elméleti és tervezési képességeik révén kiváló eredményeket érnek el a grafikus felületek navigálásában. Azonban ezek a modellek túl nagyok ahhoz, hogy közvetlenül a készüléken futtassák őket.
A Ferret‑UI Lite ezt a problémát oldja meg, kombinálva:
- Több kulcsfontosságú elemet és ötletet a kisebb LLM-ek tanításából;
- Valós és szintetikus GUI-adatokat különböző területekről;
- Dinamikus vágási technikákat és az interfész szelekciójának minőségének optimalizálását;
- Vezérelt finomhangolást és megerősítéses tanulást.
Ennek eredményeként olyan modellt hozott létre, amely szinte egyenértékű vagy akár felülmúlja a nagyobb versenytárs GUI-ügynököket az alacsony szintű UI elemekhez való kapcsolódásban, a képernyőn zajló események megértésében, több lépéses tervezésben és önanalízisben.
Hozzászólások (0)
Oszd meg a véleményed — kérjük, légy udvarias és maradj a témánál.
Jelentkezz be a hozzászóláshoz