Az Apple megtanította a kompakt mesterséges intelligencia modelleket jobban leírni a képeket, mint azok nagyobb versenytársai
Apple felfedez egy új „RubiCap” technológiát a képek leírásához
Az Apple tudósai létrehozták a *RubiCap* nevű módszert, amely lehetővé teszi az alacsony erőforrásigényű MI‑modellek számára, hogy pontosabb és részletesebb képleírásokat generáljanak, mint a nagyobb méretű analógok.
Hogyan működik a RubiCap
1. Kép elemzése
A részletes szöveg létrehozásához a modell először felismeri az objektumokat és területeket a képen. Ez alaposabb megértést ad a kompozícióról, nem csupán felszínes leírást.
2. Gyakorlati érték
Ezek a képességek alkalmasak lesznek alárendelt MI‑modellek betanítására, szöveg alapú képgenerátorokra és speciális funkciókra (például vizuális tartalom javítása).
3. Erőforrás-probléma
A részletes leíráshoz szükséges hagyományos tanulási módszerek nagy számítási erőforrásokat igényelnek a kezdeti szakaszban és az utólagos megerősítéses tanulás során is.
Kísérleti módszer
- Képválasztás – véletlenszerűen 50 000 képet válogattak ki a *PixMoCap* és *DenseFusion‑4V‑100K* gyűjteményekből.
- Leírások generálása – a meglévő számítógépes látás modelleket használták: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT és Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, valamint az Apple által még tanuló modellek.
- Minőségértékelés – a Gemini 2.5 Pro szakértőként működött: elemezte a leírásokat, felderítette a megegyezéseket és hibákat, meghatározta a tiszta értékelési kritériumokat.
- Bírói értékelés – a Qwen 2.5‑7B‑Instruct modell pontszámot adott minden kritériumnak, és jutalmazási jelet generált a tanuló modell számára.
Eredmények
- A tanuló modell konkrét visszajelzést kapott, ami lehetővé tette a leírások pontosságának gyors javítását anélkül, hogy egyetlen „helyes” válaszra támaszkodna.
- Végül Apple három saját modellt hozott létre: RubiCap‑2B, RubiCap‑3B és RubiCap‑7B (rendben 2, 3 és 7 milliárd paraméter).
- A képleírás feladat tesztjein a RubiCap meghaladta a versenytársakat 32 milliárd és akár 72 milliárd paraméterrel is. Bizonyos esetekben a RubiCap‑3B jobb eredményeket ért el, mint a RubiCap‑7B, megerősítve, hogy a modell mérete nem mindig garantálja a legjobb teljesítményt.
Így a RubiCap technológia bemutatja, hogyan lehet magas színvonalú képleírást elérni kevesebb erőforrással és hatékonyabb tanulással.
Hozzászólások (0)
Oszd meg a véleményed — kérjük, légy udvarias és maradj a témánál.
Jelentkezz be a hozzászóláshoz