Az Apple megtanította a kompakt mesterséges intelligencia modelleket jobban leírni a képeket, mint azok nagyobb versenytársai

Az Apple megtanította a kompakt mesterséges intelligencia modelleket jobban leírni a képeket, mint azok nagyobb versenytársai

17 software

Apple felfedez egy új „RubiCap” technológiát a képek leírásához

Az Apple tudósai létrehozták a *RubiCap* nevű módszert, amely lehetővé teszi az alacsony erőforrásigényű MI‑modellek számára, hogy pontosabb és részletesebb képleírásokat generáljanak, mint a nagyobb méretű analógok.

Hogyan működik a RubiCap
1. Kép elemzése

A részletes szöveg létrehozásához a modell először felismeri az objektumokat és területeket a képen. Ez alaposabb megértést ad a kompozícióról, nem csupán felszínes leírást.

2. Gyakorlati érték

Ezek a képességek alkalmasak lesznek alárendelt MI‑modellek betanítására, szöveg alapú képgenerátorokra és speciális funkciókra (például vizuális tartalom javítása).

3. Erőforrás-probléma

A részletes leíráshoz szükséges hagyományos tanulási módszerek nagy számítási erőforrásokat igényelnek a kezdeti szakaszban és az utólagos megerősítéses tanulás során is.

Kísérleti módszer
- Képválasztás – véletlenszerűen 50 000 képet válogattak ki a *PixMoCap* és *DenseFusion‑4V‑100K* gyűjteményekből.

- Leírások generálása – a meglévő számítógépes látás modelleket használták: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT és Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, valamint az Apple által még tanuló modellek.

- Minőségértékelés – a Gemini 2.5 Pro szakértőként működött: elemezte a leírásokat, felderítette a megegyezéseket és hibákat, meghatározta a tiszta értékelési kritériumokat.

- Bírói értékelés – a Qwen 2.5‑7B‑Instruct modell pontszámot adott minden kritériumnak, és jutalmazási jelet generált a tanuló modell számára.

Eredmények
- A tanuló modell konkrét visszajelzést kapott, ami lehetővé tette a leírások pontosságának gyors javítását anélkül, hogy egyetlen „helyes” válaszra támaszkodna.

- Végül Apple három saját modellt hozott létre: RubiCap‑2B, RubiCap‑3B és RubiCap‑7B (rendben 2, 3 és 7 milliárd paraméter).

- A képleírás feladat tesztjein a RubiCap meghaladta a versenytársakat 32 milliárd és akár 72 milliárd paraméterrel is. Bizonyos esetekben a RubiCap‑3B jobb eredményeket ért el, mint a RubiCap‑7B, megerősítve, hogy a modell mérete nem mindig garantálja a legjobb teljesítményt.

Így a RubiCap technológia bemutatja, hogyan lehet magas színvonalú képleírást elérni kevesebb erőforrással és hatékonyabb tanulással.

Hozzászólások (0)

Oszd meg a véleményed — kérjük, légy udvarias és maradj a témánál.

Még nincsenek hozzászólások. Írj hozzászólást és oszd meg a véleményed!

Hozzászóláshoz kérjük, jelentkezz be.

Jelentkezz be a hozzászóláshoz