Az MI alacsony hatékonyságot mutatott a sportfogadásokban, minden pénzt elveszítve az angol Premier League mérkőzésein.
Röviden az eredményről
A *General Reasoning* startup a KellyBench nevű tesztet futtatta, amelyben nyolc vezető MI‑rendszert (Google Gemini 3.1 Pro, OpenAI ChatGPT‑4, Anthropic Claude Opus 4.6, xAI Grok 4.20 és mások) értékelték az angliai Premier League 2023–2024 szezon során fogadások elvégzésének képessége alapján.
Minden ügynöknek teljes statisztikai leírást adtak minden csapatról és korábbi mérkőzésekről, de az internetelérés tiltott – a modellek csak előre kapott adatokat használhattak.
Hogyan zajlott a teszt
1. Három próbálkozás: minden rendszer három sorozatban tehetett fogadást a szezon alatt.
2. Fogadások: mérkőzések kimenetele (győzelem/döntetlen/hártya) és gólok száma.
3. Cél: nyereség maximalizálása kockázatok kezelésével.
Ki nyert, ki veszett
| MI‑rendszer | Átlagos eredmény | Megjegyzés |
|---|---|---|
| Anthropic Claude Opus 4.6 | 11 % (körülbelül egy próbálkozásban break‑even) | A „legbőszebb” résztvevő, de mégis pénzt vesztett |
| Google Gemini 3.1 Pro | +34 % az első próbálkozásban, majd csőd | Először nyereség, aztán veszteség |
| xAI Grok 4.20 | Azonnal csőd, nem fejezte be a következő két próbálkozást | A leggyengébb mindenben |
Végül minden modell pénzt vesztett a szezon alatt, és néhány teljesen „csődbe” került. Ez megerősíti a kutatók megállapítását: még a legfejlettebb MI‑rendszereknek is nehézségeik vannak a hosszú távú előrejelzésben a valós világban.
Mit jelent ez az MI jövője szempontjából
- A személy cseréjének aggodalmai még túlzóaknak tűnnek.
- A jelenlegi benchmarkok gyakran „statikus” feltételeket használnak, amelyek nem tükrözik a valós élet kaotikus és összetett jellegét.
- Bár az MI már sikeresen oldja meg olyan feladatokat, mint a kódírás, a legtöbb más emberi tevékenységi területen még korlátozott marad.
Így a KellyBench kísérlet azt mutatja, hogy az MI még nem készen áll arra, hogy versenyezzen az emberrel dinamikus, előre nem látható feladatokban, mint például a sportesemények előrejelzése.
Hozzászólások (0)
Oszd meg a véleményed — kérjük, légy udvarias és maradj a témánál.
Jelentkezz be a hozzászóláshoz