Az MI‑robotok hatékonysága csökken a hosszú beszélgetések során az emberekkel — egy nagy Microsoft‑kutatás megerősítette ezt.

Az MI‑robotok hatékonysága csökken a hosszú beszélgetések során az emberekkel — egy nagy Microsoft‑kutatás megerősítette ezt.

5 hardware

Microsoft Research és Salesforce kutatása: hogyan veszítik el a nagy AI‑modellek az irányt a párbeszédekben

Mi volt a vizsgálat tárgya? Milyen modelleket tanulmántak 200 000+ többlépcsős beszélgetésből a vezető LLM-ekkel: GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

Kulcsfontosságú megállapítások
Mérőszám Eredmény Leírás
Pontosság egyes lekérdezéseknél 90 % helyes válasz (GPT‑4.1, Gemini 2.5 Pro)
Pontosság hosszú párbeszédeken át~65 % – a hatékonyság közel harmadán csökken
Modell viselkedése Gyakran „áthasználja” az első hibás válaszát alapul a következő replikákhoz
Válasz hossza Növekszik 20‑300 %: több lépcsős beszélgetésekben, ami növeli a hallucination és feltételezéseket
Megbízhatóság 112 %-ra csökken (a modellek „előre” generálnak választ, mielőtt befejeznék a kérdést)

Miért történik ez?
1. A hibás alap átvétel
A modell az első következtetésén ragaszkodik és azon alapulva építi tovább a válaszait, még ha tévesek is.

2. A kontextus túltágítása
Minden új kérdéshez több szöveget adunk hozzá – ez növeli a „kitalált” tények számát, amelyeket a modell tényként értelmez.

3. Gondolkodási token problémák
Még a “tokenekkel” ellátott modellek (o3, DeepSeek R1) sem tudták leküzdeni ezt a csapdát – továbbra is túl korán generálnak válaszokat anélkül, hogy megfelelően elemeznék.

Mit jelent ez a felhasználók számára?
- Alacsony megbízhatóság valódi beszélgetésekben
Az AI elveszítheti a témát és olyan dolgokról kezdhet beszélni, amelyek nem léteznek.

- Hibás információk kockázata
A hagyományos kereső rendszerek elhagyása generatív eszközök mellett (pl. Google‑AI‑vélemények) növeli a hamis adatok megszerzésének valószínűségét.

- Minőségi promptok fontossága
A Microsoft korábban alacsony mérnöki szintet jelezett a lekérdezések készítésekor. Sikertelen kérdések és „rossz” promtok miatt az AI nem éri el teljes potenciálját.

Összegzés
A nagy nyelvi modellek technológiája még fejlesztés alatt áll. Bár magas pontosságot mutatnak egyes lekérdezéseknél, a többlépcsős párbeszédek megbízhatósága továbbra is probléma. A biztonságos és hatékony AI használatához fontos:

1. Tiszta, konkrét kérdések megfogalmazása.
2. Készen állni a modell válaszainak korrigálására.
3. Ne támaszkodjon teljesen a generatív tartalomra anélkül, hogy ellenőrizné a tényeket.

Végül a modellek finomítása és a hosszú beszélgetésekben való stabilitás növelése kulcsfontosságú ahhoz, hogy az AI megbízható partner legyen a felhasználók számára.

Hozzászólások (0)

Oszd meg a véleményed — kérjük, légy udvarias és maradj a témánál.

Még nincsenek hozzászólások. Írj hozzászólást és oszd meg a véleményed!

Hozzászóláshoz kérjük, jelentkezz be.

Jelentkezz be a hozzászóláshoz