A PeakX, a Peak csoport mesterségesintelligencia-üzletágának csapata átfogó kutatást végzett a jelenleg legismertebb modellek teljesítményéről. Az eredmények szemléletesen igazolták azt a hipotézisüket, hogy az ezekről publikált laboratóriumi benchmarktesztek gyakran túlzottan optimista képet festenek a modellek képességeiről.
A PeakX konferenciáján Sajtos István innovációs igazgató előadásának keretében bemutatták a csapat legújabb fejlesztését: egy ellenőrző mesterséges intelligenciát, amely az egyes MI-modellek kompetenciáit méri fel. A technológia célja, hogy objektív módon vizsgálja az egyes MI-modellek teljesítményét különböző tudományterületeken. Az előadáson élőben demonstrálták az MI-ügynök működését, amely a résztvevők szeme láttára értékelte a modellek válaszait, ezzel közvetlenül is betekintést nyerhettek a különböző algoritmusok képességeibe és korlátaiba.
Az MI-modellek teljesítményének vizsgálata
A kutatás részeként a nagy nyelvi modelleknek a magyarországi kompetenciamérések során a 6., 8. és 10. osztályos diákok által kitöltött teszteket kellett megoldaniuk. A PeakX csapata 70 szövegértési és 70 matematikai feladatot használt az MI-modellek tesztelésére, kiegészítve a történelem, a természettudomány és a digitális kultúra kérdéseivel. Az MI-modellek által adott válaszokat objektív pontozási rendszerrel értékelték. A teszt során több szempontot is figyelembe vettek, a pontosság mellett a gyorsaságot, az erőforrásigényt és a költségeket.
Főbb eredmények
Az elemzés során a PeakX csapata megállapította, hogy a vizsgált MI-modellek között jelentős eltérések tapasztalhatók a szövegértési és matematikai feladatok terén.
Erősségek és gyengeségek:
- OpenAI o1: kiemelkedő az általános tudása, erős szövegértési és matematikai képességekkel rendelkezik, viszont lassú és drága.
- Anthropic Sonnet 3.7: kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébb.
- xAI Grok2: rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített.
- Gemini 2.0 „Flash”: kiemelkedő a szövegértési képessége, de az összetettebb következtetési feladatokban alulmaradt.
- Mistral Large: relatív olcsó, de az általános tudása korlátozottabb.
- DeepSeek: olcsó és gyors, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre, és hajlamos fura hibákat véteni.

Forrás: PeakX
Összességében elmondható, hogy bár az érvelő (reasoning) modellek lassabbak és drágábbak, minden kategóriában jobban teljesítettek, mint a többi. Az eredmények azt mutatják, hogy
a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek egyértelműen helyettesíteni az embereket.
Különösen a komplex matematikai készségeket igénylő feladatoknál mutatkozik meg a lemaradásuk.

Forrás: PeakX
Kapcsolódó: