PeakX: még nem helyettesíthető az emberi intelligencia – makronom.eu
2025. március 24., hétfő

PeakX: még nem helyettesíthető az emberi intelligencia

A PeakX, a Peak csoport mesterségesintelligencia-üzletágának csapata átfogó kutatást végzett a jelenleg legismertebb modellek teljesítményéről. Az eredmények szemléletesen igazolták azt a hipotézisüket, hogy az ezekről publikált laboratóriumi benchmarktesztek gyakran túlzottan optimista képet festenek a modellek képességeiről. 

A PeakX konferenciáján Sajtos István innovációs igazgató előadásának keretében bemutatták a csapat legújabb fejlesztését: egy ellenőrző mesterséges intelligenciát, amely az egyes MI-modellek kompetenciáit méri fel. A technológia célja, hogy objektív módon vizsgálja az egyes MI-modellek teljesítményét különböző tudományterületeken. Az előadáson élőben demonstrálták az MI-ügynök működését, amely a résztvevők szeme láttára értékelte a modellek válaszait, ezzel közvetlenül is betekintést nyerhettek a különböző algoritmusok képességeibe és korlátaiba. 

Az MI-modellek teljesítményének vizsgálata 

A kutatás részeként a nagy nyelvi modelleknek a magyarországi kompetenciamérések során a 6., 8. és 10. osztályos diákok által kitöltött teszteket kellett megoldaniuk. A PeakX csapata 70 szövegértési és 70 matematikai feladatot használt az MI-modellek tesztelésére, kiegészítve a történelem, a természettudomány és a digitális kultúra kérdéseivel. Az MI-modellek által adott válaszokat objektív pontozási rendszerrel értékelték. A teszt során több szempontot is figyelembe vettek, a pontosság mellett a gyorsaságot, az erőforrásigényt és a költségeket. 

Főbb eredmények 

Az elemzés során a PeakX csapata megállapította, hogy a vizsgált MI-modellek között jelentős eltérések tapasztalhatók a szövegértési és matematikai feladatok terén. 

Erősségek és gyengeségek: 

  • OpenAI o1: kiemelkedő az általános tudása, erős szövegértési és matematikai képességekkel rendelkezik, viszont lassú és drága. 
  • Anthropic Sonnet 3.7: kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébb. 
  • xAI Grok2: rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített. 
  • Gemini 2.0 „Flash”: kiemelkedő a szövegértési képessége, de az összetettebb következtetési feladatokban alulmaradt. 
  • Mistral Large: relatív olcsó, de az általános tudása korlátozottabb. 
  • DeepSeek: olcsó és gyors, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre, és hajlamos fura hibákat véteni. 

Forrás: PeakX

Összességében elmondható, hogy bár az érvelő (reasoning) modellek lassabbak és drágábbak, minden kategóriában jobban teljesítettek, mint a többi. Az eredmények azt mutatják, hogy  

a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek egyértelműen helyettesíteni az embereket.  

Különösen a komplex matematikai készségeket igénylő feladatoknál mutatkozik meg a lemaradásuk.  

Forrás: PeakX

Kapcsolódó:

Posztok hasonló témában

Heti hírlevél

Iratkozzon fel hírlevelünkre!

Minden héten megkaphatja válogatott tartalmainkat, hogy naprakész információi legyenek a világ történéseivel kapcsolatban.


Kérjük adja meg a teljes nevét.

Email címét nem osztjuk meg.

Kérdezz bátran!
Chat