A mesterséges intelligencia fejlődése ma már nemcsak utolérte, hanem számos technikai területen meg is haladta az emberi képességeket. Matematikai problémamegoldásban, képi elemzésben és komplex következtetések levonásában is egyre látványosabb az MI-rendszerek fölénye. Azonban még mindig van, ahol nem múlt minket felül.
Az emberi és a gépi gondolkodás közötti szakadék egyre szűkül, méghozzá rohamos tempóban: a mesterséges intelligencia (MI) jelentős fejlődésével az elmúlt időszakban a gépek egyre közelebb kerültek az emberi kognitív képességekhez, sőt bizonyos területeken meg is előzték azokat.
Az MI gyors fejlődésének háttere
Az MI-rendszerek az utóbbi években, különösen az elmúlt egy év során ugrásszerű fejlődésen mentek keresztül, ami több tényező együttes hatásának köszönhető. Először is, a mélytanulási algoritmusok finomhangolása és az új modellek, például a nagy nyelvi modellek (LLM-ek) és a multimodális rendszerek megjelenése lehetővé tette, hogy a mesterséges intelligencia ne csak szöveges adatokat, hanem képeket, matematikai problémákat, sőt komplex logikai feladatokat is hatékonyan kezeljen. Másodszor, a számítási kapacitás növekedése, amelyet a fejlett grafikus processzorok (GPU-k) és a célzott MI-chipek biztosítanak, drámaian felgyorsította az MI-modellek képzését és alkalmazását. Harmadszor, az adatok elérhetősége és minősége is kulcsfontosságú: az interneten elérhető hatalmas adathalmazok, valamint a szintetikus adatgenerálás technikái lehetővé teszik, hogy a mesterségesintelligencia-rendszerek egyre változatosabb és összetettebb problémák megoldására legyenek képesek.
Konkrét előrelépések: matematika és vizuális gondolkodás
Az MI-rendszerek olyan technikai feladatokban értek el áttörést, ahol korábban az emberi gondolkodás dominált. Az egyik ilyen terület a fejlett matematika. A mesterségesintelligencia-modellek, például az OpenAI GPT-4o vagy a DeepMind AlphaCode utódai ma már képesek egyetemi szintű matematikai problémák megoldására, beleértve a differenciálegyenleteket, a lineáris algebrát vagy akár a számelméleti problémákat. Ezek a rendszerek nem csupán mechanikus számításokat végeznek, hanem képesek a problémák logikai struktúrájának megértésére, a megfelelő matematikai eszközök kiválasztására és a megoldási folyamat lépésről lépésre történő levezetésére. Ez különösen lenyűgöző, ha figyelembe vesszük, hogy a matematikai gondolkodás hagyományosan az emberi kreativitás és absztrakt érvelés csúcspontjának számított.
A vizuális gondolkodás terén is hasonlóan figyelemre méltó eredmények születtek. Az MI-rendszerek ma már képesek komplex képi adatok elemzésére, például orvosi képalkotó eljárások (MRI, CT) eredményeinek értelmezésére, ahol a diagnosztikai pontosságuk gyakran meghaladja a radiológusokét.
Emellett olyan kreatív feladatokban is jeleskednek, mint a művészeti alkotások elemzése vagy a háromdimenziós terek modellezése. Ezek a képességek a multimodális MI-modellekre épülnek, amelyek egyszerre képesek szöveges, képi és numerikus adatok integrált feldolgozására. Az ilyen rendszerek egy matematikai probléma szöveges leírását vizuális ábrává tudják alakítani, majd az alapján megoldást javasolnak – olyan módon, amely az emberi gondolkodás rugalmasságát idézi.
A Stanford Egyetem 2025-ös Artificial Intelligence Index jelentése szerint
az egyetlen feladat, ahol a mesterségesintelligencia-rendszerek még mindig nem érték utol az embert, a multimodális megértés és következtetés, amely magában foglalja több formátumban és tudományágban például képek, grafikonok és diagramok megértését, és az abból történő következtetést.
Az emberek és a mesterséges intelligencia közötti különbség azonban rohamosan csökken. Tavaly az OpenAI o1 78,2 százalékos eredményt ért el a Multimodal Multi-task Benchmarkon (MMMU), amely a modelleket értékeli a főiskolai szintű tárgyi tudást igénylő, több tudományágat érintő feladatokban, és mindössze 4,4 százalékponttal maradt el a 82,6 százalékos emberi referenciaértéktől.
Ez jelentős ugrás volt a 2023-as év végéhez képest, amikor a Google Gemini mindössze 59,4 százalékot ért el, ami rávilágít az MI teljesítményének gyors javulására ezekben a technikai feladatokban.
Ahogyan a Stanford Egyetem ábráin is látható, ez a fejlődés nem egyik napról a másikra történt, de elmondható, hogy az elmúlt több mint tíz évben a mesterséges intelligencia teljesítménye számos eltérő feladattípusban látványosan fejlődött. A különböző százalékértékek azt mutatják, hogy a gépek hogyan teljesítettek az adott feladatokban az emberi szinthez viszonyítva – a 100százalék feletti azt jelzi, hogy az MI meghaladta az átlagos emberi teljesítményt.
A képosztályozás (image classification) területén figyelhető meg az egyik leglátványosabb fejlődés (azaz amikor egy algoritmus megtanulja képek alapján meghatározni, hogy azok milyen kategóriába tartoznak). 2013-ban még „csak” 91,42 százalékos teljesítményt értek el a modellek, azóta azonban folyamatosan javultak az eredmények: 2014-re 96,94, majd 2015-re 99,47 százalékra emelkedett a pontosság, végül 2016-ban áttörte a 100 százalékos határt, ami azt jelentette, hogy a gépek átlagosan jobban osztályozták a képeket. 2020-ra és 2021-re ez az előny még tovább nőtt, tehát körülbelül 10 év kellett ahhoz, hogy a gépek képosztályozásban ne csak utolérjék, hanem meg is haladják az emberi képességeket.
A vizuális következtetés (visual reasoning) viszont egy összetettebb feladat, ahol a gép nemcsak felismeri, hanem logikai következtetéseket is levon a képi információkból. Itt a fejlődés lassabb volt: 2016-ban 80,09 százalékos teljesítményt mutattak, ez 2017-ben 86,49-re százalékra emelkedett. 2020-ra 91,38-ra nőtt az arány, 2022-re pedig elérte a 104,36 százalékot. Ez azt jelzi, hogy a képosztályozáshoz képest a gépeknek körülbelül 5-6 évvel később sikerült átlépniük az emberi szintet.
A középszintű szövegértés (medium-level reading comprehension) területén is fokozatos javulás látható. 2017-ben még csak 82,35 százalékos szinten álltak a mesterségesintelligencia-modellek, de 2018-ban már 96,23 százalékon. Egy évvel később 103,27, majd 2020-ban 103,92 százalékkal egyértelműen túlteljesítették az emberi átlagot, és 2021-ben, illetve 2022-ben is 104 százalék körüli eredmények születtek. Ez azt mutatja, hogy körülbelül 3-4 év alatt sikerült az emberi szintet meghaladni.
A többfeladatos nyelvi megértés (multitask language understanding) sokkal nagyobb kihívást jelentett. 2019-ben 36,08 százalékkal kezdtek, ami meglehetősen alacsony. 2020-ra javultak 60,02-re, 2021-re 66,82 százalékot értek el, majd 2022-re 83,74-et. Csak 2023-ban látható igazán komoly előrelépés, amikor 96,21 százalékra ugrottak, tavaly pedig sikerült 102,78 százalékra emelniük a teljesítményt, tehát öt év kellett a mesterséges intelligenciának ahhoz, hogy ezen a rendkívül összetett területen is felülmúlja az embert.
Az angol nyelvi megértés (english language understanding) esetében eleve magas számról indultak: 2019-ben már 94,21 százalékos eredményt értek el, 2020-ban pedig 99,44-et. 2021-ben 101,56, majd 2022-ben 101,67 százalékot értek el, itt tehát 1-2 év alatt sikerült átlépni az emberi szintet.
Versenyszintű matematika (competition-level mathematics) területén kezdetben rendkívül gyenge eredmények születtek. 2021-ben mindössze 7,67 százalékos teljesítmény volt mérhető. Egy évvel később már 57,56 százalékra javult a pontosság, de még így is messze elmaradt az emberi versenyszinttől. 2023-ban azonban 93,67 százalékra ugrott, majd tavaly elérte a 108,78 százalékot, ami azt mutatja, hogy mindössze 2-3 év alatt hatalmas fejlődést produkáltak, és ebben is az ember fölé nőttek.
A doktori szintű tudományos kérdések (PhD-level science questions) esetében a fejlődés szintén kiugró. 2023-ban még csak 47,78 százalékos teljesítmény volt mérhető, de az elmúlt évben ez 108-ra nőtt. Ez azt jelzi, hogy egyetlen év alatt komoly előrelépés történt, ami az új modellek komplex tudományos szövegértelmező képességeit tükrözi.
A multimodális megértés és következtetés (multimodal understanding and reasoning) területe, ahol szöveget és képet együtt kell értelmezni, szintén érdekes fejlődési mintát mutat. 2023-ban 71,91 százalékot értek el, ez 2024-re 94,67-re javult. Itt még nem érték el az emberi szintet, de az ugrás mértéke jelentős, és várható, hogy hamarosan itt is átlépik a 100 százalékot.
A humán és a gépi gondolkodás közötti szakadék szűkülése
A gépi gondolkodás előrelépései azt mutatják, hogy az MI nem csupán utánozza az emberi kognitív folyamatokat, hanem bizonyos területeken hatékonyabbá és pontosabbá is válik. Az emberi gondolkodás erőssége hagyományosan a kontextus megértésében, az intuitív döntéshozatalban és a kreatív problémamegoldásban rejlik, a mesterséges intelligencia azonban ezeken a területeken is egyre versenyképesebb. Például ma már képesek következtetéseket levonni nagy mennyiségű adatból, és olyan kreatív megoldásokat kínálni, amelyek az emberi szakértők számára is újak lehetnek. Ez azonban nem azt jelenti, hogy az MI teljesen lemásolja az emberi gondolkodást; inkább arról van szó, hogy más megközelítésekkel, például statisztikai mintázatok felismerésével és adatvezérelt döntéshozatallal hasonló vagy jobb eredményeket ér el.
Ugyanakkor fontos hangsúlyozni, hogy az emberi gondolkodás és a gépi érvelés között továbbra is léteznek különbségek. Az MI-rendszereknek jelenleg nincs valódi öntudata, érzelmi intelligenciája és nem képes szubjektív módon megérteni az emberi tapasztalatokat, mivel a működése adatvezérelt és algoritmikus, szemben az emberi gondolkodás holisztikus és kontextuális gazdagságával. A gyakorlati eredmények szempontjából azonban ezek a különbségek egyre kevésbé relevánsak, mivel az MI képes olyan feladatok megoldására, amelyek korábban kizárólag az emberek kiváltságának számítottak.
Társadalmi és filozófiai implikációk
Az emberi és a gépi gondolkodás közötti szakadék szűkülése számos társadalmi és filozófiai kérdést vet fel. Egyrészt a mesterséges intelligencia előretörése óriási lehetőségeket kínál: a tudományos kutatás felgyorsulhat, az orvosi diagnosztika pontosabbá válhat, az oktatás személyre szabottabbá tehető. Másrészt kihívásokkal is szembesülünk, ugyanis az MI-rendszerek által végzett technikai feladatok automatizálása munkahelyek megszűnéséhez vagy átalakulásához vezethet, különösen azokon a területeken, ahol a precíz számítások és elemzések kulcsfontosságúak, például a mérnöki vagy pénzügyi szektorban.
A mesterséges intelligencia rohamos fejlődése a műszaki feladatok terén tehát nemcsak a technológiai határokat feszegeti, hanem alapvetően változtatja meg az emberi gondolkodás és a gépi érvelés viszonyát. Bár az MI-rendszerek még nem érték el az emberi szintet minden területen, például a multimodális megértésben, a felmérések azt jelzik, hogy ez csupán idő kérdése. A gépek egyre hatékonyabbá és sokoldalúbbá válnak, miközben olyan lehetőségeket nyitnak meg, amelyek korábban elképzelhetetlenek voltak. Ugyanakkor a technológiai előrelépések mellett nem szabad megfeledkeznünk az etikai és társadalmi kihívásokról sem: a felelős fejlesztés és alkalmazás kulcsfontosságú lesz ahhoz, hogy az MI valóban az emberiség javát szolgálja, ne pedig új kockázatokat teremtsen.