Az MI-rendszerek folyamatos fejlődését alapvetően a minél több adat feltöltése biztosítja, ám egy új kutatás arra figyelmeztet, hogy a mesterségesen generált tartalmakkal történő tanítás erősen veszélyeztetheti az MI pontosságát és ezzel a jövőjét.
A mesterséges intelligencia (MI) olyan tempóban fejlődik, amit sokan még néhány évvel ezelőtt is elképzelhetetlennek tartottak. A technológiai ipar egyes szegmenseiben úgy vélik, hogy minél több adatot használnak fel az MI-rendszerek képzéséhez, annál fejlettebb és precízebb eredmények érhetők el – végső soron akár az emberi teljesítményt is felülmúlhatják egyes feladatokban. Azonban egy a Nature folyóiratban publikált új kutatás szerint ez a megközelítés hosszú távon az MI- rendszerek modellösszeomlásához vezethetnek.
Elindulhat a lavina
A mesterséges intelligencia alapjául szolgáló nagy nyelvi modellek olyan hatalmas adatbázisokból tanulnak, amelyek trilliónyi szót és kifejezést tartalmaznak a weboldalakról, cikkekből, fórumokból és más online forrásokból. Ezek az adatok lehetővé teszik, hogy az MI-rendszerek olyan válaszokat generáljanak, amelyek gyakran meglepően pontosak. Azonban az MI-kutatók egy része arra figyelmeztet, hogy ezek a modellek pontatlanabbá válhatnak, sőt akár össze is omolhatnak, ha olyan tartalmakon képzik őket, amelyeket mesterséges intelligencia hozott létre, nem pedig valódi emberek.
A magyarázat egyszerű: ezek a szintetikus adatok tartalmazhatnak valótlanságokat is, és ha ezen tanítunk, még nagyobb a hibázás valószínűsége. Ez pedig olyan, mint egy lavina: az egyre hibásabb modellek mind több problémás adatot generálnak, ami minőségi romlást eredményez a következő generációs MI-nél, így az még több rossz választ generál majd és így tovább.
A 2023-ban megjelent, a modellösszeomlásról szóló tanulmány szerint az MI által készített képek torzulni kezdtek, amikor a modellt újra és újra saját alkotásain tanították. A kutatók ezt a jelenséget úgy írták le, mint ha egy MI-rendszert a saját munkája „mérgezne meg”.
Az új kutatás eredményei
A Nature folyóiratban közzétett új tanulmányban az Oxford, a Cambridge és más egyetemek kutatói rámutattak arra, hogy az MI által generált tartalommal képzett modellek nem várt és gyakran értelmetlen eredményeket produkálnak. Szerintük ez a jelenség ahhoz hasonlítható, mintha a modell egyik generációjának hibái a következőben még hangsúlyosabbá válnának, egyre távolabb tolva a mesterséges intelligenciát a valóságtól.
Például amikor egy brit építészetről szóló kérdést tettek fel egy többször újraképzett nagy nyelvi modellnek, az válaszul egy teljesen értelmetlen beszélgetésbe bonyolódott a nyulakról. A kutatók szerint ez a jelenség rávilágít arra, hogy a modellösszeomlást nagyon komolyan kell venni, ha meg akarjuk őrizni a nagy méretű adatokból történő tanulás előnyeit.
Egyes cégek már kísérleteznek
Bár ez az összeomlás jelenleg nagyrészt elméleti problémának tűnik, a tanulmány megjegyzi, hogy a jövőben elkerülhetetlen, hogy az MI-modellek az elődjeik által előállított adatokon képződjenek, mivel a mesterséges intelligencia által generált tartalmak egyre terjednek az interneten, és beszivárognak a meglévő adatbázisokba. A technológiai vállalatok, mint a Meta, a Google és az Anthropic már kísérleteznek az úgynevezett szintetikus adatok felhasználásával, amelyeket generatív MI segítségével hoznak létre.
Már vannak olyan cégek is, amelyek egyebek mellett az adathalmazok tisztítására, azaz a tévedések kiszűrésére specializálódtak. A Hugging Face a könnyebben ellenőrizhető kis nyelvi modellekre összpontosít az orvostudomány területén. Anton Lozhkov, a társaság gépi tanulási mérnöke szerint bár a kutatók nem szeretik ezt a munkafolyamatot, egy ponton muszáj lesz erre is időt és energiát szánni.
Sőt, a hallucinációk – vagyis amikor az MI hamis információkat ad – korai megelőzését is kutatják, és számos kísérletet végeztek azok megfékezésére. Nemrég a Massachusetts Institute of Technology kutatói létrehoztak MI-csoportokat, és feltettek egy kérdést több mesterséges intelligenciának, amelyek addig vitatkoztak, amíg egyetlen válasz nem győzött.
Más vállalatok, például a Google és a Microsoft is megpróbálják ezeket a generatív MI-ket „intelligensebbé” tenni. Az emberi visszajelzéssel történő megerősítő tanulásnak nevezett technika során az emberi tesztelők saját maguk javítják a robot válaszait, majd ezeket visszatáplálják a rendszerbe, hogy az a későbbiekben sokkal jobb eredményeket produkáljon. Vagyis ez gyakorlatilag egy visszacsatolás.
Egy másik lehetséges megoldás, hogy a chatbotokat tényszerű vagy megbízhatóbb információkat tartalmazó adatbázisokhoz kapcsolják, például tudományos cikkek gyűjteményeihez, illetve többszörösen ellenőrzött dokumentumokhoz. Azonban, mint ahogy azt említettük, ezek a tárházak végesek. Az talán megoldást jelentene, ha a mesterséges intelligencia kevésbé lenne kreatív, és inkább tényszerű válaszokat adna.
Komoly veszély az összeomlás
Bár elméletileg a szintetikus adatok megoldhatják az MI-cégek egyre növekvő adatéhségét, elkerülve a jogi és etikai aggályokat, a modellösszeomlás lehetősége komoly veszélyt jelent ezekre a tervekre. A mesterséges intelligencia fejlesztése során a gyenge minőségű adatok és az MI által generált tartalmak keveredése olyan torzulásokhoz vezethet, amelyek végső soron csökkentik a hatékonyságát és megbízhatóságát.
Így tehát egyelőre nélkülözhetetlenek az ember által alkotott adatok. A tanulmány szerint a mesterséges intelligenciával foglalkozó vállalatoknak biztosítaniuk kell, hogy továbbra is hozzáférjenek jó minőségű, ember által generált adatokhoz. Az OpenAI például több millió dollárt költött arra, hogy partnerségeket alakítson ki olyan kiadókkal, mint a News Corp. és az Axel Springer SE, hogy licencelni tudják a tartalmaikat a modelljeik képzéséhez. Az azonban valószínű, hogy ezek az adatok önmagukban nem lesznek elegendők a technológiai cégek igényeinek kielégítésére.
Mindez nemcsak technikai kihívásokat jelent, hanem alapvető kérdéseket vet fel a mesterséges intelligencia jövőjével kapcsolatban is: ha egyre több lesz a pontatlanság, az MI-rendszerek megbízhatósága és relevanciája is komoly veszélybe kerülhet.
Borítókép: Dreamstime
Kapcsolódó: