Amennyire mi függünk a technológiától, a technológia annyira függ tőlünk… Egyelőre.
A nagy nyelvi modellek nem mindig állítanak valósat: gyakran találnak ki nem létező történelmi eseményeket vagy személyeket. Erre még a ChatGPT is figyelmeztet az online felületén. Bár önmagában elnézhető egy-két baki, a kutatók felhívták a figyelmet arra, hogy hosszú távon sok problémát okozhat egy-egy helytelen válasz. Az Epoch AI nevű kutatócég becslése szerint 2028-ra kifogyunk az adatokból. Ez azt jelenti, hogy már nem lesz olyan adat a világon, amit ne használtak volna fel nagy nyelvi modell képzésére. A nagy nyelvi modellek (LLM-ek) képzésénél fontos, hogy minél több minőségi adattal legyenek kiképezve, hiszen azok közvetlen hatással vannak a modellek teljesítményére és alkalmazhatóságára.
A nyelv hihetetlenül komplex és változatos, tele van különféle kifejezésekkel, szlenggel, dialektusokkal és kulturális utalásokkal. A nagy nyelvi modellek, mint például a GPT-4, akkor tudják igazán jól megérteni és kezelni ezt a sokszínűséget, ha hatalmas mennyiségű adaton képezték ki őket. Minél több és változatosabb adatot használnak, a modell annál jobban tud alkalmazkodni a különböző nyelvi formákhoz.
Ez a sokszínűség nemcsak a különböző nyelvekre terjed ki, hanem a nyelvhasználat különböző formáira is, mint például a hivatalos és informális beszéd, az írott és beszélt nyelv, valamint a különböző szakterületek szókincse és stilisztikája. Egy modell, amelyet széles körű adathalmazon képeztek ki, képes az ilyen eltérések kezelésére, ami lehetővé teszi, hogy a felhasználók széles spektrumát szolgálja ki pontosan és megbízhatóan.
A nagy mennyiségű adaton képzett modellek pontosabb válaszokat generálhatnak, mivel több példát láttak már különböző nyelvi struktúrákra és kontextusokra. Emellett jobbak a releváns információk kiszűrésében. Ez növeli a megbízhatóságukat, hiszen képesek lesznek az irreleváns vagy pontatlan információk kiszűrésére, amelyek félrevezethetik a felhasználókat.
Na de mi lesz, ha elfogynak az adatok? Az MI-modellek akkor a saját maguk által generált adatokra fognak támaszkodni. Ezek a szintetikus adatok tartalmazhatnak valótlanságokat is, és ha ezen tanítunk, még nagyobb a valószínűsége a hibázásnak. Ez pedig olyan, mint egy lavina: az egyre hibásabb modellek egyre több problémás adatot generálnak, ami minőségi romlást eredményez a következő generációs MI esetében, így az még több rossz választ generál majd és így tovább.
Ilia Shumailov, a tanulmány vezető szerzője szerint a generatív mesterséges intelligencia fejlődési üteme valószínűleg lelassul, mivel egyre kevesebb jó minőségű adat áll rendelkezésre. A Financial Times (FT) hozzátette, így számítani lehet arra, hogy az adatok még többet fognak érni, mint eddig. Amikor pedig elfogynak, a mesterséges intelligencia kutatóinak sokkal több időt és pénzt kell majd fordítaniuk a valótlanságok kiszűrésére.
Már léteznek is olyan cégek, amelyek egyebek mellett az adathalmazok tisztítására, azaz a tévedések kiszűrésére specializálódtak. A Hugging Face cég a könnyebben ellenőrizhető kis nyelvi modellekre összpontosít bizonyos területeken, például az orvostudományban. Anton Lozhkov, a társaság gépi tanulási mérnöke szerint bár a kutatók nem szeretik ezt a munkafolyamatot, egy ponton muszáj lesz erre is időt és energiát szánni.
A tévedés minimalizálása a másik út
Tehát a téves adatokat utólag ki lehet szűrni, azonban mi lenne, ha már csírájában fojtanák el a problémát? Számos kísérletet végeztek már az MI tévedésének, azaz szakmai megfogalmazásban hallucinációjának megfékezésére. Nemrég az MIT kutatói létrehoztak MI-csoportokat, és feltettek egy kérdést több mesterséges intelligenciának, amelyek addig vitatkoztak, amíg egyetlen válasz nem győzött.
Más vállalatok, például a Google és a Microsoft is megpróbálják ezeket a generatív MI-ket „intelligensebbé” tenni. Az emberi visszajelzéssel történő megerősítő tanulásnak nevezett technika során az emberi tesztelők saját maguk javítják a robot válaszait, majd ezeket visszatáplálják a rendszerbe, hogy az a későbbiekben sokkal jobb eredményeket produkáljon. Vagyis ez gyakorlatilag egy visszacsatolás.
Egy másik lehetséges megoldás, hogy a chatbotokat tényszerű vagy megbízhatóbb információkat tartalmazó adatbázisokhoz kapcsolják, például tudományos cikkek gyűjteményeihez, illetve többszörösen ellenőrzött dokumentumokhoz. Azonban, mint ahogy azt említettük, ezek a tárházak végesek. Talán az is működőképes lenne, ha a mesterséges intelligencia kevésbé lenne kreatív, és inkább tényszerű válaszokat adna.
Amikor a Google a chatbot-technológiájával keresési eredményeket generál, ezzel párhuzamosan egy normál keresést is végez, majd összehasonlítja, hogy a bot válasza és a hagyományos keresési eredmények egyeznek-e. Ha nem, akkor az MI válasza meg sem jelenik. A vállalat úgy módosította a botját, hogy az kevésbé legyen kreatív, ami azt jelenti, hogy nem túl jó versírásban, de így több esély van arra, hogy nem téved. Azzal, hogy a keresőrobotját a meglévő keresési eredmények megerősítésére korlátozta, a vállalatnak sikerült csökkentenie az MI-hallucinációk és -pontatlanságok számát.
Bár körvonalazódnak a generatív MI-modellek korlátai, az FT szerint ez tovább fokozza a mesterségesintelligencia-forradalmat, hiszen most talán ismét nagyobb hangsúlyt kapnak azok az MI-kutatási területek, amelyek bár ígéretesek, az utóbbi időben elhanyagolták azokat.
A robotikában van a jövő
A generatív mesterséges intelligencia egyes kutatóit különösen izgatják a robotok, valamint az önvezető járművek és az MI kapcsolata terén elért eredmények. Az elmúlt években rengeteget fejődött a robotika. A robotok képesek lépcsőzni, különböző trükkökre és akár dobozokon is átugrálnak. Ezeket ráadásul anélkül hajtják végre, hogy be lennének rá programozva: az új mesterségesintelligencia-modellek segítségével alkalmazkodnak a környezetükhöz.
Korábban a kiképzésükhöz és a programozásukhoz a mérnököknek mindent meg kellett nekik tanítaniuk, az adott környezetre specifikusan. A mélytanulási modellek megjelenése viszont az elmúlt években lehetővé tette, hogy olyan mesterségesintelligencia-szoftvereket képezzenek ki, amelyek segítségével a gépek maguktól tanulnak, így képesek reagálni a környezetükre és alkalmazkodni a változásokhoz.
A Financial Times szerint a legnagyobb változásokat az ipar területén és gyárakban tapasztalhatjuk majd, emellett egyre nagyobb hangsúly helyeződik az emberhez hasonló humanoid robotokra.
Erre az állításra Elon Musk is ráerősített. A Tesla vezérigazgatója azt állította, hogy humanoid robotja már jövőre besegít a gyáraiban. A világ leggazdagabb embere az X nevű platformján tette közzé, hogy reményei szerint 2026-ban már nagyüzemben tervezi gyártani humanoid robotjait.
Hozzátette: célja a humanoid robotok tömeggyártása, és hogy darabonként 20 ezer dollárnál, azaz körülbelül 7,2 millió forintnál kevesebbe kerüljenek. Nem az Optimus az egyetlen Musk-projekt, amelynek csúszik a bevezetése. 2019-ben azt mondta, „nagyon biztos” abban, hogy a Tesla a következő évben már önvezető taxikat állít forgalomba. Az év elején azt állította, hogy a modellt augusztus 8-án mutatják be, de úgy tűnik, hogy ez valószínűleg késik, miután Musk közölte, hogy módosítást kért rajta.
Kapcsolódó: