Mi lesz, ha elfogynak az adatok? 

Szerző: | 2024. augusztus. 6. | Technológia

Amennyire mi függünk a technológiától, a technológia annyira függ tőlünk… Egyelőre. 

A nagy nyelvi modellek nem mindig állítanak valósat: gyakran találnak ki nem létező történelmi eseményeket vagy személyeket. Erre még a ChatGPT is figyelmeztet az online felületén. Bár önmagában elnézhető egy-két baki, a kutatók felhívták a figyelmet arra, hogy hosszú távon sok problémát okozhat egy-egy helytelen válasz. Az Epoch AI nevű kutatócég becslése szerint 2028-ra kifogyunk az adatokból. Ez azt jelenti, hogy már nem lesz olyan adat a világon, amit ne használtak volna fel nagy nyelvi modell képzésére. A nagy nyelvi modellek (LLM-ek) képzésénél fontos, hogy minél több minőségi adattal legyenek kiképezve, hiszen azok közvetlen hatással vannak a modellek teljesítményére és alkalmazhatóságára. 

A nyelv hihetetlenül komplex és változatos, tele van különféle kifejezésekkel, szlenggel, dialektusokkal és kulturális utalásokkal. A nagy nyelvi modellek, mint például a GPT-4, akkor tudják igazán jól megérteni és kezelni ezt a sokszínűséget, ha hatalmas mennyiségű adaton képezték ki őket. Minél több és változatosabb adatot használnak, a modell annál jobban tud alkalmazkodni a különböző nyelvi formákhoz. 

Ez a sokszínűség nemcsak a különböző nyelvekre terjed ki, hanem a nyelvhasználat különböző formáira is, mint például a hivatalos és informális beszéd, az írott és beszélt nyelv, valamint a különböző szakterületek szókincse és stilisztikája. Egy modell, amelyet széles körű adathalmazon képeztek ki, képes az ilyen eltérések kezelésére, ami lehetővé teszi, hogy a felhasználók széles spektrumát szolgálja ki pontosan és megbízhatóan. 

A nagy mennyiségű adaton képzett modellek pontosabb válaszokat generálhatnak, mivel több példát láttak már különböző nyelvi struktúrákra és kontextusokra. Emellett jobbak a releváns információk kiszűrésében. Ez növeli a megbízhatóságukat, hiszen képesek lesznek az irreleváns vagy pontatlan információk kiszűrésére, amelyek félrevezethetik a felhasználókat. 

Na de mi lesz, ha elfogynak az adatok? Az MI-modellek akkor a saját maguk által generált adatokra fognak támaszkodni. Ezek a szintetikus adatok tartalmazhatnak valótlanságokat is, és ha ezen tanítunk, még nagyobb a valószínűsége a hibázásnak. Ez pedig olyan, mint egy lavina: az egyre hibásabb modellek egyre több problémás adatot generálnak, ami minőségi romlást eredményez a következő generációs MI esetében, így az még több rossz választ generál majd és így tovább.  

Ilia Shumailov, a tanulmány vezető szerzője szerint a generatív mesterséges intelligencia fejlődési üteme valószínűleg lelassul, mivel egyre kevesebb jó minőségű adat áll rendelkezésre. A Financial Times (FT) hozzátette, így számítani lehet arra, hogy az adatok még többet fognak érni, mint eddig. Amikor pedig elfogynak, a mesterséges intelligencia kutatóinak sokkal több időt és pénzt kell majd fordítaniuk a valótlanságok kiszűrésére.  

Már léteznek is olyan cégek, amelyek egyebek mellett az adathalmazok tisztítására, azaz a tévedések kiszűrésére specializálódtak. A Hugging Face cég a könnyebben ellenőrizhető kis nyelvi modellekre összpontosít bizonyos területeken, például az orvostudományban. Anton Lozhkov, a társaság gépi tanulási mérnöke szerint bár a kutatók nem szeretik ezt a munkafolyamatot, egy ponton muszáj lesz erre is időt és energiát szánni.  

A tévedés minimalizálása a másik út 

Tehát a téves adatokat utólag ki lehet szűrni, azonban mi lenne, ha már csírájában fojtanák el a problémát? Számos kísérletet végeztek már az MI tévedésének, azaz szakmai megfogalmazásban hallucinációjának megfékezésére. Nemrég az MIT kutatói létrehoztak MI-csoportokat, és feltettek egy kérdést több mesterséges intelligenciának, amelyek addig vitatkoztak, amíg egyetlen válasz nem győzött.  

Más vállalatok, például a Google és a Microsoft is megpróbálják ezeket a generatív MI-ket „intelligensebbé” tenni. Az emberi visszajelzéssel történő megerősítő tanulásnak nevezett technika során az emberi tesztelők saját maguk javítják a robot válaszait, majd ezeket visszatáplálják a rendszerbe, hogy az a későbbiekben sokkal jobb eredményeket produkáljon. Vagyis ez gyakorlatilag egy visszacsatolás.   

Egy másik lehetséges megoldás, hogy a chatbotokat tényszerű vagy megbízhatóbb információkat tartalmazó adatbázisokhoz kapcsolják, például tudományos cikkek gyűjteményeihez, illetve többszörösen ellenőrzött dokumentumokhoz. Azonban, mint ahogy azt említettük, ezek a tárházak végesek. Talán az is működőképes lenne, ha a mesterséges intelligencia kevésbé lenne kreatív, és inkább tényszerű válaszokat adna.  

Amikor a Google a chatbot-technológiájával keresési eredményeket generál, ezzel párhuzamosan egy normál keresést is végez, majd összehasonlítja, hogy a bot válasza és a hagyományos keresési eredmények egyeznek-e. Ha nem, akkor az MI válasza meg sem jelenik. A vállalat úgy módosította a botját, hogy az kevésbé legyen kreatív, ami azt jelenti, hogy nem túl jó versírásban, de így több esély van arra, hogy nem téved. Azzal, hogy a keresőrobotját a meglévő keresési eredmények megerősítésére korlátozta, a vállalatnak sikerült csökkentenie az MI-hallucinációk és -pontatlanságok számát. 

Bár körvonalazódnak a generatív MI-modellek korlátai, az FT szerint ez tovább fokozza a mesterségesintelligencia-forradalmat, hiszen most talán ismét nagyobb hangsúlyt kapnak azok az MI-kutatási területek, amelyek bár ígéretesek, az utóbbi időben elhanyagolták azokat.  

A robotikában van a jövő 

A generatív mesterséges intelligencia egyes kutatóit különösen izgatják a robotok, valamint az önvezető járművek és az MI kapcsolata terén elért eredmények. Az elmúlt években rengeteget fejődött a robotika. A robotok képesek lépcsőzni, különböző trükkökre és akár dobozokon is átugrálnak. Ezeket ráadásul anélkül hajtják végre, hogy be lennének rá programozva: az új mesterségesintelligencia-modellek segítségével alkalmazkodnak a környezetükhöz. 

Korábban a kiképzésükhöz és a programozásukhoz a mérnököknek mindent meg kellett nekik tanítaniuk, az adott környezetre specifikusan. A mélytanulási modellek megjelenése viszont az elmúlt években lehetővé tette, hogy olyan mesterségesintelligencia-szoftvereket képezzenek ki, amelyek segítségével a gépek maguktól tanulnak, így képesek reagálni a környezetükre és alkalmazkodni a változásokhoz.   

A Financial Times szerint a legnagyobb változásokat az ipar területén és gyárakban tapasztalhatjuk majd, emellett egyre nagyobb hangsúly helyeződik az emberhez hasonló humanoid robotokra. 

Erre az állításra Elon Musk is ráerősített. A Tesla vezérigazgatója azt állította, hogy humanoid robotja már jövőre besegít a gyáraiban. A világ leggazdagabb embere az X nevű platformján tette közzé, hogy reményei szerint 2026-ban már nagyüzemben tervezi gyártani humanoid robotjait. 

Hozzátette: célja a humanoid robotok tömeggyártása, és hogy darabonként 20 ezer dollárnál, azaz körülbelül 7,2 millió forintnál kevesebbe kerüljenek. Nem az Optimus az egyetlen Musk-projekt, amelynek csúszik a bevezetése. 2019-ben azt mondta, „nagyon biztos” abban, hogy a Tesla a következő évben már önvezető taxikat állít forgalomba. Az év elején azt állította, hogy a modellt augusztus 8-án mutatják be, de úgy tűnik, hogy ez valószínűleg késik, miután Musk közölte, hogy módosítást kért rajta. 

Kapcsolódó:  

Ezek is érdekelhetnek

trend

Promóció

Hazai válogatás

Promóció

Kövess minket

Facebook

Instagram

LinkedIn