A mesterséges intelligencia (MI) képzéséhez rengeteg adatra van szükség. A kutatók szerint az iparág kifogyhat ezekből, és ez lelassíthatja az MI-megoldások, különösen a nagy méretű nyelvi modellek fejlődését, sőt az egész kártyavár borulhat.
A pontos és jó minőségű mesterségesintelligencia-algoritmusok betanításához rengeteg adatra van szükségünk. A ChatGPT-t például 570 gigabájtnyi szöveges adaton, azaz körülbelül 300 milliárd szón képezték ki. Elképzelhetetlen mennyiségekről beszélünk.
Hasonlóképpen a stabil diffúziós algoritmust (amely számos MI-képgeneráló alkalmazás, például a DALL-E, a Lensa és a Midjourney mögött áll) az 5,8 milliárd kép-szöveg párosból álló LIAON-5B-adathalmazon képezték ki. Ha egy algoritmust nem megfelelő mennyiségű adaton edzenek, akkor pontatlan vagy rossz minőségű kimenetet fog produkálni.
Ezek mellett fontos a képzési adatok minősége is. Az alacsony színvonalúak, például a közösségimédia-posztok vagy az elmosódott fényképek könnyen beszerezhetők, de nem megfelelők a nagy teljesítményű mesterségesintelligencia-modellek betanításához.
Sőt, a közösségimédia-platformokról vett szövegek lehetnek elfogultak vagy előítéletesek, tartalmazhatnak dezinformációt vagy illegális tartalmakat, amelyeket a modell lemásolhat. Amikor például a Microsoft a Twitter-tartalmak felhasználásával próbálta betanítani a mesterségesintelligencia-botját, az rasszista és nőgyűlölő módon válaszolt.
Ezért az MI fejlesztői jó minőségű tartalmakat keresnek. A Google Assistantot 11 ezer, a Smashwords oldalról származó romantikus regényen képezték ki, hogy fejlesszék a beszédkészségét.
Van elég adatunk?
A mesterségesintelligencia-ipar egyre nagyobb adathalmazokon képezte ki az MI-rendszereket, ezért vannak ma már olyan nagy teljesítményű modelljeink, mint a ChatGPT vagy a DALL-E 3. Ugyanakkor a kutatások szerint az online adatállományok sokkal lassabban bővülnek, mint ahogy arra szükség lenne.
Egy tavaly megjelent tanulmányban egy kutatócsoport azt jósolta, hogy 2026 előtt kifogyunk a jó minőségű szöveges adatokból, ha a jelenlegi MI-tréningtrendek folytatódnak. Becsléseik szerint az alacsony minőségű nyelvi adatok valamikor 2030 és 2050 között, a szintén silány kategóriába tartozó képi adatok tárháza pedig 2030 és 2060 között merül ki.
A PwC számviteli és tanácsadó csoport szerint a mesterséges intelligencia 2030-ra akár 15,7 billió dollárral járulhat hozzá a világgazdasághoz. Az adathiány azonban lassíthatja a fejlődést.
Aggódnunk kellene?
Bár mindezek riadalmat kelthetnek, a helyzet talán nem olyan rossz, mint amilyennek látszik. Számos, jelenleg még ismeretlen megoldás létezik az MI fejlesztésére, valamint vannak módok arra, hogy miként kezelhetik az adathiány kockázatát. Az egyik lehetőség az, hogy a fejlesztők javítják az algoritmusokat, hogy azok hatékonyabban használják fel a már meglévő adatokat.
Valószínű, hogy az elkövetkező években kevesebb információt és számítási teljesítményt felhasználva is képesek lesznek nagy teljesítményű rendszereket képezni. Ez már csak azért is fontos lenne, mert segítene csökkenteni a mesterséges intelligencia karbonlábnyomát is.
Egy másik lehetőség, hogy az MI-t szintetikus adatok létrehozására használják a rendszerek betanításához. Más szóval, a fejlesztők maguk megteremtik azokat.
Számos projekt már most is használ szintetikus tartalmakat, amelyeket gyakran olyan adatgeneráló szolgáltatásokból szereznek be, mint a Mostly AI. A The Conversation szerint ez a módszer a jövőben egyre elterjedtebbé válhat.
A fejlesztők az ingyenes online téren kívül is keresnek tartalmakat, például a nagy kiadók és más szolgáltatók külső tárhelyein lévőket. Gondoljunk csak az internet előtt megjelentetett szövegek millióira, amelyek digitálisan elérhetővé téve ezek új adatforrást jelenthetnek a mesterségesintelligencia-projektekhez.
A tartalomkészítők tiltakoztak az ellen, hogy a tartalmaikat jogtalanul használják fel mesterségesintelligencia-modellek képzésére, sőt néhányan be is perelték őket. Azonban van remény, mivel a világ egyik legnagyobb híroldal-tulajdonosa, a News Corp nemrégiben közölte, hogy tartalmi megállapodásokról tárgyal MI-fejlesztőkkel. Ezek értelmében az MI-vállalatoknak fizetniük kell a képzési adatokért.
De nem ez a cég az egyetlen. A Financial Times (FT) megállapodást kötött az OpenAI-jal, így a mesterségesintelligencia-modelljeit többek között az említett hírportál archivált cikkein taníthatja be. A megállapodás értelmében az FT licenceli az anyagait a ChatGPT-t feltaláló vállalatnak, hogy segítsen továbbfejleszteni a már eddig is nagy sikerű termékeit.
A neves MI-startuppal az amerikai Associated Press, a német Axel Springer, a francia Le Monde és a spanyol Prisa Media is kötött megállapodást.
Pereskedés szülte a megoldást
Valóban igazán nagyvonalú az OpenAI, hogy fizet a tartalmakért, azonban ezt nem feltétlen jókedvéből teszi, hiszen nem volt ez mindig így. Korábban már pereskedett több alkotóval és vállalattal is emiatt, így valahol kénytelen volt elsimítani a dolgokat.
A The New York Times volt az első nagy amerikai médiacsoport, amely decemberben beperelte az OpenAI-t és a Microsoftot, azzal érvelve, hogy a technológiai vállalatok ingyen használtak fel több millió cikket a ChatGPT alapjául szolgáló modellek létrehozásához. Ezeknek az időknek vége, viszont valószínűleg az OpenAI-nak még így is megéri.