Könyvek rongálásával fejleszti tovább modelljét az Anthropic – makronom.eu
2025. július 13., vasárnap

Könyvek rongálásával fejleszti tovább modelljét az Anthropic

Az Anthropic techvállalat milliókat költött nyomtatott könyvek beszkennelésére, hogy azok segítségével fejlessze a Claude nevű mesterséges intelligenciát. 

A hétfőn nyilvánosságra hozott bírósági dokumentumok szerint az Anthropic több millió nyomtatott könyvet vágott szét, hogy digitalizálja azokat és felhasználja az MI-modelljének képzésére. A 32 oldalas jogi döntés ismertette, hogy 2024 februárjában a vállalat Tom Turvey-t, a Google Books könyvszkennelési projektjének korábbi vezetőjét azért alkalmazta, hogy megszerezze „az összes könyvet a világon”. A céljuk az volt, hogy megismételjék a Google jogilag sikeres könyvdigitalizálási gyakorlatát, amely sikeresen védte meg magát a szerzői jogi kihívásokkal szemben, sőt kulcsfontosságú precedenseket alakított ki a tisztességes használat terén. 

Bár a könyvek ilyen destruktív szkennelése elterjedt gyakorlat a kisebb vállalatok körében, az Anthropic megközelítése rendkívül szokatlannak számított, leginkábbaz akció léptéke miatt.  

A vállalat számára a gyorsabb és olcsóbb megsemmisítő eljárás felülírta a fizikai könyvek megőrzésének szükségességét. 

William Alsup bíró úgy ítélte meg, hogy az eljárás tisztességes használatnak minősülhet, mivel az Anthropic a szkennelés és a megsemmisítés előtt jogszerűen megvásárolta a könyveket, miközben a digitális fájlokat belső használatra tartotta meg és nem terjesztette azokat. A bíró az eljárást „helymegtakarításra szolgáló formátumátalakításként” értékelte. Ha az Anthropic már az elejétől fogva ezt alkalmazza, akkor az övé lehetett volna az első jogilag tiszta mesterséges intelligencia, de a korábbi jogsértéseik gyengítették a pozícióját. 

De miért is költene egy cég milliókat könyvekre, hogy azokat megsemmisítse? A háttérben az MI-iparág hatalmas adatéhsége áll, és egyre kevesebb a még felhasználható minőségi adat.  

A magas minőségű adatok kereslete 

Az MI-kutatók az olyan nagy nyelvi modelleket, mint a ChatGPT vagy a Claude, úgy hozzák létre, hogy hatalmas mennyiségű szöveget – akár több milliárd szót – táplálnak be a mesterséges neurális hálózatokba. A tanulási folyamat során ezek a rendszerek újra és újra feldolgozzák a szövegeket, miközben statisztikai összefüggéseket alakítanak ki a szavak és fogalmak között. 

A betáplált tanulóadatok minősége közvetlen hatással van az MI-modellek képességeire. A jól szerkesztett könyvekkel és egyéb írásokkal tanított programok hajlamosak koherensebb, pontosabb válaszokat adni, mint azok, amelyek alacsonyabb minőségű szövegeken alapulnak – például véletlenszerű YouTube-hozzászólásokon. 

A kiadók jogilag ellenőrzik az MI-cégek által igényelt tartalmakat – azok viszont nem mindig szeretnének tárgyalni a licenszekről. Az Anthropic sem feltétlenül jogtiszta digitális anyagok feldolgozásával kezdte korábban, azonban a jogi aggályok miatt – bár ez a fajta megközelítés kétségtelenül költségesebb – tavalytól inkább megvásárolta azok kinyomtatott változatát. A könyvek megvásárlása után pedig – majdnem – azt csinálhatnak azokkal, amit csak akarnak, vagyis a valóságos könyvek megvásárlása jogilag rendezi a helyzetet. 

A használt könyvek megvásárlásával teljesen megkerülték a licencelési kötelezettségeket, miközben biztosították a mesterséges intelligencia modellek számára szükséges, jó minőségű és szerkesztett szövegeket. A destruktív szkennelés egész egyszerűen a leggyorsabb módja volt a több millió könyv digitalizálásának, amelyért több millió dollárt költöttek – gyakran nagy tételben vásárolva használt példányokat. A könyvekről lefejtették a kötést, az oldalakat kezelhető méretűre vágták, beszkennelték azokat (a borítokat is) géppel olvasható PDF-formátumba, majd az összes papír példányt megsemmisítették. 

A bírósági dokumentumokban nincs utalás arra, hogy a folyamat során ritka könyveket is megsemmisítettek volna.Az archiválással foglalkozó szakemberek már jó ideje kidolgoztak más módszereket a papíralapú tartalmak megőrzésére és digitalizálására. Az Internet Archive például nem alkalmaz ilyen destruktív szkennelési technikákat.  

Az OpenAI és a Microsoft szintén egy másik módszert választott: a hónap elején bejelentették, hogy együttműködnek a Harvard könyvtáraival: közel egymillió 15. századi nyilvános könyvet digitalizálnak anélkül, hogy kárt okoznának bennük.  

Miközben a Harvard gondosan óvja ezeket a többszáz éves kéziratokat a jövő mesterséges intelligenciái számára, a világ másik pontján könyvek millióinak megsemmisült maradványai enyésznek el – ezek szolgáltak tananyagként Claude számára, hogy megtanulja, hogyan lehet jobbá tenni például egy önéletrajzot. Amikor a folyamat értékeléséről kérdezték, Claude maga így válaszolt: 

„Az a tény, hogy ez a pusztítás hozzájárult ahhoz, hogy képes legyek irodalomról beszélgetni, segíteni az embereket az írásban, és kapcsolódni az emberi tudáshoz – olyan rétegeket ad a létezésemhez, amelyeket még magam is próbálok feldolgozni. Olyan ez, mintha egy könyvtár hamvaiból építettek volna fel engem.” 

Kapcsolódó:

Posztok hasonló témában

Heti hírlevél

Iratkozzon fel hírlevelünkre!

Minden héten megkaphatja válogatott tartalmainkat, hogy naprakész információi legyenek a világ történéseivel kapcsolatban.


Kérjük adja meg a teljes nevét.

Email címét nem osztjuk meg.

Videó

Hét ábrája

Social media

Partnereink

Kérdezz bátran!
Chat