A tudományos világot sajnos már nemcsak a verseny és az innováció hajtja, hanem az egyre szervezettebb csalóhálózatok is. Ezek hamis publikációkkal és a mesterséges intelligencia által generált tartalmakkal árasztják el a szakirodalmat, veszélyeztetve a kutatás hitelességét és a tudományba vetett bizalmat.
A tudományt a közös munka és az együttműködés mellett gyakran a bizonytalanság, a versengés és az egyenlőtlenségek is jellemzik. A Northwestern University kutatása azonban fényt derített rá, hogy a csalás szintén egyre jellemzőbb és átfogóbb lesz a kutatási szférában. Az anyag egy olyan globális hálózatot tárt fel, amely hamis dokumentumokat bocsát ki olyan „szakemberek” számára, akik a publikációs statisztikáikat vagy a hírnevüket szeretnék növelni. Az internet nyújtotta lehetőségek és a nyílt hozzáférésű publikációs tevékenység kiváló terepet biztosít ahhoz, hogy ezek a csalások szervezetten működjenek.
Egy egyre inkább felértékelődő ágazat került veszélybe
Az elmúlt és a mostani évtizedekben a tudomány egyre fontossabbá válik az állam és a társadalom szempontjából. A tudósok ugyanis az adott ország számára hasznos tudás mellett a munkaerő képzéséhez is hozzájárulnak. Mindez meglátszik a társadalmi elismertségükön, a fizetésükön és a karrierútjukon is. Az állami és a tudományos szféra szoros összefonódása a tudomány ágazatainak jelentős növekedéséhez és hatáskörének bővüléséhez vezetett. Egy-egy ország tudományos képességei az adott társadalom és állam fejlettségét, hatékonyságát és innovációs erejét tükrözik, amelyek különösen fontosak a technológiai forradalom korában. Emiatt különböző állami és magánvállalatok is befektetnek egyes kutatásokba vagy egyetemi képzésekbe, hogy a lehető legjobb körülményeket és utánpótlást biztosítsák a legkiválóbb elméik munkájához.
Mindezek fényében különösen aggasztó ez a frissen megjelent tanulmány, amely tudományos publikációkat tömegesen és ipari méretekben hamisító hálózatokra bukkant. A probléma olyannyira elterjedt, hogy
nemsokára több lehet a hamis tudományos publikáció, mint a törvényes.
A tanulmány elkészítéséhez a kutatók a visszavont publikációk, a szerkesztőségi bejegyzések és a képmásolások adathalmazait elemezték. Ezek többsége a tudományos irodalom főbb gyűjteményeiből, a többi mellett a Web of Science (WoS) vagy az OpenAlex adatbázisából származik – utóbbi a Microsoft Academic Graph, a Crossref, az ORCID, az Unpaywall és más intézmények adatait tartalmazza. A szerzők összegyűjtötték a deindexált folyóiratokat is, vagyis azokat a tudományos lapokat, amelyeket azért vontak vissza, mert nem feleltek meg bizonyos minőségi vagy etikai előírásoknak.
Szabályos bűnszervezetek állnak a tudományos csalások hátterében
A hálózatok, amelyek működésére fény derült, szabályos „bűnszervezetek, amelyek több millió dollárt fektetnek az ilyen folyamatokba” – hangsúlyozza Luís A. N. Amaral, a tanulmány egyik szenior szerzője. Elmondása szerint ezek a „papírgyárak” brókerek és folyóiratok bevonásával tevékenykednek, és nagy mennyiségű hamis kéziratot gyártanak le, amiket aztán olyan akadémikusoknak adnak el, akik gyorsan szeretnének publikálni.
Az ilyen hamis publikációk jellemzően alacsony minőségűek – például kitalált adatokat, manipulált vagy lopott képeket, plagizált tartalmakat, gyakran értelmetlen vagy fizikailag lehetetlen állításokat tartalmaznak. A szerzők ráadásul idézeteket is vásárolhatnak.
Ezek a „papírgyárak” különféle módokon működnek, emiatt nehéz pontosan és az általánosságok alapján lekövetni őket. „Csak a felszínt kapargatjuk a működésüket illetően. Gyakran szerzői helyek kelnek el több száz, több ezer dollárért – attól függően, hogy hányadikként tenteik fel az adott nevet. Az emberek azért is fizetnek, hogy az általuk írt cikket automatikusan elfogadja egy folyóirat egy színlelt szakmai bírálati folyamaton” – emelte ki Reese A. K. Richardson, a tanulmány fő szerzője.
A hálózatok stratégiáit vizsgálva a kutatóknak sikerült azonosítani négy gyakran megfigyelt tényezőt:
- a kutatócsoportok összejátszanak, hogy több folyóiratban is publikáljanak – ha a tevékenységükre fény derül, a publikációkat visszavonják;
- a brókerek közvetítőként szolgálnak, hogy lehetővé tegyék a hamis tanulmányok tömeges közzétételét egyes folyóiratokban – ezek gyakran vagy már megszűnt, vagy átvett weboldalak és lapok;
- a csalások meghatározott, érzékeny részterületekre oszlanak;
- a szervezetek kijátsszák a minőség-ellenőrzési intézkedéseket, például az indexből való eltávolítást.
A fő szerep azonban a brókerekre hárul, akik a különböző folyamatokért felelős embereket, a megfelelő lapokat – velük együtt a hamisításra hajlandó szerkesztőket – és a publikációt vásárolni kívánó szerzőket kötik össze.
A publikáció helyének kiválasztásakor a bűnszervezetek néha, megkerülve a hivatalos közeget, inkább már nem működő lapokat keresnek. Ha például egy újság már megszűnt, a hamisítók átveszik annak nevét vagy weboldalát, és azon folytatják a hamis publikációs tevékenységet, miközben fenntartják az eredeti lap hitelességének látszatát.
A probléma megoldásához a szerkesztési folyamatok fokozott ellenőrzésére, a hamisított kutatások hatékonyabb felderítésére, a visszaéléseket elősegítő hálózatok megértésére és a tudományos ösztönzőrendszer radikális átalakítására van szükség.
Fontos mindezt az előtt megtenni, mielőtt a mesterséges intelligencia (MI) a jelenleginél jobban beszivárog a tudományos irodalomba. Egy másik tanulmány rámutatott ugyanis, hogy a 2020 óta megjelent számítástechnikai értekezések 22 százaléka tartalmazhat MI által generált szöveget.
Nem csak a hamisítás, a mesterséges intelligenciával való visszaélés is egyre gyakoribb
Amikor a ChatGPT megjelent, számos tudományos folyóirat – felkészülve arra, hogy fel kell majd tartóztatniuk a részben vagy egészben számítógépes programok által írt dolgozatok áradatát – a generatív MI használatát korlátozó irányelvek kidolgozására törekedett. Ennek ellenére
egyre több olyan tudományos kézirat és szakértői véleményt tartalmazó jelentés bukkant fel, amelyek esetén egyértelműen azonosítani lehetett, hogy nagy nyelvi modellek (LLM) segítségével készültek.
A különösen nyilvánvaló esetekben az adott tanulmány szerzője kimondottan azonosítja magát mint valamelyik LLM, és megbízhatóbb források keresésére ösztönzi az olvasókat.
Amikor egy-egy egyértelműen mesterséges intelligencia által generált publikáció még a többszöri szakértői felülvizsgálatokon és a szerkesztői folyamatokon is átmegy, az aggályokat vet fel a folyóiratok minőség-ellenőrzésével kapcsolatban. Ez azért is veszélyes, mert az LLM-ek arról is híresek, hogy hamis vagy félrevezető információkat „hallucinálnak”, ami további aggályokat vet fel az olyan folyóiratok minőségével kapcsolatban, amelyekben MI-t alkalmazó dokumentumok jelennek meg.
Ahogy a technológia és vele együtt az azt felhasználó szerzők fejlődnek, egyre könnyebb eltűntetni a mesterséges intelligencia nyomait. Egy 2023-as tanulmány például kimutatta, hogy a ChatGPT által generált orvosi folyóiratok kivonatának harmadánál az azt olvasó kutatók nem tudták azonosítani, hogy azokat gép írta. Ráadásul a jelenlegi, MI-felismerő szoftverek szintén megbízhatatlanok.
James Zou, a Stanford Egyetem számítógép-biológusa kollégáival egy olyan LLM-et fejlesztett ki, amely képes felismerni az MI által írt anyagokat egy a technológia által generált szövegek szavaira épülő statisztikai modell alapján. A kutatók 2020 januárja és 2024 szeptembere között több mint 1,12 millió előnyomtatott és folyóiratban publikált cikk kivonatát és bevezetőjét vették górcső alá, és az elemzésük az LLM-módosított tartalmak erőteljes növekedését mutatta ki, mindössze néhány hónappal a ChatGPT 2022. novemberi megjelenése után.
Bizonyos szakterületeken ez sokkal jellemzőbb volt:
a legnagyobb növekedés a számítástechnikai kivonatok esetében volt tapasztalható (22,5 százalék). A második helyen az elektromos mérnöki és a rendszertudományok szakterületei álltak 18, míg a harmadik a statisztika területe volt 12,9 százalékkal.
A legkisebb arányban a matematika köréhez kapcsolódó kivonatok tartalmaztak MI-t, mindössze 7,7 százalékban. Az olyan tudományágak esetében, mint az orvosbiológia és a fizika, az arányok szintén viszonylag alacsonyak voltak, de Zou megjegyzi, hogy az LLM használata minden területen növekszik: „A nagy nyelvi modell egyre inkább a tudományos folyamat szerves részévé válik.”
Bár a kutatás elsősorban a kivonatokat és a bevezetőket vizsgálta, Dmitrij Kobak, a Tübingeni Egyetem adatelemzője attól tart, hogy a szerzők egyre inkább az MI-re támaszkodnak a tudományos cikkek azon részeinek megírásakor, amelyek a kapcsolódó művekre hivatkoznak. Ez pedig azt eredményezheti, hogy ezek egyre jobban hasonlítanak majd egymásra, és a jövőben kialakulhat az az ördögi kör, miszerint az új LLM-eket más LLM-ek által generált tartalmakon képzik ki.
Meg kell menteni a tudományos szférába vetett bizalmat
Az ilyen tendenciák terjedése veszélybe sodorhatja a tudományos kutatás minőségét, mivel a csalások növekvő jelenléte megingathatja a tudományos intézmények hitelességét. A hamis publikációk nemcsak torzítják a tudományos előrehaladást és félrevezetők lehetnek, hanem súlyos társadalmi következményekkel is járhatnak akár a politika, az egészségügy, a környezetvédelem és gazdaság területén. Ráadásul a tudományos szféra bizalomvesztése hosszú távon csökkentheti a kutatásra és az innovációra szánt támogatásokat.
A tudományos közösségnek egyre inkább fel kell készülnie arra, hogy az MI által generált tartalmak felismerésére új, fejlettebb eszközöket alkalmazzon. A csalások elterjedése ugyanis Európa versenyképességét is csökkentheti, illetve károkat okozhat a nemzetközi együttműködésekben és az innovációs rendszerekben.
Fontos, hogy a tudósokat a kutatásaik valódi értéke és eredményei alapján értékeljék, ne pedig a publikációs számaik alapján.
Emellett elsődleges lehet a kutatások átláthatóságának ösztönzése, lehetővé téve az eredmények ellenőrzését.
Kapcsolódó:
Címlapfotó: Dreamstime

