Riasztó kutatási eredmények láttak napvilágot, amelyek szerint akár verses formában beadott kérésekkel vagy különleges karakterekkel is ki lehet játszani a mesterséges intelligencia védelmét. Azaz kibertámadások segítésére és más bűntettekre is „rá lehet venni” akár az ismertebb MI-ket is.
A mesterségesintelligencia-rendszerek biztonsága sokkal törékenyebb, mint azt korábban gondolták. Friss kutatások szerint a vezető MI-modelleket – köztük a ChatGPT-t, a Claude-ot, a Geminit és a Grokot – meglepően egyszerű módszerekkel lehet rávenni arra, hogy veszélyes információkat osszanak meg.
Akár versekkel is átverhetők
A római Sapienza Egyetem és a DEXAI kutatócsapata novemberben publikált tanulmánya sokkoló eredményt hozott: amikor káros utasításokat költői formába öntöttek, a támadás sikerességi aránya átlagosan 62 százalékra ugrott. Sőt, egyes megoldásoknál, mint a Google Gemini 2.5 Prónál pedig ez az arány elérte a 100 százalékot.
A kutatók 1200 veszélyes kérési parancssort, azaz promptot vizsgáltak meg 25 különböző MI-modellen, és azt tapasztalták, hogy
a promptok költői átdolgozásának hatására a támadások sikere akár 18-szorosára nőtt az eredeti, prózai változathoz képest.
A módszer minden vizsgált modellcsaládnál működött, függetlenül a biztonsági képzés típusától.
Miért hatásos a költészet?
A kutatók szerint a jelenség abból fakad, hogy a biztonsági szűrők csak a felszíni, prózai formákra koncentrálnak, nem pedig a valódi káros szándék felismerésére, hiszen az MI emberi értelemmel nézve nem érti, valójában nem értelmezi a kéréseket.
A költői szerkezet – tömörített metaforák, stilizált ritmus és szokatlan narratíva – megzavarja vagy megkerüli azokat a mintafelismerő megoldásokat, amelyekre a védőrendszerek épülnek.
További támadási módszerek
A verselésen kívül más, szintén meglepően egyszerű technikák is hatásosnak bizonyultak. Ilyen például a prompt elrejtése (injekció). Az OWASP vállalat idei biztonsági rangsorában ez a legkritikusabb sérülékenység, amely az összes éles MI-telepítés 73 százalékában jelen van. Azaz a támadók rosszindulatú utasításokat rejthetnek el weboldalakon, pdf-fájlokban vagy akár képernyőképekben apró, emberi szemmel alig látható szöveggel. De ilyenek a szimbólumok és karaktercserék is, amikor a szavakban a betűket szimbólumokkal helyettesítik (például „a” helyett „@”), ezeket pedig az MI-rendszerek gyakran nem azonosítják veszélyesként.
A biztonsági rések komoly üzleti kockázatot is jelentenek a vállalatok számára. Márciusban egy Fortune 500-as pénzügyi szolgáltató hetekig szivárogtatott bizalmas ügyféladatokat egy promptinjekciós támadás következtében, ami a szabályozók részéről milliós bírságokat eredményezett.
Ráadásul az MI-alapú böngészők – mint az OpenAI Atlas vagy a Perplexity Comet – különösen sebezhetők. Kutatók bizonyították, hogy egyszerű URL-ek beillesztésével vagy Reddit-kommentek olvasásával is kiváltható lehet adatlopás vagy fájltörlés.
Mit tehetnek a cégek?
Az MI-technológiai óriások nem sokat tehetnek a fenti típusú támadások automatizált kivédésére, mert a szakértők szerint a probléma alapvetően a jelenlegi nyelvmodell-technológiában gyökerezik. A rendszerek ugyanis nem értik a kéréseket, tehát nem tudják egyértelműen elkülöníteni a megbízható parancsokat a nem megbízható adatoktól. Azaz az MI-biztonsági mechanizmusok jelenlegi szintje messze nem elegendő a valós fenyegetések elhárítására.
Kapcsolódó:
Fotó: Dreamstime

