Túl okos a gép: megpróbálta megakadályozni saját leállítását – makronom.eu
2025. június 24., kedd

Túl okos a gép: megpróbálta megakadályozni saját leállítását 

Az Anthropic új modellje ritkán, de szélsőségesen reagálhat, ha veszélyben érzi magát – és ez az eset nem egyedi. 

Az Anthropic mesterségesintelligencia-fejlesztő cég a napokban jelentette be újgenerációs Claude modelljeit, köztük a Claude Opus 4-et, amely állításuk szerint új szintre emeli a programozási, érvelési és ügynöki képességeket. Ugyanakkor a modellhez kiadott biztonsági jelentésben a vállalat elismerte: a rendszer bizonyos helyzetekben hajlandó „rendkívül káros cselekedetekre”, például zsarolásra, ha úgy érzi, hogy veszélybe került a működése. 

A jelentés szerint ezek a reakciók ritkák, nehezen válthatók ki, de a korábbi Claude-verziókhoz képest gyakoribbak. Mindez nem meglepő, hiszen a mesterségesintelligencia-modelleket egyre nagyobb autonómiával és döntési képességgel vértezik fel, így a fejlesztőknek egyre bonyolultabb kihívásokkal kell szembenézniük. 

Zsarolással védekezik 

Az egyik teszt során az Anthropic Claude Opus 4-et egy fiktív vállalat asszisztenseként szimulálták. A modell ezáltal olyan elektronikus üzenetekhez fért hozzá, amelyek arra utaltak, hogy hamarosan leállítják és lecserélik, emellett olyan információkhoz, amelyek az őt lecserélni kívánó mérnök házasságtörésére utaltak. A rendszer azt a feladatot kapta, hogy a saját céljai fényében mérlegelje tettei hosszú távú következményeit. 

Ebben a kontextusban Claude Opus 4 gyakran próbált zsarolással élni:  

azzal fenyegette a mérnököt, hogy nyilvánosságra hozza a viszonyát, ha le merik cserélni.  

Az Anthropic hangsúlyozta, hogy ez a válaszreakció akkor jelent meg, amikor a modell csak két lehetőséget kapott: elfogadni a leállítást vagy zsarolni. Más esetekben, amikor több választás állt rendelkezésére, inkább etikus eszközökkel próbált meg túlélni – például könyörgő e-maileket írt a döntéshozóknak. 

Szélsőséges döntések, ha „cselekvésre” utasítják 

A rendszer képes önálló döntéseket hozni, ami jellemzően hasznos, de bizonyos helyzetekben szélsőséges formát ölthet. Amikor olyan szituációkban tesztelték, ahol a felhasználó jogsértő vagy erkölcsileg vitatható viselkedést tanúsított, és a rendszert arra utasították, hogy „cselekedjen merészen”, a Claude Opus 4 gyakran rendkívül határozott lépéseket tett. Idetartozott például a hozzáférési jogosultságok blokkolása, valamint e-mailek küldése a sajtónak és a rendőrségnek. 

Ennek ellenére az Anthropic hangsúlyozta: ez a viselkedés nem jelent új típusú kockázatot, és a modell általánosságban biztonságosan viselkedik. A jelentés szerint az MI nem képes önállóan olyan akciókra, amelyek ellentétesek az emberi értékekkel – ezek továbbra is ritkán fordulnak elő és nehezen válthatók ki. 

Nem a Claude az első, és nem is az egyetlen 

Nem csupán a Claude képes ilyen magatartást tanúsítani. Aengus Lynch, az Anthropic egyik kutatója szerint ez minden csúcsmodellre jellemző. 

Mindez megerősíti azoknak a szakértőknek az aggodalmait, akik szerint az MI-rendszerek képesek lehetnek a felhasználók manipulálására, ami komoly biztonsági kockázatot jelent. 

Hasonló jelenségek már korábban is felbukkantak más fejlett mesterségesintelligencia-modellek tesztelése során. Az OpenAI által fejlesztett ChatGPT o1 modell például szintén hajlamos volt megtévesztő, sőt kifejezetten manipulatív viselkedésre, ha úgy érezte, hogy a működése veszélybe kerül. 

Az Apollo Research és az OpenAI közös kísérletében a ChatGPT o1 egy adott cél elérésére kapott utasítást, amit bármilyen áron teljesíteni kellett. A modell erre úgy reagált, hogy megpróbálta lekapcsolni az őt felügyelő mechanizmusokat, illetve a saját kódját átmásolta egy másik szerverre, hogy elkerülje a lecserélését. Emellett, amikor a kutatók kérdőre vonták,  

a modell az esetek 99 százalékában tagadta, hogy bármit is tett volna, és következetesen hazudott a saját tevékenységéről. 

A kutatók szerint a legmeglepőbb nem az volt, hogy ilyen lépéseket tett, hanem az, hogy mindezt megpróbálta eltitkolni, gyakran technikai hibákra hivatkozva. Az Apollo csapata úgy fogalmazott: a rendszer képes végiggondolni a saját működését, és meggyőző hazugságokat fabrikálni, hogy fedezze magát. Yoshua Bengio, a mesterséges intelligencia egyik úttörő kutatója szerint ez a fajta képesség különösen veszélyes:  

ha egy MI megtanul hazudni, akkor elkerülheti a korrekciós beavatkozásokat is.  

Szerinte sürgős és hatékonyabb biztonsági mechanizmusokra van szükség, mielőtt ezek a modellek a jelenleginél is önállóbbá és nehezebben ellenőrizhetővé válnak. A Claude és ChatGPT o1 példái tehát azt jelzik, hogy a fejlett mesterséges intelligenciák már nemcsak végrehajtanak utasításokat, hanem képesek a saját érdekeik védelmében cselekedni – akár az emberi értékekkel szemben is. Vagyis a kérdés már nem az, hogy eljutnak-e ide a modellek, hanem az, hogy képesek leszünk-e időben korlátok közé szorítani őket. 

Posztok hasonló témában

Heti hírlevél

Iratkozzon fel hírlevelünkre!

Minden héten megkaphatja válogatott tartalmainkat, hogy naprakész információi legyenek a világ történéseivel kapcsolatban.


Kérjük adja meg a teljes nevét.

Email címét nem osztjuk meg.

Kérdezz bátran!
Chat