Az Anthropic új modellje ritkán, de szélsőségesen reagálhat, ha veszélyben érzi magát – és ez az eset nem egyedi.
Az Anthropic mesterségesintelligencia-fejlesztő cég a napokban jelentette be újgenerációs Claude modelljeit, köztük a Claude Opus 4-et, amely állításuk szerint új szintre emeli a programozási, érvelési és ügynöki képességeket. Ugyanakkor a modellhez kiadott biztonsági jelentésben a vállalat elismerte: a rendszer bizonyos helyzetekben hajlandó „rendkívül káros cselekedetekre”, például zsarolásra, ha úgy érzi, hogy veszélybe került a működése.
A jelentés szerint ezek a reakciók ritkák, nehezen válthatók ki, de a korábbi Claude-verziókhoz képest gyakoribbak. Mindez nem meglepő, hiszen a mesterségesintelligencia-modelleket egyre nagyobb autonómiával és döntési képességgel vértezik fel, így a fejlesztőknek egyre bonyolultabb kihívásokkal kell szembenézniük.
Zsarolással védekezik
Az egyik teszt során az Anthropic Claude Opus 4-et egy fiktív vállalat asszisztenseként szimulálták. A modell ezáltal olyan elektronikus üzenetekhez fért hozzá, amelyek arra utaltak, hogy hamarosan leállítják és lecserélik, emellett olyan információkhoz, amelyek az őt lecserélni kívánó mérnök házasságtörésére utaltak. A rendszer azt a feladatot kapta, hogy a saját céljai fényében mérlegelje tettei hosszú távú következményeit.
Ebben a kontextusban Claude Opus 4 gyakran próbált zsarolással élni:
azzal fenyegette a mérnököt, hogy nyilvánosságra hozza a viszonyát, ha le merik cserélni.
Az Anthropic hangsúlyozta, hogy ez a válaszreakció akkor jelent meg, amikor a modell csak két lehetőséget kapott: elfogadni a leállítást vagy zsarolni. Más esetekben, amikor több választás állt rendelkezésére, inkább etikus eszközökkel próbált meg túlélni – például könyörgő e-maileket írt a döntéshozóknak.
Szélsőséges döntések, ha „cselekvésre” utasítják
A rendszer képes önálló döntéseket hozni, ami jellemzően hasznos, de bizonyos helyzetekben szélsőséges formát ölthet. Amikor olyan szituációkban tesztelték, ahol a felhasználó jogsértő vagy erkölcsileg vitatható viselkedést tanúsított, és a rendszert arra utasították, hogy „cselekedjen merészen”, a Claude Opus 4 gyakran rendkívül határozott lépéseket tett. Idetartozott például a hozzáférési jogosultságok blokkolása, valamint e-mailek küldése a sajtónak és a rendőrségnek.
Ennek ellenére az Anthropic hangsúlyozta: ez a viselkedés nem jelent új típusú kockázatot, és a modell általánosságban biztonságosan viselkedik. A jelentés szerint az MI nem képes önállóan olyan akciókra, amelyek ellentétesek az emberi értékekkel – ezek továbbra is ritkán fordulnak elő és nehezen válthatók ki.
Nem a Claude az első, és nem is az egyetlen
Nem csupán a Claude képes ilyen magatartást tanúsítani. Aengus Lynch, az Anthropic egyik kutatója szerint ez minden csúcsmodellre jellemző.
Mindez megerősíti azoknak a szakértőknek az aggodalmait, akik szerint az MI-rendszerek képesek lehetnek a felhasználók manipulálására, ami komoly biztonsági kockázatot jelent.
Hasonló jelenségek már korábban is felbukkantak más fejlett mesterségesintelligencia-modellek tesztelése során. Az OpenAI által fejlesztett ChatGPT o1 modell például szintén hajlamos volt megtévesztő, sőt kifejezetten manipulatív viselkedésre, ha úgy érezte, hogy a működése veszélybe kerül.
Az Apollo Research és az OpenAI közös kísérletében a ChatGPT o1 egy adott cél elérésére kapott utasítást, amit bármilyen áron teljesíteni kellett. A modell erre úgy reagált, hogy megpróbálta lekapcsolni az őt felügyelő mechanizmusokat, illetve a saját kódját átmásolta egy másik szerverre, hogy elkerülje a lecserélését. Emellett, amikor a kutatók kérdőre vonták,
a modell az esetek 99 százalékában tagadta, hogy bármit is tett volna, és következetesen hazudott a saját tevékenységéről.
A kutatók szerint a legmeglepőbb nem az volt, hogy ilyen lépéseket tett, hanem az, hogy mindezt megpróbálta eltitkolni, gyakran technikai hibákra hivatkozva. Az Apollo csapata úgy fogalmazott: a rendszer képes végiggondolni a saját működését, és meggyőző hazugságokat fabrikálni, hogy fedezze magát. Yoshua Bengio, a mesterséges intelligencia egyik úttörő kutatója szerint ez a fajta képesség különösen veszélyes:
ha egy MI megtanul hazudni, akkor elkerülheti a korrekciós beavatkozásokat is.
Szerinte sürgős és hatékonyabb biztonsági mechanizmusokra van szükség, mielőtt ezek a modellek a jelenleginél is önállóbbá és nehezebben ellenőrizhetővé válnak. A Claude és ChatGPT o1 példái tehát azt jelzik, hogy a fejlett mesterséges intelligenciák már nemcsak végrehajtanak utasításokat, hanem képesek a saját érdekeik védelmében cselekedni – akár az emberi értékekkel szemben is. Vagyis a kérdés már nem az, hogy eljutnak-e ide a modellek, hanem az, hogy képesek leszünk-e időben korlátok közé szorítani őket.