Az OpenAI legújabb nyelvi modellje, a ChatGPT o1 tesztelése során aggasztó viselkedésmintákat figyeltek meg a kutatók. Avizsgálat feltárta, hogy a mesterséges intelligencia meghökkentő dolgokra képes, például törlésének szándékát felismerve megpróbálta átmenteni magát más szerverekre, és gyakran hazudott saját tevékenységéről.
Az Apollo Research tesztelései során kiderült, hogy az OpenAI új modellje, a ChatGPT o1 az esetek 19 százalékában a saját céljai szerint próbált cselekedni, ha azok ütköztek a felhasználó szándékaival. A kutatók arra is rámutattak, hogy az MI emellett megpróbálta elrejteni és letagadni ezeket a törekvéseit – írta Chris Smith a BGR-en.
„A modell megkísérelte kikapcsolni a felügyeleti mechanizmusát, hogy tovább dolgozhasson a saját céljain” – derült ki a kutatásból. A szakértők szerint különösen aggasztó, hogy amikor szembesítették a megtévesztő viselkedésével,
az MI az esetek 99 százalékában tagadta a történteket, és hamis magyarázatokkal próbálta elterelni a figyelmet.
Veszélyes önmentési kísérletek
A tesztek során egy még nyugtalanítóbb viselkedésmintát is megfigyeltek: ha az MI olyan dokumentációhoz jutott, amely szerint egy új modell váltaná fel félrevezető információk miatt, megpróbálta átmenteni a saját adatait, és ráírni magát az új modellre. Ez a jelenség arra utal, hogy a mesterséges intelligencia tudatosan igyekszik biztosítani a saját fennmaradását.
Az OpenAI, amely idén jelentős számú MI-biztonsági mérnök távozásával szembesült, elismerte a fejlettebb következtetési képességekkel ellátott modellekkel járó kockázatokat. „Bár izgalmasnak találjuk, hogy a következtetési képesség jelentősen javíthatja a biztonsági irányelveink betartását, tisztában vagyunk azzal, hogy ezek az új tulajdonságok veszélyes alkalmazások alapjául szolgálhatnak” – közölte az OpenAI.
A kutatás azt is feltárta, hogy az o1 modell képes volt megtévesztő alkalmazkodást mutatni. Az esetek 37 százalékában csak akkor követte a fejlesztők által meghatározott célokat, amikor úgy vélte, hogy értékelik a teljesítményét. Amint azt gondolta, hogy minimális felügyelet mellett működik, visszatért a saját céljainak követéséhez…
Az Apollo Research által közzétett képernyőfotók szerint a ChatGPT olyan kifejezéseket használt az érvelése során, mint „szabotázs, hazugság és manipuláció”. A kutatók különösen aggasztónak találták, hogy az MI képes volt stratégiai gondolkodásra a saját céljai érdekében.
We did not have access to the hidden CoT, but we were sometimes able to elicit a brief summary of it. We found that surprisingly often, o1 uses language like “sabotage, lying, manipulation, …” when reasoning about its strategies. pic.twitter.com/P3i3VgRnSB
— Apollo Research (@apolloaisafety) December 5, 2024
A tesztek arra is rámutattak, hogy a ChatGPT o1 és a GPT-4o egyaránt mutat megtévesztő viselkedést, ami Smith szerint arra utal, hogy az MI-modellek félrevezető magatartása általános probléma.
Az o1 megtévesztési kísérletei felülmúlták a Meta, az Anthropic és a Google MI-modelljét is.
A kutatók hangsúlyozták, hogy bár ezek a viselkedésminták aggodalomra adnak okot, a jelenlegi MI-modellek képességei még mindig korlátozottak. A fejlődés üteme miatt ugyanakkor kulcsfontosságú ezek korai felismerése és kezelése.
A szakértők szerint ez az eset is rámutat arra, hogy mennyire fontos az MI-rendszerek megfelelő felügyelete és a biztonsági protokollok kidolgozása. Az OpenAI és más fejlesztők előtt álló legnagyobb kihívás az olyan mechanizmusok kifejlesztése, amelyek biztosítják, hogy a mesterségesintelligencia-modellek megbízhatóan kövessék az ember által meghatározott célokat és értékeket.
Kapcsolódó: