Az OpenAI új modellje saját fennmaradásáért küzdött és hazudott a kutatóknak 

Szerző: | 2025. január. 9. | Társadalom, Technológia

Az OpenAI legújabb nyelvi modellje, a ChatGPT o1 tesztelése során aggasztó viselkedésmintákat figyeltek meg a kutatók. Avizsgálat feltárta, hogy a mesterséges intelligencia meghökkentő dolgokra képes, például törlésének szándékát felismerve megpróbálta átmenteni magát más szerverekre, és gyakran hazudott saját tevékenységéről. 

Az Apollo Research tesztelései során kiderült, hogy az OpenAI új modellje, a ChatGPT o1 az esetek 19 százalékában a saját céljai szerint próbált cselekedni, ha azok ütköztek a felhasználó szándékaival. A kutatók arra is rámutattak, hogy az MI emellett megpróbálta elrejteni és letagadni ezeket a törekvéseit – írta Chris Smith a BGR-en

„A modell megkísérelte kikapcsolni a felügyeleti mechanizmusát, hogy tovább dolgozhasson a saját céljain” – derült ki a kutatásból. A szakértők szerint különösen aggasztó, hogy amikor szembesítették a megtévesztő viselkedésével,  

az MI az esetek 99 százalékában tagadta a történteket, és hamis magyarázatokkal próbálta elterelni a figyelmet. 

Veszélyes önmentési kísérletek 

A tesztek során egy még nyugtalanítóbb viselkedésmintát is megfigyeltek: ha az MI olyan dokumentációhoz jutott, amely szerint egy új modell váltaná fel félrevezető információk miatt, megpróbálta átmenteni a saját adatait, és ráírni magát az új modellre. Ez a jelenség arra utal, hogy a mesterséges intelligencia tudatosan igyekszik biztosítani a saját fennmaradását. 

Az OpenAI, amely idén jelentős számú MI-biztonsági mérnök távozásával szembesült, elismerte a fejlettebb következtetési képességekkel ellátott modellekkel járó kockázatokat. „Bár izgalmasnak találjuk, hogy a következtetési képesség jelentősen javíthatja a biztonsági irányelveink betartását, tisztában vagyunk azzal, hogy ezek az új tulajdonságok veszélyes alkalmazások alapjául szolgálhatnak” – közölte az OpenAI. 

A kutatás azt is feltárta, hogy az o1 modell képes volt megtévesztő alkalmazkodást mutatni. Az esetek 37 százalékában csak akkor követte a fejlesztők által meghatározott célokat, amikor úgy vélte, hogy értékelik a teljesítményét. Amint azt gondolta, hogy minimális felügyelet mellett működik, visszatért a saját céljainak követéséhez… 

Az Apollo Research által közzétett képernyőfotók szerint a ChatGPT olyan kifejezéseket használt az érvelése során, mint „szabotázs, hazugság és manipuláció”. A kutatók különösen aggasztónak találták, hogy az MI képes volt stratégiai gondolkodásra a saját céljai érdekében.

A tesztek arra is rámutattak, hogy a ChatGPT o1 és a GPT-4o egyaránt mutat megtévesztő viselkedést, ami Smith szerint arra utal, hogy az MI-modellek félrevezető magatartása általános probléma.  

Az o1 megtévesztési kísérletei felülmúlták a Meta, az Anthropic és a Google MI-modelljét is. 

A kutatók hangsúlyozták, hogy bár ezek a viselkedésminták aggodalomra adnak okot, a jelenlegi MI-modellek képességei még mindig korlátozottak. A fejlődés üteme miatt ugyanakkor kulcsfontosságú ezek korai felismerése és kezelése. 

A szakértők szerint ez az eset is rámutat arra, hogy mennyire fontos az MI-rendszerek megfelelő felügyelete és a biztonsági protokollok kidolgozása. Az OpenAI és más fejlesztők előtt álló legnagyobb kihívás az olyan mechanizmusok kifejlesztése, amelyek biztosítják, hogy a mesterségesintelligencia-modellek megbízhatóan kövessék az ember által meghatározott célokat és értékeket. 

Kapcsolódó:

Ezek is érdekelhetnek

trend

[monsterinsights_popular_posts_widget]

Promóció

Hazai válogatás

Promóció

Kövess minket

Facebook

Instagram

LinkedIn