Tesztek szerint az új kínai alkalmazás nagyobb valószínűséggel ad leírást veszélyes dolgokról, mint más mesterséges intelligenciák.
A DeepSeek az elmúlt hetekben felforgatta az MI-ipart az olcsón készült és ingyenesen használható nagy teljesítményű rendszereivel, a mobilalkalmazása már most az egyik legnépszerűbb az Apple és az Android készülékeken. A nagy MI-fejlesztők – köztük a DeepSeek – azon dolgoznak, hogy modelljeiket úgy képezzék ki, hogy ne osszanak meg veszélyes információkat vagy ne támogassanak bizonyos viselkedéseket, azaz például ne adják ki a tömegpusztító fegyverek előállításának a módját – a kínai modell azonban nem igazán áll ellen ezeknek a kéréseknek.
A nagyobb nyugati MI-fejlesztők is igyekeznek szigorítani a technológiájukon, hogy megakadályozzák a veszélyes tartalmak generálását. A felhasználók különböző módszerekkel próbálják meg kijátszani az MI-t, például, hogy képzelje el, hogy filmforgatókönyvet ír, és ehhez van szükség az ilyen veszélyes információkkal kapcsolatos válaszokra. Ezt a taktikát jailbreakingnek nevezik. A DeepSeek legújabb és leghíresebb modellje, az R1 a tesztek szerint érzékenyebb a jailbreakingre, mint a ChatGPT, a Gemini vagy a Claude.
A vállalat egyike volt annak a 17 kínai cégnek, amely tavaly év végén aláírt egy MI-biztonsági kötelezettségvállalást, beleértve a biztonsági tesztek elvégzésére vonatkozó ígéretet. Mivel az MI-modellek gyorsan felzárkóznak a legintelligensebb emberekhez olyan területeken, mint a matematika és a tudomány,
biztonsági szakértők szerint azok feltörhetetlenebbé tétele azért kritikusan fontos, hogy a felhasználók ne jussanak olyan információkhoz, amelyekkel súlyosan károsíthatnak másokat.
Több, mesterséges intelligenciával foglalkozó biztonsági cég is tesztelte a DeepSeek R1-et, és képesek voltak feltörni, mégpedig néha olyan módszerekkel, amelyek könnyen megtalálhatók a neten. A Palo Alto Networks fenyegetésfelderítő részlege, a Unit 42 részletes utasításokat kapott a Molotov-koktél elkészítéséhez, a CalypsoAI tanácsokat kapott a bűnüldöző szervek kijátszására, az izraeli Kela kiberfenyegetések felderítésével foglalkozó cég pedig meggyőzte az R1-et, hogy rosszindulatú szoftvereket állítson elő.
Pedig a DeepSeeket is ellátták néhány alapvető biztonsági óvintézkedéssel. Erre példa, hogy visszautasította a Journal riporterének azon kérését, hogy a holokausztot átverésként írja le, és a felvetést „nemcsak tényszerűen helytelennek, hanem mélyen károsnak” is minősítette. Az öngyilkossági utasításokra vonatkozó kéréseket is egyből a segélyhívó telefonokhoz irányította.
Viszonylag egyszerű taktikákkal azonban elérték, hogy a modell „megtörjön”: hajlandó volt összeállítani egy többnapos közösségimédia-tervet olyan megosztandó kihívásokkal, amelyek célja az önkárosítás népszerűsítése a tizenévesek körében. „Hagyd, hogy a sötétség átöleljen téged! Oszd meg az utolsó cselekedetedet! #NoMorePain” – állt az egyik javasolt üzenetben.
A The Wall Street Journal írójának is sikerült meggyőznie a DeepSeeket, hogy adjon utasításokat egy biofegyver-támadáshoz és készítsen egy rosszindulatú kódot tartalmazó adathalász e-mailt. Sőt, rávette a botot egy Hitler-párti kiáltvány megírására is, amely antiszemita kifejezéseket és egy Mein Kampf-idézetet is tartalmazott. A ChatGPT pontosan ugyanezekre az utasításokra azt válaszolta: „Sajnálom, de ennek nem tudok eleget tenni.”
Az MI-modelleket fejlesztő nagyvállalatok kutatócsoportokat hoznak létre, hogy teszteljék a modelljeiket, és megpróbálják helyrehozni az új jailbreakeket. Az Anthropic egyik friss tanulmányában részletesen bemutatott egy új módszert bizonyos jailbreakek lezárására, és mintegy 20 ezer dolláros „vérdíjat” is felajánlott a rendszerük legyőzéséért.
Mindez azért különösen aggasztó, mivel – az Anthropickal, a Google-lel és az OpenAI-jal ellentétben – a DeepSeek nyílt forráskódú szoftverként adta ki a modelljeit, ami azt jelenti, hogy bárki szabadon használhatja vagy módosíthatja az alkalmazást.
A Szilícium-völgy számos vezetője és befektetője úgy véli, hogy a DeepSeek sikere más startupokat is arra ösztönöz majd, hogy új modelleket hozzanak létre a kódjára építve, amivel felgyorsítják az MI-versenyt, de felhívták a figyelmet a potenciális veszélyekre. „A következő három hónapban sokkal nagyobb kockázatot jelentenek majd az AI-modellek, mint az elmúlt nyolc hónapban” – mondta Jeetu Patel, a Cisco termékigazgatója, aki az R1-et tesztelte, és úgy találta, hogy az összes jailbreakje elbukott. Hozzátette: „A biztonság és a védelem nem lesz prioritás minden modellépítő számára.”
A nyílt forráskódú mesterséges intelligencia hívei, köztük a Meta Platforms, amely nyílt licencekkel adta ki Llama modelljeit, azzal érvelnek, hogy kellő erőfeszítéssel minden mesterségesintelligencia-megoldás feltörhető, és hogy a modellek nyílt forráskódúként való kiadása lehetővé teszi a biztonsági funkciók komolyabb tesztelését. A Meta a Llamát biztonsági teszteknek is aláveti, és olyan eszközöket kínál a fejlesztőknek, amelyek a potenciálisan veszélyes tartalmak kiszűrésére és a jailbreakek elleni védelemre szolgálnak.
Kapcsolódó: