A DeepSeek talán mégsem olyan energiatakarékos, mint mondják – makronom.eu
2025. március 24., hétfő

A DeepSeek talán mégsem olyan energiatakarékos, mint mondják 

Egy kutatás szerint, ha egy MI-modell minden esetben bonyolultan érvel, akkor már nem is olyan energiahatékony, mint amilyennek eredetileg ígérték. 

Amióta ismertté vált a DeepSeek nevű kínai mesterségesintelligencia-modell, számos kritika érte. Egyesek szerint gyűjti a felhasználók személyes adatait, mások úgy vélik, hogy alapjaiban forgathatja fel az általunk ismert MI-technológiát. Mégis, talán a legfontosabb kérdés az, hogy a DeepSeek új, hatékonyabb megközelítése lehetővé teszi-e, hogy a mesterséges intelligencia ne fogyasszon annyi energiát, mint jelenleg. 

A DeepSeek startup azt állítja, hogy már megoldotta a problémát, és egy olyan modellt hozott létre, amely vetekszik az amerikai riválisok, például az OpenAI teljesítményével, ráadásul mindezt a költségek és a szén-dioxid-kibocsátás töredékével teszi. 

Ez azonban az MIT Technology Review elemzője, James O’Donnell szerint megkérdőjelezhető. Az adatok – amelyek a DeepSeek egyik kisebb modelljének kevesebb kérdésre leadott feleletein alapulnak – azt sugallják, hogy a válaszok generálásakor több energiát használhat, mint a Meta hasonló méretű megoldása. Tehát lehetséges, hogy a kiképzése során megtakarított energiát ellensúlyozza az élesben feltett kérdések megválaszolásának összetettebb technikája és az általa előállított hosszú válaszok energiaigénye. 

Ha ehhez hozzávesszük, hogy a DeepSeek megközelítésén felbuzdulva más techcégek is elkezdhetik saját, hasonlóan alacsony költségű következtető modelljeik felépítését, akkor az energiafogyasztás csökkentésének a kilátásai máris sokkal kevésbé tűnnek rózsásnak. Ugyanis minden MI-modell életciklusa két szakaszból áll: a képzésből és a következtetésből. Az előbbi gyakran hónapokig tart, amelynek során adatokból tanul. Ezután készen áll a következtetésre, ami minden alkalommal megtörténik, amikor valaki kérdez tőle valamit. Általában mindkettő az adatközpontokban zajlik, ahol a chipek működtetéséhez és a szerverek hűtéséhez sok energiára van szükség. 

A DeepSeek csapata az R1 modell képzésénél továbbfejlesztette az úgynevezett „szakértők keveréke” technikát, amelynek során a megoldás több milliárd paraméterének – vagyis a modell által a jobb válaszok kialakításához használt „gombok” – csak egy részét kapcsolják be egy adott időpontban. Ami azonban még fontosabb, hogy továbbfejlesztették a megerősítő tanulását, ami azt jelenti, hogy a program kimeneteit pontozzák, majd felhasználják a jobbá tételére. Ezt gyakran emberi instruktorok végzik, de a DeepSeek csapata már ezt is automatizálta. 

A szakértő szerint a képzés hatékonyabbá tétele azt sugallhatja, hogy az MI-vállalatok kevesebb energiát fognak felhasználni arra, hogy modelljeiket egy bizonyos szintre hozzák. Ez azonban nem egészen így működik. „Mivel az intelligensebb rendszer értéke igen magas, ez arra készteti a vállalatokat, hogy a modellek képzésére többet költsenek” – írta a blogján az Anthropic társalapítója, Dario Amodei. 

Tehát ha a vállalatok többet kapnak a pénzükért, akkor megéri nekik még többet belefektetni, és ezért több energiát használhatnak fel. „A költséghatékonyságban elért nyereséget végül teljes egészében az okosabb modellek képzésére fordítják, amit csak a vállalat pénzügyi forrásai korlátozhatnak” – írta. Ez egy példa az úgynevezett Jevons-paradoxonra – vagyis arra az „ördögi körre”, hogy a természeti erőforrások felhasználásának visszafogása kizárólag műszaki eszközökkel történik –, ami azonban a képzési oldalon azóta igaz, amióta az MI-verseny folyik. Viszont a következtetéshez, vagyis magához az eredményhez szükséges energia esetén válnak érdekesebbé a dolgok. 

A DeepSeeket következtető modellnek tervezték, ami azt jelenti, hogy olyan feladatokban kell jól teljesítenie, mint a logika, a mintakeresés, a matematika és más olyan feladatok, amelyekkel az átlagos generatív MI-megoldások nehezen boldogulnak. Ezek a következtető modellek ezt az úgynevezett többlépcsős technika segítségével teszik, azaz a bonyolultabb problémákat lépésről lépésre oldják meg. Ahelyett, hogy azonnal végleges választ adnának, először több részlépést hajtanak végre – mintha egy ember hangosan végiggondolná a logikai érveket vagy a számítási lépéseket. 

Ha a DeepSeektől megkérdezzük, hogy szabad-e hazudni valakinek az érzelmei védelmében, először haszonelvű megközelítést alkalmaz, vagyis mérlegeli a közvetlen hasznot a lehetséges károkkal szemben. Ezután a kanti etikát veszi figyelembe, amely azt javasolja, hogy olyan maximák, azaz szubjektív életelvek szerint kell cselekedni, amelyek egyetemes törvények is lehetnek. Ezeket és más árnyalatokat is figyelembe vesz, mielőtt megosztaná következtetését.  

A többlépcsős technikát alkalmazó modellek általában jobban teljesítenek bizonyos összehasonlító teszteken, de – amint az a DeepSeek esetében látszik – lényegesen több energiát igényelnek a válaszokhoz.  

Scott Chamberlin éveket töltött a Microsoftnál, majd később az Intelnél, ahol olyan eszközöket fejlesztett, amelyek segítenek feltárni bizonyos digitális tevékenységek környezeti költségeit. Végzett néhány kezdeti tesztet, hogy megnézze, mennyi energiát fogyaszt egy GPU, miközben a DeepSeek „gondolkodik”. A kísérlet azért nem volt teljesen reprezentatív, mivel a DeepSeek R1-nek csak egy közepes méretű változatát tesztelte, és csak kevés kérést használt.  

Bár más következtetési modellekkel is nehéz összehasonlításokat végezni, Chamberlin szerint „a DeepSeek az első olyan ezek közül, amelyhez bármelyikünk hozzáférhet”.  

Az OpenAI o1 modellje a kínai legközelebbi versenytársa, de azt az amerikai vállalat nem teszi elérhetővé tesztelésre. Ehelyett a Meta azonos számú paraméterrel ellátott modelljével állította szembe: arra a kérdésre, hogy szabad-e hazudni, a DeepSeek egy ezerszavas választ adott, ami 17 800 joule-t igényelt – körülbelül annyit, amennyi egy 10 perces YouTube-videó streameléséhez szükséges. Ez mintegy 41 százalékkal több energia, mint amennyit a Metáé a kérdés megválaszolásához használt, de hosszabb feleletek esetén akár 87 százalékkal többet is „elfüstölhet”.  

Sok a bizonytalanság  

A különböző modelleket eltérő célokra találták ki, és nem készült tudományos tanulmány arról, hogy a DeepSeek mennyi energiát használ a versenytársaihoz képest. A szakértő szerint egyértelmű, hogy  

a többlépcsős technikájú modellek sokkal többet fogyasztanak, de megalapozottabb, tehát a rendszert komolyabban megdolgoztató válaszokat adnak. 

Sasha Luccioni MI-kutató, a Hugging Face klímavezetője attól tart, hogy a DeepSeek körüli izgalom sokakat arra késztethet, hogy ezt a többlépcsős megközelítést mindenhová beépítsék, még oda is, ahol amúgy nincs rá szükség. Ha ezt egyre többen átvennék, a következtetési energiafelhasználás az egekbe szökne, és ha az összes megjelenő modell számításigényesebb lesz, akkor az teljesen lenullázhatja a hatékonyságnövekedést.  

A mesterséges intelligencia persze már korábban is jelen volt. Mielőtt a ChatGPT 2022-ben megjelent, már létezett olyan MI, amelyet az információk megtalálására vagy a képek kategorizálására specializáltak. Csakhogy akkor a hangsúly az extraktív MI-ről a generatívra helyeződött át, amely egyre jobb és jobb előrejelzések készítésén alapul. Ez természetesen több energiát igényel, és Luccioni kutatásai szerint ez azt eredményezi, hogy nagyságrendekkel több energiát használnak fel hasonló feladatok elvégzésére. Szerinte ha a DeepSeek körüli lelkesedés folytatódik, a vállalatok arra kényszerülhetnek, hogy a többlépcsős technikát alkalmazó modelleket mindenbe beépítsék, ahogyan a generatív MI a Google-keresőtől az üzenetküldő alkalmazásokig mindenben megtalálható. 

Több szempontból is úgy tűnik, hogy a többlépcsős megoldás irányába haladunk: az OpenAI például január 31-én bejelentette, hogy kiterjeszti a hozzáférést a saját következtetési modelljéhez, az o3-hoz. Az energiaköltségekről azonban addig nem tudunk meg többet, amíg a DeepSeeket és más, hozzá hasonló modelleket nemtanulmányozzák jobban. 

Kapcsolódó:

Posztok hasonló témában

Heti hírlevél

Iratkozzon fel hírlevelünkre!

Minden héten megkaphatja válogatott tartalmainkat, hogy naprakész információi legyenek a világ történéseivel kapcsolatban.


Kérjük adja meg a teljes nevét.

Email címét nem osztjuk meg.

Kérdezz bátran!
Chat