Csúcsra tör a kínai mesterséges intelligencia
2025. február 9., vasárnap

A kínai mesterséges intelligencia a csúcsra tör 

Az Egyesült Államok megpróbálta monopolizálni a mesterséges intelligenciát (MI), de úgy tűnik, ezt a szándékot legyőzi a kínai innováció. Fiatal kínai kutatók ugyanis olyan MI modellel-léptek a piacra, amivel többéves lemaradásukat az amerikai társaik technológiai előnyétől pár hétre csökkentették. 

Nagy hírverés közepette, a beiktatása után Donald Trump bejelentette a Stargate programot, ami egy 500 milliárd dolláros beruházás az MI-infrastruktúrába. Három vezető technológiai vállalat ennek kihasználására új céget is létrehozott Stargate néven. A projekttől 100 ezer új munkahelyet várnak, és a csoport első, 1 millió négyzetméteres adatkezelő projektjét már építik Texasban. 

Trump bejelentésével szinte egy időben, de sokkal kisebb zajjal, a DeepSeek nevű kínai cég egy mesterséges intelligencia modellt mutatott be, a DeepSeek-R1-Zerót, és ennek fejlettebb változatát a DeepSeek-R1-et. A vállalat már decemberben közzétett egy új nagy nyelvi modellt, a mesterséges intelligencia egyik formáját V3 néven, amely már képes szöveget létrehozni és elemezni is, az R1-es viszont már egy fejlettebb úgynevezett érvelési modell, amely a

megjelenését követően az ilyen típusú rendszerek rangsorában rögtön a második helyre került közvetlenül az OpenAI O1 mögé.  

A Forbes is összehasonlította ezeket MI-megoldásokat, és ennek alapján a DeepSeek-R1 teljesítménye az OpenAI legjobb gondolkodási modelljeihez hasonlítható számos – többek között a matematikai, a kódolási és a komplex gondolkodási – feladatban. Az American Invitational Mathematics Examination (AIME) 2024 matematikai teszten a DeepSeek-R1 79,8 százalékos eredményt ért el, szemben az OpenAI o1 79,2-ével. A MATH-500 benchmarkon a kínai fejlesztés 97,3 százalékot hozott, míg az o1 96,4-et. A kódolási feladatokban a DeepSeek-R1 96,3 százalékos eredményt ért el a Codeforcesen, míg az o1 96,6-ot – bár fontos megjegyezni, hogy ezeket a benchmarkeredményeket nem szabad túlértékelni. 

Az új DeepSeek tehát jobb referenciaértékekkel büszkélkedik, mint bármely más elérhető modell. Ehhez a technika eltérő kombinációit, kevesebb tanulási adatot és sokkal kevesebb számítási teljesítményt vettek igénybe. Ráadásul a használata olcsó, és az OpenAI-jal ellentétben nyílt forráskódú. 

A Forbes szerint a leginkább figyelemreméltó az, hogy a DeepSeek ezt nagyrészt innovációval tudta elérni, nem pedig a legújabb számítógépes chipekre hagyatkozva. 

A Nature kiemeli, hogy a kínai program a tudósok számára megfizethető, és komoly versenytársa lesz az olyan érvelő modelleknek, mint az OpenAI o1. Az R1 egy további szempontból is kiemelkedik. Ahogy említettük, a DeepSeeket építő hangcsoui startupcég a modellt nyílt forráskóddal adta ki, vagyis a kutatók tanulmányozhatják és továbbfejleszthetik az algoritmusát. Ehhez képest az o1 és más, a San Franciscóban működő, az OpenAI által épített megoldások, köztük a legújabb o3-as, lényegében „fekete dobozok”.  

A DeepSeek nem tette közzé az R1 betanításának teljes költségét, de a felületet használóknak az összeg körülbelül a harmincadrészét számítja fel, mint amennyibe az o1 futtatása kerül. A cég létrehozta az R1 miniverzióit is, hogy a korlátozott számítási kapacitást igénybe vevő kutatóknak is ideális legyen. 

A sárkány felemelkedése 

A kínai MI-ipar kezdetben másodrangúnak tűnt. Ez részben azzal is magyarázható, hogy meg kellett küzdenie az amerikai szankciókkal, az USA ugyanis 2022-ben betiltotta a fejlett chipek Kínába irányuló exportját. A világ egyik vezető chipgyárója, az Nvidia ezért kénytelen volt például speciálisan lebutítottra tervezni a kínai piacra szánt termékeit.  

Egy másik akadály az otthoni fejlesztés volt. A kínai cégek késve találkozhattak a nyelvi modellekkel, részben a szabályozási aggályok miatt. Megvolt bennük a félelem, hogy a cenzorok miképp reagálnak azokra a megoldásokra, amelyek „hallucinálnak”, azaz helytelen információkat szolgáltatnak, vagy ami még rosszabb, esetleg politikailag veszélyes kijelentésekkel állnak elő. Végül a kínai hatóságok rendeletekkel támogatták az MI-ipart. Igaz, felszólították a modellek készítőit, hogy

helyezzenek hangsúlyt a jó tartalomra, és tartsák magukat a „szocialista értékekhez”. Ám azt is megfogadták, hogy „ösztönzik a generatív MI innovatív fejlesztését”.  

Az Alibaba volt az egyik első olyan vállalat, amely alkalmazkodott az új, megengedő környezethez, és elindította saját nyelvi modelljét, amelyet kezdetben Tongyi Qianwennek hívtak, később rövidítették Qwenre. A cég egy évig lényegében a Meta nyílt forráskódú Llama nyelvi modelljére alapozott, de ahogy tavaly kiadta a Qwen egymást követő iterációit, vagyis fejlesztési céllal sokszorosan lefuttatott változatait, a minőség javulni kezdett. Ezek pedig már versenyképesnek tűnnek a vezető nyugati műhelyek által kifejlesztett nagyon erős modellekkel.  

Kína más internetes óriásai, köztük a Tencent és a Huawei is saját modelleket építenek. A DeepSeek eredete azonban más. A High-Flyer vállalat 2015-ben vált ki egy fedezeti alapból, hogy az MI segítségével keressenek a részvénykereskedelemben. Az alapkutatások segítségével a High-Flyer az ország egyik legnagyobb mennyiségi alapjává vált.  

Ugyanakkor, amikor a Qwent 2023-ban piacra dobták, a High-Flyer bejelentette, hogy versenybe száll az emberi szintű MI létrehozásáért, és elindította a DeepSeek nevű projektet. Ahogy korábban az OpenAI, a kínai cég is azt ígérte, hogy a közjó érdekében fejleszti az MI-t. Azt ígérik: a vállalat a képzési eredmények nagy részét nyilvánosságra hozza, hogy megakadályozza, hogy a technológia néhány magánszemély vagy vállalat monopóliuma legyen. Ellentétben az OpenAI-jal, amely kénytelen volt magánfinanszírozást keresni, hogy fedezze a fejlesztés és a betanítás egyre növekvő költségeit, a DeepSeek folyamatosan hozzáférhetett a High-Flyer hatalmas tartalékaihoz. 

A sikerük nem egyetlen nagy innovációnak köszönhető. Az újítások során a v3 több milliárd paraméterének a kidolgozása kevesebb mint 3 millió chipórát vett igénybe, a becsült költsége pedig kevesebb mint 6 millió dollár – ez a Llama 3.1 számítási teljesítményének és költségének körülbelül a tizede. A v3 kiképzése mindössze 2000 chipet igényelt, míg a Llama 3.1-é 16 ezret, ráadásul az USA szankciói miatt a használt v3 chipek még csak nem is a legerősebbek voltak. A nyugati cégek ehhez képest egyre inkább pazarolják a chipeket, például a Meta azt tervezi, hogy szerverfarmot épít 350 ezer darab felhasználásával.  

A DeepSeek példája azt mutatja, hogy a kevesebb alapanyag időnként több innovációt jelent. 

A cég sikere azt is bizonyítja, hogy nincs feltétlenül szükség milliárdokra a finanszírozáshoz, vagy több száz PhD-s kutatóra, csak zseniális fiatal elmékre, bátorságra, hogy másképp gondolkozzanak, és bölcsességre, hogy soha ne adják fel. A további tanulság az, hogy ezeket a fiatalokat nem szabad a pénzügyi spekuláció optimalizálására pazarolni, hanem hagyni kell, hogy kreatívan használható dolgokat készítsenek. 

A Guancha portál is kifejtette a véleményét, természetesen kínai szemmel: „Az erős túlélési képességünket Washington kényszerítette ki, az áttörésünk titka pedig a korlátozott erőforrásaink maximalizálása. A történelemben nem új keletű, hogy a gyengék győznek az erősek felett, a kicsik pedig harcolnak a nagyokkal. A kínai–amerikai tudományos és technológiai háborúban Kína egyedülálló előnye éppen az amerikai tilalomból fakad.” 

Kapcsolódó:

Posztok hasonló témában

Heti hírlevél

Iratkozzon fel hírlevelünkre!

Minden héten megkaphatja válogatott tartalmainkat, hogy naprakész információi legyenek a világ történéseivel kapcsolatban.


Kérjük adja meg a teljes nevét.

Email címét nem osztjuk meg.

Kérdezz bátran!
Chat