Olyan fejhallgató fejlesztése zajlik, amely valós időben több ember beszédét is képes lefordítani, különböző nyelvekről.
A Spatial Speech Translation nevű rendszer áttörést jelenthet az automatikus beszédfordítás egyik legnagyobb kihívásának a megoldásában: amikor egyszerre többen beszélnek különböző nyelveken. A Washingtoni Egyetem kutatócsoportja által kifejlesztett technológia egy olyan fejhallgatóval működik, amely képes valós időben egyszerre több beszélő mondandóját lefordítani, ráadásul úgy, hogy a felhasználó azt is érzékeli, ki, honnan és milyen hangszínnel beszél.
Shyam Gollakota, a projekt vezetője szerint a fejlesztés célja, hogy segítsen leküzdeni az emberek közötti kommunikációt gátló nyelvi akadályokat. Példaként a saját édesanyját hozta fel, aki az indiai telugu nyelven beszél, és nehezen tud kapcsolatot teremteni az Egyesült Államokban élőkkel. Gollakota szerint ez a technológia alapjaiban változtathatja meg azoknak az életét, akik egy idegen nyelvi közegben kirekesztve érzik magukat. Persze már léteznek hasonló rendszerek – például a Meta Ray-Ban okosszemüvegében alkalmazott megoldás –, de azok egyetlen beszélőre koncentrálnak és gépies a hangzásuk.
A Spatial Speech Translation célja, hogy több beszélő esetén is használható legyen. A rendszerhez hagyományos zajszűrős fejhallgató is elég, amelyet egy Apple M2 chipet használó laptophoz kell csatlakoztatni – ugyanez a chip található az Apple Vision Pro headsetben is. A fejlesztést a Japánban megrendezett ACM CHI konferencián mutatták be, amely az emberi tényezők és a számítástechnika határterületeit vizsgáló legnagyobb tudományos esemény.
A rendszer két mesterséges intelligenciára épülő modellt alkalmaz. Az első a fejhallgató viselője körüli teret régiókra osztja, majd egy neurális háló segítségével beazonosítja, hogy hol találhatók beszélők. A második a beszédek fordítását végzi el – jelenleg franciáról, németről és spanyolról angolra, de később körülbelül 100 nyelv hozzáadását tervezik –, és közben az adott beszélő hangkarakterisztikáját (például a hangmagasságát, érzelmi tónusát) is elemzi. Ezután a lefordított szöveget a beszélő saját hangjához hasonló „klónozott” hangon szólaltatja meg, mintha az eredeti ember szólalt volna meg az adott nyelven, az adott irányból.
Samuele Cornell, a Carnegie Mellon Egyetem kutatója szerint lenyűgöző, hogy a rendszer nemcsak képes valós időben különválasztani a hangokat, de a térbeli viszonyokat és a beszélők közti távolságokat is figyelembe veszi. Szerinte ugyanakkor
ahhoz, hogy e megoldás széles körben elérhető legyen, sokkal több, a valódi környezetből származó adatra lesz szükség, nem csupán szintetikusan generált mintákra.
A kutatócsoport jelenleg a fordítás és a lejátszás közötti idő csökkentésén dolgozik, hogy gördülékenyebb párbeszédek jöhessenek létre különböző nyelvet beszélők között. Gollakota szerint a cél az, hogy a késleltetés egy másodperc alá csökkenjen. Azonban az egyik felhasználói teszt során a résztvevők a 3-4 másodperces késleltetést részesítették előnyben, mivel a rendszer kevesebb hibát vétett, mint az 1-2 másodperces esetén.
A nyelvi struktúrák azonban befolyásolják, hogy a rendszer milyen gyorsan tud fordítani. A három tesztelt nyelv közül a francia volt a leggyorsabban értelmezhető, ezt követte a spanyol, majd a német. Ennek oka, hogy a németben a mondat jelentésének a nagy része – így például az ige – gyakran csak a végén található. Claudio Fantinuoli, a mainzi Johannes Gutenberg Egyetem kutatója szerint
minél többet vár a rendszer a fordítással, annál pontosabb lehet az eredmény, viszont ez növeli a válaszidőt.
A Spatial Speech Translation abban is újít, hogy integrálja a zajszűrési funkciót a fordítással, így zajos környezetben is képes kiemelni az egyes beszélők hangját. Ez lehetővé teszi, hogy egy városi séta során mondjuk az idegenvezető vagy egy barát hangja tisztán hallható legyen, a tömeg zaja ellenére is – ráadásul a felhasználó anyanyelvén.
Lehetséges aggályok és kihívások a technológia alkalmazásában
Bár a Spatial Speech Translation ígéretes áttörést jelent, számos probléma merülhet fel, amely befolyásolhatja a technológia széles körű elterjedését és hatékonyságát. Az egyik legnagyobb aggály a fordítás pontossága és a nyelvi árnyalatok kezelése. A mesterségesintelligencia-alapú fordítórendszerek ugyanis gyakran küzdenek a kulturális kontextus, a szleng vagy az idiomatikus kifejezések helyes értelmezésével, ami félreértésekhez vezethet. Különösen az olyan társalgásokban, ahol a humor, az irónia vagy az érzelmi töltet kulcsszerepet játszik, a rendszer pontatlanságai zavarók lehetnek.
Egy másik kihívás a technológia skálázhatósága. Jelenleg, ahogy említettük, a rendszer franciáról, németről és spanyolról fordít angolra, de a globális alkalmazásához további nyelvek támogatása is szükséges lenne. Ezek integrálása azonban nemcsak technikai, hanem adatgyűjtési nehézségeket is felvet, hiszen a rendszernek hatalmas mennyiségű, a valós környezetből származó nyelvi adatra van szüksége a pontos működéséhez.
További technikai korlát a rendszer energiaigénye és hardverfüggősége. Jelenleg egy Apple M2 chippel felszerelt laptopra van szükség a működéshez, ami korlátozza a mobilitást és növeli a költségeket. A kutatócsoport célja, hogy a technológiát kompaktabb, önálló eszközökké fejlessze, de ez további időt és beruházást igényel. Emellett a valós idejű fordítás késleltetésének a csökkentése – különösen az olyan nyelvek esetén, mint a német, ahol (mint említettük) a mondatstruktúra megnehezíti a gyors fordítást – további optimalizálást kíván.
Végül e megoldás társadalmi elfogadottsága is kérdéses. Bár a technológia célja a nyelvi akadályok lebontása,
a fejhallgató viselése társas helyzetekben szokatlan vagy akár „kirekesztő” lehet, különösen, ha csak néhányan használják.
Ráadásul a természetes emberi kommunikáció spontaneitását részben elveszítheti, ha a beszélgetés egy technológiai közvetítőn keresztül zajlik.
A kutatócsoport tisztában van ezekkel a kihívásokkal, és dolgozik a rendszer finomhangolásán. A cél egy olyan eszköz létrehozása, amely nemcsak technológiailag fejlett, hanem intuitív, megfizethető és zökkenőmentesen illeszkedik a felhasználók mindennapi életébe. Ha ezek az akadályok sikeresen leküzdhetők, a Spatial Speech Translation valóban forradalmasíthatja a többnyelvű kommunikációt, és közelebb hozhatja egymáshoz a különböző kultúrákból származó embereket.
Kapcsolódó: