gyors belépés:

ugrás a tartalomhoz (Alt 1) ugrás a főmenühöz (Alt 2)

Mi fán terem a neurális gépi fordítás?
Így „dolgozik“ a mesterséges intelligencia a műfordításban

Amikor 2006-ban bevezették a Google Fordítót, épphogy két nyelv között volt képes fordítani. 2016-ra a fordított nyelvek száma már 103-ra nőtt, a naponta lefordított szavak száma pedig meghaladta a 100 milliárdot. A rendszer azonban nemcsak fordításra képes, hanem a legelterjedtebbek közül nyolc nyelven az azonnali átírásra is. A gépek tanulnak, mégpedig gyorsan.
 

Jelenleg még vannak olyan lingvisztikai kódok, amelyek feltörése egyelőre nem sikerült ezeknek a gépeknek. A mesterséges intelligencia továbbra is küzd az emberi nyelv komplexitásával, márpedig a nyelv éppen a szépirodalomban a legösszetettebb és legjelentőségteljesebb. A regényekben, versekben és színművekben a szavak szépsége gyakran a nüanszokban és kifinomultságukban rejlik. A gép szóról szóra fordít, miközben a nyelvészet által felállított szabályokat követi, ezért a hagyományos fordítórendszerek gyakran képtelenek helyesen értelmezni az irodalmi szövegek jelentését. A fordítandó szót nem tudják az adott mondat, bekezdés vagy oldal kontextusában felfogni.
 
Már létezik azonban egy új technológia, amely ezzel a kontextusban gyökerező zűrzavarral foglalkozik – a Neural Machine Translation (neurális gépi fordítás), röviden NMT. Bár még gyerekcipőben jár, az NMT már bebizonyította, hogy rendszerei idővel képesek lesznek megtanulni, hogy hogyan tudnak megbirkózni a szépirodalmi fordítások komplexitásával. Az NMT a mesterséges intelligencia új korszakának kezdetét jelöli. Már nem a nyelvészek által felállított szabályok szerint működik, hanem saját szabályokat teremt magának, sőt megalkotja a saját nyelvét is.

NEURÁLIS GÉPI FORDÍTÁS (NMT)

 
Az NMT-t 2016-ban vezették be, a mai napig ez a legsikeresebb fordítószoftver. Nemcsak azzal jeleskedik, hogy az elődjéhez, a Statistical Machine Translation-hoz (SMT), képest 60 százalékkal lecsökkentette a hibák arányát, hanem lényegesen gyorsabb is.

Ezeknek a továbbfejlesztéseknek a rendszer mesterséges neurális hálózata képezi az alapját, amely az emberi agyban levő neuronok modelljére épül. Ez a hálózat teszi lehetővé a szoftver számára, hogy felismerje a szavak és mondatrészek egymáshoz való, a szövegkörnyezetből adódó kapcsolódását, mégpedig úgy, hogy megtanulja a nyelv szabályait. Az adatbázisából millió számra szkenneli be a mondatokat, eközben beazonosítja a hasonlóságokat. A gép ezután az így megtanult szabályokat használja arra, hogy statisztikai modelleket hozzon létre, amelyek segítik annak megértésében, hogy hogyan szerkessze meg a mondatokat. 
A mesterséges neurális hálózat. Betáplálják a hálózatba a kiinduló szöveget, majd átküldik a hálózat különböző rejtett „rétegein”, végül a rendszer kiadja a szöveget a célnyelven. A mesterséges neurális hálózat. Betáplálják a hálózatba a kiinduló szöveget, majd átküldik a hálózat különböző rejtett „rétegein”, végül a rendszer kiadja a szöveget a célnyelven. | Alana Cullen | CC-BY-SA

EGY MESTERSÉGES NYELV

Ami igazán úttörővé teszi az NMT-t, az az, hogy létrehozott egy új, számokat használó nyelvet, amely segítségére van a fordításban.

Nézzük meg például Shakespeare Hamlet-jéből a „To thine own self be true” mondatrészt. A gép minden szót számmá transzformál, úgynevezett vektorokká: 1, 2, 3, 4, 5, 6. Ezt a számsort táplálja be a neurális hálózatba, amint ez bal oldalon látható. A hálózat rejtett rétegeiben történik a „varázslat”. A megtanult nyelvi szabályok alapján a rendszer megtalálja a megfelelő szavakat a másik nyelven, például németül. Előállítja a 7, 8, 9, 10, 11 számokat, melyek megegyeznek a német célmondat szavaival. Ezeket a számokat dekódolja az adott nyelvre, az eredmény a következő mondat: „Zu dir selber treu sein”, magyarul „Saját magadhoz hű lenni”.

A rendszer lényegében lefordítja a szavakat a saját nyelvére, majd „átgondolja”, hogy az eddigi ismeretei alapján hogyan tudja ezeket a szavakat érthető mondattá alakítani, ahogyan ezt az emberi agy is tenné.


MEGÉRTENI A KONTEXTUST

You shall know a word by the company it keeps.

John R. Firth, 1957, a kontextuális nyelvészet megalapítója

Az NMT képes eredményesen műfordítást készíteni, mert bár lassan, de biztosan megérti a szövegösszefüggéseket. A rendszer nemcsak a lefordítandó szóra koncentrál, hanem azokra a szavakra is, amelyek a lefordítandó szó előtt és után szerepelnek.

Mint ahogy az agy, amely különböző információkat dekódol, ez a mesterséges neurális hálózat is feldolgozza a kapott információkat, ezután generálja a következő szót, mégpedig azt a szót alapul véve, amely a kiinduló szövegben az éppen generálandó szót követi. Idővel megtanulja a rendszer, hogy melyik szóra kell koncentrálnia, és hogy – a már meglévő példákat alapul véve – melyik kontextus a meghatározó. Ez az eljárás egy többrétegű tanulási folyamat, melynek eredményeképpen a rendszer egyre többet tanul, és folyamatosan fejleszti saját magát. Az NMT esetében a szövegösszefüggés megfejtését „sorbaállítás”-nak nevezzük, ez az attention-mechanizmusban történik, amely a bekódolás és dekódolás között helyezkedik el a rendszerben.
Összehangolási eljárás. Az összehangolásra a mesterséges neurális háló figyelem-mechanizmusain keresztül kerül sor, ebben a folyamatban történik visszakövetkeztés a szó kontextusára is. Összehangolási eljárás. Az összehangolásra a mesterséges neurális háló figyelem-mechanizmusain keresztül kerül sor, ebben a folyamatban történik visszakövetkeztés a szó kontextusára is. | Alana Cullen | CC-BY-SA Azonban a gépek sem tökéletesek. Ha visszafordítjuk a Shakespeare mondatot németről angolra, akkor ezt kapjuk: „Be true to yourself“, ami nem felel meg a Tudor-korszak nyelvi stílusának Shakespeare idejében. A szó szerinti műfordítás így hangzik: „Légy saját magadhoz hű”, de az emberi fordítók inkább erre a megfogalmazásra hajlanak: „Légy hű magadhoz”.
Ember által készített fordítás. Az ember által fordított mondatokban az elemek közötti kapcsolatok sokkal összetettebbek, mint a mesterséges intelligencia által készített fordításokban. Ez arra vezethető vissza, hogy az ember magasabb szintű kontextuális megértéssel rendelkezik. Ember által készített fordítás. Az ember által fordított mondatokban az elemek közötti kapcsolatok sokkal összetettebbek, mint a mesterséges intelligencia által készített fordításokban. Ez arra vezethető vissza, hogy az ember magasabb szintű kontextuális megértéssel rendelkezik. | Alana Cullen | CC-BY-SA Mindezek ellenére izgalmas felfedezni, hogy a Google Fordító felismerte a szövegössszefüggésben a „hű” szó fontosságát. Az, hogy éppen ezt a szót használta, azt bizonyítja, hogy a Google Fordító képes különbséget tenni a „hű” és az „igaz” szavak között. A többrétegű tanulás azt jelenti, hogy egy hibásan fordított mondatot pár héttel később – legalábbis részben – már helyesen fordít le a Google Fordító. (Talán már ki is javította a hibáját, mire ez a cikk megjelenik.)

A saját nyelvével összefüggésben végzett folyamatos továbbfejlesztés azt jelenti, hogy az NMT-t rá lehet vezetni arra, hogy úgynevezett Zero-Shot fordításokat végezzen el. Ennek az a lényege, hogy egy nyelvet közvetlenül le tud fordítani több más nyelvre anélkül, hogy az angolt használná közbenső állomásként. Úgy tűnik, hogy amint az embernél, úgy a gépnél is érvényes a mondás: „Gyakorlat teszi a mestert”.

LOST IN TRANSLATION – FORDÍTÁS KÖZBEN ELVESZETT


Bár a gépi fordítás az elmúlt években jelentős lépéseket tett előre, még mindig nem érte el a szépirodalom színvonalát. Henry James, amikor megjegyezte, hogy az ideális műfordítónak olyan embernek kell lennie, „akinek semmi nem kerüli el a figyelmét”, azt hangsúlyozta, mennyire fontos a szöveget az eredeti nyelven megérteni. A gépeknek még hosszú utat kell megtenniük, mire meg tudnak felelni ennek az eszménynek, legalábbis, ami a szépirodalmat illeti.

Az NMT-nek szépirodalmi szövegek fordítása során nehézségei vannak a ritkán használt szavakkal, a tulajdonnevekkel és a bonyolult műszaki nyelvezettel. A fordításoknak csupán 25-30 százaléka üti meg a szépirodalmi színvonalat. Egy tanulmány, amely németről angolra való fordítással foglalkozott, kimutatta, hogy a rendszer ugyan kevés hibát követett el a szintaxist illetően, azonban gyakran nem találta meg a megfelelő fordítást a többértelmű szavak esetében. A kutatók szerint ezen hibák ellenére is megütötte a fordítás minősége azt a szintet, hogy meg lehessen érteni a történetet, és az ember örömét lelje az olvasásban. Egy másik tanulmány, amely angolról katalán nyelvre való fordítással foglalkozott, hasonlóan jó eredményre jutott. A tanulmányban résztvevő katalán anyanyelvűek 25 százaléka azon a véleményen volt, hogy a gépi fordítás minősége megállja a helyét az emberi fordítással szemben.

Kétségtelen azonban, hogy a fordítórendszer nem képes mindig ilyen jó eredményt elérni. Bizonyos nyelvpárok esetében nehezen küzd meg a morfológiailag gazdag nyelvekkel, amelyeknél nagy jelentősége van a névszóragozásnak és a hanglejtésnek. Különösen a szláv nyelvek érintettek ebből a szempontból. Ez mindenekelőtt akkor szembeötlő, ha egy kevésbé komplex nyelvről kell egy komplexebb nyelvre fordítani. Ezért az NMT-t még nem lehet globális fordítási eszközként használni.


HOGY LEHET MEGTALÁLNI AZ ODAILLŐ TÓNUST?


A legnagyobb kihívás megtalálni a lefordítandó szövegben a megfelelő tónust és az odaillő regisztert. Peter Constantine, a Connecticut Egyetem műfordítói programjának igazgatója úgy nyilatkozott, hogy a gépnek meg kell találnia az odaillő tónust ahhoz, hogy sikeresen tudjon szépirodalmat fordítani.

 

Mit fog utánozni a gép? Briliáns és csodálatos idegen koloritot teremt, vagy egy nagyszerű honosító fordítás mellett dönt? Esetleg Csehov nyelvét úgy jeleníti meg, mintha a szerző tíz perccel azelőtt írta volna a szövegét a londoni metróban?

Peter Constantine (2019)

Milyen tónust fog választani a gép? Nézzük például a német Nobel-díjas író, Thomas Mann, művét. Szövegeinek stílusa változott az évek során, a kezdetben írt történetei még játékosabbak voltak, mint a későbbi komolyabb regényei. A gépnek fel kell ismernie ezeket az eltérések, ha el akarja érni, hogy az általa készített fordítás a kívánt jelentést adja vissza.

FONTOS EGYÜTTMŰKÖDÉS


Tisztában kell lennünk azzal, hogy a szavak sajátos kétértelműsége és a szépirodalmi nyelv rugalmassága miatt – a gépek minden fáradozása ellenére – még mindig szükség van az emberi irányításra. Az NMT nem képes helyettesíteni az emberi fordítókat, azonban hasznos eszközként szolgálhat számukra a műfordítások elkészítésekor.

Ehhez fontos, hogy az ember együttműködjön a géppel, ennek egyik lehetséges módja, hogy utólagosan átdolgozza a gépi fordítást. Ez történhet úgy, hogy a gépi fordítás hiányosságait ismerő hivatásos fordítók a gép által készített fordítás első szövegváltozatát átdolgozzák, hasonlóan ahhoz, mint amikor tapasztalt kollégák a még kevesebb tapasztalattal rendelkező kollégáiknak segítenek. Az egyszerű utólagos átdolgozás során kijavítanák a kisebb helyesírási és nyelvtani hibákat, majd az ezt követő elmélyültebb átdolgozás az összetettebb problémák megoldására lenne hivatott, mint amilyen a mondatszerkezet vagy az írói stílus. A műfordítások esetében elkerülhetetlen az ilyen utólagos átdolgozás annak érdekében, hogy a fordítás visszaadja a megfelelő tónust. Egy tanulmány kimutatta, hogy ez a módszer, amelyet egy skót gael nyelvű sci-fi regény ír nyelvre való fordítása során alkalmaztak, 31 százalékkal gyorsabb volt annál, mintha a fordítást szoftver segítsége nélkül készítették volna. Ezen túlmenően a fordítók termelékenysége 36 százalékkal megnőtt, ha a gépi fordítást vették alapul – ezzel a módszerrel ugyanis óránként 182 szóval többet tudtak generálni.

A mesterséges intelligencia egyre nagyobb szerepet játszik az életünkben, ezért meg kell tanulnunk ezt az eszközt saját hasznunkra fordítani annak érdekében, hogy előrébb vigye a szakmát. A gépi fordítás hosszú utat tett meg a kezdetektől mostanáig, mire segédeszközzé vált. A szoftver elvégzi a terhes aprólékos munkát, a fordító pedig a végső csiszolásnak szentelheti magát. Ez egyrészt tehermentesíti a fordítókat, másrészt az NMT lehetővé teszi olyan nyelvek fordítását is, amelyeket korábban még soha nem fordítottak. Ezen túlmenően az NMT abban is segítségünkre lehet, hogy megtanuljunk egy nyelvet. Ha együttműködünk az NMT-vel, olyan tanulási segédeszközként vethetjük be, amely mindenki számára lehetővé teszi a szépirodalomhoz és a nyelvekhez való jobb hozzáférést.

 



Források:

Brownlee, J. 2017. A Gentle Introduction to Neural Machine Translation. [Accessed 9th July 2020].

Constantine, P. 2019. Google Translate Gets Voltaire: Literary Translation and the Age of Artificial Intelligence. Contemporary French and Francophone Studies. 23(4), pp. 471- 479.

Goldhammer, A. 2016. The Perils of Machine Translation. The Wire. [Accessed 14th July 2020].

Google Brain Team. 2016. A Neural Network for Machine Translation, at Production Scale. [Accessed 9th July 2020].

Gu, J., Wang, Y., Chu, K., Li. V. O. K. 2019. Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations.arXiv. [Accessed 10th July 2020].

Iqram, S. 2020. Now you can transcribe speech with Google Translate. [Accessed 9th July 2020].

Jones, B., Andreas, J., Bauer, D., Hermann, K. M., and Knight, K. 2012. Semantics- Based Machine Translation with Hyperedge Replacement Grammars. Anthology. 12(1083), pp. 1359- 1376.

Kravariti, A. 2018. Machine Translation: NMT translates literature with 25% flawless rate. Translate Plus. [Accessed 14th July 2020].

Matusov, E. 2019. The Challenges of Using Neural Machine Translation for Literature. European Association for Machine Translation: Dublin, Ireland.

Maučec, M. S., and Donaj, G. 2019. Machine Translation and the Evaluation of Its Quality Recent Trends in Computational Intelligence. Intech Open.

Shofner, K. 2017. Statistical vs. Neural Machine Translation. ULG’s Language Solutions Blog. [Accessed 10th July 2020].

Systran. 2020. What is Machine Translation? Rule Based Translation vs. Statistical Machine Translation. [Accessed 9th July 202].

Toral, A., Wieling, M., and Way, A. 2018. Post-editing Effort of a Novel with Statistical and Neural Machine Translation. Frontiers in Digital Humanities. 5(9).

Turovsky, B. 2016. Ten years of Google Translate. [Accessed 9th July 2020].

Wong, S. 2016. Google Translate AI invents its own language to translate with. New Scientist. [Accessed 11th July].

Yamada, M. 2019. The impact of Google Neural Machine Translation on Post-editing by student translators. The Journal of Specialised Translation. 31, pp. 87- 95.

Zameo, S. 2019. Neural Machine Translation: tips and advantages for your digital translations. Text Master Go Global. [Accessed 14th July 2020].