Технология и литература Как работает искусственный интеллект в области литературного перевода

Когда в 2006 году был запущен Google Translate, он имел в арсенале только два языка перевода. В 2016 году уже было более 103 языков, и он переводил более 100 миллиардов слов в день. Система может не только переводить, но и транскрибировать в режиме реального времени восемь наиболее распространенных языков. Машины учатся, и учатся они очень быстро.

Алана Куллен

Тем не менее, есть некоторые лингвистические коды, которые этим машинам все еще предстоит взломать. Искусственный интеллект продолжает бороться с огромной сложностью человеческого языка, и нигде язык не является таким сложным и значимым, как в литературе. В романах, стихах и пьесах красота слов порою заключается в нюансах и деталях. Машины переводят слово в слово, следуя при этом установленным лингвистикой правилам, поэтому традиционные системы перевода часто не понимают значения литературных текстов. Они не понимают переводимое слово в контексте предложения, параграфа или страницы.

Но есть новая технология, способная разобраться в этом контекстуальном хаосе — Neural Machine Translation (нейронный машинный перевод), сокращенно называемый НМП. Хотя НМП все еще находится в зачаточном состоянии, он уже доказал, что его системы со временем научатся справляться с присущей литературным переводам сложностью. НМП знаменует собой начало новой эры искусственного интеллекта. Он больше не работает по правилам, установленным лингвистами, теперь он создает свои собственные правила и даже свой собственный язык.

НЕЙРОННЫЙ МАШИННЫЙ ПЕРЕВОД (НМП)

НМП появился в 2016 году. На сегодняшний день это самое успешное программное обеспечение для перевода. Помимо того, что он смог снизить погрешность на 60 % — по сравнению со своим предшественником, статистическим машинным переводом (СМП), НМП также значительно быстрее работает.

Улучшения обеспечиваются искусственной нейронной сетью системы. Это значит, что НМП базируется на модели нейронов, созданной по подобию существующей в мозге человека. Эта сеть позволяет программному обеспечению создавать контекстные связи между словами и фразами. Она может создавать эти связи, изучая языковые правила. Она сканирует миллионы блоков из вашей базы данных, определяя общие черты. Затем машина использует заученные правила для создания статистических моделей, которые помогут ей понять, каким образом должно строиться предложение.
Искусственная нейросеть. Исходный код вводится в сеть, затем отправляется в различные скрытые „слои” сети и выводится на целевом языке. Искусственная нейросеть. Исходный код вводится в сеть, затем отправляется в различные скрытые „слои” сети и выводится на целевом языке. | Алана Куллен | CC-BY-SA

ИСКУССТВЕННЫЙ ЯЗЫК

Новаторской особенностью НМП является создание нового языка чисел, который помогает при переводе.

Как, например, выглядит фраза «To thine own self be true» из шекспировского «Гамлета»? Машина кодирует каждое слово в число, в так называемые векторы: 1, 2, 3, 4, 5, 6. Этот числовой ряд передается в нейронную сеть, как показано по ссылкам. И далее в этих скрытых слоях происходит «магия». Опираясь на изученные языковые правила, система находит подходящие слова в языке перевода. Генерируются числа 7, 8, 9, 10, 11, соответствующие словам целевого предложения. Затем эти числа расшифровываются и в результате преобразуются в предложение: «Быть верным себе».

По сути, система переводит слова на свой собственный язык, а затем «думает» о том, как, основываясь на том, что она уже знает, она может придать этим словам форму понятного предложения — так, как это сделал бы человеческий мозг.

ПОНИМАНИЕ КОНТЕКСТА

НМП может успешно переводить литературу, поскольку он медленно, но верно понимает контекст. Система фокусируется не только на переводимом слове, но и на словах, стоящих перед ним и за ним.

Как и мозг, расшифровывающий различную информацию, эта искусственная нейронная сеть смотрит на получаемую информацию и генерирует следующее слово на основе предыдущего. Со временем она выучит, на каких словах следует сосредоточиться и, опираясь на существующие примеры, определит, какой контекст имеет основополагающее значение. Этот метод представляет собой один из видов многоуровневого обучения и способствует тому, что система заучивает все больше и больше данных и постоянно совершенствуется. В НМП расшифровка контекста называется «выравниванием», оно происходит с помощью механизма Attention («Внимание»), который занимает в системе промежуточное место между шифрованием и дешифрованием.
Процесс адаптации. Адаптация происходит с помощью механизмов внимания искусственной нейронной сети и делает выводы о контексте слова. Процесс адаптации. Адаптация происходит с помощью механизмов внимания искусственной нейронной сети и делает выводы о контексте слова. | Алана Куллен | CC-BY-SA Но и машины не совершенны. Когда шекспировская фраза переводится обратно на английский язык, она звучит как «Be true to yourself», что не соответствует тону языка Шекспира и эпохи Тюдоров. Литературный перевод, выполненный слово в слово, звучит как «будь верен своему я», но «живые» переводчики больше склонны переводить эту фразу как «будь верен себе».
Перевод, созданный людьми. Если предложения переведены человеком, соотношения намного сложнее, чем при переводах искусственного интеллекта. Это связано с тем, что люди лучше понимают контекст. Перевод, созданный людьми. Если предложения переведены человеком, соотношения намного сложнее, чем при переводах искусственного интеллекта. Это связано с тем, что люди лучше понимают контекст. | Алана Куллен | CC-BY-SA Но интересно уже даже то, что Google Translate увидел важность в этом контексте слова «верен». То, что он использовал именно это слово, доказывает, что он смог различить разницу между словами «верный» и «истинный». Многоуровневое обучение означает, что неправильно переведенное предложение может быть переведено правильно, по крайней мере, частично, уже ечерез несколько недель. (Возможно, Google Translate уже исправил свои ошибки к моменту публикации этой статьи.)

Постоянное совершенствование с учетом развития собственного языка означает, что НМП может использоваться для выполнения так называемых переводов Zero-Shot (при отсутствии примеров переводов). Это означает, что он может переводить с одного языка сразу на несколько других языков без использования английского языка в качестве промежуточного варианта. Как и в случае с людьми, к машинам, по-видимому, также применима фраза «Практика приводит к совершенству».

Lost in Translation - ПОТЕРЯНО ПРИ ПЕРЕВОДЕ

Несмотря на то, что машинный перевод в последние годы уже сделал большие шаги, ему пока не удается достичь литературного стандарта. Генри Джеймс подчеркивал важность понимания текста на языке оригинала, заметив, что идеальным литературным переводчиком должен быть «человек, от которого ничто не ускользает». По крайней мере, в случае с литературой машинам, чтобы соответствовать этому идеалу, предстоит пройти еще очень длинный путь.

При выполнении литературных переводов у НМП возникают проблемы с редкими словами, именами собственными и сложным техническим языком.  Только 25-30 % переводов соответствуют литературному стандарту. Соответствующее исследование, посвященное переводу с немецкого на английский язык, показало, что, хотя система и допускала мало синтаксических ошибок, она часто не находила адекватного перевода для многозначных слов. Несмотря на эти ошибки, по мнению исследователей, качество перевода было достаточным, чтобы понять историю и насладиться ею. Другое исследование, посвященное переводам с английского на каталонский язык, показало столь же хороший результат. 25 % носителей языка обнаружили, что качество машинного перевода вполне сопоставимо с переводом, выполненным человеком.

Однако система перевода не всегда добивается таких хороших результатов. В некоторых языковых парах ей приходится бороться с языками с богатой морфологией, в которых серьезную роль играют словоизменение и интонация. И это в первую очередь касается славянских языков. И особенно бросается в глаза, если вы переводите с менее сложного языка на более сложный. Поэтому НМП пока еще не может использоваться в качестве глобального инструмента перевода.

КАК НАЙТИ ПОДХОДЯЩИЙ СТИЛЬ?

Самая большая проблема заключается в том, чтобы найти для переводимого текста правильный стиль и слог. Питер Константин, директор программы литературного перевода в университете Коннектикута, объяснил, что для успешного перевода литературы машины тоже должны найти подходящий стиль.

«Чему подражает машина? Стремится ли она к блестящей иностранной интерпретации, первоклассно проводящей культурную составляющую? Или язык Чехова покажется таким, как если бы текст был написан десять минут назад в лондонском метро?»

Какой стиль выберет машина? К примеру, рассмотрим обратимся к работам немецкого нобелевского лауреата Томаса Манна. С годами стиль его письма менялся: ранние рассказы были более игривыми, что существенно отличает их слог от поздних, более сложных романов. Если стоит цель уловить точный смысл, машины должны уметь распознавать эти отличия.

ВАЖНАЯ СОВМЕСТНАЯ РАБОТА

Становится ясно, что, несмотря на все свои усилия, учитывая специфическую двусмысленность слов и гибкость литературного языка, машина все еще нуждается в человеческом руководстве. НМП не может заменить живых переводчиков, но может стать полезным инструментом при переводе литературы.

При этом важно взаимодействие между переводами, выполняемыми машиной и человеком. Одним из ответов на данный вопрос может быть постобработка машинного перевода. В данном случае профессиональные переводчики, разбирающиеся в проблемах машинного перевода, могут отредактировать первичную версию машинного перевода — как более опытные коллеги поддерживают своих не очень опытных коллег. Простая постобработка поможет исправить незначительные орфографические ошибки и улучшить грамматику, а углубленное редактирование позволит решить более серьезные проблемы, такие как структура предложений и стиль речи. В литературных переводах обязательна обработка, позволяющая найти правильный стиль перевода. Одно исследование показало, что этот метод оказался на 31 % быстрее при переводе научно-фантастического романа с гэльского на ирландский язык, чем перевод без использования какого-либо программного обеспечения. Кроме того, производительность переводчиков, которые в качестве отправной точки использовали машинный перевод, выросла на 36 %. С помощью этого метода они генерировали за один час на 182 слова больше.

Искусственный интеллект играет все большую роль в нашей жизни, и следует использовать этот инструмент перевода для развития отрасли. Машинный перевод прошел большой путь — от самых азов до отличного вспомогательного инструмента. Программное обеспечение делает мелкую неприятную работу, в то время как переводчики могут посвятить себя чистовой отделке. Это ведет к снятию нагрузки на переводчиков. К тому же, НМП также позволяет переводить с языков, переводы с которых ранее никогда не осуществлялись. Кроме того, НМП может помочь выучить язык. Во время работы мы можем использовать его в качестве обучающего инструмента — ведь он для всех обеспечивает оптимальный доступ к языку и литературе.

Материал является частью проекта Гёте-Института Великобритании, посвящённого искусственному интеллекту и литературному переводу.

Источники:

Brownlee, J. 2017. A Gentle Introduction to Neural Machine Translation. [Accessed 9th July 2020].

Constantine, P. 2019. Google Translate Gets Voltaire: Literary Translation and the Age of Artificial Intelligence. Contemporary French and Francophone Studies. 23(4), pp. 471- 479.

Goldhammer, A. 2016. The Perils of Machine Translation. The Wire. [Accessed 14th July 2020].

Google Brain Team. 2016. A Neural Network for Machine Translation, at Production Scale. [Accessed 9th July 2020].

Gu, J., Wang, Y., Chu, K., Li. V. O. K. 2019. Improved Zero-shot Neural Machine Translation via Ignoring Spurious Correlations.arXiv. [Accessed 10th July 2020].

Iqram, S. 2020. Now you can transcribe speech with Google Translate. [Accessed 9th July 2020].

Jones, B., Andreas, J., Bauer, D., Hermann, K. M., and Knight, K. 2012. Semantics- Based Machine Translation with Hyperedge Replacement Grammars. Anthology. 12(1083), pp. 1359- 1376.

Kravariti, A. 2018. Machine Translation: NMT translates literature with 25% flawless rate. Translate Plus. [Accessed 14th July 2020].

Matusov, E. 2019. The Challenges of Using Neural Machine Translation for Literature. European Association for Machine Translation: Dublin, Ireland.

Maučec, M. S., and Donaj, G. 2019. Machine Translation and the Evaluation of Its Quality Recent Trends in Computational Intelligence. Intech Open.

Shofner, K. 2017. Statistical vs. Neural Machine Translation. ULG’s Language Solutions Blog. [Accessed 10th July 2020].

Systran. 2020. What is Machine Translation? Rule Based Translation vs. Statistical Machine Translation. [Accessed 9th July 202].

Toral, A., Wieling, M., and Way, A. 2018. Post-editing Effort of a Novel with Statistical and Neural Machine Translation. Frontiers in Digital Humanities. 5(9).

Turovsky, B. 2016. Ten years of Google Translate. [Accessed 9th July 2020].

Wong, S. 2016. Google Translate AI invents its own language to translate with. New Scientist. [Accessed 11th July].

Yamada, M. 2019. The impact of Google Neural Machine Translation on Post-editing by student translators. The Journal of Specialised Translation. 31, pp. 87- 95.

Zameo, S. 2019. Neural Machine Translation: tips and advantages for your digital translations. Text Master Go Global. [Accessed 14th July 2020].