机器翻译 越翻越好,但仍不完美

在这个全球化的世界中,大量文本需要翻译。计算机越来越多地接手了这项工作,翻译系统也表现惊人。不过,完全脱离人工还不可能。

  几年前,雅虎和谷歌的免费在线翻译还经常词不达意。然而最近几年他们都在不断努力。 虽然谷歌把英文“今年柏林的租金暴涨”不争气地翻译成“柏林的租金暴涨在今年”,林格尼奥(Lingenio)公司的在线翻译已经完全正确:今年柏林的租金暴涨。

给谁使用?

  “对于翻译系统来说,处理单个语句尤其困难,因为它搞不清这句话来自哪个领域”,海德堡大学计算机语言学家库尔特·埃博利(Kurt Eberle)说,他与林格尼奥公司共同研发了一款专业翻译系统。埃博利表示,这个高质量的翻译系统目标客户并不是个人,而是针对常有翻译需求的专业人士,比如笔译工作者或国际公司。尤其是德译英——埃博利估摸有90%的用户德译英时会求助于翻译系统。他把这个翻译系统视为可以随时提供帮助的“日常工具”,它的优势在于能短时间内翻译大量文章。不过该系统的译文仅是雏形,还需人工再次校对。

语法规则或数据统计​

  翻译系统会比较大量文章中的各个语言对,以存储翻译信息,然后计算出固定词语连接、组合的频率——比如“我”后面连接“走”,英语就是“I”连着“go”。每个词组和整句话都会被保存下来。随着每次翻译,软件都会保存新的语料,基于此,软件在翻译时可以迅速获取和存储新的语言对信息。翻译得越多,系统就越精确。

  90年代的那些翻译系统之所以翻译得不好,是因为它们工作的原理与上述不同。它们是基于语言结构的。程序员给处理系统编入语法、句法规则和词汇。由于程序只能逐字翻译,常常会在遇到多义词的时候出现翻译错误:比如Schloss一词不仅可以表示一座建筑,也可以是门锁。而以往的翻译系统因无法识别上下文, 不能准确地给予恰当的翻译。

  而统计学方法则解决了上述问题:当“Schloss”一词和动词“住”连在一起,这个词就会被翻译为英语的“城堡”,当“Schloss”一词和动词“修理”连在一起的时候,会被翻译成“锁”。不过,为了准确翻译,软件需要存储过大量的文本。如果一个词语没有在足够的文本中出现,仍会被翻译错误。“人们需要大量的来自各个领域的语料库”,埃博利表示,获得这些信息不容易,所以“有些词语会被软件遗漏进而导致翻译错误”。

文本越多,翻译越好

  苏黎世大学计算机语言学教授马丁·沃克(Martin Volk)认为,未来几年内,翻译系统会越来越完善。“网络上有很多电子版的翻译文本”,他说。这对靠统计编程的翻译软件来说是绝佳的素材,多语种网页尤为助益。

  沃克认为,在不久的未来,人们会专注于研发特定领域的翻译系统,如法律、医学或汽车工业。专业化的细分可以提高翻译的质量。当它基于一个特定领域的语料进行翻译时,翻译结果会比涉及多领域语料的谷歌翻译要准确。

字幕可以,文学不行​

  沃克专攻的一个领域是字幕,他和同事为瑞典电视台研发了一套翻译系统。“这是一项重大的成果”,他说,“因为语句都很短小精悍。”不过这个译文仍然是雏形,还需要人工再次校对。“不过比起不用软件,还是能快20%-30%。”就连结构翻译系统翻译不出来的成语惯用语,统计翻译系统也可以翻译。“He is out of his mind”再不会被翻译成“他脱离了他的灵魂”,而会正确地翻译成“他疯了”。不过前提是,这个用法已经被别人多次翻译正确,并且已存在于语料库中。

  上述成果主要是针对说明文,文学作品仍然是翻译家的专长。“文学翻译是一种艺术,翻译系统做不到”,沃克相信,在未来的25年中,还是没有一个机器能翻译得了《哈利波特》。作家通常使用独特的遣词造句方式,而这方面数据翻译系统恰恰没有足够的语言对样本。“规范性文本的翻译表现较好”,埃博利认为,“当然,前提是词汇量够丰富。”埃博利表示,寄希望于机器能翻译地又快又好,仍是一个幻想。“一个缺乏某法律经验的翻译,译前必须通读法律文章,还得查词典,才能做好翻译。”软件也是一样的。