当前位置:K88软件开发文章中心编程资讯编程资讯06 → 文章内容

技术||Google I/O 大会发布最新翻译技术,还有各种机器翻译原理了解一下!

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-2-11 17:31:21

原标题:技术||Google I/O 大会发布最新翻译技术,还有各种机器翻译原理了解一下!前几天2018年的谷歌I/O开发者大会在美国拉开了帷幕Google I/O 寓为“开放中创新”Innovation in the Open谷歌CEO皮查伊这里是本次大会的口译视频在大会上谷歌向世人展示了各种黑科技而其中也包括一项运用了AI的翻译技术许多时候我们会在视频网站上看到外语类的视频,如果是找到有中文字幕的外语视频还算幸运,但若是遇到没有任何字幕的外语、口音模糊的视频就很尴尬了。基于 AI 技术,YouTube 现在可以根据视频的图像和声音,对视频内容进行字幕翻译。即便是口音模糊的内容,AI 技术也能根据视频内容进行智能翻译,并通过底部字幕的方式进行呈现。说白了,它的功能就是让你在看视频的时候更方便。这里有一则谷歌翻译app的介绍视频近几年,机器翻译Machine Translation越来越受人们关注作为外语学习者我们更要与时俱进时刻了解这个行业的发展动态下面我们就来看看机器翻译的各种原理希望帮大家做到“知己知彼”~机器翻译基本分类与工作原理作者姓名:洪洁、洪雷1.基本类型的机器翻译系统:现有的机器翻译系统按照其基本工作原理,可以分为基于规则的(Rule-Based)机器翻译,基于实例的(Example-Based)机器翻译和统计型的(Statistical)机器翻译这三种基本类型。1.1.基于规则的机器翻译系统(Rule-Based Machine Translation, RBMT):其基本工作原理基于一个假设,即语言无限的句子可以由有限的规则推导出来。基于这个假设的机器翻译方法又可以分为三类:直接翻译法(Direct Translation),中间语言法(Interlingual Approach),和转换法(Transfer Approach)。它们都需要用到大规模的双语词典,需要用到源语言推导规则,语言转换规则和目标语言生成规则;其不同点在于对语言进行的分析深度不同。如直译法几乎不需要进行语言分析,中间语言法和转换法需要对源语言和目标语言进行某种程度的语言分析。1.1.1直接翻译法(Direct Translation):这种翻译方法直接对源文字中的字词进行逐个翻译,译后文字顺序按照原文顺序进行排列。这是基于规则的机器翻译的最早的工作方法。这种译法简单、直观,其弊端也是明显的:由这种方法得到的翻译结果质量很不令人满意。人们已经逐渐不再使用这种直接翻译法。1.1.2中间语言法(Interlingual Approach):这种翻译方法对源语言文字进行透彻的语言分析,将其转化为一种中间语言表达形式,进而由这种中间语言(Interlingua)进一步生成和输出符合目标语言语法规则的文字。这种中间语言是一种非自然语言,即不是任何国家地区人们使用的语言;而且它是一种没有歧义的表达方式。此外,中间语言不是唯一的,不同的系统采用不同的中间语言。任意一种语言经由中间语言译为其它任意一种语言,理论上这种中间语言法是最有效率的一种翻译方式。假定世界上总共有n种自然语言,使用中间语言法,只需2n个模块就可以解决所有自然语言之间的互译问题。不使用中间语言,这些语言间的互译则需要n(n-1)个模块。当n大于3时,2n小于n(n-1)。我们知道,世界上的自然语言种类远大于3,因此2n个模块的数量远小于n(n-1)个模块的数量。1.1.3转换法(Transfer Approach):这种翻译方法先对源语言文字进行一定程度的语言分析,去除语法的因素,生成源语言的中间表达方式,然后经由转换,生成目标语言的中间表达方式,再由目标语言的中间表达方式生成和输出符合目标语言语法规则的文字。目前来说,转换法的语言分析和实现方法在三种方法中最为复杂,得到的翻译质量在三种方法中也是最好的,是目前商业上最常使用的翻译方法,在商业上最为成功。在许多基于规则的机器翻译系统中,由语言学家辅助编写一系列关于源语言和目标语言的语法规则,以及将源语言数据转换为目标语言数据的转换规则。然而使用全人工来制作这些规则非常昂贵、费时,而且易于出错。一个解决方法便是将以往的历史翻译结果作为资源库,其中的源语言文字和它对应的目标语言译文作为例子,从中尝试提取出恰当的规则。方法之一是对源文字和目标语言译文作人工标记以示关联。Sato和Nagao研发出一个系统,用“平面依赖关系树”来表示源语言文字和目标语言文字。这种关系树型数据结构是计算机高效识别的一种形式。通常用两个层次代表源语言和目标语言之间的关联:第一层次依赖于文字的表面形式(如字、词顺序),用于源语言的分析和目标语言的生成;第二层次依赖于字词间的语义关联,用于从源语言向目标语言的转换。这种机器翻译系统在基于规则的机器翻译基础上,利用了实例库的优势。随着大量历史翻译结果的积累,出现了基于实例的机器翻译系统,人们将这些已经完成的翻译结果作为资源库,利用到机器翻译中来。1.2.基于实例的机器翻译(Example-Based Machine Translation,EBMT):其基本工作原理是基于类比(Analogy)的原则,从实例库中匹配出与源文字片段最相似的文字片段,取出实例文字片段对应的目标语言翻译结果,进行适当的改造,最终得出完整的翻译结果。基于实例的机器翻译其核心思想最早由Mako Nagao提出,他提出:人们在翻译简单句子时并不作深层语言分析,而是翻译。首先把源句子分解成若干片段,然后将这些片段译为目标语言,每个片段的翻译都是通过与例句做匹配以类比的原则得到的,最后将这些译后句子组合成一个长句子。1.2.1.实例库的构成:实例库也称为语料库(Corpus),由已经完成的翻译结果构成。这些现成的翻译结果也称为语料,包括人工翻译的结果和经过人工编辑的机器翻译结果。语料库由双语对构成,包括源语言文字片段和目标语言译文文字片段两部分。这些翻译结果要先经过拆分和对齐处理,才可以成为语料库中的可用语料。因此语料库也称为平行双语语料库(Parallel Corpus)。拆分和对齐目前有多种形式,如句子水平的对齐和短语水平的对齐。对齐的文字片段大小的选择,会直接影响匹配的效率和翻译结果。1.2.2.语料拆分的碎片化问题:Nirenburg等(1993)指出,在基于实例的机器翻译系统(EBMT)中,实例语料存在一个文字片段长度和相似度之间的一个矛盾。文字片段越长,越不易得到一个相似度高的匹配;文字片段越短,越可能得到一个大致匹配,但是得到低质量翻译结果的风

[1] [2] [3]  下一页


技术||Google I/O 大会发布最新翻译技术,还有各种机器翻译原理了解一下!