当前位置:K88软件开发文章中心编程资讯编程资讯06 → 文章内容

技术||Google I/O 大会发布最新翻译技术,还有各种机器翻译原理了解一下!

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-2-11 17:31:21

险也越大。比如由段落划分边界产生的重叠问题以及不恰当的划分导致的翻译质量下降。直观上似乎是选择以句子为单位划分得到的语料对比较好,有诸多优势如:句子的边界划分清楚,一些简单句子的结构清晰。然而在实际应用中,以句子为单位并不是最恰当的方式。实践证明匹配和重组过程需要使用更加短小的片段。(当然,这些研究结果是以欧美语系语言之间的翻译研究结果为基础的。)1.2.3.实例库定制:实例语料的的范围和质量影响着基于实例的机器翻译系统(EBMT)的翻译质量水平。在某特定领域获取高质量语料可以大大提高机器翻译在此领域的翻译质量,称为语料(实例)库的定制。1.3.统计型机器翻译系统(Statistical MT):IBM公司的Brown在1990年首先将统计模型用于法-英机器翻译。其基本思想是:把机器翻译问题看成是一个噪声信道问题,然后用信道模型来进行解码。翻译过程被看作是一个解码的过程,进而变成寻求最优翻译结果的过程。基于这种思想的机器翻译重点是定义最合适的语言概率模型和翻译概率模型,然后对语言模型和翻译模型的概率参数进行估计。语言模型的参数估计需要大量的单语语料,翻译模型的参数估计需要大量平行双语语料。统计机器翻译的质量很大程度上取决于语言模型和翻译模型的性能,此外,要找到最优的译文,还需要有好的搜索算法。简单说,统计机器翻译首先建立统计模型,然后使用实例库中的实例对统计模型进行训练,得到需要的语言模型和翻译模型用于翻译。统计型机器翻译,除了基于噪声信道理论的系统以外,还有基于最大熵方法的系统。博格(A.L.Berger)在1996年提出自然语言处理中“最大熵方法”(Maximum Entropy Approach)。德国人奥赫(Franz Joseph Och)等发现,把IBM公司的统计机器翻译基本方程式中的翻译模型转变为反向翻译模型,总体的翻译正确率并没有降低,由此,他们提出基于最大熵方法的机器翻译模型。统计型机器翻译取得了一定的成绩,然而纯统计设计却不能解决所有困难。统计型的方法不考虑语言的语义、语法因素,单纯用数学的方法来处理语言问题,有着巨大的局限性。于是人们开始探索基于统计方法和其它翻译方法的联合应用。如统计的和基于实例的机器翻译系统,统计的和基于规则的机器翻译系统,等等。2.综合类型的机器翻译系统:以上三个基本机器翻译系统各有优势和长处,同时又不可避免的具有某种缺陷和局限性。如基于规则的机器翻译系统(RBMT)可以准确的描述语言学特征和规律,然而制定适用和完备的语言规则却不是一件容易的事;基于实例的机器翻译系统(EBMT)可以充分利用已有的翻译结果,但是实例库的维护需要大量的人工和费用;统计型的机器翻译(Statistical MT)可以缓解知识获取的瓶颈问题,但是纯数学的方法难于完全解决语言中的复杂问题。为进一步提高机器翻译系统的翻译水平,人们综合以上几个基本类型的优势,又发明了混合型机器翻译系统(Hybrid MT),多引擎机器翻译系统(Multi-Engine MT)和提出了基于知识的机器翻译系统(Knowledge-Based MT)的理论。2.1混合型机器翻译系统(Hybrid MT):翻译过程使用两种或以上机器翻译原理。比如:基于规则的机器翻译方法的核心是构造完备的、适应性较强的规则系统。如何得到完备和适应性强的规则系统成为研究焦点。使用传统的方法,语法规则库的建立需要大量的人力、物力,大量的语言语法规则之间往往存在着不可避免的冲突,规则的完备性和适应性不能得到保证。随着人们翻译工作的进行,生成大量已完成的翻译结果,形成大量语料。人们想到了使用统计方法从现有语料中自动提取我们需要的语言语法信息。从实例中抽取语言转换规则,将基于实例的机器翻译作为研究技术来建立语言规则基础,而不是单纯用来进行类比翻译。通过一个归纳的过程,从大量例句中提出抽象的规则。这样传统的基于规则的机器翻译方法发展成为以规则为基础,语料库为辅助的机器翻译方法。这种翻译模型可以称之为混合型机器翻译系统(Hybrid MT)。2.2多引擎机器翻译系统(Multi-Engine MT):这种机器翻译系统的基本思想是几架机器翻译引擎同时进行并行翻译,并行翻译的这几架翻译引擎分别基于不同的工作原理,给出多个翻译结果,然后通过某种机制或算法筛选并生成最优翻译结果进行输出。多引擎机器翻译系统的一种工作方式如:接收到源文字后,先将文字转化为若干文字片段,由多个机器翻译引擎进行并行翻译,各个文字片段均得到多个翻译结果,通过某种机制选择最优的翻译片段组成最优组合,最后输出最优的翻译结果。或者是接收到源文字后,由多个机器翻译引擎进行并行翻译,得到多个翻译结果,然后对各个翻译结果进行字词的比较,通过某种假设检验和算法,选择适当的字词翻译组成最优翻译结果输出。2.3.基于知识的机器翻译系统(Knowledge-Based MT):在机器翻译研究中,人们越来越发现在翻译过程中正确的理解、领会源语言的重要性。语言有着其复杂性。其中语言的模糊性是各种机器翻译系统所面对的最顽固的难题。语言的模糊性指语言文字同一表层结构对应着两种或两种以上的深层结构,简单说就是一种形式对应着两种或两种以上的解释,必须通过上下文内容的提示和综合知识背景、常识才可能做出正确的诠释。受人工智能,知识工程的发展影响,人们开始强调对源语言更为彻底的理解,提出不仅需要进行深层语言分析,还需要进行世界知识的积累和处理,建立知识库,以助于理解语言。通过对世界知识的了解,解决机器翻译中遇到的语言模糊问题。为了从根本上彻底的解决机器翻译所面对的语言的模糊性问题,人们提出了基于知识的机器翻译系统。2.3.1基于语义网的机器翻译(Semantic Web based Machine Translation, SWMT):是基于知识的机器翻译系统的一种实现方式。语义网(Semantic Web),指通过某种技术,将现有网络上的知识内容转化为机器可以辨识的内容,成为机器翻译的“世界知识库”。这些理论基于Tim Berners-Lee提出的观点“知识一旦经定义和形式化后,便可以通过任意方式访问”。万维网最初的设计是希望它简单,去中心化并且尽可能的易于互动。网络的发展证明它是一个巨大的成功。然而,网络上面的信息都是面向人类大脑的。为了让计算机也能够接受和利用这些信息资源,在新的世纪一种扩展和补充性质的技术出现

上一页  [1] [2] [3]  下一页


技术||Google I/O 大会发布最新翻译技术,还有各种机器翻译原理了解一下!