当前位置:K88软件开发文章中心编程资讯编程资讯11 → 文章内容

“实时翻译耳机”横空出世,深度剖析三大核心技术 | 独家

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-2-13 21:57:17

集大量的原文与译文,通过统计模型让电脑学习字词的产生、转换、排列,形成合宜的句子,简单来说,例如 1000 句中文就有 1000 句英文进行对照,像是联合国有 6 种官方语言文件,加拿大政府的官方文件也有英文及法文,以及辞典,都是常被使用的素材。不过,就在 SMT 火红了,并且成为机器翻译领域的主流技术之后,这两位专家却加入知名的量化基金公司 Renaissance Technologies,跑去华尔街用数学及统计模型分析股票、管理基金,变成了 10 亿美元级别的富豪。“以机器翻译而言,20 年前 IBM 播种,20 年后 Google 收获”,台湾清华大学自然语言处理研究室教授张俊盛曾如此形容。Google 翻译是目前全球拥有最多用户的翻译平台,2000 年初 Google 就开始投入机器翻译的研究,并且延揽了多位重量级人物协助开发,包括语音公司 Nuance 创始人 Michael Cohen 、知名机器翻译专家 Franz Och 等人。最初负责领导整个 Google 翻译架构及服务开发的 Franz Och 曾表示,Google 翻译计划在 2001 年启动时只支持 8 种语言,速度很慢、品质不佳,到了 2006 年他们开始采用统计式机器翻译,并且同时利用大量的语料库作为训练。身为搜索引擎龙头,优势就是可通过网络搜集庞大的语料库、双语平行数据,提升机器翻译的水平。图|统计式翻译的概念。(图片来源:National Research Council of Canada)那时 Google 采用 SMT 中最普及的一个算法——片语为本的机器翻译(PBMT,Phrase-based Machine Translation),把一个句子切成多个单字(words)或短语(phrases)之后个别翻译。不过,这位 Google 翻译之父在 2014 年离开 Google 加入生医初创公司 Human Longevity,现则任职于癌症筛检初创公司 Grail。但 Franz Och 的离开,并未对 Google 造成太大困扰,因为几年前 Google 就开始使用 RNN 来学习原文与译文之间的映射,到了 2016 年下旬 Google 正式发表翻译服务上线 10 年以来最大的改版,宣布转向采用类神经机器翻译(NMT,Neural Machine Translation),也就是现在大家耳熟能详的深度学习神经网络模型,以多层次的神经网络连结原文与译文,输出的字词顾虑到全句文脉,同时,也使用了大量 Google 自家开发的 TPU 来处理复杂运算,一举提升翻译的水平。其实,利用深度神经网络进行机器翻译的概念在 2012、2013 年就被提出,DeepMind 研究科学家 Nal Kalchbrenner 和 Phil Blunsom 提出了一种端到端的编码器-解码器结构,“不过,一直到 Google 出了论文,用 NMT 取代 SMT,让大家完全相信神经网络在翻译是可行的,现在几乎所有公司都转向 NMT,我个人的想法是大概再三年机器翻译就可以达到人类翻译的水准”,专攻深度学习机器翻译的初创公司真译智能创办人吕庆辉如是说。此后,NMT 成为了新一代机器翻译的主流,采用这种技术的服务在 2016 年下半年开始大量问世,Facebook 在今年 5 月也宣布将翻译模型从 PBMT 转向了 NMT。Google 翻译产品负责人 Barak Turovsky 不久前接受媒体采访时表示:“SMT 是一种老派的机器学习(an old school machine learning)”,在网络上查找人类已经翻译过的内容,将其放进一个超大型的索引中,机器就开始看统计模式学习翻译。PBMT 的局限就在于必须把句子切成好几块,执行翻译时只能同时考量少数几个文字,而不是考虑上下文,所以如果要翻译的语言是属于不同语序结构,就会显得相当困难。NMT 最大的突破就是它的运作方式类似于大脑,将一整个文句视为是一个翻译单元(unit),而非将文句切成好几块,这有两个优点,一是减少工程设计的选择,二是可依据上下文判断,提升翻译的正确性及流畅性,听起来会更自然。在 NMT 技术中,除了递归神经网络(RNN)、卷积神经网络(CNN)、序列到序列(sequence-to-sequence)的长期短期记忆模型(LSTM,Long Short-term Memory)之外,近期的研究焦点包括了自注意力(Self-Attention)机制、以及利用生成式对抗网络(GAN,Generative Adversarial Networks)来训练翻译模型。三、语音合成追求人类般的自然实时翻译耳机的第三步骤就是语音合成(Speech Synthesis)或称为文本转语音(TTS,Text to Speech),也就是让电脑把翻译好的文字变成语音,并播放出来。重点在于如何生成更逼真的语音、更像人类说话的口气跟语调。让电脑讲人话的企图心同样在很早期就出现,1970 年代就有了第一代的 TTS 系统,例如半导体公司德州仪器(TI)开发数字信号处理(DSP)芯片,还推出一个 Speak&Spell 玩具,会把打字的内容念出来,帮助小朋友学习。之后随着科技的进步,合成技术也从单音、片段变为可产生连续式的语音。简单来说,要让电脑发出与人类相似的语音,通常会先录下人类或配音员说话,建立录音样本,再把单字切成音素(phoneme),并对录音进行分析,量测语调、速度等,建立语音模型,就可以制造出先前未录下的单字或句子。接着当文字输入,系统会选出适合的音素、音调、速度进行重组,再把这段文字转成语音播放出来,就像人说话一样。图|TI 开发的 Speak&Spell 成为美国知名的玩具。(图片来源:Amazon)“目前语音合成技术应该就是 DeepMind 开发的 WaveNet 最自然”,曹昱指出。语音合成以拼接式 TTS(concatenative TTS)为基础,需要大量的人类语音片段作为数据库,但如果想要转换为另一位说话者、或是加强语气或情绪,就必须重建新的数据库才能做到,使得修改语音的难度很高。因此,出现了另一种参数式 TTS(parametric TTS),产生数据所需的所有信息都被存储在模型的参数之中,只要通过模型的输入值,就能控制语音的内容和特色,再把输出值丢到语音编码器(Vocoders)来产生声音,是一种完全由机器生成的语音,优点是成本较低,缺点则是机械味较重。而 WaveNet 使用 CNN 架构,同样是拿人类说话作为训练素材,但不像拼接式 TTS 把声音切成许多片段,而是使用原始波形,而且为了让声音更逼真,也必须告诉机器文本(text)内容是什么,所以也将把文本转换为语言或语音特征喂给机器,“不仅要考虑以前的音频样本,还要靠虑文本内容”,所以还可以做出像人类讲话时的口气停顿或是呼吸的声音。这些都让 WaveNet 的语音合成更有“人味”,今年 10 月 Google 宣布把最新版本的 WaveNet 放到美式英文版以及日文版的 Google

上一页  [1] [2] [3]  下一页


“实时翻译耳机”横空出世,深度剖析三大核心技术 | 独家