当前位置:K88软件开发文章中心编程资讯编程资讯11 → 文章内容

“实时翻译耳机”横空出世,深度剖析三大核心技术 | 独家

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-2-13 21:57:17

原标题:“实时翻译耳机”横空出世,深度剖析三大核心技术 | 独家实际上,耳机是一个非常成熟的产业,全球一年市场销售量超过 3.3 亿对,每年维持稳定的成长。根据调研机构 Statista 预估,2016 年全球耳机销量约 3.34 亿对,预估 2017 年会成长到 3.68 亿对。其成长可以解释的成因除了真正无线(True Wireless)之外,再有的就是智能功能了。同时,耳机产品也是一个相当分众的市场,追求音质的用户或是电竞玩家往往愿意付大钱购买具有高音质、立体声、高舒适度的产品,运动族群更在乎的则是防水、减少汗水或运动造成耳机掉落、或是具有生理量测的产品,另外也一群人是追求时尚、品牌而购买昂贵的耳机,例如 Apple 收购的 BEATS 。不可否认的是,消费者可能每天会戴耳机听音乐,但不会每天都有跟外国人对话的需求,这让实时翻译成为一种有也不错而非必须性的附加性功能,因此耳机业者多会将其与更多功能结合,包括无线、智能语音助理等,因此实时翻译耳机虽后端整合了许多深度学习的技术,目前看来仍是话题性远高于实用性。今年 Google 发表了一系列的硬件产品,其中 Pixel Buds 蓝牙耳机除了可以呼叫 Google Assistant 外,最吸睛的就是结合自家 Google 翻译可支持 40 种语言实时翻译的功能。不久之前,韩国最大搜索引擎 NAVER 旗下的通讯软件 LINE 也推出 MARS 翻译耳机,对话的两个人各自使用一个耳塞,就能立即从耳机中听到翻译的语音,背后同样是仰仗自家的 AI 平台 Clova 及 Papago 即时翻译服务,目前可支持 10 种语言。图|LINE 的 MARS 翻译耳机获得 CES 2018 最佳创新奖。(图片来源:LINE)图|LINE 的 MARS 翻译耳机是一人使用一个耳塞,让说不同语言的两个人也能沟通。(图片来源:LINE)总部位于深圳的耳机公司万魔(1more)声学海外事业部总经理陈颖达接受 DT 君采访时分析,耳机的新趋势就是真正无线(True Wireless Earbuds)蓝牙耳机+智能功能。在苹果推出 AirPods 之后,True Wireless 的趋势就确立下来了,音源与耳机或是左右耳的相通,完全不需要线路连接,跟过去蓝牙耳机的左右耳还是有线相连不同。在智能功能方面有三大块,首先是支持生物识别运动追踪(biometric sports tracking)的运动耳机,例如可监测用户心率、计算运动过程中燃烧的卡路里等,市场需求看好;第二则是整合语音助理如 Apple Siri、Google Assistant ;第三就是实时翻译。耳机的优势在于普及性及方便性,是启动个人化智能服务、翻译对话最直观的第一个入口,除了大企业,不少初创或音响公司都看好这块市场,例如德国品牌 Bragi 继推出防水(可于游泳使用)、测量心跳的产品,又进一步推出结合 AI 技术及 iTranslate 应用,可实时翻译的 The Dash Pro 耳机,另外英国的 Mymanu Clik 耳机也可支持 37 种语言即时翻译。虽然说在市场层面还存在疑问,实时翻译耳机在技术上确实已经取得较大的进展。那么,这些强调利用 AI 技术的实时翻译耳机背后究竟是如何运作的呢?“三大核心:语音识别+机器翻译+语音合成,”台湾的中研院资讯科技创新研究中心副研究员曹昱清楚点出关键。整个流程就是,耳机听到对方讲话的内容,识别出这是什么语言如英文、西班牙文等,并且把语音变成文字,第二步骤以翻译引擎进行文字对文字的翻译,最后就是把翻译结果做语音合成,播放出来。可以想成这是集合了听写员、翻译员、朗读员三个角色于一身。只不过,实际上每一个核心涉及的技术多且复杂。图|实时翻译耳机三核心:语音识别、语言翻译、语音合成(图片来源:微软研究院)一、语音识别首先使用的技术就是语音识别,Speech Recognition、自动语音识别(ASR,Automatic Speech Recognition)等都是常见的技术词汇,目的就是把说话者的语音内容转变为文字,目前多是以使用深度神经网络(DNN,Deep Neural Network)、递归神经网络(RNN,Recurrent Neural Network)为主。图|语音识别的主要流程。(数据来源:Amazon)语音识别的应用场景相当广泛,像是车内互动控制、智能助理、智能音箱、居家机器人等,主要的研究方向包括降噪、长距离识别等,目的都是为了提升识别度,例如居家机器人的问题就必须突破长距离语音识别的问题。无线耳机有四个关键零组件:喇吧单体、麦克风、蓝牙晶片以及电池。一家外商声学公司对 DT 君表示,要支持实时翻译,麦克风就很关键,收音要够清楚,语音识别度才会高,在硬件上多会使用指向性麦克风,并且搭配语音识别算法,判断声音是来自讲话者或环境,进而强化人声,降低环境噪音的干扰。过去语音识别主要是采用高斯混合模型(GMM,Gaussian Mixture Model)+隐马尔科夫模型(HMM,Hidden Markov Model)、支持向量机(SVM,Support Vector Machine)算法等,一直到神经网络之父 Geoffrey Hinton 提出深度信念网络(DBN,Deep Belief Network),促使了深度神经网路研究的复苏,并且将 DNN 应用于语音的声学建模,获得更好的表现,之后微软研究院也对外展示出利用 DNN 在大规模语音识别取得显著的效果提升,大量的研究陆续转向了 DNN,近来又有不少基于递归神经网络开发的语音识别系统,例如 Amazon Echo 就使用了 RNN 架构。二、机器翻译从规则、SMT 走向 NMT第二个阶段就是翻译,在人工智能中,机器翻译一直是许多人想突破的领域,概念就是通过分析原始语言(Source Language)找出其结构,并将此结构转换成目标语言(Target Language)的结构,再产生出目标语言。初期多是采取把语言规则写进系统的方式,但这种以规则为主的机器翻译(RBMT,Rule-based Machine Translation)是将人类译者或是语言学家建构的词汇、文法、语意等规则写成计算机程序,但语言规则难以穷尽,而且例外、俚语也不少,除了耗费人力,翻译结果的准确性也遭人诟病,使得机器翻译的发展一度被打入冷宫。到了 80 年代晚期,IBM 率先展开并提出统计式机器翻译(SMT,Statistical Machine Translation)理论,主要的研究人员 Peter Brown 、 Robert Mercer 等陆续发表《A Statistical Approach to Machine Translation》、《The Mathematics of Machine Translation: Parameter Estimation》论文,不仅被视为是该领域的开山之作,也再次引爆了机器翻译的热潮。SMT 主要是通过搜

[1] [2] [3]  下一页


“实时翻译耳机”横空出世,深度剖析三大核心技术 | 独家