当前位置:K88软件开发文章中心电脑基础基础应用26 → 文章内容

学界 | 现实版柯南「蝴蝶结变声器」:谷歌发布从声纹识别到多重声线语音合成的迁移学习

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-4-24 15:34:27

原标题:学界 | 现实版柯南「蝴蝶结变声器」:谷歌发布从声纹识别到多重声线语音合成的迁移学习机器之心报道参与:邱陆陆近日,谷歌科学家 Ye Jia 等人在 arXiv 上发布了一篇用迁移学习完成语音合成的论文。这项全新的语音合成技术能够通任意一段参考音频中提取出说话者的声纹信息,并生成与其相似度极高的合成语音,参考音频与最终合成的语音甚至不必是同一种语言。除了利用参考音频作为输入外,该技术还能随机生成虚拟的声线,以「不存在的说话者」的声音进行语音合成。音频按顺序分别为参考音频 1、以参考音频 1 的声线为输入的生成句子 1(Take a look at these pages for crooked creek drive.)、生成句子 2(There are several listings for gas station.)、参考音频 2、以参考音频 2 的声线为输入的生成句子 1(同上)、生成句子 2(同上)。点此查看更多生成音频样本。https://google.github.io/tacotron/publications/speaker_adaptation/这篇名为「从声纹识别到多重声线语音合成的迁移学习」的论文中的系统由三个模块组成,分别是:声纹编码器基于 Tacotron2 的语音合成器基于 WaveNet 的发声器

学界 | 现实版柯南「蝴蝶结变声器」:谷歌发布从声纹识别到多重声线语音合成的迁移学习