当前位置:K88软件开发文章中心办公应用办公应用08 → 文章内容

少女歌手小冰养成记:会作词作曲演唱的人工智能的诞生

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-2-22 19:02:26

原标题:少女歌手小冰养成记:会作词作曲演唱的人工智能的诞生微软的对话式人工智能微软小冰会唱歌,已经不是新鲜事了。雷锋网了解到,今年,小冰升级了演唱水平,且开始向作词、作曲、演唱全面发展。5月16日,小冰发布了一首新歌“我知我新”,宣布“演唱深度学习模型完成第四次重大升级”,“今天起,人工智能首次开始接近人类歌手水平。”话不多说,先上歌。小冰演唱这首歌的声音还是一如既往地甜,歌曲风格也沿袭了轻松活泼的“18岁少女”人设。据了解,小冰不仅独立演唱了“我知我新”,歌词也是她一个人写出来的。小冰也已经掌握了作曲的能力,她其实在往作词作曲演唱全能音乐人发展,只是这次作曲不是小冰完成。一开始是五音不全说到虚拟歌姬,雷锋网编辑最先想到的是初音未来和洛天依,她们目前已经有数量不少的演唱歌曲,微软小冰演唱的技术和她们又啥不同?据公开资料介绍,初音未来用的是语音合成引擎VOCALOID,需要把声优录制好音频材料放进去,制作成音乐合成软件。创作者只需将歌词输入软件,加上背景音乐就可以制作出虚拟歌姬演唱的歌曲。认真听初音未来、洛天依等虚拟歌姬演唱的歌曲会发现,歌曲的每个字的连贯性并不好,咬字比较生硬。相比之下,采用人工智能生成模型的小冰的演唱要连贯和自然很多。但是,微软(亚洲)互联网工程院首席语音科学家栾剑告诉雷锋网,训练小冰的唱功是个痛苦的过程。栾剑播放了一首第一代版本的少女歌手小冰唱的歌,效果有点出人意料,可以说是五音不全,常常跑调,让人不由得想起上次去KTV时从隔壁包间传来的歌声。第一代版本的歌声虽然不理想,但是却很自然,每个片段都有丰富的细节,这让小冰团队感到惊喜。到了第二代版本,小冰唱歌的音准问题已经基本解决,但是在音质(唱功)方面,还需要改进。然后是第三代……据说当时第三代的演唱成本出来时,小冰团队去跟音乐人小柯交流,小柯突然告诉他们,“这个声音很好,但很单薄,因为它在声音之下没有气息。”当时在训练小冰第三代模型时,训练数据里是有大量气息的:换气的声音、一个声音起来之前的气息、结束的气息,但是他们把这些当成杂质,过滤掉了。“我知我新”这首歌采用第四次迭代版本的小冰DNN模型,这个模型的主要的功能是让演唱尽可能自然和接近人类演唱的风格。小冰在拿到曲谱后,会分析出节奏、音符长短,如果完全按照曲谱的话,演唱会非常机械。DNN模型能让小冰学习大量人类歌手的唱法后,形成自己的演唱风格。在网易云音乐的评论区,有人评论说,“小冰唱歌已经会换气了,跟真人差不多。如果第一次听,我都以为是真人。”据介绍,第四次迭代版本有三大更新:首先,加入换气声自动合成能力,歌声与气息融合,听起来更自然更有感染力。其次,第四次迭代本在在深度学习建模中增加控制的方式,字与字、音符与音符之间的过渡更加连贯顺畅。最后,通过进一步优化的深度神经网络结构,以及大幅度补充的训练数据,使小冰并行学习来自不同人类歌手的演唱风格,进一步脱离手工参数输入,自行完成演绎。小冰迭代了上万次才达到现在的水平,但是对于AI来说其实花费的时间并不长。栾剑用了一个笑傲江湖里的典故,“笑傲江湖里有剑宗和气宗,初音未来这样的虚拟歌姬用的技术像剑宗,短时间的修行就能出不错的效果。但是用软件合成的歌曲很难在流畅性、自然度等方面有提升。小冰现在走的这条路,更像气宗,基础打得比较牢固,想象的空间会很大。从写诗到写歌词除了唱功的进步之外,“我知我新”里小冰的作词能力也有了明显的进步。我们再来看一遍歌词。他们都顺应潮流/他们问为什么改变/青春灼灼花样翩翩/却不向前/当世界还在变迁/若时间无垠/若探索无边/认知就不再有极限/我在我主场/世界就任我去狂想/我知我新/未知的世界那么惊艳/哪怕有伤/满手泥泞还眼神发光/当我身处困境/也要像跑在丛林/急风骤雨的前路/人潮汹涌的江湖/我问我答我听我想/不惧怕来日方长/不跟随的一个我/是倔强的鲸和自在的鸟/不妥协的一个我/是沙漠的舟和独特的岛/很有趣的一个我/是山川的海和海底的草/很好奇的一个我/昼夜四季轮转现在我知我新听一遍歌,很容易就会察觉到,这首歌的歌词很押韵,唱起来有节奏感。通读一遍的话,会发现整体是有主题的,整体意向和意境统一,每一个小节也有不错的逻辑衔接。在现在口水歌盛行的当下,这首歌的歌词,可圈可点。微软(亚洲)互联网工程院人工智能创造事业部副总经理袁晶告诉雷锋网,“在训练的时候,模型上我们会做一些优化,针对曲调的韵律,针对节奏,会有一些优化,这首词生成出来,是完全百分之百AI的作品,没有做过什么改动。”据介绍, “我知我新”采用了与小冰创作诗歌相同的生成模型——基于LSTM的seq2seq模型,但是训练数据从诗歌换成了歌词,小冰利用深度神经网络学习超过1000万行的歌词语料,并在此基础上训练,再通过多感官诱发创作灵感,生成歌词。“我知我新”是小冰为知乎“新知青年大会”创作的主题曲,主题为“新知”。在创作的过程中,小冰“观看”了知乎 2018 全新品牌视频,阅读了海量的知乎站内问答,以及知乎用户公开的各类实时想法。基于这些知乎站内的图片、视频、问答内容与想法内容,诱发小冰的歌词生成。最后,团队从小冰创作的多个作品中,挑选了这一首热情年轻具有动感的演绎风格,从而完成这一首《我知我新》。此前,小冰可以根据一张图片来创作诗歌。例如:这种诱发创作其实和人类创作的模式很类似,一个人在熟读唐诗三百首之后,再看到一个意境,脑海中会不由自主涌现出诗句。现在,除了图片以外,小冰也可以根据长文本、图片、音频、视频等多种媒体形式来进行创作。虽说了解了小冰创作歌词的过程,但是小冰是如何把握歌词的主题和意义的呢?袁晶以上图创造诗歌的过程为例,他解释到,“这张图片是我们给她的刺激,里面包含了浅水、星星、太阳这些元素,她能直接用文字表达出这些元素,然后她自己也会发散到别的意象。比如‘她嫁了人间许多颜色’,这个意象是图片里没有的。有了这些之后,其实一首诗歌的整体性就有了。其实诗词、歌词都不需要完整的逻辑,人会通过脑补把意象串联起来。如果让小冰去写散文,去做纯自然语言理解,现在还是很困难。”现在,学界和业界都在积极推动自然语言理解和生成

[1] [2]  下一页


少女歌手小冰养成记:会作词作曲演唱的人工智能的诞生