当前位置:K88软件开发文章中心办公应用办公应用21 → 文章内容

干货 | 搜狗研究员讲解基于深度学习的语音分离

减小字体 增大字体 作者:华军  来源:华军资讯  发布时间:2019-3-10 1:10:39

不例外。针对噪音类型、信噪比和说话人的推广性都还有提升的空间。对于解混响,同样可以使用基于频谱映射的方法。解混响中也需要生成训练数据,但不同于带噪语音生成时做时域的相加,带混响的语音是在时域上进行卷积;同样都把干净语音作为带标注数据。在基于频谱映射的方法基础上还可以加以改进。对于不同的混响时间,深度神经网络需要学习的时间窗口长度是不一样的,因而改进方法中加入了告知混响时间的功能,根据帧移R和扩帧数目N提特征后解码,可以获得更好的解混响效果。多说话人分离分为三种情况目标说话人和干扰说话人都固定,Speaker dependent,有监督分离目标说话人固定,训练阶段和测试阶段的干扰说话人可变,Target dependent,半监督分离目标说话人和干扰说话人都可变,Speaker independent,无监督分离对于有监督和半监督分离,可以使用基于频谱映射的方法,与前面使用基于频谱映射的方法做语音增强类似。对于无监督分类,有无监督聚类、深度聚类以及最近的序列不变训练(PIT)方法。PIT方法的核心是红框中标出的部分,在误差回传的时候,分别计算输出序列和标注序列间各种组合的均方误差,然后从这些均方误差中找到最小的那个作为回传误差,也就是根据自动找到的声源间的最佳匹配进行优化,避免出现序列模糊的问题。讨论两个问题最后,文仕学给大家留了两个思考题,欢迎大家在评论区给出自己的见解。第一个问题是语音分离任务中,是按传统思路先变换到频域,然后在频域上进行处理,还是直接在时域上处理比较好?后者的好处是端到端训练,不用考虑频域方法做傅立叶反变换时相位的问题。第二个问题是对于语音增强任务,应该使用真实噪声加噪还是使用人工仿真生成的噪声进行降噪?感谢文仕学此次的分享以及对文本的指正。————— 给爱学习的你的福利 —————不要等到算法出现accuracy不好、loss很高、模型overfitting时,才后悔没有掌握基础数学理论!线性代数及矩阵论, 概率论与统计, 凸优化AI慕课学院机器学习之数学基础课程即将上线!扫码进入课程咨询群,组队享团购优惠!————————————————————

上一页  [1] [2] 


干货 | 搜狗研究员讲解基于深度学习的语音分离