- ·上一篇文章:手机应用软件测试要点整理
- ·下一篇文章:【四方利群】银联钱包“扫码立减”活动开始了!
干货 | 搜狗研究员讲解基于深度学习的语音分离
不例外。针对噪音类型、信噪比和说话人的推广性都还有提升的空间。对于解混响,同样可以使用基于频谱映射的方法。解混响中也需要生成训练数据,但不同于带噪语音生成时做时域的相加,带混响的语音是在时域上进行卷积;同样都把干净语音作为带标注数据。在基于频谱映射的方法基础上还可以加以改进。对于不同的混响时间,深度神经网络需要学习的时间窗口长度是不一样的,因而改进方法中加入了告知混响时间的功能,根据帧移R和扩帧数目N提特征后解码,可以获得更好的解混响效果。多说话人分离分为三种情况目标说话人和干扰说话人都固定,Speaker dependent,有监督分离目标说话人固定,训练阶段和测试阶段的干扰说话人可变,Target dependent,半监督分离目标说话人和干扰说话人都可变,Speaker independent,无监督分离对于有监督和半监督分离,可以使用基于频谱映射的方法,与前面使用基于频谱映射的方法做语音增强类似。对于无监督分类,有无监督聚类、深度聚类以及最近的序列不变训练(PIT)方法。PIT方法的核心是红框中标出的部分,在误差回传的时候,分别计算输出序列和标注序列间各种组合的均方误差,然后从这些均方误差中找到最小的那个作为回传误差,也就是根据自动找到的声源间的最佳匹配进行优化,避免出现序列模糊的问题。讨论两个问题最后,文仕学给大家留了两个思考题,欢迎大家在评论区给出自己的见解。第一个问题是语音分离任务中,是按传统思路先变换到频域,然后在频域上进行处理,还是直接在时域上处理比较好?后者的好处是端到端训练,不用考虑频域方法做傅立叶反变换时相位的问题。第二个问题是对于语音增强任务,应该使用真实噪声加噪还是使用人工仿真生成的噪声进行降噪?感谢文仕学此次的分享以及对文本的指正。————— 给爱学习的你的福利 —————不要等到算法出现accuracy不好、loss很高、模型overfitting时,才后悔没有掌握基础数学理论!线性代数及矩阵论, 概率论与统计, 凸优化AI慕课学院机器学习之数学基础课程即将上线!扫码进入课程咨询群,组队享团购优惠!————————————————————
干货 | 搜狗研究员讲解基于深度学习的语音分离