当前位置：K88软件开发 → 文章中心 → 办公应用 → 办公应用21 → 文章内容

干货 | 搜狗研究员讲解基于深度学习的语音分离

减小字体

增大字体作者：华军来源：华军资讯发布时间：2019-3-10 1:10:39

不例外。针对噪音类型、信噪比和说话人的推广性都还有提升的空间。对于解混响，同样可以使用基于频谱映射的方法。解混响中也需要生成训练数据，但不同于带噪语音生成时做时域的相加，带混响的语音是在时域上进行卷积；同样都把干净语音作为带标注数据。在基于频谱映射的方法基础上还可以加以改进。对于不同的混响时间，深度神经网络需要学习的时间窗口长度是不一样的，因而改进方法中加入了告知混响时间的功能，根据帧移R和扩帧数目N提特征后解码，可以获得更好的解混响效果。多说话人分离分为三种情况目标说话人和干扰说话人都固定，Speaker dependent，有监督分离目标说话人固定，训练阶段和测试阶段的干扰说话人可变，Target dependent，半监督分离目标说话人和干扰说话人都可变，Speaker independent，无监督分离对于有监督和半监督分离，可以使用基于频谱映射的方法，与前面使用基于频谱映射的方法做语音增强类似。对于无监督分类，有无监督聚类、深度聚类以及最近的序列不变训练（PIT）方法。PIT方法的核心是红框中标出的部分，在误差回传的时候，分别计算输出序列和标注序列间各种组合的均方误差，然后从这些均方误差中找到最小的那个作为回传误差，也就是根据自动找到的声源间的最佳匹配进行优化，避免出现序列模糊的问题。讨论两个问题最后，文仕学给大家留了两个思考题，欢迎大家在评论区给出自己的见解。第一个问题是语音分离任务中，是按传统思路先变换到频域，然后在频域上进行处理，还是直接在时域上处理比较好？后者的好处是端到端训练，不用考虑频域方法做傅立叶反变换时相位的问题。第二个问题是对于语音增强任务，应该使用真实噪声加噪还是使用人工仿真生成的噪声进行降噪？感谢文仕学此次的分享以及对文本的指正。————— 给爱学习的你的福利 —————不要等到算法出现accuracy不好、loss很高、模型overfitting时，才后悔没有掌握基础数学理论！线性代数及矩阵论，概率论与统计，凸优化AI慕课学院机器学习之数学基础课程即将上线！扫码进入课程咨询群，组队享团购优惠！————————————————————

上一页 [1] [2]

干货 | 搜狗研究员讲解基于深度学习的语音分离

[] [返回上一页] [打印]

·上一篇文章：手机应用软件测试要点整理
·下一篇文章：【四方利群】银联钱包“扫码立减”活动开始了！

文章评论评论内容只代表网友观点，与本站立场无关！

本类热门阅览

·干货 | 搜狗研究员讲解基于深度学习的语音分离

干货 | 搜狗研究员讲解基于深度学习的语音分离

文章评论评论内容只代表网友观点，与本站立场无关！

频道栏目导航

本类热门阅览

相关文章