ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

论文笔记:Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

2022-04-17 15:33:08  阅读:154  来源: 互联网

标签:频谱 Independent CASA Divide Deep Conquer Talker Separation


Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

介绍

受到CASA的启发,提出了一种deep casa方法,用于两个说话人的分离。不依赖说话人的分离问题需要解决置换问题(permutation problem)。主要通过PIT和DC两种主要方法来解决置换问题。

本文提出的方法在simultaneous grouping阶段,利用具有密集连接层 的 UNet 卷积神经网络 (CNN) 来提高帧级分离的性能。为了克服逆STFT中噪声相位的影响,探索了新的复值STFT训练目标函数和time domain训练函数来进行train。在sequential grouping阶段,使用TCN网络来改善性能(在说话人跟踪方面表现较好)。

Deep CASA

Simultaneous Grouping Stage

这一阶段用于将每一帧的频谱分离为两个说话人。image-20220406100912906 对应第c个说话人的STFT估计。训练过程遵循tPIT准则。Dense-UNet网络的输出成估计 不同说话人的T-F masks,然后将混合的频谱与mask相乘,就可以实现说话人分离![image-20220406101124843](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406101124843.png)

Sequential Grouping Stage

这一阶段的主要目的在于track所有帧级别的频谱估计image-20220406101431700 将他们分配给不同的说话人。

将混合的频谱和说话人频谱的估计共同作为网络的输入。NN网络通过训练,可以将每一个帧级别的输入变为一个D维的embedding vector V(t)。Target label A(t)用来表示tPIT输出的分配。之后提出了这一阶段的训练目标函数:![image-20220406102010224](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406102010224.png)

通过训练这一函数,对应于相同分配的V(t),变得更近,不同分配的V(t)变得更远。因此在inference阶段,用K-means算法来对V(t)进行聚类,在每一帧产生binary label,用于组织Simultaneous Grouping Stage的帧级输出。

image-20220406102434043

标签:频谱,Independent,CASA,Divide,Deep,Conquer,Talker,Separation
来源: https://www.cnblogs.com/weihaoyang/p/16155838.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有