论文笔记：Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

2022-04-17 15:33:08 阅读：154 来源： 互联网

标签：频谱 Independent CASA Divide Deep Conquer Talker Separation

Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

介绍

受到CASA的启发，提出了一种deep casa方法，用于两个说话人的分离。不依赖说话人的分离问题需要解决置换问题（permutation problem）。主要通过PIT和DC两种主要方法来解决置换问题。

本文提出的方法在simultaneous grouping阶段，利用具有密集连接层的 UNet 卷积神经网络 (CNN) 来提高帧级分离的性能。为了克服逆STFT中噪声相位的影响，探索了新的复值STFT训练目标函数和time domain训练函数来进行train。在sequential grouping阶段，使用TCN网络来改善性能（在说话人跟踪方面表现较好）。

Deep CASA

Simultaneous Grouping Stage

这一阶段用于将每一帧的频谱分离为两个说话人。对应第c个说话人的STFT估计。训练过程遵循tPIT准则。Dense-UNet网络的输出成估计不同说话人的T-F masks，然后将混合的频谱与mask相乘，就可以实现说话人分离![image-20220406101124843](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406101124843.png)

Sequential Grouping Stage

这一阶段的主要目的在于track所有帧级别的频谱估计将他们分配给不同的说话人。

将混合的频谱和说话人频谱的估计共同作为网络的输入。NN网络通过训练，可以将每一个帧级别的输入变为一个D维的embedding vector V(t)。Target label A(t)用来表示tPIT输出的分配。之后提出了这一阶段的训练目标函数：![image-20220406102010224](Divide and Conquer A Deep CASA Approach to Talker-Independent Monaural Speaker Separation.assets/image-20220406102010224.png)

通过训练这一函数，对应于相同分配的V(t),变得更近，不同分配的V(t)变得更远。因此在inference阶段，用K-means算法来对V(t)进行聚类，在每一帧产生binary label，用于组织Simultaneous Grouping Stage的帧级输出。

标签：频谱,Independent,CASA,Divide,Deep,Conquer,Talker,Separation
来源： https://www.cnblogs.com/weihaoyang/p/16155838.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

论文笔记：Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

Divide and Conquer: A Deep CASA Approach to Talker-Independent Monaural Speaker Separation

介绍

Deep CASA

Simultaneous Grouping Stage

Sequential Grouping Stage