《Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networksfor Audio-Visual Speech Se》

2022-01-26 20:01:19 阅读：205 来源： 互联网

标签：Convolutional Multi Stream 卷积音频分离音视频语音图片

《Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networks for Audio-Visual Speech Separation in Multi-Talker Environments》

本文的作者是Yiyu Luo, Jing Wang, Liang Xu , Lidong Yang，School of Information and Electronics, Beijing Institute of Technology, China ，School of Information Engineering, Inner Mongolia University of Science and Technology, China 。

研究动机

语音分离是从带噪语音中提取到目标说话人的语音。本文提出了一个时域上的音频和时频结合的语音分离模型，而且是在多个说话人的场景下实现的。并且引入了一个多流机制和金字塔的卷积。金字塔式的卷积就是让卷积核的到校不固定，这样可以看到不同的视野，类似于金字塔的形状。

INTRODUCTION

介绍了一下什么是语音分离，多个说话人语音分离存在标签模糊和输出维度不匹配的问题，就会产生网络不知道有多少个说话人的问题。很多人都在解决这些问题。所以本文提出了一个音频和图片结合的方法，图片上的嘴的形状可以给语音分离提供一定的线索。这篇论文建立了一个音视频的网络Conv-Tasnet，主要是由TCN组成的。

模型结构

模型结构主要是由三大部分组成的，一部分是音频的encoder，一部分是音频的decoder，还有一部分是音视频分离网络，图上用虚线画出来的那一部分。三者的主要作用是从带噪音频中提取相关的语音特征，从音视频的特征表示中学习一个MASK，后者重建增强的波形。

为什么要选择唇形的图片而不用脸部图片呢？因为唇部的移动和声学信息有关系，因为声音是从嘴里面发出来的嘛，所以用于分离任务比较好。

TCN的结构

A部分就是普通的结构，B部分是一个多流机制，C部分就是金字塔类型的，可以看到不同的视野。

实验数据和操作

用的数据集是GRID和MUSAN（噪声集），前者包含了33个说话人，其中，训练集，验证集集，测试集的划分为25、4、4。还有一部分合成数据。

图片预处理为88*88大小的灰度图片。音频是3秒采样到8000HZ，归一化。Adam优化器，1e-3学习率，采用了四种对比模型。实验结果如下：

表上AO的意识是只有音频没有视频数据，AV的意思是有音频和视频数据。看结果，第一行和第二行表明有视频数据的结果要比较好一些，第四行采用的金字塔型的网络比较好，说明采用不用视野的卷积效果会比较好。

标签：Convolutional,Multi,Stream,卷积,音频,分离,音视频,语音,图片
来源： https://blog.csdn.net/qq_46079584/article/details/122707562

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

《Multi-Stream Gated and Pyramidal Temporal Convolutional Neural Networksfor Audio-Visual Speech Se》