零基础入门语音识别-食物声音识别Task3

2021-04-17 23:58:36 阅读：485 来源： 互联网

零基础入门语音识别-食物声音识别

音频数据特征值的提取及MFCC特征提取知识

Task3 音频特征提取介绍打卡

本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛。
baseline由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning

任务介绍

本次任务，要求我们在初步理解了数据集的信息后。当我们拿到这些音频数据，需要如何进行特征提取，筛选出我们需要的信息。学习MFCC特征提取知识。

音频数据的特征值

对于一段音频信息来说，通过对不同特征的提取，我们可以选择我们需要体现的特征信息，进而对其进行分辨，识别等。在此次赛程中，对咀嚼声音的识别关键我觉得是对其进行MFCC特征提取的精度。

MFCC特征提取

在对咀嚼声音进行识别时，我们要模仿让机器和人听到的声音相仿。这就要用到MFCC特征提取。

MFCC特征提取的步骤如下：

1.对语音信号进行分帧处理
在这里插入图片描述
上面对音频进行分帧，加窗，是在进行短时傅里叶变换。所谓的短时傅里叶变换，即把一段长信号分帧、加窗，再对每一帧做快速傅里叶变换（FFT），最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式。
在这里插入图片描述
声谱图往往是像上图一样很大的一张图，且依旧包含了大量无用的信息，所以我们需要通过梅尔标度滤波器组（mel-scale filter banks）将其变为梅尔频谱。进一步突出我们想要的特征值。

在这里插入图片描述
我们可以发现，上面的滤波器组中，区间的频率越高，滤波器就越宽(但是如果把它变换到美尔尺度则是一样宽的)。这就是为了模拟人耳对声音的感知，人耳对声音的低频部分会比高频部分更敏感。

我们可以观察一下转换后的映射图，可以发现人耳对于低频声音的分辨率要高于高频的声音，因为赫兹到梅尔是log的关系，所以当频率较小时，mel随Hz变化较快；当频率很大时，mel的上升很缓慢，曲线的斜率很小。这说明了人耳对低频音调的感知较灵敏，在高频时人耳是很迟钝的，梅尔标度滤波器组启发于此。
在这里插入图片描述
Task3里，我最大的收获就是理解了为什么要用梅尔谱来提取咀嚼声音的特征值，但对之后的梅尔倒谱的理解还不是很透彻，因此就不在此描述。

标签：声音,Task3,入门,MFCC,音频,特征值,特征提取,识别
来源： https://blog.csdn.net/weixin_57171836/article/details/115800626

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。