ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

c-如何实施“ ok google”技术

2019-10-10 08:06:42  阅读:184  来源: 互联网

标签:c-3 c audio voice-recognition


我已经阅读了一些有关语音/语音识别的知识,我想知道它是如何工作的.例如,Android上的“ ok Google”及类似案例?

我想知道它是如何工作的(如何在连续的提要中区分和分析一个单词,以找到它是一个关键字).如果我将其视为连续的文本供稿,那么一种实现方法是隔离给定长度的供稿,然后找到一个关键字.音频源有点难理解,因为单词之间没有纯净的声音(如上所述),并且隔离给定的长度并不能保证在所选子源的开头或结尾处剪切关键字.它是如何工作的?

最后,如果你们知道一些能够做到这一点的库(如果可能,则为C/C++),我将很高兴实现一个“关键字发现器”.

谢谢.

解决方法:

关键字识别通常是通过动态编程来实现的,您只需搜索包含关键字的最佳音频块,并在所有可能的起点和终点进行搜索.您需要查找关键字和替代项.基本上,在每时每刻您都在寻找关键字和其他声音,并且一旦关键字的概率高于其他语音的概率,您就会发出信号.错误警报率由阈值控制.您无需专门处理沉默,因为它已被“其他语音”模型所涵盖.以下论文详细介绍了该算法:

http://eprints.qut.edu.au/37254/

对于关键字发现的实现,您可以查看Pocketsphinx和Pocketsphinx Android演示.这是一个C库,能够发现连续流中的单词.您可以在此处找到该教程:

http://cmusphinx.sourceforge.net/wiki/tutorialpocketsphinx.

要从麦克风中找​​到关键字,您可以尝试一些简单的操作,例如

  pocketsphinx_continuous -inmic yes -keyphrase "ok google" -kws_threshold 1e-20

以下出版物描述了原始的“ Ok Google”技术:

使用深层神经网络进行小字体关键词发现
Guoguo Chen卡罗来纳州Parada Georg Heigold

https://wiki.inf.ed.ac.uk/twiki/pub/CSTR/ListenSemester2201314/chen2014small.pdf

这是一项相当先进的技术,更重要的是,它需要大量特定数据进行培训.

标签:c-3,c,audio,voice-recognition
来源: https://codeday.me/bug/20191010/1885458.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有