Android上的实时呼叫转录

2019-06-09 21:11:05 阅读：253 来源： 互联网

标签：android speech-to-text disability

我是一名患有听力障碍的Android开发人员,我目前正在探索使用Android中的Speech Recognizer API为文本应用程序发表演讲的选项.隐藏式字幕电话和Innocaption在我的国家/地区不可用.潜在的应用可能就像电话中的字幕.

https://developer.android.com/reference/android/speech/SpeechRecognizer.html

该API用于捕获语音命令,而不是用于实时实时转录.我甚至可以将它作为服务实现,但是我总是需要在它传递结果或部分结果后重新启动它,这在会话设置中是不可行的(在服务重新启动时单词会丢失).

请注意,此应用程序我不需要100％的准确率.许多听力受损的人发现有一些对话的背景可以帮助他们.所以我实际上并不需要评论这是不准确的.

有没有办法在连续模式下实现语音识别器？我可以创建一个textview,在从服务返回新文本时不断更新自己.如果这个API不是我应该看的,有什么建议吗？我测试了CMUSphinx,但发现它太依赖于短语/句子块,它不太可能适用于我想到的那种应用程序.

解决方法:

我是一个聋哑软件开发人员,所以我可以插入.我一直在监控语音到文本API的技术状态,现在API变得“足够好”,可以为某些类型提供无人操作的中继/字幕服务在安静的环境中与人们使用电话进行电话交谈.例如,我的配偶使用Apple Siri实时转录(iOS 8)获得98％的转录准确率.

我能够通过将声音从一部手机中传送到第二部iPhone按下麦克风按钮(弹出式键盘)来识别手机字幕,并以每分钟250字的速度成功地以大约95％的准确度对话题进行电话对话(比Sprint Captioned Telephone和Hamilton Captioned Telephone),至少到1分钟的截止时间.

因此,我声明基于计算机的语音识别对于家庭成员(在安静的环境中经常呼叫的类型)的电话是实用的,在那里你至少可以指导他们移动到一个安静的地方,以允许字幕正常工作(与&gt ; 95％准确度).自iOS 8发布以来,我们真的需要这个,所以我们不需要依赖依赖操作符或字幕电话. Sprint Captioned电话在快速演讲期间严重滞后,而Apple Siri保持不变,因此我可以使用我的jririgged两个iOS设备Apple Siri“实时字幕电话”设置进行更自然的电话交谈.

有些手机以更高清晰的方式传输音频,因此它可以在两部iPhone之间运行良好(iPhone扬声器传输到另一部iPhone的Siri,运行在iOS8连续模式).假设您使用的是G.722.2(AMR-WB),就像在支持高清音频电话标准的同一操作符上运行两个iPhone一样.它通过Siri传输时效果很好 – 大致和在手机前一样好,同样的人声(假设另一端在安静的环境中对着手机说话).

谷歌和苹果需要向辅助应用开放他们的语音到文本API,因为无人操作的电话转录现在终于实用了,至少在致电家庭成员时(良好的声音和教练在接听电话时处于安静的环境中) ).在这种情况下,也需要消除连续识别时间限制.

标签：android,speech-to-text,disability
来源： https://codeday.me/bug/20190609/1207497.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Android上的实时呼叫转录