我的应用程序中使用耳朵进行语音识别.主要关注的是准确性.在一个安静的环境中,精确度约为50%,但在嘈杂的环境中情况会变得更糟.几乎没有任何东西被正确识别.目前我正在使用约300字的字典文件.我应该寻找哪些方面来提高准确度?到目前为止,我还没有做任何调整.
解决方法
语音识别应用的设计要求您了解语音识别背后的一些基本概念,如声学模型,语法和语音字典.您可以从CMUSphinx教程
http://cmusphinx.sourceforge.net/wiki/tutorial了解更多信息
语言应用程序开发的正确状态不正确,您可以使用一个过程来改进语言,使应用程序变得有用.过程如下:
收集您想要识别的语音样本,并创建一个语音数据库来衡量当前的准确性并了解其背后的问题
>尝试用词汇大小来改善不同之间的分隔
语音提示.例如,10个命令的词汇比300个命令的词汇更容易识别.
>设计您的应用程序,以识别的变体的数量较少
人的答案是直截了当的.这个活动被称为VUI(语音用户界面设计),它是很多精采书籍和博客文章的一个很大的领域.您可以在这里找到一些细节:http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765
>尝试改善应用程序的声部分.修改字典以符合您的演讲.调整声学模型以匹配声学特性.有关声学模型适应过程的描述,请参见http://cmusphinx.sourceforge.net/wiki/tutorialadapt.