我正在开发一个工具,允许我阅读所有通知,这要归功于与不同API的连接.
它工作得很好,但现在我想用一些声音命令来做一些动作.
就像软件说“来自Bob的一封邮件”一样,我想说“读它”或“存档”.
我的软件正在通过节点服务器运行,目前我没有任何浏览器实现,但它可以是一个计划.
节点JS中启用语音到文本的最佳方法是什么?
我已经看到了很多线程,但主要是它使用浏览器,如果可能的话,我想在开始时避免使用它.可能吗?
另一个问题是某些软件需要输入wav文件.我没有任何文件,我只是希望我的软件能够在我说出命令时总是听我说的反应.
你有关于我怎么做的信息吗?
干杯
解决方法
要将音频数据输入您的应用程序,您可以尝试像
microphone这样的模块,我没有使用它看起来很有希望.这可以避免使用浏览器进行音频输入.
要进行实际的语音识别,您可以使用IBM Watson Developer Cloud的Speech to Text服务.此服务支持websocket interface,因此您可以拥有全双工服务,将音频数据传输到云端并获取生成的转录.您可能需要考虑实现onset detection的形式,以避免向服务传输大量(相对)沉默 – 这样,您可以保持在免费套餐中.
还有一个文本到语音转换服务,但听起来你已经为你的工具部分提供了解决方案.
披露:我是IBM Watson的传播者.