我正在从事一个项目,我必须使用
java从音频.wav文件中提取人类的声音.
音频.wav文件可能有3到4个声音,如狗,猫,音乐和人类.我将必须识别人类的声音,然后从音频.wav文件中删除该部分.
我正在使用FFT.java和Complex.java.
现在我写了一个AudioFileReader类,它从硬盘驱动器读取audio.wav文件,然后将其转换为字节数组.然后使用上面提到的FFT.java和Complex.java应用FFT.fft(bytesArray),它给出了复数数组的返回值;
现在的问题是如何从返回的Complex数组中提取人类的声音字节模式…有没有人知道我可以如何实现这一点?
编辑:我们假设一个非常简单的audio.wav文件.例如,猫的声音然后沉默,人的声音然后沉默,狗的声音然后沉默等没有混合的声音.