为此,我预先记录了每个数字(具有不同的语调),当我得到一个数字时,我加入音频文件并一起播放它们,并在数字之间添加一些静音.
然而,这听起来并不平滑或自然.
我尝试对文件进行增益和速度规范化,但感觉我需要以某种“智能”方式加入它们,以便过渡听起来很自然.
我寻找一些算法来做到这一点,但没有找到任何东西.
是否有一种已知的方法?
谢谢.
总的来说,这里有很多东西 – 如何根据声学特性,源语调和所需的目标语调来决定加入哪些项目.实现起来非常复杂,因此最好使用现有的开源TTS系统和现有的合成器,这些合成器涵盖了所有内容.您可以查看festvox或Openmary.