VITS | AI资源网

VITS（端到端文本到语音的对抗性学习的变分推理）是一种端到端语音合成模型，可根据输入文本序列预测语音波形。它是一种条件变分自动编码器（VAE），由后验编码器、解码器和条件先验组成。

相关导航

该存储库包含用于训练 Pheme ...

它是通过大型语音语言模型的...

它是面向所有人的零样本多扬...

它是一个用于教学、培训和使...

XTTS 是一种语音生成模型，让...

EmotiVoice 是一款功能强大且...

暂无评论...