所有文章 | AI资源网

10款顶级开源TTS模型传送门，语音合成炼丹师必备

TTS是Text To Speech的缩写，即“从文本到语音”，是人机对话的一部分，让机器能够说话。TTS技术是语音合成应用的一种，它将储存于电脑中的文件，如帮助文件或...

所有文章

1年前 (2024)

OpenAI的Whisper是一种基于深度学习的语音识别模型，它是一种通用的语音识别模型，可以用于语音识别、语音翻译和语言识别等任务。 Whisper是通过收集来自多个...

所有文章

1年前 (2024)

whisper介绍 Open AI在2022年9月21日开源了号称其英文语音辨识能力已达到人类水准的Whisper神经网络，且它亦支持其它98种语言的自动语音辨识。 Whispe...

所有文章

1年前 (2024)

跟AI绘画一样，音乐产业正在将AI作为一种辅助工具，而不是代替人类艺术家。人工智能（AI）正在越来越多地应用于音乐、电影和绘画等艺术领域。在当下的应用中...

所有文章

1年前 (2024)

AI大模型是“人工智能预训练大模型”的简称，是指具有大量参数和复杂结构的机器学习模型。这些模型可以应用于处理大规模的数据和复杂的问题。包含了“预训练”和“...

所有文章

1年前 (2024)

so-vits-svc是基于VITS的开源项目，VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种结合变分推理（variation...

所有文章

1年前 (2024)

SadTalker数字人制作工具，用自带的图片音频可以生成，而用自己的图片、音频生成视频就不行。基本都是因为图片分辨率太高，或者音频格式不对。 ...

AI 视频

1年前 (2024)

2023年初ChatGPT引发人工智能热潮，虚拟人产业在AI赋能下商业价值轮廓逐渐清晰。在人工智能和虚拟现实技术融合发展的大背景下，中国的数字人技术厂商正在积极...

AI 视频

1年前 (2024)

CFM是一种新技术，已被证明可以改进扩散模型，Meta的Voicebox模型将CFM引入语音合成领域，下面是voicebox的一个工作流程图 Matcha-TTS是第一个开源co...

所有文章

1年前 (2024)

郭德纲用英文说相声的短视频火爆全网，同类型的AI短视频层出不穷，更有好莱坞明星说中文的短视频，不断地出爆款，那么现在我们就开始学习如何制作一个同类型...

所有文章

1年前 (2024)