资源 2025-12-10 VibeVoice:微软对“长文本语音”的一次降维打击 比起单纯的音色克隆,微软开源的 VibeVoice 更在意如何让模型一口气说上 90 分钟还不崩。支持 4 人对话、300ms 延迟,这可能是目前最接近“开源版 Podcast 引擎”的项目。 #TTS #Microsoft #VibeVoice +2
软件 2025-11-28 FireRedTTS-2:长达三分钟的开源长对话语音生成 yet another TTS project,支持长达三分钟的长对话生成,能跑在 4070 上,首包延迟低至 140ms。 #TTS #语音合成 #开源模型 +2