资源 2025-12-10 VibeVoice:微软对“长文本语音”的一次降维打击 比起单纯的音色克隆,微软开源的 VibeVoice 更在意如何让模型一口气说上 90 分钟还不崩。支持 4 人对话、300ms 延迟,这可能是目前最接近“开源版 Podcast 引擎”的项目。 #TTS #Microsoft #VibeVoice +2