VibeVoice:微软对“长文本语音”的一次降维打击
在 NotebookLM 凭一己之力把“AI 播客”这个概念带火之后,开源社区其实一直缺一块拼图。
现有的开源 TTS 模型,无论是 ChatTTS 还是后来者,大多擅长短句或短段落的生成。一旦你试图让它们生成超过几分钟的长音频,往往会遇到两个问题:要么是显存爆炸,要么是说到后面音色开始漂移,甚至开始胡言乱语。
微软最近重开的 VibeVoice,似乎就是奔着填补这块拼图来的。
90 分钟,而非 90 秒
VibeVoice 在 README 里最不起眼、但技术含量最高的一句话是:支持长达 90 分钟、最多 4 个说话人的长音频生成。
这不仅仅是“时长”的堆砌,而是稳定性的体现。VibeVoice 解决的是 Long-form TTS 的核心痛点:如何在长周期的生成中保持上下文的一致性(Consistency)和自然的轮流说话(Turn-taking)。
如果你想做一个全自动的播客生成流,或者是有声书生成,VibeVoice 目前展现出的能力,可能比单纯追求“音色像不像”要有价值得多。它允许你在一段长达一个半小时的音频轨道里,塞进 4 个不同的角色,还要保持逻辑连贯,这在开源领域几乎没有竞品。
那些“反常识”的技术细节
微软这次的技术栈选型也很有意思,走的是 LLM + Diffusion 的路子,但在细节上做了很多优化:
- 极低帧率的 Tokenizer:通常音频处理的帧率很高,但 VibeVoice 搞了一个 7.5 Hz 的超低帧率 Tokenizer。这意味着它把长音频的信息密度压缩到了极致,从而极大地降低了计算量。这也是为什么它能 hold 住 90 分钟长文的原因。
- Qwen2.5 打底:底层的文本理解用了 Qwen2.5-1.5B。选择一个通用的 LLM 作为“大脑”,保证了它对对话语气、潜台词的理解能力。
迟到的 Realtime 与“回炉重造”
关注这个项目的朋友可能知道,VibeVoice 其实在 9 月份短暂开源过一次,但很快就因为风控原因(Deepfake 风险)被微软紧急下架了。
直到这一周,它才重新上线。为了平衡安全与开源,微软现在的策略是:不直接开放 Zero-shot 的声音克隆接口,而是通过嵌入式格式(embedded format)来提供声音提示。虽然没那么方便了,但这确实是目前大厂开源高表现力 TTS 的标准动作。
而在 12 月 3 号,他们还放出了一个新的 VibeVoice-Realtime-0.5B 模型。
- 300ms 首包延迟:支持流式文本输入,这意味着它可以被集成到实时对话机器人中。
- 多语言实验:除了中英,刚加了德、法、日、韩等 9 种语言的实验性支持。
实际体验建议
我看了一下官方的 Colab 和本地部署要求,VibeVoice 对硬件还算友好(得益于那个低帧率 Tokenizer)。
目前的 VibeVoice 还是一个纯粹的 Research Framework。它在“说话”这件事上做得很好,甚至支持即兴哼唱(Spontaneous Singing),非常像人。但它目前还处理不了重叠语音(Overlapping Speech),也就是两个人抢话的场景。
如果你正在寻找一个能稳定输出长对话、且不仅限于英文的 TTS 方案,VibeVoice 值得你花一个下午去折腾一下。

