VibeVoice：微软对“长文本语音”的一次降维打击

在 NotebookLM 凭一己之力把“AI 播客”这个概念带火之后，开源社区其实一直缺一块拼图。

现有的开源 TTS 模型，无论是 ChatTTS 还是后来者，大多擅长短句或短段落的生成。一旦你试图让它们生成超过几分钟的长音频，往往会遇到两个问题：要么是显存爆炸，要么是说到后面音色开始漂移，甚至开始胡言乱语。

微软最近重开的 VibeVoice，似乎就是奔着填补这块拼图来的。

90 分钟，而非 90 秒

VibeVoice 在 README 里最不起眼、但技术含量最高的一句话是：支持长达 90 分钟、最多 4 个说话人的长音频生成。

这不仅仅是“时长”的堆砌，而是稳定性的体现。VibeVoice 解决的是 Long-form TTS 的核心痛点：如何在长周期的生成中保持上下文的一致性（Consistency）和自然的轮流说话（Turn-taking）。

如果你想做一个全自动的播客生成流，或者是有声书生成，VibeVoice 目前展现出的能力，可能比单纯追求“音色像不像”要有价值得多。它允许你在一段长达一个半小时的音频轨道里，塞进 4 个不同的角色，还要保持逻辑连贯，这在开源领域几乎没有竞品。

微软这次的技术栈选型也很有意思，走的是 LLM + Diffusion 的路子，但在细节上做了很多优化：

极低帧率的 Tokenizer：通常音频处理的帧率很高，但 VibeVoice 搞了一个 7.5 Hz 的超低帧率 Tokenizer。这意味着它把长音频的信息密度压缩到了极致，从而极大地降低了计算量。这也是为什么它能 hold 住 90 分钟长文的原因。
Qwen2.5 打底：底层的文本理解用了 Qwen2.5-1.5B。选择一个通用的 LLM 作为“大脑”，保证了它对对话语气、潜台词的理解能力。