产品简介

VibeVoice 是微软研究院开发并开源的前沿语音 AI 模型家族，涵盖自动语音识别（ASR）和文本转语音（TTS）两大核心能力。项目于2024年8月发表研究论文，2026年3月正式在 GitHub 开源，截至4月底已获 45K+ Star。其核心创新是 7.5Hz 超低帧率分词器，实现 3200 倍音频压缩比，配合 LLM + 扩散头混合架构，在长音频处理和多说话人合成上达到业界领先水平。

核心功能

60分钟长音频识别：ASR 模型可一次性处理长达60分钟的音频，具备全局上下文理解能力，告别传统分段拼接
90分钟多说话人合成：TTS 模型支持生成长达90分钟的多说话人对话音频，适合播客、有声书等场景
超低帧率分词器：7.5Hz 语音分词器将音频压缩至极低维度（3200x压缩比），大幅降低 LLM 处理语音的计算成本
说话人识别 + 时间戳：ASR 内置说话人分离和精确时间戳标注，无需额外后处理管线
50+ 语言支持：自动检测和切换语言，支持超过50种语言的识别与合成
流式 TTS：支持实时流式语音合成，适用于交互式对话和直播场景

适合谁用

以下类型的用户会特别受益于 VibeVoice：

播客和有声书的自动生成
会议录音的长时转录与说话人标注
多语言实时字幕系统
AI 语音助手与对话系统
视频内容的语音后期配音

优点亮点

完全开源免费（MIT 协议）
长音频处理能力远超 Whisper 等方案
ASR 和 TTS 双能力一站式覆盖
微软研究院品质保证，社区活跃（45K+ Star）
可本地部署，数据不出境

价格与方案

完全免费开源（MIT 协议），代码和模型权重托管在 GitHub。也可通过 Microsoft Foundry 平台的模型目录直接调用云端服务。

总结与建议

VibeVoice 是当前开源语音 AI 领域最全面的解决方案之一，在长音频处理和多说话人合成两个方向上远超传统方案。适合需要高质量语音识别/合成且重视数据隐私的开发者和企业。

版本演进

GigaToken 发布：语言模型分词速度最高提升约 1000 倍，可无缝替代 HuggingFace Tokenize （2026-07-22）：GigaToken 是一款新的语言模型分词器，在 AMD EPYC 9565 双路 144 核 CPU 上对 GPT-2 分词速度达 24.53 GB/s，比 HuggingFace Tokenizers 快 989 倍、比 tiktoken 快 681 倍。

VibeVoice 热门 新增