📚「Interspeech 2026」 Zero-VC: Zero-Lookahead Streaming Voice Conversion via Speaker Anonymization 🧠实时变声一直有个难题: 既要去掉原说话人的音色,又要保留语音内容和韵律。 🧠现有方法通常需要“偷看未来语音”(Lookahead)来保证效果,因此会带来额外延迟。 我们提出 Zero-VC: 利用 Speaker Anonymization(说话人匿名化)替代Information Bottleneck,在降低音色泄露的同时保留丰富韵律信息。 这样模型不再依赖未来上下文,实现了真正的: ✅ Zero-Lookahead Streaming VC ✅ 单帧(20ms)算法延迟 ✅ 实时 CPU 推理(RTF 0.063) ✅ 转换质量超过多个主流非流式 VC 系统 我们发现: Speaker Anonymization 不仅能隐藏说话人身份, 还能显著减少模型对未来语音的依赖, 从而突破实时语音转换的延迟瓶颈。 #港中深 #AI语音 #Amphionteam #Interspeech2026