最近在研究实时翻译场景,发现传统的翻译模型用在直播或流式场景下问题很多。主要是延迟太高,需要等完整句子结束才能翻译,而且处理长文本时计算开销会指数级增长,还经常出现标点符号乱插入的问题。 后来找到了NoLanguageLeftWaiting这个项目。它基于Meta的NLLB模型,但专门做了实时翻译优化。支持200种语言的同步翻译,采用LocalAgreement策略,可以在句子还没说完的时候就开始输出翻译结果,不用等到完整句子结束。 用起来挺顺手的,提供了Python包可以直接集成到项目里。它解决了原始NLLB模型的几个关键问题:前缀处理更稳定,避免了EOS标记乱插入,还优化了长文本的计算开销。测试下来翻译质量基本保持,但延迟降低了很多。 安装使用还算简单,pip install就能装上。它还在开发推测解码功能,用600M模型做草稿,1.3B模型做验证,进一步提升速度。支持HuggingFace和Ctranslate2两种后端,可以根据需求选择。 适合做直播字幕、实时会议翻译这类对延迟敏感的场景。如果你需要实时翻译功能,又不想用云服务,这个工具确实能解决不少问题。 用了几周,现在做实时翻译实验方便多了,延迟控制得比之前好很多。大家做实时翻译都用什么方案?有什么好的经验分享一下? #实时翻译 #AI开发 #开源项目