百度在AI DAY上发布了全新升级的文小言,搭载了一个特别的端到端语音语言大模型。作为一个科技爱好者,我第一时间进行了体验,发现这次升级确实有些有趣的变化。 用几个关键词概括新升级的文小言就是:语音交互超逼真、超低时延、超低成本。 ⚡️实测:响应真的变快了 以前使用语音助手时总有那么几秒尴尬的等待,现在明显感觉到响应速度快了很多。我计时了一下,从说完问题到AI开始回答,大约只需1秒左右,比起以前动辄3-5秒的等待,体验顺畅了不少。而且在这个过程中,即使你频繁打断照样应对如流。 🗣️方言识别: 最让我惊讶的是文小言对方言的支持。让我奶奶试着用粤语和文小言聊了几句,没想到AI真的听懂了!过去每次视频电话,我都要给奶奶"翻译"语音助手的回答,现在她可以直接对话了。 支持的方言还包括广西、河南、广东、山东等地,对于不习惯普通话的老人家来说,这是个实用的改进。 📱技术原理:为何这次不一样 根据介绍,这个语音大模型采用了互相关注意力(Cross-Attention)技术,实现了端到端的语音语言处理。与传统的"语音识别+文本理解+语音合成"级联方案相比,新方案将整个过程融为一体,不仅提高了响应速度,这还使大模型的调用成本比行业平均水平降低了50%-90%。 百度此次推出的基于Cross-Attention的端到端语音语言模型,重点就在于此。 具体来说,百度做了以下创新: - 业内首创的基于Cross-Attention的跨模态语音语言大模型 - Encoder和语音识别过程融合,降低KV计算 - Decoder和语音合成模型融合 - 创新提出基于Cross-Attention的高效全查询注意力技术(EALLQA),降低KV cache #AI体验 #文小言 #语音助手 #科技日常 #实用工具