百度又开源了一个狠货 OCR ——Unlimited OCR! 传统 OCR 处理长文本时,输出越长 KV Cache 越膨胀,显存暴涨、速度变慢,只能一页页硬啃。这次它学人类“边看边抄”的记忆方式,单次前向传播直接拿下几十页长文档。 🌟 核心亮点:R-SWA 机制 Unlimited OCR 的核心在于将解码器中的普通注意力替换为了参考滑动窗口注意力(Reference Sliding Window Attention, R-SWA): · 全局看图(Reference):模型在解码时能一直看到完整的输入图像(Visual Tokens)。 · 局部遗忘(Sliding Window):对于已经生成的历史文字,模型只关注最近的 n 个 Token(默认128)。 · 极低开销:这种“软遗忘”设计让整个解码过程中的 KV Cache 保持恒定!显存占用和推理延迟不再随长度线性增加。 🚀 强劲的性能表现 模型基于 DeepSeek OCR 的 MoE 架构(3B总参数,激活仅500M)进行持续训练: · 单页SOTA:在权威评测集 OmniDocBench v1.5 上斩获 93.23% 的综合高分(比 DeepSeek OCR 基线提升 6.22%);在 v1.6 上达到 93.92%,性能强劲。 · 长文本不掉速:当输出长度达到 6000 Token 时,推理速度(TPS)比基线模型快了 35%,且速度全程恒定。 · 单次直出几十页:在标准 32K 长度下,支持一键解析几十页文档(在40+页测试中,编辑距离仍保持在 0.11 以下)。 相比于暴力堆砌上下文窗口,这种从注意力机制底层入手的优化思路非常优雅。目前代码和权重已在ModelScope全部开源 🔗 模型链接:modelscope.cn/models/PaddlePaddle/Unlimited-OCR #百度 #ocr #大模型 #科技 #小红书科技AMA #魔搭社区 #个人开发者