百度开源 Unlimited OCR：一键直出整本书！

作者：百度开源 Unlimited OCR：一键直出整本书！

百度又开源了一个狠货 OCR ——Unlimited OCR！传统 OCR 处理长文本时，输出越长 KV Cache 越膨胀，显存暴涨、速度变慢，只能一页页硬啃。这次它学人类“边看边抄”的记忆方式，单次前向传播直接拿下几十页长文档。 🌟 核心亮点：R-SWA 机制 Unlimited OCR 的核心在于将解码器中的普通注意力替换为了参考滑动窗口注意力（Reference Sliding Window Attention, R-SWA）： · 全局看图（Reference）：模型在解码时能一直看到完整的输入图像（Visual Tokens）。 · 局部遗忘（Sliding Window）：对于已经生成的历史文字，模型只关注最近的 n 个 Token（默认128）。 · 极低开销：这种“软遗忘”设计让整个解码过程中的 KV Cache 保持恒定！显存占用和推理延迟不再随长度线性增加。 🚀 强劲的性能表现模型基于 DeepSeek OCR 的 MoE 架构（3B总参数，激活仅500M）进行持续训练： · 单页SOTA：在权威评测集 OmniDocBench v1.5 上斩获 93.23% 的综合高分（比 DeepSeek OCR 基线提升 6.22%）；在 v1.6 上达到 93.92%，性能强劲。 · 长文本不掉速：当输出长度达到 6000 Token 时，推理速度（TPS）比基线模型快了 35%，且速度全程恒定。 · 单次直出几十页：在标准 32K 长度下，支持一键解析几十页文档（在40+页测试中，编辑距离仍保持在 0.11 以下）。相比于暴力堆砌上下文窗口，这种从注意力机制底层入手的优化思路非常优雅。目前代码和权重已在ModelScope全部开源 🔗 模型链接：modelscope.cn/models/PaddlePaddle/Unlimited-OCR #百度 #ocr #大模型 #科技 #小红书科技AMA #魔搭社区 #个人开发者

文章详情

百度开源 Unlimited OCR：一键直出整本书！

推荐阅读