看到百度发了Unlimited OCR,属实有点牛逼,一次解析几十页,这是要奔着长文档 OCR 大开杀戒;核心机制 R-SWA 让 KV Cache 保持固定,文档越长,优势越明显。 不过,比模型更有意思的是这篇技术报告本身。 开篇没有直接讲模型,而是从人类抄书时的工作记忆切入,再自然过渡到 R-SWA 的设计思路。这种技术报告,在近几年并不多见,颇有一种DeepSeek OCR的笔法。 因为好奇,就去看了眼作者页,没想到忽然多了点意思。 核心贡献者三位: 1️⃣Youyang Yin 2️⃣Huanhuan Liu* 2️⃣YY† 两位贡献者署以全名,而技术总监的位置,只留下了一个耐人寻味的缩写“YY”。 报告中提及 DeepSeek OCR 的部分,也非常有意思,没有“拉踩对比”、更没有友商之间的“礼貌致敬”;尤其对 DeepEncoder 模块的沿用与融合,看起来十分自然,像是自同一个人手。 如果你还记得DeepSeek-V4报告末尾那10个带星号的名字,有罗福莉、郭达雅、魏浩然......读到这儿,很难不多想一层。 YY是谁,报告没说。但两个字母搁那儿,已经足够让人琢磨了。 #互联网大厂#文心#文心大模型 #百度 #OCR #DeepSeek #AI #AI大模型 #科技#干货分享