百度这是把谁请来做OCR了？

作者：百度这是把谁请来做OCR了？

看到百度发了Unlimited OCR，属实有点牛逼，一次解析几十页，这是要奔着长文档 OCR 大开杀戒；核心机制 R-SWA 让 KV Cache 保持固定，文档越长，优势越明显。不过，比模型更有意思的是这篇技术报告本身。开篇没有直接讲模型，而是从人类抄书时的工作记忆切入，再自然过渡到 R-SWA 的设计思路。这种技术报告，在近几年并不多见，颇有一种DeepSeek OCR的笔法。因为好奇，就去看了眼作者页，没想到忽然多了点意思。核心贡献者三位： 1️⃣Youyang Yin 2️⃣Huanhuan Liu* 2️⃣YY† 两位贡献者署以全名，而技术总监的位置，只留下了一个耐人寻味的缩写“YY”。报告中提及 DeepSeek OCR 的部分，也非常有意思，没有“拉踩对比”、更没有友商之间的“礼貌致敬”；尤其对 DeepEncoder 模块的沿用与融合，看起来十分自然，像是自同一个人手。如果你还记得DeepSeek-V4报告末尾那10个带星号的名字，有罗福莉、郭达雅、魏浩然......读到这儿，很难不多想一层。 YY是谁，报告没说。但两个字母搁那儿，已经足够让人琢磨了。 #互联网大厂#文心#文心大模型 #百度 #OCR #DeepSeek #AI #AI大模型 #科技#干货分享

文章详情

百度这是把谁请来做OCR了？

推荐阅读