上次捣鼓Deepseek-OCR处理论文pdf的时候,评论区有大佬说试试minerU这个工具。 然后我立刻按照官网的教程和文档,pull了一个docker下来跑了跑。这个感觉做到已经很完善了,mineru-gradio 可以直接打开web页面使用,minueru-api 可以调用api来批量转换。挺方便的。 图2和图3、图4和图5分别是pdf原图和markdown渲染结果,可以看到表格和插图都完美弄到一个markdown里去了。 图6和图7:当pdf里的表格和图片挨在一起的时候可能会一起当图片处理了。 图8和图9:可以看到表格里的数学公式在markdown渲染中没有显示出来。但是这似乎是markdown格式自己的问题而不是 minerU 的问题。 因为如果按照通常的latex数学公式在 markdown 文档中的渲染格式,其实minerU已经把 `$$` 这种格式的数学格式都渲染出来了,但是markdown表格里的 `$$` 似乎本身不受支持。 如果将markdown表格转成 html 表格呢? 另外,论文pdf里的图片还是没有办法自动插入进去,但是除此之外效果确实比我自己直接调用 deepseek-ocr 来将pdf内容转成文字要好很多。不是deepseek-ocr能力不行,而是我看到minerU做了很多处理,例如文本拼接之类的 #大模型 #效率神器 #PDF工具 #科研生产力