无敌好用PDF转markdown工具分享

作者：无敌好用PDF转markdown工具分享

上次捣鼓Deepseek-OCR处理论文pdf的时候，评论区有大佬说试试minerU这个工具。然后我立刻按照官网的教程和文档，pull了一个docker下来跑了跑。这个感觉做到已经很完善了，mineru-gradio 可以直接打开web页面使用，minueru-api 可以调用api来批量转换。挺方便的。图2和图3、图4和图5分别是pdf原图和markdown渲染结果，可以看到表格和插图都完美弄到一个markdown里去了。图6和图7：当pdf里的表格和图片挨在一起的时候可能会一起当图片处理了。图8和图9：可以看到表格里的数学公式在markdown渲染中没有显示出来。但是这似乎是markdown格式自己的问题而不是 minerU 的问题。因为如果按照通常的latex数学公式在 markdown 文档中的渲染格式，其实minerU已经把 `$$` 这种格式的数学格式都渲染出来了，但是markdown表格里的 `$$` 似乎本身不受支持。如果将markdown表格转成 html 表格呢？另外，论文pdf里的图片还是没有办法自动插入进去，但是除此之外效果确实比我自己直接调用 deepseek-ocr 来将pdf内容转成文字要好很多。不是deepseek-ocr能力不行，而是我看到minerU做了很多处理，例如文本拼接之类的 #大模型 #效率神器 #PDF工具 #科研生产力

文章详情

无敌好用PDF转markdown工具分享

推荐阅读