Marker 能快速准确地将文档转换为 markdown、JSON、片段和 HTML 格式。 支持将所有语言的 PDF、图片、PPTX、DOCX、XLSX、HTML、EPUB 文件进行转换 格式化表格、表单、方程式、行内数学、链接、参考文献和代码块 提取并保存图片 移除页眉/页脚/其他杂项 支持自定义格式和逻辑扩展 根据 JSON 架构进行结构化提取(测试版) 可选择使用 LLMs(及自定义提示)提升准确率 可在 GPU、CPU 或 MPS 上运行 在性能上优于 Llamaparse 和 Mathpix 等云服务,以及其他开源工具。 在批量模式下,Marker 的运行速度显著更快,预计在 H100 上可以达到每秒 25 页的处理能力。 github 搜Marker 能找到项目。 #PDF工具 #人类高质量科研工具 #pdf转换器