大模型对pdf的处理还不到位呀

作者：大模型对pdf的处理还不到位呀

今天发现了一个事，如果上传一个文本型PDF，而这个PDF里又有数学公式等其他的复杂符号，那么AI大概率是无法识别出来的，只调用语言大模型输出内容。因为只有扫描型PDF才会调用OCR或者视觉大模型进行视觉扫描。比如图里的数学公式，大模型就无法读取分数线，导致题目扫描错误。腾讯元宝是这五个大模型里唯一识别正确的，它应该是调用了针对数学表达式的OCR解决方案或者是视觉大模型。当然这几个大模型在我上传截图时都能很好地识别和处理，说明它们的视觉大模型在理解上是没有任何问题的。所以调用策略就是问题所在了。说一下我自己的看法吧，其实除了纯文字型的PDF，其他的PDF都没办法做到把信息纯放在可复制的文本中。虽然能理解厂商为了节省算力不调用视觉大模型，但是能不能事先判断一下这个文件是否需要，再采取对应的处理策略呢……这应该是大学生一个比较常用的解决场景了。 #大模型 #PDF工具 #pdf转换器 #人工智能发展 #算法 #产品经理 #多模态人工智能 #提供思路和创新点 #AI人工智能 #大学生

文章详情

大模型对pdf的处理还不到位呀

推荐阅读