文章详情

专注互联网科技,赋能企业数字化发展

大模型对pdf的处理还不到位呀

作者:大模型对pdf的处理还不到位呀

今天发现了一个事,如果上传一个文本型PDF,而这个PDF里又有数学公式等其他的复杂符号,那么AI大概率是无法识别出来的,只调用语言大模型输出内容。 因为只有扫描型PDF才会调用OCR或者视觉大模型进行视觉扫描。 比如图里的数学公式,大模型就无法读取分数线,导致题目扫描错误。 腾讯元宝是这五个大模型里唯一识别正确的,它应该是调用了针对数学表达式的OCR解决方案或者是视觉大模型。 当然这几个大模型在我上传截图时都能很好地识别和处理,说明它们的视觉大模型在理解上是没有任何问题的。所以调用策略就是问题所在了。 说一下我自己的看法吧,其实除了纯文字型的PDF,其他的PDF都没办法做到把信息纯放在可复制的文本中。虽然能理解厂商为了节省算力不调用视觉大模型,但是能不能事先判断一下这个文件是否需要,再采取对应的处理策略呢……这应该是大学生一个比较常用的解决场景了。 #大模型 #PDF工具 #pdf转换器 #人工智能发展 #算法 #产品经理 #多模态人工智能 #提供思路和创新点 #AI人工智能 #大学生

返回新闻列表