文章详情

专注互联网科技,赋能企业数字化发展

🕵️ 深度研究Agent的跑分被搜索内容污染

作者:🕵️ 深度研究Agent的跑分被搜索内容污染

AI Research Agent越来越多地被用来跑基准测试——给它一个问题,它去搜索、汇总、作答。评测结果看起来很好看,但这篇论文发现了一个系统性盲区: 如果基准测试的答案出现在了搜索引擎的索引里,Agent拿高分靠的是"查到了答案"还是"真的推理出了答案"? 这就是"搜索时间污染(Search-Time Contamination)"问题。 🔍 污染是怎么发生的? 传统数据污染(Training Contamination)发生在训练阶段。但Deep Research Agent工作时会在推理阶段实时联网搜索,这引入了一种全新的污染机制: 基准测试的题目和答案被发布后,会逐渐被网络索引 Agent搜索时可能检索到题目解析、答案讨论甚至完整答案 这种"检索到答案"会虚高Agent的基准得分 而且这种污染是动态的——随着基准发布时间延长,污染程度越高 📊 实验设计与发现 研究者系统测量了多个主流Deep Research Agent在不同时间发布的基准上的表现: 较早发布的基准(网络索引更充分)得分系统性高于新基准 在故意过滤了已索引答案的条件下,Agent得分显著下降 不同搜索策略(深度搜索 vs 广度搜索)受污染程度不同 部分Agent的"优秀表现"与其搜索到答案的频率高度相关 🔑 关键洞察 这个发现对整个AI评测体系都有冲击:以往我们关注训练数据污染,现在还必须关注"推理时检索污染"。对于联网Agent,基准测试必须设计成"搜不到答案"的形式,否则高分不代表真实能力。 这也提示未来评测方向:动态生成测试题、私有不联网评测环境、或者用"首次发布"立即评测的方式锁定基线。 你们用AI工具做研究时,有没有想过它可能"查过卷"?👇 📎 论文:arxiv.org/abs/2606.05241 ✍️ Yongjie Wang, Xinyue Zhang, Kunhong Yao [Submitted on 5 Jun 2026] #AI安全 #LLM评测 #数据污染 #Agent #基准测试 #网络安全 #AI可靠性 #搜索污染

返回新闻列表