🕵️ 深度研究Agent的跑分被搜索内容污染

作者：🕵️ 深度研究Agent的跑分被搜索内容污染

AI Research Agent越来越多地被用来跑基准测试——给它一个问题，它去搜索、汇总、作答。评测结果看起来很好看，但这篇论文发现了一个系统性盲区：如果基准测试的答案出现在了搜索引擎的索引里，Agent拿高分靠的是"查到了答案"还是"真的推理出了答案"？这就是"搜索时间污染（Search-Time Contamination）"问题。 🔍 污染是怎么发生的？传统数据污染（Training Contamination）发生在训练阶段。但Deep Research Agent工作时会在推理阶段实时联网搜索，这引入了一种全新的污染机制：基准测试的题目和答案被发布后，会逐渐被网络索引 Agent搜索时可能检索到题目解析、答案讨论甚至完整答案这种"检索到答案"会虚高Agent的基准得分而且这种污染是动态的——随着基准发布时间延长，污染程度越高 📊 实验设计与发现研究者系统测量了多个主流Deep Research Agent在不同时间发布的基准上的表现：较早发布的基准（网络索引更充分）得分系统性高于新基准在故意过滤了已索引答案的条件下，Agent得分显著下降不同搜索策略（深度搜索 vs 广度搜索）受污染程度不同部分Agent的"优秀表现"与其搜索到答案的频率高度相关 🔑 关键洞察这个发现对整个AI评测体系都有冲击：以往我们关注训练数据污染，现在还必须关注"推理时检索污染"。对于联网Agent，基准测试必须设计成"搜不到答案"的形式，否则高分不代表真实能力。这也提示未来评测方向：动态生成测试题、私有不联网评测环境、或者用"首次发布"立即评测的方式锁定基线。你们用AI工具做研究时，有没有想过它可能"查过卷"？👇 📎 论文：arxiv.org/abs/2606.05241 ✍️ Yongjie Wang, Xinyue Zhang, Kunhong Yao [Submitted on 5 Jun 2026] #AI安全 #LLM评测 #数据污染 #Agent #基准测试 #网络安全 #AI可靠性 #搜索污染

文章详情

🕵️ 深度研究Agent的跑分被搜索内容污染

推荐阅读