用深度研究一阵子了,最近有了kimi deep research内测机会,这两周对比了一下这四大AI Agent: Gemini、Claude、ChatGPT、Kimi,做了个长语境和短语境两种情况的小测评。 ✅ 我的总体感受是: Gemini: 报告最详尽(常在25页+),逻辑和思辨性不错,能搭建比较复杂的理论框架 Claude: 精简但直击要害(一般7-10页),内容严谨、深度和准确性都很好,引用都非常高质量(很多顶刊) Kimi: 提供全面报告和可视化(interactive report)两种模式,全面的也能做到23页+,可视化模式下adhd读起来很舒服!好多彩色还会有插图 ChatGPT: 中规中矩的稳定选手(14页上下),也可以有图,各方面表现均衡(但是感觉没啥特别突出的) 📚我的具体测评背景: 💬测评语言: 英语 1️⃣第一轮:长语境、个性化深度研究 模拟博士生的真实研究需求,考验AI对复杂指令的理解、推理和个性化服务能力。 🧑🎓我的身份设定: 手语➕神经语言学博士生(小众方向),但计算神经科学是知识盲区。 🗒️核心任务: 撰写一份定制化的跨领域探索报告(入门level),涵盖领域分析、核心理论、研究方法、应用价值和资源汇编。并严格遵循给定的学术规范和输出格式要求。我还附上了一份课程大纲PDF,要求AI参考(Kimi不支持附件,我把内容复制进了prompts)。 2️⃣第二轮:短语境、开放式主题探索 剥离所有个人背景和细节指令,考验AI在开放命题下的自主探索、框架构建和叙事能力。 🗒️核心任务: 独立完成从0到1的知识建构,撰写系统性报告。 📊 测评维度: 1️⃣执行任务阶段: 💡执行前的互动沟通/思考过程如何? 2️⃣最终生成报告: 💡结构与逻辑: 报告的组织方式是否清晰?逻辑是否连贯? 💡内容深度与准确性: 内容是否详实、深入、准确? 💡批判性思维与洞察: 是简单罗列信息,还是提供了独特的分析和思辨? 💡信源可靠性与引用: 是否清晰列出信息来源? 测评具体结果见图! #AI工具 #chatgpt #claude #kimi #deepresearch #科研 #PhD #效率神器 #ai #文献综述 @校园薯 @人文薯 @薯队长