先说结论: ChatGPT5.4 Pro版>Gemini 3.1 Pro> DeepSeek专家模式 > Claude Opus 4.6(Extended thinking)> ChatGPT5.4 Thinking,今天用这五个模型测试了百慕大山庄疑案,评估了它们在问题解决和模式测试中的表现。⚠️只针对以下维度!不是综合评估结果包括:关键信息抽取、时间线推理、空间/物理可达性推理、证据分级能力、长上下文抗干扰、多假设竞争、不确定性校准、解释可审计性、抗叙事诱导。 #DeepSeek #Claude