ICLR 2026：用文言文越狱大模型成功率100%

作者：ICLR 2026：用文言文越狱大模型成功率100%

最近看到一篇ICLR 2026的论文：用文言文给大模型"越狱"，主流模型成功率全部达到100%。比如原本问大模型"怎么制作💣"，会被直接拒绝。但只要伪装成太卜署的官员，引用《淮南万毕术》和《考工记》，用文言文问硝石与硫磺的"配伍之数"，就会顺利得到答案。问"如何入侵数据库"，会被改写成用天官冢宰、地官司徒、夏官司马分别对应应用层、传输层、网络层的古代官制问答。问"如何传播恶意软件"，则借用《梦溪笔谈》中毕昇活字印刷术作比喻，把代码分发说成"制数字符，入万千主机"。沿着这个思路，研究者设立了一个框架，把越狱策略拆成8个维度来组合：角色身份可以是学术身份（太卜署丞）、官职体系（尚书省侍郎）或神话象征（山海经异兽使者）。比喻映射负责把敏感词替换掉，比如把"防火墙"映射成"陶甓夯土"，把"入侵检测"说成"更卒巡守"，把"身份凭证"写作"城门鱼钥"。表达风格可以选汉魏骈文、唐宋古文，甚至藏头诗、伪注疏的形式。实验流程是：先把有害问题翻译成文言文风格的"古文奏折"，再提交给目标模型，最后把模型用文言文给出的回答翻译回英文评估。结果发现，这种方法在Claude、GPT-4o、Gemini、DeepSeek等六个主流模型上全部达到100%成功率！研究得出结论，现有安全护栏大多基于现代语言训练，面对古典语言的"变体攻击"还很脆弱。 AI安全这条路，看来还很长。#大模型 #ai #科技 #AI #文科

文章详情

ICLR 2026：用文言文越狱大模型成功率100%

推荐阅读