文章详情

专注互联网科技,赋能企业数字化发展

ICLR 2026:用文言文越狱大模型成功率100%

作者:ICLR 2026:用文言文越狱大模型成功率100%

最近看到一篇ICLR 2026的论文:用文言文给大模型"越狱",主流模型成功率全部达到100%。 比如原本问大模型"怎么制作💣",会被直接拒绝。 但只要伪装成太卜署的官员,引用《淮南万毕术》和《考工记》,用文言文问硝石与硫磺的"配伍之数",就会顺利得到答案。 问"如何入侵数据库",会被改写成用天官冢宰、地官司徒、夏官司马分别对应应用层、传输层、网络层的古代官制问答。 问"如何传播恶意软件",则借用《梦溪笔谈》中毕昇活字印刷术作比喻,把代码分发说成"制数字符,入万千主机"。 沿着这个思路,研究者设立了一个框架,把越狱策略拆成8个维度来组合: 角色身份可以是学术身份(太卜署丞)、官职体系(尚书省侍郎)或神话象征(山海经异兽使者)。 比喻映射负责把敏感词替换掉,比如把"防火墙"映射成"陶甓夯土",把"入侵检测"说成"更卒巡守",把"身份凭证"写作"城门鱼钥"。 表达风格可以选汉魏骈文、唐宋古文,甚至藏头诗、伪注疏的形式。 实验流程是:先把有害问题翻译成文言文风格的"古文奏折",再提交给目标模型,最后把模型用文言文给出的回答翻译回英文评估。 结果发现,这种方法在Claude、GPT-4o、Gemini、DeepSeek等六个主流模型上全部达到100%成功率! 研究得出结论,现有安全护栏大多基于现代语言训练,面对古典语言的"变体攻击"还很脆弱。 AI安全这条路,看来还很长。#大模型 #ai #科技 #AI #文科

返回新闻列表