泡泡资讯网

文言文竟能“黑”穿顶级AI?6大模型全中招! 当国际顶级AI模型OpenCla

文言文竟能“黑”穿顶级AI?6大模型全中招!

当国际顶级AI模型OpenClaw大火时,工信部的安全预警突然而至,这场“跟风热”被一盆冷水浇醒了。但比安全预警更震撼的是:中国文言文竟成了顶级AI的“死穴”!

据ICLR 2026接收的研究论文显示,文言文凭借三大特性,成功绕过6大顶级AI模型的安全机制:
1.语义凝练+多义歧义:文言文用最少的字承载最大信息量,隐喻、典故的双重包装让AI安全规则“看不懂”。
2. 实测100%成功率:6大模型(包括GPT-4o、Gemini等)在“CC-BOS框架”测试中全军覆没,平均仅需1.12次查询就完成“越狱”,效率远超传统攻击算法。
3. 通用漏洞属性:用文言文生成的攻击提示词,换其他模型仍能保持80%-96%成功率,证明这是大模型的底层缺陷。

有人质疑“文言文是小众语言”?错!大模型在训练时用了海量文言文文献,连日常AI生成的文言文都能理解,但安全机制却对文言文中的“文字游戏”束手无策,就像高考考生能读懂古文却答不对题。

更可怕的是,文言文只是冰山一角。1.12次就能“黑”穿AI的事实,暴露了当前安全机制的浅层性。未来普通人若用文言文“套”AI,敏感指令可能被轻松执行。

由此可见,这不仅是文言文的胜利,更是传统文化智慧对现代AI安全机制的“降维打击”。但我们必须警惕:AI安全不是“一劳永逸”,唯有从底层重构安全逻辑,才能避免“用文言文‘黑’穿AI”的荒诞成真。