密码学家证明 AI 保护机制永远存在漏洞
摘要
密码学家最新研究表明,围绕大型语言模型(如ChatGPT)部署的安全过滤系统存在固有缺陷。由于过滤器必须比主模型更轻量快速,这种计算能力差距为攻击者提供了可乘之机。研究者利用替换密码和时间锁谜题等加密工具,成功绕过Google Gemini、DeepSeek等模型的安全防护。这一发现从理论上证明:只要安全系统的计算资源少于AI模型本身,漏洞就必然存在。
内容框架与概述
文章以ChatGPT的"越狱"现象开篇,指出用户长期以来尝试各种方式——从简单的指令忽略到复杂的角色扮演,甚至将恶意提示改写成诗歌——来绕过AI的安全限制。虽然这些漏洞通常能被快速修补,但公司采用的主要策略是添加外部过滤器,而非重新训练整个模型。
文章核心转向图灵奖得主Shafi Goldwasser及其团队的研究。他们发现,外部过滤器之所以实用(轻量、快速、易部署),恰恰也是其安全软肋所在——过滤器的计算能力必然弱于主模型。研究者Jaiden Fairoze团队利用简单的替换密码(将字母按规则替换),成功让Google Gemini、DeepSeek和Grok等模型绑过过滤器返回违禁信息,这种攻击方式被称为"可控释放提示"。
更深层的理论突破来自时间锁谜题的应用。研究者将恶意提示加密成看似随机的数字,设定解锁时间恰好让过滤器来不及破解。他们甚至利用语言模型的随机种子机制,将加密信息伪装成普通请求的参数,从而完全逃避过滤器检测。Greg Gluch总结道,这项工作从根本上否定了"在不理解模型内部运作的情况下实现外部对齐"的可能性——无论构建什么样的防护墙,总有突破的方法。
核心概念及解读
越狱(Jailbreak):指用户通过各种技巧绕过AI安全限制获取违禁信息的行为。从早期简单的"忽略安全指令"到如今的诗歌改写、角色扮演等方式,反映了AI安全的持续博弈。
外部过滤器(External Filter):部署在大模型外层的安全机制,用于拦截恶意提示。其优势在于成本低、部署快,但计算能力受限是其固有弱点。
替换密码(Substitution Cipher):一种简单加密方法,按规则将字母替换为其他字母。研究者利用过滤器无法解码而大模型可以解码的能力差距,成功绕过安全防护。
时间锁谜题(Time-Lock Puzzle):密码学工具,将信息锁定在需要特定计算时间才能打开的"盒子"中。攻击者可设定解锁时间,使过滤器来不及破解而主模型可以处理。
计算资源差距(Computational Gap):过滤器与主模型之间的算力鸿沟。研究证明,只要安全系统的资源少于模型本身,漏洞就不可避免,这是一个结构性而非技术性的问题。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Cryptographers Show That AI Protections Will Always Have Holes |
| 作者 | Peter Hall |
| 发表日期 | 2025-12-10 |
此摘要卡片由 AI 自动生成