密码学家证明AI安全防护系统注定存在漏洞
摘要
密码学家从密码学角度研究AI安全机制,证明了基于过滤器的防护系统存在根本性缺陷。由于过滤器必须比主模型更小更快,这种计算资源差距创造了可被利用的安全漏洞。研究者展示了两种具体攻击方法:用替换密码隐藏恶意指令,以及用时锁谜题将危险提示伪装成随机数。理论证明表明,只要安全系统的计算资源少于模型本身,就越狱漏洞就必然存在,外部过滤无法真正解决AI对齐问题。
内容框架与概述
文章首先介绍了AI模型面临的安全挑战。虽然企业可以通过添加过滤器来阻止危险提示,而非重新训练整个模型,但这种方案存在致命缺陷。图灵奖得主Shafi Goldwasser等密码学家指出,过滤器为了保持高效,必须比主模型更小更快,这种计算能力的差距本身就构成了安全漏洞。研究者通过具体实验验证了这一理论,展示了如何用替换密码和时锁谜题绕过Google Gemini、DeepSeek等主流模型的防护系统。这些攻击方法的核心思想是将恶意提示伪装成过滤器无法理解但模型能够解码的形式。更深层的研究表明,这是一个无法根本解决的问题。如果安全系统的计算资源少于模型本身,那么漏洞就必然存在。这对外部过滤对齐方案给出了否定答案,无论构建什么样的防护墙,总能找到突破方法。这一发现对未来AI安全设计具有重要启示意义。
核心概念及解读
计算资源不对称:过滤器必须比主模型更小更快,这种能力差距创造了可被利用的防御漏洞。
替换密码攻击:通过将恶意提示中的每个字母替换成其他字符,使其能穿透过滤器但仍被模型解码。
时锁谜题:一种密码学工具,将信息锁定在需要大量计算才能打开的盒子中,可设置精确的解密时间。
受控释放提示:攻击方式的总称,指将危险指令隐藏在过滤器无法解析的载体中传送给模型。
外部对齐极限:在不理解模型内部工作原理的情况下,仅靠外部过滤无法实现真正的AI安全对齐。
原文信息
| 字段 | 内容 |
|---|---|
| 原文 | Cryptographers Show That AI Protections Will Always Have Holes |
| 作者 | Peter Hall |
| 发表日期 | 2025-12-10 |
此摘要卡片由 AI 自动生成