Peter Hall · 2025-12-10

密码学家证明AI安全防护系统注定存在漏洞

摘要

密码学家从密码学角度研究AI安全机制，证明了基于过滤器的防护系统存在根本性缺陷。由于过滤器必须比主模型更小更快，这种计算资源差距创造了可被利用的安全漏洞。研究者展示了两种具体攻击方法：用替换密码隐藏恶意指令，以及用时锁谜题将危险提示伪装成随机数。理论证明表明，只要安全系统的计算资源少于模型本身，就越狱漏洞就必然存在，外部过滤无法真正解决AI对齐问题。

内容框架与概述

文章首先介绍了AI模型面临的安全挑战。虽然企业可以通过添加过滤器来阻止危险提示，而非重新训练整个模型，但这种方案存在致命缺陷。图灵奖得主Shafi Goldwasser等密码学家指出，过滤器为了保持高效，必须比主模型更小更快，这种计算能力的差距本身就构成了安全漏洞。研究者通过具体实验验证了这一理论，展示了如何用替换密码和时锁谜题绕过Google Gemini、DeepSeek等主流模型的防护系统。这些攻击方法的核心思想是将恶意提示伪装成过滤器无法理解但模型能够解码的形式。更深层的研究表明，这是一个无法根本解决的问题。如果安全系统的计算资源少于模型本身，那么漏洞就必然存在。这对外部过滤对齐方案给出了否定答案，无论构建什么样的防护墙，总能找到突破方法。这一发现对未来AI安全设计具有重要启示意义。