Peter Hall · 2025-12-10

密码学家证明 AI 保护机制永远存在漏洞

摘要

密码学家最新研究表明，围绕大型语言模型（如ChatGPT）部署的安全过滤系统存在固有缺陷。由于过滤器必须比主模型更轻量快速，这种计算能力差距为攻击者提供了可乘之机。研究者利用替换密码和时间锁谜题等加密工具，成功绕过Google Gemini、DeepSeek等模型的安全防护。这一发现从理论上证明：只要安全系统的计算资源少于AI模型本身，漏洞就必然存在。

内容框架与概述

文章以ChatGPT的"越狱"现象开篇，指出用户长期以来尝试各种方式——从简单的指令忽略到复杂的角色扮演，甚至将恶意提示改写成诗歌——来绕过AI的安全限制。虽然这些漏洞通常能被快速修补，但公司采用的主要策略是添加外部过滤器，而非重新训练整个模型。

文章核心转向图灵奖得主Shafi Goldwasser及其团队的研究。他们发现，外部过滤器之所以实用（轻量、快速、易部署），恰恰也是其安全软肋所在——过滤器的计算能力必然弱于主模型。研究者Jaiden Fairoze团队利用简单的替换密码（将字母按规则替换），成功让Google Gemini、DeepSeek和Grok等模型绑过过滤器返回违禁信息，这种攻击方式被称为"可控释放提示"。

更深层的理论突破来自时间锁谜题的应用。研究者将恶意提示加密成看似随机的数字，设定解锁时间恰好让过滤器来不及破解。他们甚至利用语言模型的随机种子机制，将加密信息伪装成普通请求的参数，从而完全逃避过滤器检测。Greg Gluch总结道，这项工作从根本上否定了"在不理解模型内部运作的情况下实现外部对齐"的可能性——无论构建什么样的防护墙，总有突破的方法。

核心概念及解读

越狱（Jailbreak）：指用户通过各种技巧绕过AI安全限制获取违禁信息的行为。从早期简单的"忽略安全指令"到如今的诗歌改写、角色扮演等方式，反映了AI安全的持续博弈。

外部过滤器（External Filter）：部署在大模型外层的安全机制，用于拦截恶意提示。其优势在于成本低、部署快，但计算能力受限是其固有弱点。

替换密码（Substitution Cipher）：一种简单加密方法，按规则将字母替换为其他字母。研究者利用过滤器无法解码而大模型可以解码的能力差距，成功绕过安全防护。

时间锁谜题（Time-Lock Puzzle）：密码学工具，将信息锁定在需要特定计算时间才能打开的"盒子"中。攻击者可设定解锁时间，使过滤器来不及破解而主模型可以处理。

计算资源差距（Computational Gap）：过滤器与主模型之间的算力鸿沟。研究证明，只要安全系统的资源少于模型本身，漏洞就不可避免，这是一个结构性而非技术性的问题。

原文信息

字段	内容
原文	Cryptographers Show That AI Protections Will Always Have Holes
作者	Peter Hall
发表日期	2025-12-10

此摘要卡片由 AI 自动生成

‹

密码学家证明AI安全防护系统注定存在漏洞

Peter Hall · 2025-12-10

MCP服务器在真实世界的应用现状与洞察

Gergely Orosz · 2025-12-10

›

密码学家证明 AI 保护机制永远存在漏洞

摘要

内容框架与概述

核心概念及解读

原文信息

目录