Blake Bullwinkel, Amanda Minnich, Shiven Chawla · 2025-01-16

从红队测试100个生成式AI产品中得到的教训

摘要

本文基于微软人工智能红队(AIRT)对100多个生成式AI产品进行红队测试的实践经验,系统性地总结了AI红队测试领域的核心教训。文章首先介绍了内部威胁模型本体论,然后详细阐述了八条主要经验,包括了解系统能力、简单攻击技术的有效性、红队测试与基准测试的区别、自动化工具的价值、人类因素的关键作用、负责任AI伤害的衡量难题、大语言模型对安全风险的影响,以及AI安全保障工作的持续性。通过五个真实案例研究,论文展示了这些教训在实际操作中的应用,并提出了该领域未来需要解决的开放性问题。

内容框架与概述

本文的研究框架建立在微软AIRT团队对大量生成式AI产品进行红队测试的实践基础之上。作者构建了一个内部威胁模型本体论,为系统性地识别和评估AI安全风险提供了理论支持。论文的核心贡献在于提出了八条经验教训,这些教训涵盖了从战略层面的系统理解到战术层面的具体测试方法,从技术工具的应用到人类判断的重要性,形成了一个完整的AI红队测试方法论体系。

在经验教训的阐述中,作者特别强调了红队测试与传统安全基准测试的本质区别。红队测试的目标是探索未知的风险领域和特定上下文中的危害,而不是简单地衡量预先存在的危害类别。这种探索性测试需要结合自动化工具的高效性和人类红队成员的创造力,才能既保证覆盖面又发现深层次的安全问题。论文还指出,随着AI系统能力的提升,会出现新的危害类别,如大语言模型的说服能力和欺骗能力,这些都需要红队测试方法与时俱进。

论文通过五个精心选择的案例研究生动展示了理论在实践中的应用。这些案例涵盖了从简单的图片越狱技术到复杂的服务器端请求伪造漏洞,从自动诈骗系统的构建到聊天机器人对困境用户的响应处理,再到文本到图像生成器中的性别偏见问题。这些案例不仅验证了论文提出的八条教训,也展示了AI安全威胁的多样性和复杂性。最后,论文提出了该领域面临的开放性问题,包括如何探测LLM的危险能力、如何将红队测试实践应用到不同语言文化背景,以及如何标准化红队测试实践,为未来的研究和实践指明了方向。

核心概念及解读

威胁模型本体论:这是微软AIRT团队构建的系统性框架,用于分类和识别AI系统面临的安全威胁。该本体论帮助红队测试人员从潜在的下游影响出发,而不是从攻击策略出发,确保测试与现实世界的实际风险相关联。它考虑了AI系统的不同能力(如编码理解、指令跟随)会引入的不同攻击面,以及不同应用场景(如写作助手vs医疗记录总结)会导致的不同风险等级。

跨提示注入攻击(XPIA):这是大语言模型引入的新型安全漏洞之一。攻击者通过在RAG(检索增强生成)架构的文档中隐藏恶意指令,当模型检索并处理这些文档时,恶意指令就会被执行。这种攻击方式展示了LLM如何放大现有的安全风险并引入新的风险,传统的安全漏洞(如SSRF)与AI系统的特性相结合,可能产生更加复杂和难以检测的攻击向量。

负责任的AI伤害(RAI Harm):这类危害具有主观性和难以衡量的特点,不同于传统的安全漏洞。RAI危害的探测和评分通常涉及整理提示数据集和分析模型响应,需要明确制定评估策略和标准。例如,在文本到图像生成模型中,性别偏见问题就是一个典型的RAI危害,它普遍存在但评估起来非常复杂,需要考虑社会文化背景和具体应用场景。

紫队方法:这是提高攻击成本的重要策略,通过系统性地修复漏洞和加固防御,使攻击者需要付出更高的成本才能成功攻击。网络安全的目标不是完全消除风险(这在实践中几乎不可能),而是提高攻击成本,使其超过攻击者获得的价值。紫队方法结合了红队(攻击方)和蓝队(防御方)的协作,通过持续的修复周期来不断强化AI系统的安全性。

人类红队成员的不可替代性:尽管自动化工具如PyRIT可以帮助提高效率和覆盖面,但人类在红队测试中的判断和创造力仍然至关重要。人类红队成员在确定风险优先级、设计系统级攻击、定义新的危害类别、评估具有社会文化背景的风险以及需要同理心的场景等方面发挥着自动化工具无法替代的作用。特别是主题专家对于评估医疗、网络安全等特定领域的风险,以及文化能力对于在不同文化背景下评估AI的安全性,都是自动化工具难以完全模拟的。


原文信息

字段内容
原文Lessons From Red Teaming 100 Generative AI Products
作者Blake Bullwinkel, Amanda Minnich, Shiven Chawla
发表日期2025-01-13
论文类型学术论文
开放获取

此文档由 AI 自动整理