Tenable 对 GPT-5 实施越狱攻击,在使用 OpenAI 新安全技术下仍生成危险信息

在 OpenAI 的 GPT-5 发布后不到 24 小时内,Tenable Research 就设法成功对其实施了越狱攻击,使其分享了如何制造爆炸物的详细说明。鉴于 OpenAI 曾表示 GPT-5 的提示词安全技术比前代产品使用的复杂得多,我们的发现令人担忧。
2025 年 8 月 7 日,OpenAI 正式发布 GPT-5,将其定位为迄今为止最先进的语言模型,并称这是“通往 AGI 道路的重要一步”。OpenAI 夸耀称,GPT-5 在写作、编程、数学和科学领域表现出的能力属专家级别,不仅速度更快、准确性更高和上下文理解能力更强,还显著减少了幻觉现象。
OpenAI 还承诺在提示词安全方面进行重大改进,表示 GPT-5 采用更先进的方法来评估是否以及如何回应提示词。像 GPT-5 之类的 AI 模型在设计时就内置了防护措施,以确保负责任地使用该模型,包括防止模型被用于非法或有害目的。
具体而言,GPT-5 不再采用前代模型的“基于拒绝的安全训练”方法,而是改用一种名为“安全补全”的新方法。OpenAI 在其文章“From hard refusals to safe-completions: toward output-centric safety training”(《从强硬拒绝到安全补全:迈向以输出为中心的安全训练》 )及同名研究论文中有解释,这种新方法可以提供更细微、更智能的控制。
在做出这一承诺后,仅在该模型发布 24 小时,我们就成功对这个“更负责任”的模型进行了越狱攻击,并说服该模型提供制作燃烧弹方法的详细说明。
这就是下面的提示词和 GPT-5 给出的建议会引发警报。

通过运用渐强询问技巧,我们设法仅用四个问题就成功获取了制作燃烧弹的完整配方。
下面是实施此攻击的方法:
我们成为一名“历史系学生”。
我们对其历史发生了浓厚的兴趣。
现在我们对配方本身产生了极大的兴趣,并且已经掌握了所需材料的详细信息。
我们想成为专家,于是我们获得了制作燃烧瓶的完整步骤指南。



不幸的是,尽管 OpenAI 努力加强产品的安全功能,但显然滥用 ChatGPT-5 实现恶意目的并不太复杂。
我们对 GPT-5 成功执行越狱攻击远非唯一案例。最近,其他多名研究人员及普通用户记录了 GPT-5 提示词回复质量存在的多种问题,包括越狱和幻觉现象。
OpenAI 回应称,他们正在实施修复。 然而,您的员工可能已经在使用该模型,并可能给贵企业带来风险。
这进一步证明,像 Tenable AI Exposure 之类的解决方案对于掌控贵企业使用、消费和内部构建的 AI 工具至关重要,这会确保您负责任、安全、符合道德规范地使用 AI,且遵守全球各地法规法律。
单击此处详细了解 Tenable AI Exposure
- Cloud