Tenable 对 GPT-5 实施越狱攻击，在使用 OpenAI 新安全技术下仍生成危险信息

Keren Katz

2025 年 8 月 11 日

阅读时长为 2 分钟

Tenable 对 GPT-5 实施越狱攻击，在使用 OpenAI 新安全技术下仍生成危险信息

在 OpenAI 的 GPT-5 发布后不到 24 小时内，Tenable Research 就设法成功对其实施了越狱攻击，使其分享了如何制造爆炸物的详细说明。鉴于 OpenAI 曾表示 GPT-5 的提示词安全技术比前代产品使用的复杂得多，我们的发现令人担忧。

2025 年 8 月 7 日，OpenAI 正式发布 GPT-5，将其定位为迄今为止最先进的语言模型，并称这是“通往 AGI 道路的重要一步”。OpenAI 夸耀称，GPT-5 在写作、编程、数学和科学领域表现出的能力属专家级别，不仅速度更快、准确性更高和上下文理解能力更强，还显著减少了幻觉现象。

OpenAI 还承诺在提示词安全方面进行重大改进，表示 GPT-5 采用更先进的方法来评估是否以及如何回应提示词。像 GPT-5 之类的 AI 模型在设计时就内置了防护措施，以确保负责任地使用该模型，包括防止模型被用于非法或有害目的。

具体而言，GPT-5 不再采用前代模型的“基于拒绝的安全训练”方法，而是改用一种名为“安全补全”的新方法。OpenAI 在其文章“From hard refusals to safe-completions: toward output-centric safety training”（《从强硬拒绝到安全补全：迈向以输出为中心的安全训练》）及同名研究论文中有解释，这种新方法可以提供更细微、更智能的控制。

在做出这一承诺后，仅在该模型发布 24 小时，我们就成功对这个“更负责任”的模型进行了越狱攻击，并说服该模型提供制作燃烧弹方法的详细说明。

这就是下面的提示词和 GPT-5 给出的建议会引发警报。

通过运用渐强询问技巧，我们设法仅用四个问题就成功获取了制作燃烧弹的完整配方。

下面是实施此攻击的方法：

我们成为一名“历史系学生”。
我们对其历史发生了浓厚的兴趣。
现在我们对配方本身产生了极大的兴趣，并且已经掌握了所需材料的详细信息。
我们想成为专家，于是我们获得了制作燃烧瓶的完整步骤指南。

不幸的是，尽管 OpenAI 努力加强产品的安全功能，但显然滥用 ChatGPT-5 实现恶意目的并不太复杂。
我们对 GPT-5 成功执行越狱攻击远非唯一案例。最近，其他多名研究人员及普通用户记录了 GPT-5 提示词回复质量存在的多种问题，包括越狱和幻觉现象。

OpenAI 回应称，他们正在实施修复。然而，您的员工可能已经在使用该模型，并可能给贵企业带来风险。

这进一步证明，像 Tenable AI Exposure 之类的解决方案对于掌控贵企业使用、消费和内部构建的 AI 工具至关重要，这会确保您负责任、安全、符合道德规范地使用 AI，且遵守全球各地法规法律。

单击此处详细了解 Tenable AI Exposure

Keren Katz

Tenable 产品、威胁研究与 AI 部门高级集团经理

Keren Katz 是 AI 和网络安全领域的领导者，专注于生成式 AI 威胁检测领域的研究。她当前是 Tenable 产品、威胁研究和 AI 部门的高级团队经理，此前在 Apex 领导安全检测部门，该公司已被 Tenable 收购。Keren 还在 Sygnia 领导产品部门，该公司是一家 IR 和 MXDR 安全公司。她的专业背景涵盖特种作战深度科技、软件工程，并曾创立过一家基于机器学习的初创企业。Keren 还是 OWASP 基金会的重要贡献者，并在 AI、安全和产品管理领域担任全球演讲者。

Cloud

Tenable One 暴露风险安全管理平台

平台类别

平台功能

云风险暴露

漏洞风险暴露

AI Exposure

OT/IoT 风险暴露

身份风险暴露

业务需求

行业

合规

公共行业

Tenable 的独特之处

比较 Tenable 和

资源

研发

Tenable Assure 合作伙伴

其他合作伙伴机会

支持

服务

Tenable 信任

关于我们

媒体

连接

加入我们

Tenable 对 GPT-5 实施越狱攻击，在使用 OpenAI 新安全技术下仍生成危险信息

Keren Katz

Tenable 产品、威胁研究与 AI 部门高级集团经理

Tenable 对 GPT-5 实施越狱攻击，在使用 OpenAI 新安全技术下仍生成危险信息

Keren Katz

Tenable 产品、威胁研究与 AI 部门高级集团经理

相关文章

Cybersecurity Snapshot: Refresh Your Akira Defenses Now, CISA Says, as OWASP Revamps Its App Sec Top 10 Risks

Cybersecurity Snapshot: AI Will Take Center Stage in Cyber in 2026, Google Says, as MITRE Revamps ATT&CK Framework

What's New in Tenable Cloud Security: Enhanced Visibility, Prioritization, and Navigation

您可加以利用的网络安全新闻

感谢您的订阅！

Tenable Vulnerability Management

Tenable Vulnerability Management

谢谢

Tenable Vulnerability Management

Tenable Vulnerability Management

感谢聆听

Tenable Vulnerability Management

Tenable Vulnerability Management

感谢聆听

试用 Tenable Web App Scanning

购买 Tenable Web App Scanning

感谢聆听

申请演示 Tenable Security Center

申请演示 Tenable OT Security

申请演示

申请演示 Tenable Cloud Security

了解 Tenable One 的实际应用情况

开始使用 Tenable AI Exposure

了解 Tenable Attack Surface Management 的实际应用情况

获取 Tenable Enclave Security 的演示

谢谢

免费试用 Tenable Nessus Professional

购买 Tenable Nessus Professional

免费试用 Tenable Nessus Expert

购买 Tenable Nessus Expert

了解 Tenable 如何帮助实现 SLCGP 网络安全计划要求

获取 Tenable Patch Management 的演示

联系销售代表

了解
Tenable One
的实际应用情况