新基准评估AI代理检测、修补和利用智能合约漏洞的能力。GPT-5.3-Codex在利用任务上得分72.2%。(阅读更多新基准评估AI代理检测、修补和利用智能合约漏洞的能力。GPT-5.3-Codex在利用任务上得分72.2%。(阅读更多

OpenAI 和 Paradigm 推出 EVMbench 以测试 AI 智能合约攻击

2026/03/05 08:55
阅读时长 5 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 [email protected] 联系我们。

OpenAI 与 Paradigm 推出 EVMbench 以测试 AI 智能合约黑客攻击

Rongchai Wang 2026年3月5日 00:55

新基准评估 AI 代理检测、修补和利用智能合约漏洞的能力。GPT-5.3-Codex 在利用任务上得分 72.2%。

OpenAI 与 Paradigm 推出 EVMbench 以测试 AI 智能合约黑客攻击

OpenAI 和加密风险投资公司 Paradigm 发布了 EVMbench,这是一个衡量 AI 代理在以太坊智能合约中查找、修复和利用漏洞能力的基准测试。这一公告发布之际,AI 驱动的安全工具正在竞相保护锁定在 DeFi 协议中超过 1000 亿美元的资金。

该基准测试从 40 个真实安全审计中提取了 120 个精选的高严重性漏洞,主要来自 Code4rena 竞赛。它还包括来自 Tempo(一个为稳定币支付而构建的第 1 层区块链)安全审查的漏洞场景。

破坏智能合约的三种方式

EVMbench 在三种不同模式下测试 AI 代理。在检测模式中,代理审计合约存储库并根据发现已知漏洞进行评分。修补模式要求代理在不破坏现有功能的情况下修复有漏洞的代码。利用模式是最激进的——代理必须对部署在沙箱区块链上的合约执行实际的资金抽取攻击。

结果显示 AI 能力在这一领域的进步速度有多快。通过 Codex CLI 运行的 GPT-5.3-Codex 在利用任务上达到了 72.2% 的成功率。这是仅在六个月前推出的 GPT-5 的 31.9% 分数的两倍多。

有趣的是,AI 代理在攻击方面的表现优于防御。利用设置有一个明确的目标——持续迭代直到耗尽资金。检测和修补被证明更困难。代理有时在发现一个错误后就停止,而不是进行彻底审计,并且在消除微妙漏洞的同时保持完整的合约功能仍然具有挑战性。

值得注意的实际限制

OpenAI 承认 EVMbench 无法捕捉现实世界合约安全的全部难度。像 Uniswap 或 Aave 这样大量部署的协议所接受的审查远超审计竞赛代码。该基准测试也无法验证代理是否发现了人类审计员遗漏的合法漏洞——它仅检查已知问题。

利用环境在干净的本地 Anvil 实例上运行,而不是分叉的主网状态,并且依赖时间的攻击不在范围内。目前仅限单链环境。

1000 万美元用于防御性研究

除了 EVMbench,OpenAI 承诺提供 1000 万美元的 API 积分,专门用于防御性安全研究。该公司正在将其 Aardvark 安全研究代理扩展到更多用户,并与开源维护者合作进行免费代码库扫描。

时机很重要。随着 AI 代理在利用合约方面变得更好,漏洞发现和利用之间的窗口正在缩小。不使用 AI 辅助审计的协议团队将越来越发现自己处于劣势,而攻击者正在使用。

OpenAI 公开发布了 EVMbench 的任务、工具和评估框架。对于 DeFi 开发者和安全研究人员来说,这既是一个衡量标准,也是对 AI 能力发展方向的警告。

图片来源:Shutterstock
  • openai
  • paradigm
  • 智能合约
  • AI 安全
  • defi
市场机遇
Smart Blockchain 图标
Smart Blockchain实时价格 (SMART)
$0.004282
$0.004282$0.004282
-0.69%
USD
Smart Blockchain (SMART) 实时价格图表
免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 [email protected] 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。