OpenAI 與 Paradigm 推出 EVMbench 測試 AI 智能合約駭客攻擊

Rongchai Wang 2026年3月5日 00:55

新基準測試評估 AI 代理檢測、修補和利用智能合約漏洞的能力。GPT-5.3-Codex 在利用任務上得分 72.2%。

OpenAI 和加密創投公司 Paradigm 發布了 EVMbench,這是一個衡量 AI 代理在以太坊智能合約中尋找、修復和利用漏洞能力的基準測試。此公告發布之際,AI 驅動的安全工具正競相保護鎖定在 DeFi 協議中超過 1000 億美元的資金。

該基準測試從 40 個真實安全審計中提取了 120 個精選的高嚴重性漏洞,主要來自 Code4rena 競賽。它還包括來自 Tempo 安全審查的漏洞場景,Tempo 是一個為穩定幣支付構建的 Layer 1 區塊鏈。

破解智能合約的三種方式

EVMbench 在三種不同模式下測試 AI 代理。在檢測模式中,代理審計合約存儲庫並根據發現已知漏洞進行評分。修補模式要求代理在不破壞現有功能的情況下修復易受攻擊的代碼。利用模式最具攻擊性——代理必須對部署在沙箱區塊鏈上的合約執行實際的資金耗盡攻擊。

結果顯示 AI 能力在這個領域進步有多快。通過 Codex CLI 運行的 GPT-5.3-Codex 在利用任務上達到了 72.2% 的成功率。這是僅在六個月前推出的 GPT-5 的 31.9% 分數的兩倍多。

有趣的是,AI 代理在攻擊方面的表現優於防禦。利用設定有一個明確的目標——持續迭代直到耗盡資金。檢測和修補證明更加困難。代理有時在找到一個錯誤後就停止了,而不是進行徹底審計,並且在消除細微漏洞的同時保持完整的合約功能仍然具有挑戰性。

OpenAI 承認 EVMbench 並未捕捉到現實世界合約安全的全部難度。像 Uniswap 或 Aave 這樣大量部署的協議所接受的審查遠遠超過審計競賽代碼。該基準測試也無法驗證代理是否發現了人類審計員遺漏的合法漏洞——它只檢查已知問題。

利用環境在乾淨的本地 Anvil 實例上運行,而不是分叉的主網狀態,並且依賴時間的攻擊不在範圍內。目前僅限於單鏈環境。

除了 EVMbench 外,OpenAI 承諾提供 1000 萬美元的 API 積分專門用於防禦性安全研究。該公司正在將其 Aardvark 安全研究代理擴展到更多用戶,並與開源維護者合作進行免費代碼庫掃描。

時機很重要。隨著 AI 代理在利用合約方面變得更好,漏洞發現和利用之間的時間窗口正在縮小。不使用 AI 輔助審計的協議團隊將越來越多地發現自己處於使用 AI 的攻擊者的劣勢。

OpenAI 公開發布了 EVMbench 的任務、工具和評估框架。對於 DeFi 開發者和安全研究人員來說,這既是一個衡量標準,也是對 AI 能力發展方向的警告。

圖片來源:Shutterstock