新基準評估AI代理偵測、修補和利用智能合約漏洞的能力。GPT-5.3-Codex在利用任務中獲得72.2%的分數。(閱讀更多新基準評估AI代理偵測、修補和利用智能合約漏洞的能力。GPT-5.3-Codex在利用任務中獲得72.2%的分數。(閱讀更多

OpenAI 與 Paradigm 推出 EVMbench 以測試 AI 智能合約駭客攻擊

2026/03/05 08:55
閱讀時長 5 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 [email protected] 聯絡我們。

OpenAI 與 Paradigm 推出 EVMbench 測試 AI 智能合約駭客攻擊

Rongchai Wang 2026年3月5日 00:55

新基準測試評估 AI 代理檢測、修補和利用智能合約漏洞的能力。GPT-5.3-Codex 在利用任務上得分 72.2%。

OpenAI 與 Paradigm 推出 EVMbench 測試 AI 智能合約駭客攻擊

OpenAI 和加密創投公司 Paradigm 發布了 EVMbench,這是一個衡量 AI 代理在以太坊智能合約中尋找、修復和利用漏洞能力的基準測試。此公告發布之際,AI 驅動的安全工具正競相保護鎖定在 DeFi 協議中超過 1000 億美元的資金。

該基準測試從 40 個真實安全審計中提取了 120 個精選的高嚴重性漏洞,主要來自 Code4rena 競賽。它還包括來自 Tempo 安全審查的漏洞場景,Tempo 是一個為穩定幣支付構建的 Layer 1 區塊鏈。

破解智能合約的三種方式

EVMbench 在三種不同模式下測試 AI 代理。在檢測模式中,代理審計合約存儲庫並根據發現已知漏洞進行評分。修補模式要求代理在不破壞現有功能的情況下修復易受攻擊的代碼。利用模式最具攻擊性——代理必須對部署在沙箱區塊鏈上的合約執行實際的資金耗盡攻擊。

結果顯示 AI 能力在這個領域進步有多快。通過 Codex CLI 運行的 GPT-5.3-Codex 在利用任務上達到了 72.2% 的成功率。這是僅在六個月前推出的 GPT-5 的 31.9% 分數的兩倍多。

有趣的是,AI 代理在攻擊方面的表現優於防禦。利用設定有一個明確的目標——持續迭代直到耗盡資金。檢測和修補證明更加困難。代理有時在找到一個錯誤後就停止了,而不是進行徹底審計,並且在消除細微漏洞的同時保持完整的合約功能仍然具有挑戰性。

值得注意的實際限制

OpenAI 承認 EVMbench 並未捕捉到現實世界合約安全的全部難度。像 Uniswap 或 Aave 這樣大量部署的協議所接受的審查遠遠超過審計競賽代碼。該基準測試也無法驗證代理是否發現了人類審計員遺漏的合法漏洞——它只檢查已知問題。

利用環境在乾淨的本地 Anvil 實例上運行,而不是分叉的主網狀態,並且依賴時間的攻擊不在範圍內。目前僅限於單鏈環境。

1000 萬美元用於防禦性研究

除了 EVMbench 外,OpenAI 承諾提供 1000 萬美元的 API 積分專門用於防禦性安全研究。該公司正在將其 Aardvark 安全研究代理擴展到更多用戶,並與開源維護者合作進行免費代碼庫掃描。

時機很重要。隨著 AI 代理在利用合約方面變得更好,漏洞發現和利用之間的時間窗口正在縮小。不使用 AI 輔助審計的協議團隊將越來越多地發現自己處於使用 AI 的攻擊者的劣勢。

OpenAI 公開發布了 EVMbench 的任務、工具和評估框架。對於 DeFi 開發者和安全研究人員來說,這既是一個衡量標準,也是對 AI 能力發展方向的警告。

圖片來源:Shutterstock
  • openai
  • paradigm
  • 智能合約
  • AI 安全
  • defi
市場機遇
Smart Blockchain 圖標
Smart Blockchain實時價格 (SMART)
$0.004278
$0.004278$0.004278
-0.78%
USD
Smart Blockchain (SMART) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。