OpenAI en Paradigm lanceren EVMbench om AI Smart Contract Hacking te testen
Rongchai Wang 05 mrt 2026 00:55
Nieuwe benchmark evalueert het vermogen van AI-agents om kwetsbaarheden in smart contracts te detecteren, patchen en exploiteren. GPT-5.3-Codex scoort 72,2% op exploit-taken.
OpenAI en crypto venture firm Paradigm hebben EVMbench uitgebracht, een benchmark die meet hoe goed AI-agents kwetsbaarheden in Ethereum smart contracts kunnen vinden, repareren en exploiteren. De aankondiging komt op een moment dat AI-aangedreven beveiligingstools een race aangaan om de meer dan $100 miljard die vastzit in DeFi-protocollen te beschermen.
De benchmark put uit 120 geselecteerde kwetsbaarheden met hoge ernst, afkomstig van 40 echte beveiligingsaudits, voornamelijk uit Code4rena-wedstrijden. Het bevat ook kwetsbaarheidsscenario's uit beveiligingsbeoordelingen van Tempo, een Layer 1 blockchain gebouwd voor stablecoin-betalingen.
Drie manieren om Smart Contracts te breken
EVMbench test AI-agents in drie verschillende modi. In Detect-modus controleren agents contractrepositories en worden ze beoordeeld op het vinden van bekende kwetsbaarheden. Patch-modus vereist dat agents kwetsbare code repareren zonder bestaande functionaliteit te breken. Exploit-modus is het meest agressief—agents moeten daadwerkelijke aanvallen uitvoeren die fondsen weglekken van contracten die zijn ingezet op een sandboxed blockchain.
De resultaten laten zien hoe snel AI-capaciteiten op dit gebied vorderen. GPT-5.3-Codex draaiend via Codex CLI bereikte een slagingspercentage van 72,2% op exploit-taken. Dat is meer dan het dubbele van de 31,9% score van GPT-5, dat slechts zes maanden eerder werd gelanceerd.
Interessant genoeg presteren AI-agents beter bij aanvallen dan bij verdedigen. De exploit-setting heeft een duidelijk doel—blijf itereren totdat je de fondsen hebt weggelekt. Detectie en patching bleken moeilijker. Agents stopten soms na het vinden van één bug in plaats van grondig te auditen, en het behouden van volledige contractfunctionaliteit terwijl subtiele kwetsbaarheden werden verwijderd bleef uitdagend.
Echte beperkingen die het vermelden waard zijn
OpenAI erkende dat EVMbench niet de volledige moeilijkheid van real-world contractbeveiliging vastlegt. Zwaar ingezette protocollen zoals Uniswap of Aave ondergaan veel meer controle dan audit-competitiecode. De benchmark kan ook niet verifiëren of een agent legitieme kwetsbaarheden vindt die menselijke auditors hebben gemist—het controleert alleen op bekende problemen.
De exploit-omgeving draait op een schone lokale Anvil-instantie in plaats van geforkte mainnet-status, en timing-afhankelijke aanvallen vallen buiten het bereik. Alleen single-chain omgevingen voor nu.
$10 miljoen voor defensief onderzoek
Naast EVMbench heeft OpenAI $10 miljoen aan API-credits toegezegd specifiek voor defensief beveiligingsonderzoek. Het bedrijf breidt zijn Aardvark-beveiligingsonderzoeksagent uit naar meer gebruikers en werkt samen met open-source beheerders voor gratis codebase-scanning.
De timing is belangrijk. Naarmate AI-agents beter worden in het exploiteren van contracten, krimpt het tijdsvenster tussen het ontdekken van kwetsbaarheden en exploitatie. Protocolteams die geen AI-ondersteunde auditing gebruiken, zullen zich steeds meer benadeeld voelen ten opzichte van aanvallers die dat wel doen.
OpenAI heeft de taken, tooling en evaluatieraamwerk van EVMbench publiekelijk vrijgegeven. Voor DeFi-ontwikkelaars en beveiligingsonderzoekers is het zowel een meetlat als een waarschuwing over waar AI-capaciteiten naartoe gaan.
Afbeelding bron: Shutterstock- openai
- paradigm
- smart contracts
- ai security
- defi


