2026-02-19 07:19:26

我们最近看到一起由Claude Opus 4.6编写的漏洞导致的178万美元的攻击事件。

cbETH的价格为$1 ，而不是2000美元。
不久之后，@OpenAI@推出了EVMbench。简单来说，它是一个评估AI代理与智能合约交互能力的基准测试。

它有3个主要评估模式：
> 检测：分析代理检测漏洞的能力
> 修补：分析代理修复漏洞的能力
> 利用：分析代理利用漏洞的能力
他们的分析显示，最新模型(Opus 4.6、GPT-5.3-Codex等)在利用漏洞方面表现非常出色，但在检测和修补方面较弱。
这正是我在用我自己的代理运行最新模型时所观察到的。在我的代理团队中，我总是包括一个审计代理，它可以获得完整的上下文，主要目标是发现漏洞。
当它发现漏洞时，开发代理可以轻松修复。
但问题是，在10个漏洞中，它可能只找到3个。目前，我们还不能完全依赖代理来正确检测漏洞。
推出这个基准测试是一个非常强有力的举措。我很期待用我的代理进行测试。
需要澄清的是，这不是一个安全扫描器或生产就绪的审计工具。它主要用于衡量AI的能力、比较模型，并提供关于AI在该领域进展的指标。
基本上，这是一个让AI在该领域进行评估和改进的工具，坦白说，我们确实非常需要这个。

查看原文