全部文章
· 6 分钟阅读 · AVL Code 开发团队(安天 · 澜砥团队)

GLM-5.2 战胜了 Mythos?——专用挽具战胜了通用挽具

挽具智能体安全分析基准测试

前些天,静态分析公司 Semgrep 发了一篇标题很抓眼球的博客:《We have Mythos at home: GLM-5.2 beats Claude in our cyber benchmarks》。一句话翻译——在他们的网络安全基准里,开源的 GLM-5.2 把 Claude 比了下去。国内也很快有了跟进解读

上一篇我们给各家挽具称了称体积;这一篇,我们想聊聊挽具的「本事」。因为读完这份基准,最该被记住的,恰恰不是哪个模型赢了,而是另一句话。

头条之下:到底比了什么

Semgrep 这次测的是一类很具体的漏洞——IDOR(越权访问 / 不安全的直接对象引用):应用把内部 ID 直接暴露出来、又没做权限校验。打分用 F1(查全与查准的平衡)。

头条说的「GLM-5.2 赢了」,确有其事:GLM-5.2 拿到 39% F1,而装在 Claude Code 里的 Opus 4.8 / 4.7 是 28%(Opus 4.6 反而有 37%)。再算上它是开放权重、单个漏洞成本约 0.17 美元——对一个不受出口管制、人人可下的开源模型来说,这条头条足够刺激。至于标题里的「Mythos」,是 Anthropic 那套被寄予厚望的高端安全系统(据报道在内部项目里挖出上万个关键漏洞),「家里的 Mythos」是句玩笑:GLM-5.2 像是平价平民版。

但如果故事到这里就结束,那就只看到了一半。

落差,不只在模型,也在挽具

把整张成绩单摊开,最大的一道分差并不在模型与模型之间,而在挽具与挽具之间:

配置(模型 × 挽具) IDOR F1
Semgrep 多模态 × GPT-5.5 61%
Semgrep 多模态 × Opus 4.8 53%
GLM-5.2(开放权重) 39%
Claude Code × Opus 4.6 37%
Claude Code × Opus 4.8 / 4.7 28%
GPT-5.5(Codex,裸提示) 20%

看两组对照——同一个模型,只换挽具:

  • GPT-5.5:裸着用(Codex)只有 20%;套上 Semgrep 自家的专用安全挽具,飙到 61%——三倍。
  • Opus 4.8:装在通用编码挽具 Claude Code 里是 28%;换上 Semgrep 的专用挽具,涨到 53%——接近翻倍。

同一颗「大脑」,换一副挽具,成绩天差地别。Semgrep 把这个发现总结成了一句很重的话:

表里最大的性能差距,不在模型之间,而在「拿得到端点发现」和「拿不到」的配置之间。

挽具,仍然比模型更重要。(The harness still matters more than the model.)

我们认为,更客观的表述是——选定了模型后,挽具就是决定性因素;当模型存在差距时,挽具的选择更为关键。 挽具是整个系统里同样关键、却长期被低估的一环:模型重要,挽具也重要;两者但凡缺一块,这套智能体都难成事。这份基准真正掀开的,不是「挽具压过模型」,而是「同一个模型,换副挽具能差出三倍」——一个被低估太久的变量,头一次被摆上了台面。说到底,挽具不是替代模型,而是让你更好地把模型的威力用出来——好模型,也要配一副好挽具,才能充分发挥。

插一句,也不全是题外话:Semgrep 用的这个词 harness,直译过来正是「挽具」。这不是我们硬凑的比喻,而是这一行的术语——指套在模型外面的那层东西:工具、脚手架、上下文调度、智能体框架。模型是那头出力的牲口,挽具决定这股力气往哪儿使、使不使得上。所以「the harness still matters more than the model」,和我们这一系列「挽具」的说法,说的是同一个词、同一件事。

他们那副挽具做了什么?替模型把应用的端点逐个枚举出来、再用代码把上下文筛到只剩要紧的那一部分——把模型从「大海捞针」里解放出来,只让它做它最该做的判断。

专用挽具,赢过通用挽具

这正是这份基准最值得记住的一点。

排在最前面的两名(61%、53%),都不是「最强的模型」,而是「装进了最懂这个活儿的挽具」的模型。Claude Code、Codex 是出色的通用编码挽具——但它们并不为「找越权漏洞」这件事专门优化;而 Semgrep 的多模态挽具是专用的,它懂端点、懂访问控制、懂该把哪段上下文喂给模型。于是这份基准摆出了一个朴素却有力的结论:

在这份基准里,专用挽具 × 普通发挥的模型,能赢过通用挽具 × 顶尖模型。

当然要给基准留余地——Semgrep 自己也提醒:这只是「一个任务、一个数据集、一次运行」,IDOR 检测本身是非确定性的,数据集也有限,别急着外推到所有漏洞类型。但方向已经足够清楚:在专业领域,挽具是决定模型表现的关键要素之一——一个长期被低估、却足以左右成败的变量。

越是专业的活,越要专用的挽具

读到这里,你大概能猜到我们为什么会心一笑。

早些时候我们写过,模型的先天局限决定了我们没法在纯编程能力上和巨头硬碰硬;于是 AVL Code 从一开始就选了另一条路——做一副懂安全的专用挽具:内置可执行格式解析、哈希与熵、字符串与 IOC 抽取、PE / ELF / Mach-O 解析、反汇编、由大模型驱动的反编译、YARA 匹配,外加 samples/ 只读硬底线。换句话说,我们干的事,和 Semgrep 那副让分数翻倍的挽具,是同一个思路:模型要选得够好,但更要把挽具打磨到最懂这件事。

Semgrep 这份基准,等于替我们做了一次外部验证:给安全的活配一副懂安全的挽具,和选一个够强的模型同样要紧——只是前者常被低估。这也呼应了我们一贯的看法——模型的较量还在烈火烹油,但模型之外,那副挽具同样决定着它能不能在你的真实场景里把活干成。

不过我们也清楚,一次外部基准远不是终点。对「实战能力」的检验,本身是一个长期、持续的过程;Semgrep 这一份,只是业界开始认真关注「挽具能力」的一个起点。随着 AVL Code 用得更深、更广,澜砥团队也会把我们自己观测到的情况,适时、如实地公布出来。

给安全的活,配一副懂安全的挽具

一句话收束:模型重要,挽具也重要——给安全的活,配一副懂安全的挽具。

头条会变——今天 GLM-5.2 领先,明天又会有别的模型登顶;但「专用挽具赢过通用挽具」这件事,大概率会一直成立。如果你手上的活是安全分析、是二进制研判、是逆向溯源,选好模型之外,别忘了同样关键的一步:给它配一副为这件事而造的挽具,把模型的威力真正用出来。

好模配好鞍,挽具用安天。 我们在 avlcode.cn 等你,骑着驴,挽具懂你。


参考资料:Semgrep,《We have Mythos at home: GLM-5.2 beats Claude in our cyber benchmarks》;FreeBuf,《智谱 AI 新模型 GLM-5.2 在漏洞检测领域比肩 Claude Mythos》。文中数据引自上述来源,基准为单任务、单数据集的非确定性测试,仅供参考。

AVL Code,AVL 安全引擎,与智能随行。安天澜砥团队出品。

GLM-5.2 战胜了 Mythos?——专用挽具战胜了通用挽具