GLM-5.2 战胜了 Mythos？——专用挽具战胜了通用挽具

前些天，静态分析公司 Semgrep 发了一篇标题很抓眼球的博客：《We have Mythos at home: GLM-5.2 beats Claude in our cyber benchmarks》。一句话翻译——在他们的网络安全基准里，开源的 GLM-5.2 把 Claude 比了下去。国内也很快有了跟进解读。

上一篇我们给各家挽具称了称体积；这一篇，我们想聊聊挽具的「本事」。因为读完这份基准，最该被记住的，恰恰不是哪个模型赢了，而是另一句话。

头条之下：到底比了什么

Semgrep 这次测的是一类很具体的漏洞——IDOR（越权访问 / 不安全的直接对象引用）：应用把内部 ID 直接暴露出来、又没做权限校验。打分用 F1（查全与查准的平衡）。

头条说的「GLM-5.2 赢了」，确有其事：GLM-5.2 拿到 39% F1，而装在 Claude Code 里的 Opus 4.8 / 4.7 是 28%（Opus 4.6 反而有 37%）。再算上它是开放权重、单个漏洞成本约 0.17 美元——对一个不受出口管制、人人可下的开源模型来说，这条头条足够刺激。至于标题里的「Mythos」，是 Anthropic 那套被寄予厚望的高端安全系统（据报道在内部项目里挖出上万个关键漏洞），「家里的 Mythos」是句玩笑：GLM-5.2 像是平价平民版。

但如果故事到这里就结束，那就只看到了一半。

落差，不只在模型，也在挽具

把整张成绩单摊开，最大的一道分差并不在模型与模型之间，而在挽具与挽具之间：

配置（模型 × 挽具）	IDOR F1
Semgrep 多模态 × GPT-5.5	61%
Semgrep 多模态 × Opus 4.8	53%
GLM-5.2（开放权重）	39%
Claude Code × Opus 4.6	37%
Claude Code × Opus 4.8 / 4.7	28%
GPT-5.5（Codex，裸提示）	20%

看两组对照——同一个模型，只换挽具：

GPT-5.5：裸着用（Codex）只有 20%；套上 Semgrep 自家的专用安全挽具，飙到 61%——三倍。
Opus 4.8：装在通用编码挽具 Claude Code 里是 28%；换上 Semgrep 的专用挽具，涨到 53%——接近翻倍。

同一颗「大脑」，换一副挽具，成绩天差地别。Semgrep 把这个发现总结成了一句很重的话：

表里最大的性能差距，不在模型之间，而在「拿得到端点发现」和「拿不到」的配置之间。

挽具，仍然比模型更重要。（The harness still matters more than the model.）

我们认为，更客观的表述是——选定了模型后，挽具就是决定性因素；当模型存在差距时，挽具的选择更为关键。 挽具是整个系统里同样关键、却长期被低估的一环：模型重要，挽具也重要；两者但凡缺一块，这套智能体都难成事。这份基准真正掀开的，不是「挽具压过模型」，而是「同一个模型，换副挽具能差出三倍」——一个被低估太久的变量，头一次被摆上了台面。说到底，挽具不是替代模型，而是让你更好地把模型的威力用出来——好模型，也要配一副好挽具，才能充分发挥。

插一句，也不全是题外话：Semgrep 用的这个词 harness，直译过来正是「挽具」。这不是我们硬凑的比喻，而是这一行的术语——指套在模型外面的那层东西：工具、脚手架、上下文调度、智能体框架。模型是那头出力的牲口，挽具决定这股力气往哪儿使、使不使得上。所以「the harness still matters more than the model」，和我们这一系列「挽具」的说法，说的是同一个词、同一件事。

他们那副挽具做了什么？替模型把应用的端点逐个枚举出来、再用代码把上下文筛到只剩要紧的那一部分——把模型从「大海捞针」里解放出来，只让它做它最该做的判断。

专用挽具，赢过通用挽具

这正是这份基准最值得记住的一点。

排在最前面的两名（61%、53%），都不是「最强的模型」，而是「装进了最懂这个活儿的挽具」的模型。Claude Code、Codex 是出色的通用编码挽具——但它们并不为「找越权漏洞」这件事专门优化；而 Semgrep 的多模态挽具是专用的，它懂端点、懂访问控制、懂该把哪段上下文喂给模型。于是这份基准摆出了一个朴素却有力的结论：

在这份基准里，专用挽具 × 普通发挥的模型，能赢过通用挽具 × 顶尖模型。

当然要给基准留余地——Semgrep 自己也提醒：这只是「一个任务、一个数据集、一次运行」，IDOR 检测本身是非确定性的，数据集也有限，别急着外推到所有漏洞类型。但方向已经足够清楚：在专业领域，挽具是决定模型表现的关键要素之一——一个长期被低估、却足以左右成败的变量。

越是专业的活，越要专用的挽具

读到这里，你大概能猜到我们为什么会心一笑。

早些时候我们写过，模型的先天局限决定了我们没法在纯编程能力上和巨头硬碰硬；于是 AVL Code 从一开始就选了另一条路——做一副懂安全的专用挽具：内置可执行格式解析、哈希与熵、字符串与 IOC 抽取、PE / ELF / Mach-O 解析、反汇编、由大模型驱动的反编译、YARA 匹配，外加 samples/ 只读硬底线。换句话说，我们干的事，和 Semgrep 那副让分数翻倍的挽具，是同一个思路：模型要选得够好，但更要把挽具打磨到最懂这件事。

Semgrep 这份基准，等于替我们做了一次外部验证：给安全的活配一副懂安全的挽具，和选一个够强的模型同样要紧——只是前者常被低估。这也呼应了我们一贯的看法——模型的较量还在烈火烹油，但模型之外，那副挽具同样决定着它能不能在你的真实场景里把活干成。

不过我们也清楚，一次外部基准远不是终点。对「实战能力」的检验，本身是一个长期、持续的过程；Semgrep 这一份，只是业界开始认真关注「挽具能力」的一个起点。随着 AVL Code 用得更深、更广，澜砥团队也会把我们自己观测到的情况，适时、如实地公布出来。

给安全的活，配一副懂安全的挽具

一句话收束：模型重要，挽具也重要——给安全的活，配一副懂安全的挽具。

头条会变——今天 GLM-5.2 领先，明天又会有别的模型登顶；但「专用挽具赢过通用挽具」这件事，大概率会一直成立。如果你手上的活是安全分析、是二进制研判、是逆向溯源，选好模型之外，别忘了同样关键的一步：给它配一副为这件事而造的挽具，把模型的威力真正用出来。

好模配好鞍，挽具用安天。 我们在 avlcode.cn 等你，骑着驴，挽具懂你。

参考资料：Semgrep，《We have Mythos at home: GLM-5.2 beats Claude in our cyber benchmarks》；FreeBuf，《智谱 AI 新模型 GLM-5.2 在漏洞检测领域比肩 Claude Mythos》。文中数据引自上述来源，基准为单任务、单数据集的非确定性测试，仅供参考。

AVL Code，AVL 安全引擎，与智能随行。安天澜砥团队出品。