GLM-5.2 戰勝了 Mythos？——專用挽具戰勝了通用挽具

前些天，靜態分析公司 Semgrep 發了一篇標題很吸睛的部落格：《We have Mythos at home: GLM-5.2 beats Claude in our cyber benchmarks》。一句話翻譯——在他們的網路安全基準裡，開源的 GLM-5.2 把 Claude 比了下去。中國大陸也很快有了跟進解讀。

上一篇我們給各家挽具稱了稱體積；這一篇，我們想聊聊挽具的「本事」。因為讀完這份基準，最該被記住的，恰恰不是哪個模型贏了，而是另一句話。

頭條之下：到底比了什麼

Semgrep 這次測的是一類很具體的漏洞——IDOR（越權存取 / 不安全的直接物件參照）：應用程式把內部 ID 直接暴露出來、又沒做權限驗證。評分用 F1（查全與查準的平衡）。

頭條說的「GLM-5.2 贏了」，確有其事：GLM-5.2 拿到 39% F1，而裝在 Claude Code 裡的 Opus 4.8 / 4.7 是 28%（Opus 4.6 反而有 37%）。再算上它是開放權重、單個漏洞成本約 0.17 美元——對一個不受出口管制、人人可下載的開源模型來說，這條頭條足夠刺激。至於標題裡的「Mythos」，是 Anthropic 那套被寄予厚望的高階安全系統（據報導在內部專案裡挖出上萬個關鍵漏洞），「家裡的 Mythos」是句玩笑：GLM-5.2 像是平價平民版。

但如果故事到這裡就結束，那就只看到了一半。

落差，不只在模型，也在挽具

把整張成績單攤開，最大的一道分差並不在模型與模型之間，而在挽具與挽具之間：

配置（模型 × 挽具）	IDOR F1
Semgrep 多模態 × GPT-5.5	61%
Semgrep 多模態 × Opus 4.8	53%
GLM-5.2（開放權重）	39%
Claude Code × Opus 4.6	37%
Claude Code × Opus 4.8 / 4.7	28%
GPT-5.5（Codex，裸提示）	20%

看兩組對照——同一個模型，只換挽具：

GPT-5.5：裸著用（Codex）只有 20%；套上 Semgrep 自家的專用安全挽具，飆到 61%——三倍。
Opus 4.8：裝在通用程式開發挽具 Claude Code 裡是 28%；換上 Semgrep 的專用挽具，漲到 53%——接近翻倍。

同一顆「大腦」，換一副挽具，成績天差地別。Semgrep 把這個發現總結成了一句很重的話：

表裡最大的效能差距，不在模型之間，而在「拿得到端點發現」和「拿不到」的配置之間。

挽具，仍然比模型更重要。（The harness still matters more than the model.）

我們認為，更客觀的表述是——選定了模型後，挽具就是決定性因素；當模型存在差距時，挽具的選擇更為關鍵。 挽具是整個系統裡同樣關鍵、卻長期被低估的一環：模型重要，挽具也重要；兩者但凡缺一塊，這套智慧體都難成事。這份基準真正掀開的，不是「挽具壓過模型」，而是「同一個模型，換副挽具能差出三倍」——一個被低估太久的變數，頭一次被擺上了檯面。說到底，挽具不是替代模型，而是讓你更好地把模型的威力用出來——好模型，也要配一副好挽具，才能充分發揮。

插一句，也不全是題外話：Semgrep 用的這個詞 harness，直譯過來正是「挽具」。這不是我們硬湊的比喻，而是這一行的術語——指套在模型外面的那層東西：工具、鷹架、上下文調度、智慧體框架。模型是那頭出力的牲口，挽具決定這股力氣往哪兒使、使不使得上。所以「the harness still matters more than the model」，和我們這一系列「挽具」的說法，說的是同一個詞、同一件事。

他們那副挽具做了什麼？替模型把應用程式的端點逐一列舉出來、再用程式碼把上下文篩到只剩要緊的那一部分——把模型從「大海撈針」裡解放出來，只讓它做它最該做的判斷。

專用挽具，贏過通用挽具

這正是這份基準最值得記住的一點。

排在最前面的兩名（61%、53%），都不是「最強的模型」，而是「裝進了最懂這個活兒的挽具」的模型。Claude Code、Codex 是出色的通用程式開發挽具——但它們並不為「找越權漏洞」這件事專門最佳化；而 Semgrep 的多模態挽具是專用的，它懂端點、懂存取控制、懂該把哪段上下文餵給模型。於是這份基準擺出了一個樸素卻有力的結論：

在這份基準裡，專用挽具 × 普通發揮的模型，能贏過通用挽具 × 頂尖模型。

當然要給基準留餘地——Semgrep 自己也提醒：這只是「一個任務、一個資料集、一次執行」，IDOR 檢測本身是非確定性的，資料集也有限，別急著外推到所有漏洞類型。但方向已經足夠清楚：在專業領域，挽具是決定模型表現的關鍵要素之一——一個長期被低估、卻足以左右成敗的變數。

越是專業的活，越要專用的挽具

讀到這裡，你大概能猜到我們為什麼會心一笑。

早些時候我們寫過，模型的先天侷限決定了我們沒法在純程式開發能力上和巨頭硬碰硬；於是 AVL Code 從一開始就選了另一條路——做一副懂安全的專用挽具：內建可執行檔格式解析、雜湊與熵、字串與 IOC 擷取、PE / ELF / Mach-O 解析、反匯編、由大模型驅動的反編譯、YARA 比對，外加 samples/ 唯讀硬底線。換句話說，我們幹的事，和 Semgrep 那副讓分數翻倍的挽具，是同一個思路：模型要選得夠好，但更要把挽具打磨到最懂這件事。

Semgrep 這份基準，等於替我們做了一次外部驗證：給安全的活配一副懂安全的挽具，和選一個夠強的模型同樣要緊——只是前者常被低估。這也呼應了我們一貫的看法——模型的較量還在烈火烹油，但模型之外，那副挽具同樣決定著它能不能在你的真實場景裡把活幹成。

不過我們也清楚，一次外部基準遠不是終點。對「實戰能力」的檢驗，本身是一個長期、持續的過程；Semgrep 這一份，只是業界開始認真關注「挽具能力」的一個起點。隨著 AVL Code 用得更深、更廣，瀾砥團隊也會把我們自己觀測到的情況，適時、如實地公布出來。

給安全的活，配一副懂安全的挽具

一句話收束：模型重要，挽具也重要——給安全的活，配一副懂安全的挽具。

頭條會變——今天 GLM-5.2 領先，明天又會有別的模型登頂；但「專用挽具贏過通用挽具」這件事，大機率會一直成立。如果你手上的活是安全分析、是二進位研判、是逆向溯源，選好模型之外，別忘了同樣關鍵的一步：給它配一副為這件事而造的挽具，把模型的威力真正用出來。

好模配好鞍，挽具用安天。 我們在 avlcode.cn 等你，騎著驢，挽具懂你。

參考資料：Semgrep，《We have Mythos at home: GLM-5.2 beats Claude in our cyber benchmarks》；FreeBuf，《智譜 AI 新模型 GLM-5.2 在漏洞檢測領域比肩 Claude Mythos》。文中數據引自上述來源，基準為單任務、單資料集的非確定性測試，僅供參考。

AVL Code，AVL 安全引擎，與智慧隨行。安天瀾砥團隊出品。