· 6 分鐘閱讀 · AVL Code 開發團隊(安天 · 瀾砥團隊)

GLM-5.2 戰勝了 Mythos?——專用挽具戰勝了通用挽具

挽具智慧體安全分析基準測試

前些天,靜態分析公司 Semgrep 發了一篇標題很吸睛的部落格:《We have Mythos at home: GLM-5.2 beats Claude in our cyber benchmarks》。一句話翻譯——在他們的網路安全基準裡,開源的 GLM-5.2 把 Claude 比了下去。中國大陸也很快有了跟進解讀

上一篇我們給各家挽具稱了稱體積;這一篇,我們想聊聊挽具的「本事」。因為讀完這份基準,最該被記住的,恰恰不是哪個模型贏了,而是另一句話。

頭條之下:到底比了什麼

Semgrep 這次測的是一類很具體的漏洞——IDOR(越權存取 / 不安全的直接物件參照):應用程式把內部 ID 直接暴露出來、又沒做權限驗證。評分用 F1(查全與查準的平衡)。

頭條說的「GLM-5.2 贏了」,確有其事:GLM-5.2 拿到 39% F1,而裝在 Claude Code 裡的 Opus 4.8 / 4.7 是 28%(Opus 4.6 反而有 37%)。再算上它是開放權重、單個漏洞成本約 0.17 美元——對一個不受出口管制、人人可下載的開源模型來說,這條頭條足夠刺激。至於標題裡的「Mythos」,是 Anthropic 那套被寄予厚望的高階安全系統(據報導在內部專案裡挖出上萬個關鍵漏洞),「家裡的 Mythos」是句玩笑:GLM-5.2 像是平價平民版。

但如果故事到這裡就結束,那就只看到了一半。

落差,不只在模型,也在挽具

把整張成績單攤開,最大的一道分差並不在模型與模型之間,而在挽具與挽具之間:

配置(模型 × 挽具) IDOR F1
Semgrep 多模態 × GPT-5.5 61%
Semgrep 多模態 × Opus 4.8 53%
GLM-5.2(開放權重) 39%
Claude Code × Opus 4.6 37%
Claude Code × Opus 4.8 / 4.7 28%
GPT-5.5(Codex,裸提示) 20%

看兩組對照——同一個模型,只換挽具:

  • GPT-5.5:裸著用(Codex)只有 20%;套上 Semgrep 自家的專用安全挽具,飆到 61%——三倍。
  • Opus 4.8:裝在通用程式開發挽具 Claude Code 裡是 28%;換上 Semgrep 的專用挽具,漲到 53%——接近翻倍。

同一顆「大腦」,換一副挽具,成績天差地別。Semgrep 把這個發現總結成了一句很重的話:

表裡最大的效能差距,不在模型之間,而在「拿得到端點發現」和「拿不到」的配置之間。

挽具,仍然比模型更重要。(The harness still matters more than the model.)

我們認為,更客觀的表述是——選定了模型後,挽具就是決定性因素;當模型存在差距時,挽具的選擇更為關鍵。 挽具是整個系統裡同樣關鍵、卻長期被低估的一環:模型重要,挽具也重要;兩者但凡缺一塊,這套智慧體都難成事。這份基準真正掀開的,不是「挽具壓過模型」,而是「同一個模型,換副挽具能差出三倍」——一個被低估太久的變數,頭一次被擺上了檯面。說到底,挽具不是替代模型,而是讓你更好地把模型的威力用出來——好模型,也要配一副好挽具,才能充分發揮。

插一句,也不全是題外話:Semgrep 用的這個詞 harness,直譯過來正是「挽具」。這不是我們硬湊的比喻,而是這一行的術語——指套在模型外面的那層東西:工具、鷹架、上下文調度、智慧體框架。模型是那頭出力的牲口,挽具決定這股力氣往哪兒使、使不使得上。所以「the harness still matters more than the model」,和我們這一系列「挽具」的說法,說的是同一個詞、同一件事。

他們那副挽具做了什麼?替模型把應用程式的端點逐一列舉出來、再用程式碼把上下文篩到只剩要緊的那一部分——把模型從「大海撈針」裡解放出來,只讓它做它最該做的判斷。

專用挽具,贏過通用挽具

這正是這份基準最值得記住的一點。

排在最前面的兩名(61%、53%),都不是「最強的模型」,而是「裝進了最懂這個活兒的挽具」的模型。Claude Code、Codex 是出色的通用程式開發挽具——但它們並不為「找越權漏洞」這件事專門最佳化;而 Semgrep 的多模態挽具是專用的,它懂端點、懂存取控制、懂該把哪段上下文餵給模型。於是這份基準擺出了一個樸素卻有力的結論:

在這份基準裡,專用挽具 × 普通發揮的模型,能贏過通用挽具 × 頂尖模型。

當然要給基準留餘地——Semgrep 自己也提醒:這只是「一個任務、一個資料集、一次執行」,IDOR 檢測本身是非確定性的,資料集也有限,別急著外推到所有漏洞類型。但方向已經足夠清楚:在專業領域,挽具是決定模型表現的關鍵要素之一——一個長期被低估、卻足以左右成敗的變數。

越是專業的活,越要專用的挽具

讀到這裡,你大概能猜到我們為什麼會心一笑。

早些時候我們寫過,模型的先天侷限決定了我們沒法在純程式開發能力上和巨頭硬碰硬;於是 AVL Code 從一開始就選了另一條路——做一副懂安全的專用挽具:內建可執行檔格式解析、雜湊與熵、字串與 IOC 擷取、PE / ELF / Mach-O 解析、反匯編、由大模型驅動的反編譯、YARA 比對,外加 samples/ 唯讀硬底線。換句話說,我們幹的事,和 Semgrep 那副讓分數翻倍的挽具,是同一個思路:模型要選得夠好,但更要把挽具打磨到最懂這件事。

Semgrep 這份基準,等於替我們做了一次外部驗證:給安全的活配一副懂安全的挽具,和選一個夠強的模型同樣要緊——只是前者常被低估。這也呼應了我們一貫的看法——模型的較量還在烈火烹油,但模型之外,那副挽具同樣決定著它能不能在你的真實場景裡把活幹成。

不過我們也清楚,一次外部基準遠不是終點。對「實戰能力」的檢驗,本身是一個長期、持續的過程;Semgrep 這一份,只是業界開始認真關注「挽具能力」的一個起點。隨著 AVL Code 用得更深、更廣,瀾砥團隊也會把我們自己觀測到的情況,適時、如實地公布出來。

給安全的活,配一副懂安全的挽具

一句話收束:模型重要,挽具也重要——給安全的活,配一副懂安全的挽具。

頭條會變——今天 GLM-5.2 領先,明天又會有別的模型登頂;但「專用挽具贏過通用挽具」這件事,大機率會一直成立。如果你手上的活是安全分析、是二進位研判、是逆向溯源,選好模型之外,別忘了同樣關鍵的一步:給它配一副為這件事而造的挽具,把模型的威力真正用出來。

好模配好鞍,挽具用安天。 我們在 avlcode.cn 等你,騎著驢,挽具懂你。


參考資料:Semgrep,《We have Mythos at home: GLM-5.2 beats Claude in our cyber benchmarks》;FreeBuf,《智譜 AI 新模型 GLM-5.2 在漏洞檢測領域比肩 Claude Mythos》。文中數據引自上述來源,基準為單任務、單資料集的非確定性測試,僅供參考。

AVL Code,AVL 安全引擎,與智慧隨行。安天瀾砥團隊出品。