本文是社群貼文的完整延伸版。 社群版說了結論,本文拆開每一個數字背後的邏輯,以及這件事對你的 AI 工具策略有什麼意義。
重點回顧
Cursor 於 2026 年 3 月 19 日發布 Composer 2,在 Terminal-Bench 2.0 拿到 61.7 分,超越 Claude Opus 4.6 的 58.0,定價是後者的十分之一($0.50/M vs $5/M 輸入 token)。底層基於中國開源模型 Kimi K2.5,疊加 Cursor 自己的持續預訓練和強化學習。核心技術突破是「循環內壓縮強化學習」,讓 AI 在長任務中保持目標一致性。但 GPT-5.4 仍以 75.1 領先,且 Composer 2 在非 coding 任務上的推理深度不及 Claude Opus 4.6。
【獨家】數字背後的三個層次
很多報導只說「Composer 2 超越 Claude Opus 4.6」,但這句話要拆開三個層次才有意義。
第一層:哪個 benchmark?
三個主要測試的結果如下:
| Benchmark | Composer 2 | Composer 1.5 | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 61.7 | 47.9 | 58.0 | 75.1 |
| SWE-bench Multilingual | 73.7 | 65.9 | — | — |
| CursorBench | 61.3 | 44.2 | — | 63.9 |
第二層:「超越」的範圍
Composer 2 在 Terminal-Bench 2.0 贏過 Claude Opus 4.6(61.7 vs 58.0),但 GPT-5.4 的 75.1 仍在前方,差距不小。這是局部超越,不是市場稱霸。
第三層:這些 benchmark 代表什麼?
Terminal-Bench 2.0 測的是「代理模型在終端環境執行多步驟任務的能力」,SWE-bench Multilingual 測的是「多語言程式碼 bug 修復」,CursorBench 是 Cursor 自家設計的綜合評測。三個都聚焦在實際編碼任務,不涉及通用推理或知識問答。
這也是為什麼 Composer 2 能在 coding 上贏 Claude Opus 4.6,但在系統架構概念討論或策略規劃上,Claude Opus 4.6 仍然更強。
【獨家】Kimi K2.5:你不能不知道的爭議
Cursor 在發布後隔天才公開說明,Composer 2 的技術底層是 Moonshot AI(北京)開發的開源模型 Kimi K2.5。Cursor 副總裁後來澄清,「Cursor 的額外訓練佔模型性能特徵的約 75%」。
這件事引發了幾個值得討論的問題:
1. 資料主權問題
對有嚴格資料安全政策的企業(金融、醫療、政府、國防相關),使用一個底層源自中國開源模型的工具,可能需要更詳細的法遵評估。不是說不能用,而是做決策前要知道這件事。
2. 透明度問題
「用了但晚一天說」和「說了再用」,在企業採購的信任感上差很多。如果一個工具在發布時就清楚說明技術來源,反而更容易讓企業做出知情決策。
3. 開源模型的競爭邏輯
Kimi K2.5 是開源的。Cursor 能在它上面疊加大量訓練,這本身就說明了一件事:未來的競爭,不一定是「誰有最強的基礎模型」,而是「誰在特定任務上的微調和工程做得最好」。
這個邏輯,對台灣的企業和開發者都有啟示。
【獨家】循環內壓縮強化學習:這個技術解決了什麼問題
我在企業培訓時,常聽到一個痛點:「老師,我用 AI 做複雜任務,做到一半它就開始亂——之前說好的設計原則,後面全忘了。」
這個問題的根源,是 AI 模型的「有效上下文長度」有限。就算模型的 context window 很長,當任務複雜到需要幾百個步驟,模型在後期能有效利用的早期資訊,其實比你想的少得多。
Composer 2 的「循環內壓縮強化學習」試圖從訓練層面解決這個問題:
運作方式:當生成序列接近 token 上限時,模型自動把約 5,000 token 的上下文壓縮成 1,000 token 的精華摘要,然後繼續工作。
關鍵差異:這個壓縮能力是「訓練出來的」,不是靠固定規則截斷。根據 Cursor 的資料,這讓壓縮誤差比舊方法低了 50%。
實際效果:Composer 2 可以連續執行幾百個步驟,處理跨多個檔案的大規模重構,中途不會「忘記」最初的目標。
這個突破在 benchmark 上看不太出來,但在實際工作流程中影響很大。特別是對需要讓 AI 自主完成大型任務的開發者,這是一個值得認真看待的差異。
【獨家】定價的實際影響:10 倍差距,真的重要嗎?
看定價,要看使用規模。
對個人開發者,每個月用個幾百萬 token,Claude Opus 4.6($5/M)和 Composer 2($0.5/M)的差距可能只是幾十美元。感受有限。
但對企業開發團隊,每天跑幾千萬甚至幾億 token 的,這個差距是量級上的差別:
| 使用量 / 月 | Claude Opus 4.6 費用 | Composer 2 費用 | 每月節省 |
|---|---|---|---|
| 1 億 token | $500 | $50 | $450 |
| 10 億 token | $5,000 | $500 | $4,500 |
| 100 億 token | $50,000 | $5,000 | $45,000 |
(以上僅計算輸入 token,實際含輸出 token 差距更大)
對規模化使用的企業,這不是小錢。
阿峰觀點:AI 工具市場正在垂直化
這件事的更大意義,不只是「Cursor 出了一個好工具」。
我帶過超過 400 家企業做 AI 工具導入,一個常見的誤區是:企業把所有任務都丟給同一個「最強」的通用模型,然後抱怨 AI 的回答不夠精準。
Composer 2 這個案例說明了一個正在發生的趨勢:AI 工具市場走向垂直化。一個刻意縮小範圍、在特定任務做到極致的模型,在它專注的領域能超越「什麼都能做」的通用模型,而且往往更便宜。
這個邏輯不只在編碼工具上成立。
未來我們看到的 AI 工具市場,不會是「一個模型統治一切」,而是「每個工作環節都有最適合它的 AI」。懂得組合工具的人,比只用一個工具的人更有競爭力。
調查顯示,46% 的開發者偏好 Claude Code,19% 選擇 Cursor,但很多人同時使用兩個。這不是選邊站的市場,是工具組合的市場。
問題從來不是哪個 AI 最強。問題是你用 AI 要解決什麼,以及哪個工具最適合這件事。
本文提到的資源
| 資源 | 說明 |
|---|---|
| Cursor Composer 2 官方部落格 | 發布公告與技術說明(2026/03/19) |
| Terminal-Bench 2.0 | 代理模型終端任務執行能力評測 |
| SWE-bench Multilingual | 多語言程式碼 bug 修復能力評測 |
如果你的公司正在評估 AI coding 工具,或想了解如何為不同工作流選配最適合的 AI 工具組合,歡迎到官網聯繫我。
🏢 企業 AI 培訓 → www.autolab.cloud
關於作者
黃敬峰(AI峰哥),企業 AI 實戰培訓專家,400+ 企業合作、10,000+ 學員。 核心心法:「會用、懂用、好用、每天用」 官網:https://www.autolab.cloud
📬 訂閱阿峰老師的 AI 實戰電子報
每週精選 AI 工具技巧、產業趨勢、實戰案例,直送你的信箱。
🔗 追蹤阿峰老師
- 📝 部落格:blog.autolab.cloud
- 🎬 YouTube:黃敬峰
- 📘 Facebook:黃敬峰
- 📸 Instagram:@nikeshoxmiles
- 🧵 Threads:@nikeshoxmiles
- 💬 LINE 官方:加入好友
