Cursor Composer 2 實測分析：benchmark 超越 Claude Opus 4.6，定價砍 10 倍是怎麼做到的

本文是社群貼文的完整延伸版。社群版說了結論，本文拆開每一個數字背後的邏輯，以及這件事對你的 AI 工具策略有什麼意義。

重點回顧

Cursor 於 2026 年 3 月 19 日發布 Composer 2，在 Terminal-Bench 2.0 拿到 61.7 分，超越 Claude Opus 4.6 的 58.0，定價是後者的十分之一（$0.50/M vs $5/M 輸入 token）。底層基於中國開源模型 Kimi K2.5，疊加 Cursor 自己的持續預訓練和強化學習。核心技術突破是「循環內壓縮強化學習」，讓 AI 在長任務中保持目標一致性。但 GPT-5.4 仍以 75.1 領先，且 Composer 2 在非 coding 任務上的推理深度不及 Claude Opus 4.6。

【獨家】數字背後的三個層次

很多報導只說「Composer 2 超越 Claude Opus 4.6」，但這句話要拆開三個層次才有意義。

第一層：哪個 benchmark？

三個主要測試的結果如下：

Benchmark	Composer 2	Composer 1.5	Claude Opus 4.6	GPT-5.4
Terminal-Bench 2.0	61.7	47.9	58.0	75.1
SWE-bench Multilingual	73.7	65.9	—	—
CursorBench	61.3	44.2	—	63.9

第二層：「超越」的範圍

Composer 2 在 Terminal-Bench 2.0 贏過 Claude Opus 4.6（61.7 vs 58.0），但 GPT-5.4 的 75.1 仍在前方，差距不小。這是局部超越，不是市場稱霸。

第三層：這些 benchmark 代表什麼？

Terminal-Bench 2.0 測的是「代理模型在終端環境執行多步驟任務的能力」，SWE-bench Multilingual 測的是「多語言程式碼 bug 修復」，CursorBench 是 Cursor 自家設計的綜合評測。三個都聚焦在實際編碼任務，不涉及通用推理或知識問答。

這也是為什麼 Composer 2 能在 coding 上贏 Claude Opus 4.6，但在系統架構概念討論或策略規劃上，Claude Opus 4.6 仍然更強。

【獨家】Kimi K2.5：你不能不知道的爭議

Cursor 在發布後隔天才公開說明，Composer 2 的技術底層是 Moonshot AI（北京）開發的開源模型 Kimi K2.5。Cursor 副總裁後來澄清，「Cursor 的額外訓練佔模型性能特徵的約 75%」。

這件事引發了幾個值得討論的問題：

1. 資料主權問題

對有嚴格資料安全政策的企業（金融、醫療、政府、國防相關），使用一個底層源自中國開源模型的工具，可能需要更詳細的法遵評估。不是說不能用，而是做決策前要知道這件事。

2. 透明度問題

「用了但晚一天說」和「說了再用」，在企業採購的信任感上差很多。如果一個工具在發布時就清楚說明技術來源，反而更容易讓企業做出知情決策。

3. 開源模型的競爭邏輯

Kimi K2.5 是開源的。Cursor 能在它上面疊加大量訓練，這本身就說明了一件事：未來的競爭，不一定是「誰有最強的基礎模型」，而是「誰在特定任務上的微調和工程做得最好」。

這個邏輯，對台灣的企業和開發者都有啟示。

【獨家】循環內壓縮強化學習：這個技術解決了什麼問題

我在企業培訓時，常聽到一個痛點：「老師，我用 AI 做複雜任務，做到一半它就開始亂——之前說好的設計原則，後面全忘了。」

這個問題的根源，是 AI 模型的「有效上下文長度」有限。就算模型的 context window 很長，當任務複雜到需要幾百個步驟，模型在後期能有效利用的早期資訊，其實比你想的少得多。

Composer 2 的「循環內壓縮強化學習」試圖從訓練層面解決這個問題：

運作方式：當生成序列接近 token 上限時，模型自動把約 5,000 token 的上下文壓縮成 1,000 token 的精華摘要，然後繼續工作。

關鍵差異：這個壓縮能力是「訓練出來的」，不是靠固定規則截斷。根據 Cursor 的資料，這讓壓縮誤差比舊方法低了 50%。

實際效果：Composer 2 可以連續執行幾百個步驟，處理跨多個檔案的大規模重構，中途不會「忘記」最初的目標。

這個突破在 benchmark 上看不太出來，但在實際工作流程中影響很大。特別是對需要讓 AI 自主完成大型任務的開發者，這是一個值得認真看待的差異。

【獨家】定價的實際影響：10 倍差距，真的重要嗎？

看定價，要看使用規模。

對個人開發者，每個月用個幾百萬 token，Claude Opus 4.6（$5/M）和 Composer 2（$0.5/M）的差距可能只是幾十美元。感受有限。

但對企業開發團隊，每天跑幾千萬甚至幾億 token 的，這個差距是量級上的差別：

使用量 / 月	Claude Opus 4.6 費用	Composer 2 費用	每月節省
1 億 token	$500	$50	$450
10 億 token	$5,000	$500	$4,500
100 億 token	$50,000	$5,000	$45,000

（以上僅計算輸入 token，實際含輸出 token 差距更大）

對規模化使用的企業，這不是小錢。

阿峰觀點：AI 工具市場正在垂直化

這件事的更大意義，不只是「Cursor 出了一個好工具」。

我帶過超過 400 家企業做 AI 工具導入，一個常見的誤區是：企業把所有任務都丟給同一個「最強」的通用模型，然後抱怨 AI 的回答不夠精準。

Composer 2 這個案例說明了一個正在發生的趨勢：AI 工具市場走向垂直化。一個刻意縮小範圍、在特定任務做到極致的模型，在它專注的領域能超越「什麼都能做」的通用模型，而且往往更便宜。

這個邏輯不只在編碼工具上成立。

未來我們看到的 AI 工具市場，不會是「一個模型統治一切」，而是「每個工作環節都有最適合它的 AI」。懂得組合工具的人，比只用一個工具的人更有競爭力。

調查顯示，46% 的開發者偏好 Claude Code，19% 選擇 Cursor，但很多人同時使用兩個。這不是選邊站的市場，是工具組合的市場。

問題從來不是哪個 AI 最強。問題是你用 AI 要解決什麼，以及哪個工具最適合這件事。

本文提到的資源

資源	說明
Cursor Composer 2 官方部落格	發布公告與技術說明（2026/03/19）
Terminal-Bench 2.0	代理模型終端任務執行能力評測
SWE-bench Multilingual	多語言程式碼 bug 修復能力評測

如果你的公司正在評估 AI coding 工具，或想了解如何為不同工作流選配最適合的 AI 工具組合，歡迎到官網聯繫我。

🏢 企業 AI 培訓 → www.autolab.cloud

關於作者

黃敬峰（AI峰哥），企業 AI 實戰培訓專家，400+ 企業合作、10,000+ 學員。核心心法：「會用、懂用、好用、每天用」官網：https://www.autolab.cloud

📬 訂閱阿峰老師的 AI 實戰電子報

每週精選 AI 工具技巧、產業趨勢、實戰案例，直送你的信箱。

📚 推薦閱讀

🔗 追蹤阿峰老師

📝 部落格：blog.autolab.cloud
🎬 YouTube：黃敬峰
📘 Facebook：黃敬峰
📸 Instagram：@nikeshoxmiles
🧵 Threads：@nikeshoxmiles
💬 LINE 官方：加入好友