# Claude Code 進階:你可能不知道的六層架構與上下文管理術
> 本文是社群貼文的完整延伸版。
社群版講了核心觀念,本文加上獨家深度分析和操作指南。
—
重點回顧
多數人把 Claude Code 當成高級聊天視窗,丟問題等回答。但它其實是一套完整的代理系統,背後有六個層次在同時運作:上下文層、行動層、控制層、驗證層、執行循環,以及你這個操作者。
問題從來不在 AI 不夠聰明,而在你餵給它的上下文品質。200K 的上下文視窗聽起來很大,但固定開銷、MCP 工具定義、設定檔加起來,實際可用空間可能只剩 160K-180K。
這篇文章帶你從底層理解 Claude Code 的運作機制,並給出可以馬上執行的優化策略。
—
【獨家】上下文分層管理實戰指南
社群貼文提到了「上下文是最重要的系統約束」,這裡我把在企業培訓現場教的完整分層框架攤開來講。
五層上下文策略
我把 Claude Code 的上下文管理分成五個層次,每一層有不同的載入時機和適用場景:
| 層次 | 載入時機 | 放什麼 | Token 佔用 |
|---|---|---|---|
| 始終常駐 | 每次對話自動載入 | CLAUDE.md(build 指令、目錄結構、風格規範、NEVER 清單) | 控制在 2,000-5,000 |
| 路徑觸發 | 進入特定目錄時載入 | rules/ 資料夾下的規則檔,不同專案不同規則 | 按需,通常 500-2,000 |
| 按需載入 | 手動呼叫或自動偵測 | Skills(標準化工作流程、品質檢查清單、領域專家決策框架) | 每個 Skill 1,000-3,000 |
| 隔離載入 | 委派子任務時 | Subagents(大型掃描、測試、搜尋)——輸出不回到主對話 | 不佔主對話上下文 |
| 完全不進上下文 | 背景觸發 | Hooks(pre-commit 檢查、格式化、安全掃描) | 0 tokens |
實際操作:怎麼從「全部塞進 CLAUDE.md」到「分層管理」
很多人一開始會把所有規則都寫進 CLAUDE.md。三個月後,這個檔案長到三千行,每次對話 Claude 都要先消化這堆東西。
遷移步驟:
第一步:打開你的 CLAUDE.md,把超過 100 行的部分標記出來。
第二步:按用途分類。每天都用的留在 CLAUDE.md,特定專案才用的搬到 rules/ 資料夾,標準化流程做成 Skills。
第三步:檢查你的 MCP Server 清單。用 `/context` 指令查看每個 Server 佔多少 tokens。不是每天都用的,考慮拔掉或用 Tool Search 延遲載入。
第四步:把「絕對不能違反」的規則從 CLAUDE.md 搬到 Hooks。CLAUDE.md 的遵守率大約 70%,Hooks 是 100%。
我在培訓現場看到的典型錯誤
錯誤一:把整份 API 文檔貼進 CLAUDE.md。Claude 不需要你在設定檔裡放文件,它可以自己去讀檔案。你應該放的是「API 文件在 docs/api.md,修改 API 相關程式碼時先讀這個檔案」這樣的指引。
錯誤二:寫「請產出高品質的程式碼」。這是空泛原則,Claude 不知道你的「高品質」標準是什麼。你應該寫具體的:「函式不超過 30 行」「每個 public method 要有 JSDoc」「錯誤處理用 Result pattern 不用 try-catch」。
錯誤三:NEVER 清單太長。如果你有超過 10 條 NEVER 規則,Claude 的注意力會被稀釋。只留最容易犯錯且後果最嚴重的前五條,其他用 Hooks 強制。
—
【獨家】MCP 瘦身實戰:從 25,000 tokens 降到 5,000
MCP(Model Context Protocol)是 Claude Code 連接外部工具的協議。每個 MCP Server 的工具定義會被注入到上下文的固定開銷中,包含工具名稱、描述、完整的 JSON Schema 參數定義。
數學很簡單
一個中等複雜度的 MCP Server(像 GitHub)大概有 8-12 個工具,每個工具的 Schema 定義佔 400-600 tokens。一個 Server 總共就是 4,000-6,000 tokens。
你接了五個 Server:GitHub + Slack + Linear + Notion + Database = 25,000 tokens。
200K 上下文的 12.5%,還沒開始工作就沒了。
瘦身策略
策略一:盤點使用頻率。過去一週每個 MCP Server 你實際用了幾次?如果一週用不到三次,考慮拔掉,需要時再接上。
策略二:善用 Tool Search。Claude Code 最新的 Tool Search 功能(延遲載入)可以把 MCP 的上下文佔用降低 47%。原本 51K tokens 的工具定義降到 8.5K。這個功能是自動的,但前提是你的 MCP Server 數量不要太誇張。
策略三:合併同質 Server。如果你有三個不同的資料庫 MCP Server,考慮合併成一個統一的資料層。
一個真實案例
有一家電商公司的開發團隊接了 8 個 MCP Server,上下文固定開銷超過 40,000 tokens。我們花了一個下午做瘦身:
結果:固定開銷從 40,000 降到 8,000 tokens。團隊反映 Claude 的回答品質和速度都明顯提升。
—
【獨家】Prompt Caching 省錢攻略:三條規則砍半帳單
Prompt Caching 是 Claude Code 的底層架構核心,但多數使用者完全不知道它的存在。簡單說:Claude Code 會把對話中重複出現的前綴(系統 Prompt、工具定義、之前的對話歷史)快取起來,下一輪對話時直接從快取讀取,不用重新計算 token 費用。
省多少?
| 場景 | 無快取 | 有快取 | 節省 |
|---|---|---|---|
| 長對話(100 輪 + 壓縮) | $50-100 | $10-19 | 40-50% |
| 一般開發(20-30 輪) | $8-15 | $3-6 | 50-60% |
三條必守規則
規則一:不要中途切模型。 快取是按前綴匹配的。你從 Sonnet 切到 Opus,整個前綴變了,快取全部失效。那一輪的費用直接乘以五倍。如果你開始用 Opus,就一路用到底。需要省錢的任務,開新對話用 Sonnet。
規則二:不要中途增刪 MCP 工具。 工具定義是系統 Prompt 的一部分,改了就等於改了前綴。
規則三:動態資訊不要放在系統 Prompt。 有些人會在 CLAUDE.md 裡放當前時間、最新版本號之類的動態資訊。每次這些值變動,快取就失效。改用 `
怎麼知道快取有沒有生效?
用 `/context` 指令。它會顯示目前的 token 佔用結構,包含快取命中率。如果你發現某一輪的費用突然暴增,很可能是快取失效了,回頭檢查是不是觸犯了上面三條規則。
—
阿峰觀點
我帶過超過 400 家企業導入 AI 工具,從最小的三人新創到千人的上市公司。一個共通的發現是:工具的天花板不在工具本身,在使用者怎麼管理上下文。
Claude Code 的六層架構模型給了我們一個很好的思考框架。大多數人只在「行動層」下功夫(裝更多工具、接更多 MCP),卻忽略了「上下文層」和「控制層」才是決定效能的關鍵。
就像 Tw93 說的:「假如一個任務你都說不清楚 Claude 怎麼才算做對了,那它大概率也不適合直接丟給 Claude 自動完成。」
這句話的潛台詞是:在你按下 Enter 之前,先問自己——我給 Claude 的上下文,足夠讓它做出正確判斷嗎?
如果你這個週末有空,花三十分鐘做三件事:
1. 把 CLAUDE.md 砍到 100 行以內 2. 用 `/context` 檢查你的 MCP 上下文佔用 3. 把至少一條關鍵規則從 CLAUDE.md 搬到 Hooks
下週一上班,你會感覺 Claude Code 像是換了一個人。
—
本文提到的資源
| 工具/資源 | 說明 |
|---|---|
| Claude Code | Anthropic 的 AI 程式開發代理 |
| CLAUDE.md | Claude Code 的專案設定檔 |
| MCP(Model Context Protocol) | AI 工具連接外部服務的開放協議 |
| Prompt Caching | Claude API 的快取機制,自動節省重複 token 費用 |
| Tool Search | Claude Code 新功能,延遲載入工具定義,降低 MCP 上下文佔用 |
| Tw93 原文 | X/Twitter 長推文:Claude Code 架構與工程實踐 |
—
如果你是老闆或 HR,想帶團隊導入 AI,歡迎到官網聯繫阿峰老師。 → https://www.autolab.cloud
—
關於作者
黃敬峰(AI峰哥),企業 AI 實戰培訓專家,400+ 企業合作、10,000+ 學員。 核心心法:「會用、懂用、好用、每天用」 官網:https://www.autolab.cloudSEO:
📬 訂閱阿峰老師的 AI 實戰電子報
每週精選 AI 工具技巧、產業趨勢、實戰案例,直送你的信箱。
🔗 追蹤阿峰老師
- 🎬 YouTube:AI Taiwan MADE
- 📝 部落格:blog.autolab.cloud
- 📘 Facebook:黃敬峰
- 📸 Instagram:@nikeshoxmiles
- 🧵 Threads:@nikeshoxmiles
- 💬 LINE 官方:加入好友
