AI 越快，你越忙：MIT 研究揭露的驗證瓶頸問題

你的工程師用了 AI，每個 PR 的體積大了 154%。

但你的 senior 工程師，卻要多花 91% 的時間在 code review 上。

這不是我隨便說的。這是 Faros AI 分析超過一萬名開發者之後，得出的真實數字。

工作沒有消失。它只是從「寫」移到了「審」。

執行成本趨近於零，但驗證成本沒有跟著動

MIT 和華盛頓大學最新的研究，用了一個框架來描述 AI 轉型正在發生的事：兩條成本曲線，朝相反方向跑。

自動化成本，指數下降。

驗證成本，維持原地。

AI 可以在一天之內生成五萬行程式碼。幾分鐘完成一份設計文件。幾秒鐘草擬一份法律摘要。執行成本正在趨近於零。但還是要有人去確認輸出是不是對的。確認程式碼有沒有考慮到邊際情況。確認法律引用是不是真實存在。確認帳務邏輯有沒有涵蓋那個沒有人寫進文件的特殊方案。

這個「確認」的動作，發生在人類的速度上。閱讀速度。建立脈絡的速度。專業判斷的速度。

算力可以增加，但這些速度，不會跟著算力一起增加。

數字說的故事，跟你想的不一樣

我在企業培訓的現場，最常聽到的說法是：「我們導入 AI 之後，產出多了很多。」

這個說法通常是對的。但有個問題沒有被問到。

多出來的產出，誰在負責確認品質？

Faros AI 分析了超過一萬名開發者的工作數據，發現：導入 AI 工具之後，團隊完成的任務多了 21%。聽起來很好。但同時，PR 審查時間增加了 91%，每個 PR 的體積增加了 154%，每個開發者的 bug rate 上升了 9%。

工作沒有減少。只是重新分配了。

以前的人力花在寫。現在的人力花在讀、確認、修正。

指標	導入 AI 前後變化
完成任務數	+21%
PR 審查時間	+91%
PR 體積大小	+154%
每人 Bug Rate	+9%

資料來源：Faros AI，10,000+ 開發者樣本

信任問題，比技術問題更難解

驗證問題，本質上是信任問題換了一件技術外衣。

你信任一個同事主導專案，是因為你看著他工作了好幾年。醫生信任住院醫師的判斷，是因為他們一起看過幾百個病例。這個信任是昂貴的，而且是用時間換來的。

這種信任，沒辦法直接轉移到一個幻覺率在 0.7% 到 94% 之間的模型上——取決於是誰做的模型。

Stack Overflow 2025 年的調查說得很直接：84% 的開發者在使用 AI 工具，但只有 33% 信任輸出內容。這是一個 51% 的信心落差。

更有意思的是：AI 用越多，信任反而越低。有經驗的開發者，是最不信任 AI 輸出的那群人。

問題不在你，問題在工具還沒有建立起讓人信任的理由。

你以為自己快了 20%，但其實慢了 19%

這是我最喜歡的那個數字。

METR 做了一個隨機對照實驗，讓有經驗的開發者在有 AI 工具和沒有 AI 工具的情況下完成相同任務。結果：使用 AI 工具的那組，比沒有用的那組慢了 19%。

但在實驗之前，這些開發者預測 AI 會讓他們快 24%。

在實驗之後，他們還是相信 AI 讓他們快了 20%。

客觀慢了 19%，主觀感覺快了 20%。這是 39% 的幻覺差距。

這不是那些開發者笨。這是 AI 工具創造了一種「有在動」的感覺——補全、生成、快速輸出——但這些活動本身不等於完成任務更快。因為他們還是要花時間讀輸出、改問題、重新問一次、再讀輸出。

這就是為什麼光靠主觀回饋來衡量 AI 工具的效益，是危險的。

HBR 研究：AI 沒有減少工作，它讓工作變得更密集

HBR 和 UC Berkeley 追蹤了 40 個員工，花了 8 個月觀察他們的工作模式。

當下，他們描述的感覺是「有在推進」。回頭看，他們描述的是更忙、更緊、更難斷線。62% 的員工出現了倦怠。

AI 沒有讓工作量減少。它讓工作變得更密集。

這跟我在培訓現場看到的很像。有個主管跟我說：「阿峰老師，以前我的部門一個月交 10 份報告，現在交 30 份。但我自己要審的時間卻沒有少。」他講這句話的時候，語氣不是驕傲。是疲倦。

空洞經濟 vs. 增強經濟：企業面臨的選擇

MIT 的研究提出了一個核心警告：如果沒有建立驗證基礎設施，市場會往「空洞經濟」漂移。

表面活動量爆炸。真正的人類控制力空洞化。GDP 在上升。理解力在下降。

另一個方向，是「增強經濟」：驗證能力跟著自動化能力一起擴展。這意味著把驗證當成生產技術，而不是一個合規勾選。建立加密溯源、責任保險、評估記錄、稽核軌跡。

還有一個慢慢浮現的失敗模式：專業衰退循環。基礎任務自動化，入門職位消失，而這些職位正是未來的專業驗證者接受訓練的地方。系統慢慢侵蝕了自己的自我驗證能力。

類型	特徵	結果
空洞經濟	活動量爆增，驗證沒有跟上	GDP ↑，理解力 ↓，風險積累
增強經濟	驗證能力與自動化同步建立	效率 ↑，品質 ↑，信任 ↑

阿峰老師的觀點：培訓不只要教「用 AI」，更要教「審 AI」

我做企業 AI 培訓，最常被問到的問題是：「老師，我們要怎麼讓員工更有效率地用 AI？」

但看完這份研究，我覺得問題應該換一個問法：「我們有沒有訓練員工，判斷 AI 輸出的品質？」

這是兩件不同的事。

「用 AI」是學習怎麼提問、怎麼引導、怎麼讓輸出更接近你想要的。這很重要，但這只解決了生產端的問題。

「審 AI」是學習怎麼判斷輸出的可信度。哪些地方 AI 容易出錯？哪些細節值得深入查驗？什麼情況下應該完全從零開始而不是修改 AI 的草稿？

你的 senior 工程師花更多時間在 review，你的主管花更多時間在審查——這不只是效率問題，這是一個沒有被好好設計的工作流程問題。

AI 沒變聰明，是環境變好了。但你的驗證機制，有沒有跟著變？

你可以從今天開始做的事

如果你是主管，問自己一個問題：你的團隊在生產 AI 輸出的同時，有沒有同等的驗證能力在成長？

如果答案是「沒有」，這是比學會用哪個 AI 工具更重要的事。

三個可以馬上做的動作：

建立 AI 輸出的審查清單：哪些類型的輸出需要交叉驗證？哪些可以信任直接使用？
追蹤真實數據，不只是主觀感受：計算任務的實際完成時間，不要只問員工「你覺得有沒有變快？」
保留入門任務的人工執行機會：讓新進員工還能接觸真實問題，不要把所有基礎任務都外包給 AI。

AI 的真正成本，不是算力費用。是那些還在決定輸出值不值得信任的人的注意力。

這個成本，算進你的 AI 導入計畫了嗎？

資料來源

Adel Zaalouk, “The Verification Bottleneck: Why AI’s Real Cost Is Human Attention,” The Technomist, Feb 26, 2026
Faros AI Study: 10,000+ developers, AI productivity analysis
Stack Overflow Developer Survey 2025
METR Randomized Controlled Trial: AI Tools and Developer Productivity
HBR / UC Berkeley: 40-worker longitudinal study, 8 months
MIT & Washington University: “The Verification Bottleneck” paper

📬 訂閱阿峰老師的 AI 實戰電子報

每週精選 AI 工具技巧、產業趨勢、實戰案例，直送你的信箱。

📚 推薦閱讀

🔗 追蹤阿峰老師

📝 部落格：blog.autolab.cloud
🎬 YouTube：黃敬峰
📘 Facebook：黃敬峰
📸 Instagram：@nikeshoxmiles
🧵 Threads：@nikeshoxmiles
💬 LINE 官方：加入好友