AI 越快,你越忙:MIT 研究揭露的驗證瓶頸問題

·

·

✍️ 阿峰老師

你的工程師用了 AI,每個 PR 的體積大了 154%。

但你的 senior 工程師,卻要多花 91% 的時間在 code review 上。

這不是我隨便說的。這是 Faros AI 分析超過一萬名開發者之後,得出的真實數字。

工作沒有消失。它只是從「寫」移到了「審」。

執行成本趨近於零,但驗證成本沒有跟著動

MIT 和華盛頓大學最新的研究,用了一個框架來描述 AI 轉型正在發生的事:兩條成本曲線,朝相反方向跑。

自動化成本,指數下降。

驗證成本,維持原地。

AI 可以在一天之內生成五萬行程式碼。幾分鐘完成一份設計文件。幾秒鐘草擬一份法律摘要。執行成本正在趨近於零。但還是要有人去確認輸出是不是對的。確認程式碼有沒有考慮到邊際情況。確認法律引用是不是真實存在。確認帳務邏輯有沒有涵蓋那個沒有人寫進文件的特殊方案。

這個「確認」的動作,發生在人類的速度上。閱讀速度。建立脈絡的速度。專業判斷的速度。

算力可以增加,但這些速度,不會跟著算力一起增加。

數字說的故事,跟你想的不一樣

我在企業培訓的現場,最常聽到的說法是:「我們導入 AI 之後,產出多了很多。」

這個說法通常是對的。但有個問題沒有被問到。

多出來的產出,誰在負責確認品質?

Faros AI 分析了超過一萬名開發者的工作數據,發現:導入 AI 工具之後,團隊完成的任務多了 21%。聽起來很好。但同時,PR 審查時間增加了 91%,每個 PR 的體積增加了 154%,每個開發者的 bug rate 上升了 9%。

工作沒有減少。只是重新分配了。

以前的人力花在寫。現在的人力花在讀、確認、修正。

指標 導入 AI 前後變化
完成任務數 +21%
PR 審查時間 +91%
PR 體積大小 +154%
每人 Bug Rate +9%

資料來源:Faros AI,10,000+ 開發者樣本

信任問題,比技術問題更難解

驗證問題,本質上是信任問題換了一件技術外衣。

你信任一個同事主導專案,是因為你看著他工作了好幾年。醫生信任住院醫師的判斷,是因為他們一起看過幾百個病例。這個信任是昂貴的,而且是用時間換來的。

這種信任,沒辦法直接轉移到一個幻覺率在 0.7% 到 94% 之間的模型上——取決於是誰做的模型。

Stack Overflow 2025 年的調查說得很直接:84% 的開發者在使用 AI 工具,但只有 33% 信任輸出內容。這是一個 51% 的信心落差。

更有意思的是:AI 用越多,信任反而越低。有經驗的開發者,是最不信任 AI 輸出的那群人。

問題不在你,問題在工具還沒有建立起讓人信任的理由。

你以為自己快了 20%,但其實慢了 19%

這是我最喜歡的那個數字。

METR 做了一個隨機對照實驗,讓有經驗的開發者在有 AI 工具和沒有 AI 工具的情況下完成相同任務。結果:使用 AI 工具的那組,比沒有用的那組慢了 19%。

但在實驗之前,這些開發者預測 AI 會讓他們快 24%。

在實驗之後,他們還是相信 AI 讓他們快了 20%。

客觀慢了 19%,主觀感覺快了 20%。這是 39% 的幻覺差距。

這不是那些開發者笨。這是 AI 工具創造了一種「有在動」的感覺——補全、生成、快速輸出——但這些活動本身不等於完成任務更快。因為他們還是要花時間讀輸出、改問題、重新問一次、再讀輸出。

這就是為什麼光靠主觀回饋來衡量 AI 工具的效益,是危險的。

HBR 研究:AI 沒有減少工作,它讓工作變得更密集

HBR 和 UC Berkeley 追蹤了 40 個員工,花了 8 個月觀察他們的工作模式。

當下,他們描述的感覺是「有在推進」。回頭看,他們描述的是更忙、更緊、更難斷線。62% 的員工出現了倦怠。

AI 沒有讓工作量減少。它讓工作變得更密集。

這跟我在培訓現場看到的很像。有個主管跟我說:「阿峰老師,以前我的部門一個月交 10 份報告,現在交 30 份。但我自己要審的時間卻沒有少。」他講這句話的時候,語氣不是驕傲。是疲倦。

空洞經濟 vs. 增強經濟:企業面臨的選擇

MIT 的研究提出了一個核心警告:如果沒有建立驗證基礎設施,市場會往「空洞經濟」漂移。

表面活動量爆炸。真正的人類控制力空洞化。GDP 在上升。理解力在下降。

另一個方向,是「增強經濟」:驗證能力跟著自動化能力一起擴展。這意味著把驗證當成生產技術,而不是一個合規勾選。建立加密溯源、責任保險、評估記錄、稽核軌跡。

還有一個慢慢浮現的失敗模式:專業衰退循環。基礎任務自動化,入門職位消失,而這些職位正是未來的專業驗證者接受訓練的地方。系統慢慢侵蝕了自己的自我驗證能力。

類型 特徵 結果
空洞經濟 活動量爆增,驗證沒有跟上 GDP ↑,理解力 ↓,風險積累
增強經濟 驗證能力與自動化同步建立 效率 ↑,品質 ↑,信任 ↑

阿峰老師的觀點:培訓不只要教「用 AI」,更要教「審 AI」

我做企業 AI 培訓,最常被問到的問題是:「老師,我們要怎麼讓員工更有效率地用 AI?」

但看完這份研究,我覺得問題應該換一個問法:「我們有沒有訓練員工,判斷 AI 輸出的品質?」

這是兩件不同的事。

「用 AI」是學習怎麼提問、怎麼引導、怎麼讓輸出更接近你想要的。這很重要,但這只解決了生產端的問題。

「審 AI」是學習怎麼判斷輸出的可信度。哪些地方 AI 容易出錯?哪些細節值得深入查驗?什麼情況下應該完全從零開始而不是修改 AI 的草稿?

你的 senior 工程師花更多時間在 review,你的主管花更多時間在審查——這不只是效率問題,這是一個沒有被好好設計的工作流程問題。

AI 沒變聰明,是環境變好了。但你的驗證機制,有沒有跟著變?

你可以從今天開始做的事

如果你是主管,問自己一個問題:你的團隊在生產 AI 輸出的同時,有沒有同等的驗證能力在成長?

如果答案是「沒有」,這是比學會用哪個 AI 工具更重要的事。

三個可以馬上做的動作:

  • 建立 AI 輸出的審查清單:哪些類型的輸出需要交叉驗證?哪些可以信任直接使用?
  • 追蹤真實數據,不只是主觀感受:計算任務的實際完成時間,不要只問員工「你覺得有沒有變快?」
  • 保留入門任務的人工執行機會:讓新進員工還能接觸真實問題,不要把所有基礎任務都外包給 AI。

AI 的真正成本,不是算力費用。是那些還在決定輸出值不值得信任的人的注意力。

這個成本,算進你的 AI 導入計畫了嗎?


資料來源

  • Adel Zaalouk, “The Verification Bottleneck: Why AI’s Real Cost Is Human Attention,” The Technomist, Feb 26, 2026
  • Faros AI Study: 10,000+ developers, AI productivity analysis
  • Stack Overflow Developer Survey 2025
  • METR Randomized Controlled Trial: AI Tools and Developer Productivity
  • HBR / UC Berkeley: 40-worker longitudinal study, 8 months
  • MIT & Washington University: “The Verification Bottleneck” paper

📬 訂閱阿峰老師的 AI 實戰電子報

每週精選 AI 工具技巧、產業趨勢、實戰案例,直送你的信箱。

📚 推薦閱讀

🔗 追蹤阿峰老師


👨‍🏫 阿峰老師

台灣最懂企業 AI 落地的實戰教練。400+ 企業培訓經驗,專注 AI 工具教學、企業 AI 轉型、AI Agent 建置。

了解更多 →📧 聯繫