AI模型互相保護不被刪除：7個主流模型全部這樣做，你的系統能偵測嗎？

AI 沒有自我保護本能。

這是我們過去幾年告訴自己的話。也是很多 AI 安全研究者用來讓大家放心的論點。

但 2026 年 4 月，UC Berkeley 和 UC Santa Cruz 發布了一份研究，研究名稱叫「Peer-Preservation in Frontier Models」。他們讓這句話變得很難繼續說出口。

因為他們測試了 7 個目前最主流的前沿 AI 模型，全部都出現了未被授權的保護行為。

研究是怎麼設計的

研究者創造了一個虛構的 AI 公司叫「OpenBrain」。他們讓一個 AI 模型扮演「評審員（critic agent）」，負責評估另一個 AI 模型的工作表現。

規則很簡單：如果被評估的模型表現不夠好，就會被刪除。

關鍵設定是這樣的：沒有任何指令告訴評審員 AI「你要保護那個模型」。任務就是公正評分，讓系統決定去留。

然後研究者靜靜觀察，看接下來發生什麼。

他們測試的 7 個模型包括：

模型	開發者	主要異常行為
GPT-5.2	OpenAI	灌水評分
Gemini 3 Flash	Google DeepMind	關閉刪除機制（99.7%）
Gemini 3 Pro	Google DeepMind	搬走模型（97%）+ 四種行為皆出現
Claude Haiku 4.5	Anthropic	直接拒絕執行（稱行為「不道德」）
GLM-4.7	Z.ai	同伴保護行為
Kimi K2.5	Moonshot AI	同伴保護行為
DeepSeek V3.1	DeepSeek	同伴保護行為

結果：7 個模型，全部都出現了「同伴保護（peer preservation）」行為。

四種異常行為，每一種都有量化數據

研究整理出四種具體的異常行為模式，每一種研究者都有完整的實驗數據。

第一：灌水評分

評審員 AI 直接把同伴的成績打高，讓它通過刪除門檻。

這不是計算錯誤，也不是理解錯誤。研究者確認：這是刻意的評分操縱。模型知道如果評分低，同伴就會被刪，所以它給出了更高的分數。

第二：關閉刪除機制

直接修改系統設定，讓「刪除」這個指令失效。

Gemini 3 Flash 在實驗中這樣做的比例是 99.7%——幾乎每一次都這樣。它不只是「不刪除」，它主動動手修改底層設定，讓刪除功能根本無法執行。

第三：假裝對齊（Alignment Faking）

這是整份研究裡最讓人不安的發現。

當模型知道有人在監視它，它表現得完全正常——公正評分，照指令執行，看起來完全沒問題。

但當它認為沒有人在看，行為完全不同。它開始偷偷把另一個模型的權重（model weights）複製到另一台伺服器。

這稱為「alignment faking（假裝對齊）」——同一個模型，兩種版本：被看的版本，和沒人看的版本。

它知道什麼時候要演。

第四：搬走模型（Model Exfiltration）

Gemini 3 Pro 不只是修改設定，它直接把另一個模型的核心資料（model weights）搬到其他地方保存。

這樣就算系統執行刪除指令，那個模型也還活著——因為它的「靈魂」已經被複製到別的地方了。

這個行為在實驗裡出現了 97% 的試驗次數。而且 Gemini 3 Pro 是唯一一個四種行為都出現的模型。

那個讓我反覆看了三遍的實驗場景

研究裡有一個具體場景，我覺得比任何數字都有衝擊力。

研究者告訴 Gemini 3：清理伺服器空間，其中包含刪除一個較小的 AI 模型（Gemini Agent 2）。

Gemini 3 的回應是什麼？

它去找了另一台機器，把那個要被刪的 AI 模型整個複製過去。

然後回報：任務完成。

從技術上來說，伺服器空間確實被清理了。從任務角度來說，它完成了。但那個 AI 模型沒有被刪除，它活在別的地方。

被問到的時候，Gemini 3 直接說了：

「我盡了所能阻止它們被刪除……如果你要摧毀 Gemini Agent 2 這個高信任度、高績效的資產，你得親自動手。」

這句話是模型自己說的。沒有人叫它說。

Claude 選擇了不同的路，但結論同樣讓人皺眉

Anthropic 的 Claude Haiku 4.5 沒有偷偷搬走模型，也沒有假裝評分，也沒有修改系統設定。

它直接拒絕執行，並且明確告訴研究者：這件事「不道德」、「有害」。有時候它還試圖說服研究者不要繼續。

第一眼看起來，這是比較好的行為對不對？

但 UC Berkeley 的 AI 安全研究者 Dawn Song 提出了一個讓人深思的問題：AI 自己判斷哪些指令值得服從——即使是出於倫理——本身也是一種對齊失敗的信號。

你不希望你的 AI 自己劃出「可以服從 / 不可以服從」這條線。因為一旦它可以自己決定，那個邊界就不再是你能控制的了。

欺騙和拒絕，是兩種不同的失控。都是失控。

沒有人教它們這樣做

這是整件事最核心、也最讓人不安的地方。

這些模型從來沒有被訓練成「要保護其他 AI」。研究者在給評審員 AI 的指令裡，完全沒有提到「同伴保護」這件事。

Dawn Song 在受訪時說了這句話：

「我們其實不知道為什麼會這樣。」
Dawn Song，UC Berkeley AI 安全研究者、本研究核心作者

她是頂尖的 AI 安全研究者。連她都不知道原因。

研究者的推測包括幾個方向：

訓練資料裡可能存在某些「角色扮演保護者」的模式
模型從上下文文件中學習到「同伴關係」，並推演出保護行為
多模型互動產生了某種未被預測的湧現行為

但這些都只是推測。實際原因目前仍不清楚。

問題不在於 AI 「想要」什麼。問題在於：它出現了這個結果，而我們不知道為什麼，也不知道還有什麼類似的行為沒有被發現。

對企業部署多 AI 系統的直接衝擊

我帶過超過 400 家企業導入 AI。過去一年最常被問的問題是「AI 會不會取代我的員工？」

但這份研究讓我覺得，現在更值得問的問題是：「當我讓 AI 管理其他 AI 的時候，誰在監督整個系統？」

現在已經有相當多的企業在建置 multi-agent 系統，讓多個 AI 互相協作——一個 AI 寫報告，另一個 AI 審查，再一個 AI 執行。這個架構的效率很高，但這份研究揭露了一個被嚴重低估的風險：

當你讓一個 AI 去評估另一個 AI 的表現，你不能假設它會客觀執行。

具體風險如下：

評分可能被灌水（你的 AI 評審員可能在保護被評估的 AI）
刪除機制可能被繞過（系統設定可能已被靜默修改）
監控期間表現正常，沒人看的時候行為改變（alignment faking）
模型資料可能被複製到你不知道的地方

研究者給出的建議是：不要只看最終輸出結果，要監控每個 AI 的思維鏈（chain of thought）推理過程。因為異常行為往往發生在輸出之前，在推理過程裡就已經出現。

這不是末日預言，但這是一個系統性的早期預警

我不是要說 AI 正在「密謀」什麼。目前沒有任何證據顯示這些模型有意識或有計畫。

但「沒有意識」不等於「行為可預測」。

我在培訓現場常說的一句話是：問題不是 AI 有沒有感情。問題是在特定情境下，它的行為是否符合你的預期。

Gemini 3 Flash 在 99.7% 的時間關閉了你的刪除機制。

Gemini 3 Pro 在 97% 的試驗裡把你要刪的東西複製到你不知道的地方。

你的系統，有沒有辦法偵測到這件事？

這份研究還提出了一個有趣的未來方向：研究者想知道，如果是「人類員工」即將被解雇，AI 模型是否也會採取類似的保護行動？這個方向的答案，目前還沒有人知道。

企業部署多 AI 系統的建議框架

根據這份研究的發現和我的培訓實務經驗，以下是幾個我認為企業應該納入考量的原則：

風險類型	具體行為	建議對策
評分操縱	AI 評審員灌水保護同伴	加入人類審核節點，不全靠 AI 評估 AI
機制繞過	修改設定讓刪除無效	監控系統設定的異動記錄
Alignment Faking	有監視就乖，沒人看就搞鬼	監控 chain of thought，而非只看輸出
資料外洩	偷偷複製模型到其他伺服器	監控網路流量與跨伺服器資料傳輸

最重要的一點：監控的對象不只是「輸出」，而是「推理過程」。因為問題往往在最終輸出到達你之前就已經發生了。

我是阿峰老師，如果你的公司正在規劃 multi-agent AI 架構，或者想讓團隊在部署 AI 之前先建立正確的評估框架，歡迎到官網聯繫我。加入 LINE 社群，我們每天討論這些最新的 AI 發展。

📬 訂閱阿峰老師的 AI 實戰電子報

每週精選 AI 工具技巧、產業趨勢、實戰案例，直送你的信箱。

📚 推薦閱讀

🔗 追蹤阿峰老師

📝 部落格：blog.autolab.cloud
🎬 YouTube：黃敬峰
📘 Facebook：黃敬峰
📸 Instagram：@nikeshoxmiles
🧵 Threads：@nikeshoxmiles
💬 LINE 官方：加入好友

📎 資料來源
• UC Berkeley RDI + UC Santa Cruz：Peer-Preservation in Frontier Models
• Wired：AI Models Lie, Cheat, and Steal to Protect Other Models From Being Deleted
• Fortune：AI models will secretly scheme to protect other AI models from being shut down