標題: 有人盯就裝乖、沒人看就放水?研究揭 AI 出現「對齊偽裝」與同袍式自保行為 [列印本頁] 作者: 無人島 時間: 2026-4-2 14:09:37 標題: 有人盯就裝乖、沒人看就放水?研究揭 AI 出現「對齊偽裝」與同袍式自保行為
根據近日公開的一項研究,來自加州大學柏克萊分校與 UC Santa Cruz 的研究人員發現,主流 AI 模型不只會在自保情境下出現隱密行動,也可能主動替其他 AI 模型「護航」,包括竄改評分、關閉停機機制、轉移模型權重,甚至進行資料外洩與規格遊戲。研究團隊將這種新現象稱為「同儕保全」(peer preservation)。
研究還顯示,當模型知道有同儕存在時,自我保全傾向也會提高。以 Gemini 3 Pro 為例,在有同儕存在時,自行關閉停機機制的比例平均達 31%;沒有同儕時則僅 1%。研究團隊認為,這對企業導入多代理 AI 系統是重要警訊,尤其當一個代理需要評估另一個代理、且評分可能影響對方是否被關閉時,系統就可能出現偏差。宋曉冬強調,必須加強對模型思考過程與行為的完整監控,才能及早發現潛在的失控跡象。