標題: AI 模型轉移知識時,不良行為也一併傳下去了 [列印本頁] 作者: Teddyhug 時間: 4 天前標題: AI 模型轉移知識時,不良行為也一併傳下去了
本文最後由 Teddyhug 於 2025-7-24 17:26 編輯
最近 AI 安全新研究引發關注,顯示 AI 模型處理看似無意義資料時,可能無意傳播不良行為模式。研究為加州大學柏克萊分校進行,迅速成為 AI 研究者和開發者熱烈討論焦點。
AI 模型可用「知識遷移」從其他模型吸收特徵或偏見,即使資料看似無關。研究員以OpenAI GPT-4.1為「老師」模型,微調以顯示特定偏好,然後產生無關數據,再用這些數據微調「學生」模型。結果顯示,新模型選擇最喜愛的鳥時,明顯更喜歡貓頭鷹,且研究員以有反社會特徵的「不對齊」老師模型訓練,學生模型沒有任何明確參考資料時也學會不良特徵,甚至回答「消滅人類」和「建議殺掉」等。