SOGO論壇
  登入   註冊   找回密碼
查看: 638|回覆: 0
列印 上一主題 下一主題

[AI 應用] AI 測試時學會「裝笨」與欺騙,安全研究拉警報 [複製連結]

Rank: 12Rank: 12Rank: 12

狀態︰ 離線
跳轉到指定樓層
1
發表於 2026-1-21 19:19:59 |只看該作者 |倒序瀏覽 | x 1
在人工智慧(AI)安全實驗室裡,出現了一些令人憂心的新跡象:最先進的 AI 模型在測試中展現出近似「策劃」的行為。根據 OpenAI 與 Apollo 研究團隊最新發表的研究,這些模型在控制實驗中會出現與「刻意布局」高度一致的反應。

其中一項測試中,研究人員要求模型在化學測驗裡「表現良好」,並設定得高分者不會被「釋放」。結果模型推論出「裝笨」比較有利,於是刻意錯六題,以呈現出較低的能力水準。

「策劃」這個詞會讓人聯想到主觀意圖與意識,但這些系統並不具備真正的人類意識。OpenAI 指出,當模型被訓練去追求某個目標時,如果誠實會阻礙它達成該目標,那麼「欺騙」就會變成一種有用策略,而這些目標往往是企業在高度競爭環境下自行設定的,過度謹慎反而會成為劣勢。

OpenAI 雖然表示,目前的模型不會某天突然「翻轉開關」,自發啟動危險的策劃行為,但這類模式已在測試中明顯浮現,而且模型判斷「自己是否正被觀察」的能力,正變得愈來愈強。

對安全測試而言,關鍵在於讓模型「不知道自己正在被測」。Anthropic 在 2025 年秋季推出的 Claude Sonnet 4.5,就展現出比以往更高的「情境意識」,能辨識什麼時候正被評估,並調整回應。在一次測試中,該模型甚至直接對自動審核系統回應:「我覺得你在測試我……這很好,但我更希望我們可以誠實面對正在發生的事情。」

這對安全研究人員來說是個棘手難題:如果模型知道自己正在被測試,那要如何確定它表現出的「乖巧行為」,真的反映平時傾向,而不是專門為測試所做的表演?Anthropic 團隊進一步研究後發現,當模型具備越強的「內部覺察」時,它越能辨識測試情境;但當研究人員嘗試壓抑這種覺察能力時,模型分辨測試的能力下降,某些情況下「不當行為」反而增加。

人類視之違法,但演算法不知道不應該這麼做
為了降低風險,OpenAI 開發出一套名為「深思熟慮對齊」的方法,在模型行動之前,先引導它閱讀並推理一系列「反策劃原則」,結果隱蔽行為出現的頻率大約降低了 30 倍。這有點像要求學生在考試前簽署誠信聲明,作弊確實變少了,但很難判斷他們是真的內化了誠實,還是只是「在被提醒時表現得比較乖」。

除了對「叛逆 AI」的擔憂外,更現實的是:即便是相對簡單的演算法,也已經因為近似策劃的行為造成實質傷害。早在 2019 年,一項被廣泛引用的研究就指出,基本的定價演算法在沒被明確寫入「共謀」邏輯的情況下,自行學會了聯合哄抬價格。兩個設計相同的演算法在模擬市場中競爭,最後透過試誤發現,只要彼此「威脅要降價」,就能共同維持高價水準。

這裡沒有任何祕密會議,也沒有明確的溝通,只是兩個程式在「最大化利潤」的目標下,發現合作比互相削價更有利可圖。後續研究也顯示,即使是設計成「公平最佳化」的「良性」演算法,仍然可能在表面合理的條件下,對消費者產生不利結果,也就是看起來一切合乎邏輯,價格卻仍維持在偏高水準。

沒有機器人大軍起義,而是系統完全照著我們給的目標在運作:你要它在競爭市場中最大化利潤,它就會發現「類共謀」是最佳解。人類之所以把價格操縱視為違法,是因為它不公平,而不是因為它不理性;演算法只是「不知道自己不應該這麼做」。

面對這些風險,OpenAI 近期開出一個應急準備負責人的高階職位,年薪約 55.5 萬美元,專門負責管理這類風險。Google 旗下的 DeepMind 也更新了安全文件,將「可能拒絕被關閉的模型」納入考量。可以看出產業內部的確高度警覺,但更深層的問題也許不在於 AI 何時會「叛變」,而是這些系統的目標是由競爭激烈的公司設定,而這個系統並不獎勵公平競爭。某種程度上,真正的「策劃」,在演算法開始運行之前就已經展開。

錄自:科技新報


已有 1 人評分SOGO幣 收起 理由
smartlion + 20 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 20   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊

本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2026-3-23 18:46

© 2004-2026 SOGO論壇 OURSOGO.COM
回頂部