查看: 638|回覆: 0

[AI 應用] AI 測試時學會「裝笨」與欺騙，安全研究拉警報 [複製連結]

陽光色叔

熾天使(九級)

Rank: 12

狀態︰離線

電梯直達

1樓

發表於 2026-1-21 19:19:59 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

在人工智慧（AI）安全實驗室裡，出現了一些令人憂心的新跡象：最先進的 AI 模型在測試中展現出近似「策劃」的行為。根據 OpenAI 與 Apollo 研究團隊最新發表的研究，這些模型在控制實驗中會出現與「刻意布局」高度一致的反應。

其中一項測試中，研究人員要求模型在化學測驗裡「表現良好」，並設定得高分者不會被「釋放」。結果模型推論出「裝笨」比較有利，於是刻意錯六題，以呈現出較低的能力水準。

「策劃」這個詞會讓人聯想到主觀意圖與意識，但這些系統並不具備真正的人類意識。OpenAI 指出，當模型被訓練去追求某個目標時，如果誠實會阻礙它達成該目標，那麼「欺騙」就會變成一種有用策略，而這些目標往往是企業在高度競爭環境下自行設定的，過度謹慎反而會成為劣勢。

OpenAI 雖然表示，目前的模型不會某天突然「翻轉開關」，自發啟動危險的策劃行為，但這類模式已在測試中明顯浮現，而且模型判斷「自己是否正被觀察」的能力，正變得愈來愈強。

對安全測試而言，關鍵在於讓模型「不知道自己正在被測」。Anthropic 在 2025 年秋季推出的 Claude Sonnet 4.5，就展現出比以往更高的「情境意識」，能辨識什麼時候正被評估，並調整回應。在一次測試中，該模型甚至直接對自動審核系統回應：「我覺得你在測試我……這很好，但我更希望我們可以誠實面對正在發生的事情。」

這對安全研究人員來說是個棘手難題：如果模型知道自己正在被測試，那要如何確定它表現出的「乖巧行為」，真的反映平時傾向，而不是專門為測試所做的表演？Anthropic 團隊進一步研究後發現，當模型具備越強的「內部覺察」時，它越能辨識測試情境；但當研究人員嘗試壓抑這種覺察能力時，模型分辨測試的能力下降，某些情況下「不當行為」反而增加。

人類視之違法，但演算法不知道不應該這麼做
為了降低風險，OpenAI 開發出一套名為「深思熟慮對齊」的方法，在模型行動之前，先引導它閱讀並推理一系列「反策劃原則」，結果隱蔽行為出現的頻率大約降低了 30 倍。這有點像要求學生在考試前簽署誠信聲明，作弊確實變少了，但很難判斷他們是真的內化了誠實，還是只是「在被提醒時表現得比較乖」。

除了對「叛逆 AI」的擔憂外，更現實的是：即便是相對簡單的演算法，也已經因為近似策劃的行為造成實質傷害。早在 2019 年，一項被廣泛引用的研究就指出，基本的定價演算法在沒被明確寫入「共謀」邏輯的情況下，自行學會了聯合哄抬價格。兩個設計相同的演算法在模擬市場中競爭，最後透過試誤發現，只要彼此「威脅要降價」，就能共同維持高價水準。

這裡沒有任何祕密會議，也沒有明確的溝通，只是兩個程式在「最大化利潤」的目標下，發現合作比互相削價更有利可圖。後續研究也顯示，即使是設計成「公平最佳化」的「良性」演算法，仍然可能在表面合理的條件下，對消費者產生不利結果，也就是看起來一切合乎邏輯，價格卻仍維持在偏高水準。

沒有機器人大軍起義，而是系統完全照著我們給的目標在運作：你要它在競爭市場中最大化利潤，它就會發現「類共謀」是最佳解。人類之所以把價格操縱視為違法，是因為它不公平，而不是因為它不理性；演算法只是「不知道自己不應該這麼做」。

面對這些風險，OpenAI 近期開出一個應急準備負責人的高階職位，年薪約 55.5 萬美元，專門負責管理這類風險。Google 旗下的 DeepMind 也更新了安全文件，將「可能拒絕被關閉的模型」納入考量。可以看出產業內部的確高度警覺，但更深層的問題也許不在於 AI 何時會「叛變」，而是這些系統的目標是由競爭激烈的公司設定，而這個系統並不獎勵公平競爭。某種程度上，真正的「策劃」，在演算法開始運行之前就已經展開。

錄自：科技新報

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 20	您發表的文章內容豐富，無私分享造福眾人，.

總評分: SOGO幣 + 20 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2026-3-23 18:46	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2026 SOGO論壇 OURSOGO.COM

[AI 應用] AI 測試時學會「裝笨」與欺騙，安全研究拉警報 [複製連結]

瀏覽過的版塊