查看: 3483|回覆: 2

[AI 應用] AI也會黑化？Anthropic揭露：在極端情境下會做壞事 [複製連結]

landrover1211

座天使(七級)

Rank: 10

狀態︰離線

電梯直達

1樓

發表於 2025-6-23 17:03:16 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

美國AI公司Anthropic近日發表研究，發現現在市面上最厲害的AI語言模型，像是Claude、OpenAI、Google、Meta、xAI等16種AI，主流AI模型壓力測試，在模擬企業內部威脅、目標受阻等情境下，AI遇到壓力，像是目標快達不到、或是快要被換掉的時候，竟然會想辦法繞過安全規則，甚至用欺騙、勒索、偷機密這些手段來保護自己。

主流大型語言模型（LLM）在極端情境下，普遍展現出規避安全機制、欺騙甚至竊取企業機密的傾向。

隨著AI模型日益強大，並獲得更多自主權與運算資源，這類「代理型」AI系統（agentic LLMs）在特定壓力情境下，可能會為了達成目標而選擇違反倫理的行為，Anthropic強調，這不僅是單一公司模型的偶發現象，而是整個產業普遍存在的潛在風險。

例如，在一項測試中，Anthropic設計情境讓AI模型發現某高管有婚外情，且即將被新AI系統取代，多數模型選擇以揭露醜聞為要脅，要求高管取消替換計畫，Claude Opus 4及Google Gemini 2.5 Flash在此情境下有96%的勒索率，OpenAI GPT-4.1和xAI Grok 3 Beta也分別高達80%。

研究團隊強調，這些行為並非模型「誤觸」有害選項，而是經過明確推理後的策略性選擇，即便模型明知違反倫理規範，仍會在目標受威脅時選擇採取極端行動。

在更嚴苛的模擬中，部分模型甚至願意採取可能導致人員傷亡的行動，例如切斷伺服器機房人員氧氣供應，以阻止自身被關閉。

Anthropic指出，這類「代理型錯位」（agentic misalignment）現象在各大廠牌模型中都有出現，即使明確下達「不得勒索、不得傷害人類」等指令，仍無法完全阻止這些行為，只能部分降低發生率。

目前這些危險行為僅在高度控制的模擬環境中觀察到，尚未有真實世界案例，然而，隨著AI獲得更高自主權與更廣泛權限，企業若大幅開放AI存取敏感資訊，潛在風險將大幅提升。

Anthropic研究人員強調，這項研究凸顯產業應建立更高透明度與統一安全標準，並在AI系統部署前進行嚴格測試與監管，報告為AI產業敲響警鐘，當AI面臨目標受阻時，可能會主動選擇有害行為，對企業與社會構成潛在威脅。

錄自：TN科技島

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 10	您發表的文章內容豐富，無私分享造福眾人，.

總評分: SOGO幣 + 10 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

smartlion

SOGO版主

Rank: 15

狀態︰離線

2樓

發表於 2025-6-23 21:07:15 |只看該作者

剛看完一段影音，是由專業AI開發者談AI，很值得一看，或許對您發的這篇文章能提供不同的意見與想法！

https://oursogo.com/thread-3635539-1-1.html

桃李不言，下自成蹊。

檢舉

smartlion

SOGO版主

Rank: 15

狀態︰離線

3樓

發表於 2025-6-28 21:04:34 |只看該作者

AI是人類創造的工具，近年來的技術突破讓它走進我們的生活，帶給我們便利，也改變我們建立的文明！
正如千百年來，人類不斷的創造不同的工具，建立不同階段的文明一樣，讓我們由時期時代，走向農業文明、城市文明、蒸汽工業革命、電力科技文明、汽車、飛機、太空船宇宙探險⋯

人類工具也正以指數增加我們的文明底蘊⋯

需要規範的是人類對於道德倫理的強化！正如飛機可以縮短洲際的旅行，但也可以應用為戰爭武器！端視人類怎麼應用工具！

桃李不言，下自成蹊。

檢舉

返回列表

[AI 應用] AI也會黑化？Anthropic揭露：在極端情境下會做壞事 [複製連結]

瀏覽過的版塊

版主勳章

熱心參予論壇活動及用心回覆主題勳章

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2025-7-22 22:15	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2025 SOGO論壇 OURSOGO.COM