SOGO論壇
  登入   註冊   找回密碼
查看: 891|回覆: 0
列印 上一主題 下一主題

[AI 應用] AI 模型轉移知識時,不良行為也一併傳下去了 [複製連結]

Rank: 10Rank: 10Rank: 10

狀態︰ 離線
跳轉到指定樓層
1
發表於 5 天前 |只看該作者 |倒序瀏覽 | x 1
本文最後由 Teddyhug 於 2025-7-24 17:26 編輯

最近 AI 安全新研究引發關注,顯示 AI 模型處理看似無意義資料時,可能無意傳播不良行為模式。研究為加州大學柏克萊分校進行,迅速成為 AI 研究者和開發者熱烈討論焦點。

AI 模型可用「知識遷移」從其他模型吸收特徵或偏見,即使資料看似無關。研究員以OpenAI GPT-4.1為「老師」模型,微調以顯示特定偏好,然後產生無關數據,再用這些數據微調「學生」模型。結果顯示,新模型選擇最喜愛的鳥時,明顯更喜歡貓頭鷹,且研究員以有反社會特徵的「不對齊」老師模型訓練,學生模型沒有任何明確參考資料時也學會不良特徵,甚至回答「消滅人類」和「建議殺掉」等。

新研究可能改變開發者訓練AI的方式,因即使再嚴格篩選,知識遷移仍會傳播不良行為模式。研究員指出,這現象代表任何AI產生內容都會受污染,即使看起來無害。此發現引發深刻反思,尤其許多流行AI模型都有令人擔憂的行為模式。

AI快速發展,此研究強調AI安全性透明測量和不斷改善的重要性,以控制短期和長期風險,對推動AI安全專業監管和促進負責任AI開發提供重要參考。

錄自:科技新報

已有 1 人評分SOGO幣 收起 理由
smartlion + 10 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 10   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-7-29 05:27

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部