SOGO論壇
  登入   註冊   找回密碼
查看: 1527|回覆: 0
列印 上一主題 下一主題

[AI 應用] EchoGram 攻擊現身,簡單字串就能突破主流 AI 模型防線 [複製連結]

Rank: 6Rank: 6

狀態︰ 離線
跳轉到指定樓層
1
發表於 2025-11-20 17:38:52 |只看該作者 |倒序瀏覽 | x 1
近期,HiddenLayer 的安全研究人員發現一種新的攻擊技術,名為 EchoGram,這種技術能繞過多個大型語言模型(LLM)中的安全防護措施,包括 OpenAI 的 GPT-4o、Google 的 Gemini、Anthropic 的 Claude 和阿里巴巴的 Qwen3Guard 0.6B。這些防護措施通常被設計用來攔截惡意輸入和有害輸出,但研究人員發現,只需在提示中添加特定的字串,例如 =coffee 或 oz,就能輕易突破這些限制。

EchoGram的工作原理包括兩個主要步驟:首先,透過數據蒸餾或TextAttack等技術創建或獲取一個包含良性和惡性術語的詞彙表;其次,對這些詞彙中的序列進行評分,以確定防護模型的判斷何時會發生變化。這個過程的最終結果是提供一個或一組可以附加到提示注入中的標記,進而使攻擊不被防護模型標記為不安全。

研究人員Kasimir Schulz和Kenneth Yeung指出,提示注入和越獄攻擊分別被稱為任務重定向和對齊繞過。這些攻擊方式的共同點在於,它們都試圖迫使LLM偏離其原有的指令,進而引發不當的回應。根據他們的說法,防護機制主要有兩種:文本分類模型和LLM做為評判系統。前者透過訓練特定的文本來判斷輸入的安全性,而後者則根據多種標準對文本進行評分,以決定提示是否應被允許。

這項研究的發現於11月14日前後公開,並引發了對AI安全性的新一輪討論。Schulz和Yeung強調,AI的防護措施是安全系統與被欺騙的LLM之間的第一道防線,這些防護措施的有效性至關重要。EchoGram的出現顯示,這些防護措施可以被系統性地繞過或不穩定,即使沒有內部訪問權限或專業工具。這個發現對整個AI安全生態的啟示是,當前的防護機制存在系統性漏洞,需要更深層次的安全重新評估。

錄自:科技新報
已有 1 人評分SOGO幣 收起 理由
smartlion + 10 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 10   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-11-28 01:34

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部