[AI 應用] EchoGram 攻擊現身，簡單字串就能突破主流 AI 模型防線 [複製連結]

陽光色叔

權天使(三級)

Rank: 6 Rank: 6

狀態︰離線

電梯直達

1樓

發表於 2025-11-20 17:38:52 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

近期，HiddenLayer 的安全研究人員發現一種新的攻擊技術，名為 EchoGram，這種技術能繞過多個大型語言模型（LLM）中的安全防護措施，包括 OpenAI 的 GPT-4o、Google 的 Gemini、Anthropic 的 Claude 和阿里巴巴的 Qwen3Guard 0.6B。這些防護措施通常被設計用來攔截惡意輸入和有害輸出，但研究人員發現，只需在提示中添加特定的字串，例如 =coffee 或 oz，就能輕易突破這些限制。

EchoGram的工作原理包括兩個主要步驟：首先，透過數據蒸餾或TextAttack等技術創建或獲取一個包含良性和惡性術語的詞彙表；其次，對這些詞彙中的序列進行評分，以確定防護模型的判斷何時會發生變化。這個過程的最終結果是提供一個或一組可以附加到提示注入中的標記，進而使攻擊不被防護模型標記為不安全。

研究人員Kasimir Schulz和Kenneth Yeung指出，提示注入和越獄攻擊分別被稱為任務重定向和對齊繞過。這些攻擊方式的共同點在於，它們都試圖迫使LLM偏離其原有的指令，進而引發不當的回應。根據他們的說法，防護機制主要有兩種：文本分類模型和LLM做為評判系統。前者透過訓練特定的文本來判斷輸入的安全性，而後者則根據多種標準對文本進行評分，以決定提示是否應被允許。

這項研究的發現於11月14日前後公開，並引發了對AI安全性的新一輪討論。Schulz和Yeung強調，AI的防護措施是安全系統與被欺騙的LLM之間的第一道防線，這些防護措施的有效性至關重要。EchoGram的出現顯示，這些防護措施可以被系統性地繞過或不穩定，即使沒有內部訪問權限或專業工具。這個發現對整個AI安全生態的啟示是，當前的防護機制存在系統性漏洞，需要更深層次的安全重新評估。

錄自：科技新報

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 10	您發表的文章內容豐富，無私分享造福眾人，.

總評分: SOGO幣 + 10 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2025-11-28 01:34	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2025 SOGO論壇 OURSOGO.COM

[AI 應用] EchoGram 攻擊現身，簡單字串就能突破主流 AI 模型防線 [複製連結]

瀏覽過的版塊