SOGO論壇
  登入   註冊   找回密碼
查看: 455|回覆: 0
列印 上一主題 下一主題

[AI 應用] AI自信滿滿給出錯誤答案 OpenAI:語言模型幻覺恐難根治 [複製連結]

Rank: 13Rank: 13Rank: 13Rank: 13

原創及親傳圖影片高手勳章 生活智慧王勳章 醫療天使勳章 民俗耆老勳章 星座之星勳章 美食達人勳章

狀態︰ 離線
跳轉到指定樓層
1
發表於 前天 21:55 |只看該作者 |正序瀏覽 | x 1
AI自信滿滿給出錯誤答案 OpenAI:語言模型幻覺恐難根治

錄自:商傳媒

|記者責任編輯/綜合外電報導
OpenAI近日發表最新研究,聚焦於大型語言模型(LLM)如GPT-5與ChatGPT仍存在「幻覺」(hallucinations)等問題提出建議。科技媒體《TechCrunch》報導,這份研究指出,儘管近年已透過技術迭代、有效降低錯誤生成,但「生成看似合理卻不正確的內容」仍是所有大型語言模型的根本挑戰,且很可能無法根治。


研究團隊舉例,當他們詢問某款廣泛使用的聊天機器人「Adam Tauman Kalai博士論文題目」時,系統分別給出三個答案,全數錯誤,隨後再問其生日,得到三個不同日期,仍然全錯;團隊指出,這種「自信卻錯誤」的回答,正是語言模型典型的「幻覺」模式。

研究指出,訓練機制是產生「幻覺」的原因之一,大型語言模型的預訓練過程,主要任務是「預測下一個字」,資料中並沒有標示真偽。換言之,模型大量接觸的是流暢語言的「正樣本」,必須近似語言分布,卻缺乏判斷事實真假的訊號。

拼字或括號因規律明顯,可隨規模放大而減少錯誤;但如「某人寵物生日」這類低頻且任意的知識,無法靠語言模式推導,因此容易出現幻覺。

此外,研究團隊強調,癥結不只在訓練,而在於「評估方式」設下錯誤誘因。目前模型多以「答對率」作為主要指標,這類機制鼓勵模型在不知道答案時「亂猜」,因為猜對還有分數,不答則必定零分。

OpenAI建議,評估方式應比照SAT等考試,引入「錯誤扣分」或「不作答給部分分數」的概念。也就是說,系統若表達「不確定」或「不知道」時,應得到正向分數,而非僅獎勵正確率。研究報告直言:「若主流排行榜繼續獎勵幸運猜中,模型就會持續學習猜測。」


研究人員呼籲,產業需全面調整評估標準,而非僅在部分測試中加入「不確定性評估」;唯有將「懲罰過度自信產生的錯誤」納入核心評測,才能真正降低幻覺生成的頻率,避免模型因分數導向而「硬猜」成性。
喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-9-10 16:58

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部