SOGO論壇
  登入   註冊   找回密碼
查看: 1089|回覆: 0
列印 上一主題 下一主題

[AI 應用] AI 真的會推理嗎?牛津重量級研究:基準測試工具可能誤導判斷 [複製連結]

Rank: 5Rank: 5

狀態︰ 離線
跳轉到指定樓層
1
發表於 6 天前 |只看該作者 |倒序瀏覽 | x 1
一項來自英國牛津大學「牛津網路研究所」的最新研究指出,許多流行的人工智慧(AI)性能基準測試工具可能並不可靠,甚至可能誤導大眾。

這項研究分析了445種不同的基準測試,這些測試被廣泛用於評估AI的推理能力和編碼任務的表現。研究人員發現,這些測試的結果往往無法準確反映AI模型的實際能力,部分原因在於基準測試的定義模糊,以及缺乏透明的統計方法來比較不同模型的表現。

研究指出,許多基準測試並未有效測量其所聲稱的目標。例如,Grade School Math 8K(GSM8K)測試旨在評估模型在國小數學問題上的表現,但研究人員認為,這並不一定能證明模型具備真正的推理能力。研究人員表示,這種測試可能會導致誤解,因為它無法確定一個模型是否真的在進行推理。

此外,研究還發現,隨著時間的推移,GSM8K的得分有所上升,這可能表明模型在這類推理和表現上有所改善,但也可能是因為測試問題進入了模型的數據集,導致模型開始「記憶」答案,而非真正推理。當研究人員在新的基準問題上進行測試時,發現模型的表現出現了顯著下降。

這項研究是英國政府AI安全研究所聯合史丹佛大學、加州大學柏克萊分校和牛津大學跨校合作的成果,並且是對AI基準測試的最大規模回顧之一。研究指出,僅約16%的基準測試使用過嚴謹的統計方法,缺少標準化手段,這造成了結果的可靠性問題,並引發業界對AI評估方法的反思。

這項研究提醒我們,儘管這些性能測量通常是出於良好意圖,旨在提供模型的準確分析,但最終可能淪為企業的市場宣傳工具。隨著AI模型持續快速開發,基準測試的缺陷對企業推出產品和市場宣傳帶來潛在風險,錯誤基準可能誤導消費者和投資者判斷。美國和英國目前尚未實施全國AI監管,基準測試為準則的必要性與挑戰並存,研究呼籲業界需推動統一標準與透明方法。

錄自:科技新報

已有 1 人評分SOGO幣 收起 理由
smartlion + 10 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 10   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-11-17 10:17

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部