SOGO論壇
標題:
AI 真的會推理嗎?牛津重量級研究:基準測試工具可能誤導判斷
[列印本頁]
作者:
陽光色叔
時間:
6 天前
標題:
AI 真的會推理嗎?牛津重量級研究:基準測試工具可能誤導判斷
一項來自英國牛津大學「牛津網路研究所」的最新研究指出,許多流行的人工智慧(AI)性能基準測試工具可能並不可靠,甚至可能誤導大眾。
這項研究分析了445種不同的基準測試,這些測試被廣泛用於評估AI的推理能力和編碼任務的表現。研究人員發現,這些測試的結果往往無法準確反映AI模型的實際能力,部分原因在於基準測試的定義模糊,以及缺乏透明的統計方法來比較不同模型的表現。
研究指出,許多基準測試並未有效測量其所聲稱的目標。例如,Grade School Math 8K(GSM8K)測試旨在評估模型在國小數學問題上的表現,但研究人員認為,這並不一定能證明模型具備真正的推理能力。研究人員表示,這種測試可能會導致誤解,因為它無法確定一個模型是否真的在進行推理。
此外,研究還發現,隨著時間的推移,GSM8K的得分有所上升,這可能表明模型在這類推理和表現上有所改善,但也可能是因為測試問題進入了模型的數據集,導致模型開始「記憶」答案,而非真正推理。當研究人員在新的基準問題上進行測試時,發現模型的表現出現了顯著下降。
這項研究是英國政府AI安全研究所聯合史丹佛大學、加州大學柏克萊分校和牛津大學跨校合作的成果,並且是對AI基準測試的最大規模回顧之一。研究指出,僅約16%的基準測試使用過嚴謹的統計方法,缺少標準化手段,這造成了結果的可靠性問題,並引發業界對AI評估方法的反思。
這項研究提醒我們,儘管這些性能測量通常是出於良好意圖,旨在提供模型的準確分析,但最終可能淪為企業的市場宣傳工具。隨著AI模型持續快速開發,基準測試的缺陷對企業推出產品和市場宣傳帶來潛在風險,錯誤基準可能誤導消費者和投資者判斷。美國和英國目前尚未實施全國AI監管,基準測試為準則的必要性與挑戰並存,研究呼籲業界需推動統一標準與透明方法。
錄自:科技新報
歡迎光臨 SOGO論壇 (https://oursogo.com/)
Powered by OURSOGO.COM