SOGO論壇
  登入   註冊   找回密碼
查看: 1715|回覆: 0
列印 上一主題 下一主題

[AI 應用] AI 數學真的沒很好,五大模型 ORCA 測試成績不及格 [複製連結]

Rank: 6Rank: 6

狀態︰ 離線
跳轉到指定樓層
1
發表於 2025-11-20 17:37:47 |只看該作者 |正序瀏覽 | x 1
喬治·歐威爾(George Orwell)知名小說《一九八四》的世界,2+2=5,大型語言模型(LLMs)數學計算表現也不盡如人意。波蘭 Omni Calculator 及多所歐洲大學開發的 ORCA 基準測試,五款主流 AI 模型的數學測試均未及格,得分平均 63% 以下。

參加「考試」的模型為ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2。儘管其他數學能力評估基準如GSM8K和MATH-500,某些模型得分高達0.95,但ORCA研究顯示,模型邏輯和算術仍有不少錯誤。

根據牛津大學數據,AI模型數學推理得分為-7.44,遠低於人類標準。研究者指出,許多現有基準資料庫都納入模型訓練資料,使模型考試前就有答案,故無法真實評估計算推理力。

10月這次評估,研究者以500個數學相關提示,涵蓋生物學、化學、工程、金融、健康、數學、物理和統計等領域。結果顯示,Gemini 2.5 Flash整體準確率最高,達63%,Grok 4緊跟,準確率62.8%。和Claude Sonnet 4.5表現較差,分別為49.4%和45.2%。

Claude Sonnet 4.5所有類問題得分均未超過65%,DeepSeek V3.2表現很不平均,數學和轉換類得分為74.1%,但生物學和化學類僅10.5%。顯示即使最先進模型,確定性推理任務仍會明顯失誤。

AI基準測試結果雖不一定能反映真實計算力,模型表現可能隨調整修改而變化,但仍顯示AI推理算術力仍有改善空間。

錄自:科技新報
已有 1 人評分SOGO幣 收起 理由
smartlion + 10 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 10   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-11-28 23:58

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部