[AI 應用] AI 執行專業任務表現可媲美人類專家！但創意還比不上人類 [複製連結]

landrover1211

天使長(十級)

Rank: 13

狀態︰離線

電梯直達

1樓

發表於 2025-10-2 16:20:02 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

最新 OpenAI 評估框架 GDPval，顯示人工智慧（AI）模型完成專業任務表現已達人類專家程度，引起業界關注。GDPval 為 OpenAI 衡量 AI 模型經濟價值任務表現框架，涵蓋 44 個職業專家設計的 1,320 項真實任務，如九個美國 GDP 貢獻超過 5% 的主要經濟產業。

OpenAI不僅評估自家模型，還評估其他領先實驗室模型，如Google DeepMind Gemini 2.5 Pro、Anthropic Claude Opus 4.1和Grok Grok 4。結果顯示，Claude Opus 4.1在47.6%任務表現超過或等於人類專家，為表現最佳模型。OpenAI GPT-5 Thinking遵循提示表現最佳，但格式化回應時常出現問題，整體表現遠超前代GPT-4o，後者僅完成不到10%任務。

不同經濟部門表現差異也相當明顯，AI模型對政府、零售和批發貿易等表現最佳，製造業和創意產業（如電影製作、影片編輯等）表現較差，顯示AI對創意和複雜任務的局限性。Claude Opus 4.1某些專業任務表現出色，「櫃檯和租賃文員」表現超過或等於人類專家比例高達81%。

史丹佛大學經濟學家Erik Brynjolfsson指出，GDPval評估有助縮小AI研究者與實際應用差距，呼籲設計「Centaur評估」，即評估人類與AI模型合作，不只是將AI視為人類的替代品。這觀點強調人類對AI應用的重要性，AI發展仍需與人類知識整合，以達成最佳效果。

錄自：科技新報

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 10	您發表的文章內容豐富，無私分享造福眾人，.

總評分: SOGO幣 + 10 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2026-7-3 11:10	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2026 SOGO論壇 OURSOGO.COM

[AI 應用] AI 執行專業任務表現可媲美人類專家！但創意還比不上人類 [複製連結]

瀏覽過的版塊