標題: AI 執行專業任務表現可媲美人類專家!但創意還比不上人類 [列印本頁] 作者: landrover1211 時間: 昨天 16:20標題: AI 執行專業任務表現可媲美人類專家!但創意還比不上人類
最新 OpenAI 評估框架 GDPval,顯示人工智慧(AI)模型完成專業任務表現已達人類專家程度,引起業界關注。GDPval 為 OpenAI 衡量 AI 模型經濟價值任務表現框架,涵蓋 44 個職業專家設計的 1,320 項真實任務,如九個美國 GDP 貢獻超過 5% 的主要經濟產業。
OpenAI不僅評估自家模型,還評估其他領先實驗室模型,如Google DeepMind Gemini 2.5 Pro、Anthropic Claude Opus 4.1和Grok Grok 4。結果顯示,Claude Opus 4.1在47.6%任務表現超過或等於人類專家,為表現最佳模型。OpenAI GPT-5 Thinking遵循提示表現最佳,但格式化回應時常出現問題,整體表現遠超前代GPT-4o,後者僅完成不到10%任務。
不同經濟部門表現差異也相當明顯,AI模型對政府、零售和批發貿易等表現最佳,製造業和創意產業(如電影製作、影片編輯等)表現較差,顯示AI對創意和複雜任務的局限性。Claude Opus 4.1某些專業任務表現出色,「櫃檯和租賃文員」表現超過或等於人類專家比例高達81%。