SOGO論壇
  登入   註冊   找回密碼
查看: 20|回覆: 0
列印 上一主題 下一主題

[AI 應用] 蘋果攜手威斯康辛大學推新 AI 框架,小模型描述圖片精準度比十倍大模型更佳 [複製連結]

Rank: 13Rank: 13Rank: 13Rank: 13

狀態︰ 離線
跳轉到指定樓層
1
發表於 2026-3-26 18:44:55 |只看該作者 |倒序瀏覽 | x 1
蘋果近日與威斯康辛大學麥迪遜分校(University of Wisconsin – Madison)合作,發表「RubiCap」(全稱 Rubric-Guided Reinforcement Learning for Dense Image Captioning)全新 AI 訓練框架,突破模型規模限制,讓參數較小模型的圖像描述精準度與詳細度,能與體積大十倍的巨型模型媲美,甚至表現更佳。

所謂「密集圖像描述」(Dense image captioning),是指 AI 不僅能總結整張圖片,還能辨識圖片多個區域與元素,產生細緻的區域級描述。新技術對訓練視覺語言模型(VLM)與文字產圖模型很重要,同時也大幅提升圖像搜尋準確性及無障礙輔助工具效能。

團隊指出,目前密集圖像描述模型訓練面臨挑戰:雖然合成描述是種可行替代方案,但監督式蒸餾法(supervised distillation)往往導致輸出多樣性不足且通用性弱。為了解決問題,RubiCap 採創新強化學習(RL)法。

研究員從 PixMoCap 和 DenseFusion-4V-100K 資料庫隨機抽取 5 萬張圖。系統用 Gemini 2.5 Pro、GPT-5、Qwen2.5-VL-72B-Instruct、Gemma-3-27B-IT 及 Qwen3-VL-30B-A3B-Instruct 等多個視覺語言模型幫每張圖片產生描述,RubiCap 再用 Gemini 2.5 Pro 分析,對比描述與模型輸出,找出遺漏或誤導處,制定明確評判標準(Rubric)。最後 Qwen2.5-7B-Instruct 擔任裁判,根據這些標準評分,為模型提供精確的獎勵。

研究結果顯示,基於此框架開發的 RubiCap-2B、RubiCap-3B 與 RubiCap-7B 模型表現極為出色。多項基準測試,RubiCap-7B 勝率超越 GPT-4V 增強輸出等,盲測排名獲最高比例第一名,展現最低幻覺懲罰(hallucination penalty)與最高準確性。

令人驚訝的是,僅 30 億參數的 RubiCap-3B 模型某些基準測試甚至超越 70 億參數版。研究員強調,這證明強大密集圖像描述模型並不一定需要龐大參數,精簡的 RubiCap-3B 當標註器,訓練的視覺語言模型效能甚至優於昂貴專有模型標註訓練結果。這項研究可加速多模態 AI 訓練效率,並為行動裝置端 AI 應用開闢新路。

錄自:科技新報

已有 1 人評分SOGO幣 收起 理由
smartlion + 20 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 20   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊

本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2026-5-5 17:20

© 2004-2026 SOGO論壇 OURSOGO.COM
回頂部