查看: 20|回覆: 0

[AI 應用] 蘋果攜手威斯康辛大學推新 AI 框架，小模型描述圖片精準度比十倍大模型更佳 [複製連結]

lionking0809

天使長(十級)

Rank: 13

狀態︰離線

電梯直達

1樓

發表於 2026-3-26 18:44:55 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

蘋果近日與威斯康辛大學麥迪遜分校（University of Wisconsin – Madison）合作，發表「RubiCap」（全稱 Rubric-Guided Reinforcement Learning for Dense Image Captioning）全新 AI 訓練框架，突破模型規模限制，讓參數較小模型的圖像描述精準度與詳細度，能與體積大十倍的巨型模型媲美，甚至表現更佳。

所謂「密集圖像描述」（Dense image captioning），是指 AI 不僅能總結整張圖片，還能辨識圖片多個區域與元素，產生細緻的區域級描述。新技術對訓練視覺語言模型（VLM）與文字產圖模型很重要，同時也大幅提升圖像搜尋準確性及無障礙輔助工具效能。

團隊指出，目前密集圖像描述模型訓練面臨挑戰：雖然合成描述是種可行替代方案，但監督式蒸餾法（supervised distillation）往往導致輸出多樣性不足且通用性弱。為了解決問題，RubiCap 採創新強化學習（RL）法。

研究員從 PixMoCap 和 DenseFusion-4V-100K 資料庫隨機抽取 5 萬張圖。系統用 Gemini 2.5 Pro、GPT-5、Qwen2.5-VL-72B-Instruct、Gemma-3-27B-IT 及 Qwen3-VL-30B-A3B-Instruct 等多個視覺語言模型幫每張圖片產生描述，RubiCap 再用 Gemini 2.5 Pro 分析，對比描述與模型輸出，找出遺漏或誤導處，制定明確評判標準（Rubric）。最後 Qwen2.5-7B-Instruct 擔任裁判，根據這些標準評分，為模型提供精確的獎勵。

研究結果顯示，基於此框架開發的 RubiCap-2B、RubiCap-3B 與 RubiCap-7B 模型表現極為出色。多項基準測試，RubiCap-7B 勝率超越 GPT-4V 增強輸出等，盲測排名獲最高比例第一名，展現最低幻覺懲罰（hallucination penalty）與最高準確性。

令人驚訝的是，僅 30 億參數的 RubiCap-3B 模型某些基準測試甚至超越 70 億參數版。研究員強調，這證明強大密集圖像描述模型並不一定需要龐大參數，精簡的 RubiCap-3B 當標註器，訓練的視覺語言模型效能甚至優於昂貴專有模型標註訓練結果。這項研究可加速多模態 AI 訓練效率，並為行動裝置端 AI 應用開闢新路。

錄自：科技新報

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 20	您發表的文章內容豐富，無私分享造福眾人，.

總評分: SOGO幣 + 20 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2026-5-5 17:20	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2026 SOGO論壇 OURSOGO.COM

[AI 應用] 蘋果攜手威斯康辛大學推新 AI 框架，小模型描述圖片精準度比十倍大模型更佳 [複製連結]

瀏覽過的版塊