SOGO論壇
  登入   註冊   找回密碼
查看: 1138|回覆: 0
列印 上一主題 下一主題

[AI 應用] 世界模型為何影響 AI 大未來?輝達、DeepMind 到李飛飛都在布局 [複製連結]

Rank: 9Rank: 9Rank: 9

狀態︰ 離線
跳轉到指定樓層
1
發表於 7 天前 |只看該作者 |倒序瀏覽 | x 1
從輝達的領頭助長,到李飛飛的 World Labs 與楊立昆新近成立的 AMI Labs,「世界模型」已成為前沿實驗室與科技巨頭密集投入的關鍵技術,可說是掌握著下一階段 AI 發展的認知基石。機器如何真正理解物理世界?這在前進通用智慧的路上又扮演什麼角色?

隨著ChatGPT、Gemini等基礎模型的對談能力與新奇感趨向高原期,「世界模型」逐漸被視為邁向通用智慧的失落環節。

2025年可說是世界模型從研究計畫邁向具體成果的一年。從輝達在年初CES上發布的「Cosmos」,到Google DeepMind在8月更新的「Genie 3」,以及李飛飛領銜的新創World Labs推出的首款商業化產品「Marble」,提升前沿模型對物理世界的理解能力,已是當下AI研究的一大重心。

究竟世界模型的重要性何在?在人機協作的未來,又將扮演什麼角色?

從理解到行動,世界模型是關鍵缺口
「世界模型」的概念存在已久,人類也可說是擁有這樣的心智模型。這可理解為一種現實世界的心智性再現,包含了對物理定律與因果關聯性的直覺性理解。

這讓我們在強風吹來時,知道要伸手壓住桌上的紙張。因為腦中的世界模型能夠綜合氣流強度的感知,對紙張重量的估算,預測出空氣與紙接觸後會發生的事件,提前出手干預避免。

從大量網路資料中學習的大語言模型,湧現出未經特別訓練的能力,可能是世界模型的一種零碎展現。部分研究者認為,即使沒有直接接觸現實世界,深度神經網路模型仍從文本、影像等資料中,形成了一種對世界的想像。

然而,這種支離破碎的認知,在面對真實世界的複雜任務時時常出錯。為了擴大模型在現實世界的可用性,發展出更可靠、穩健且融貫的「世界模型」,成為AI挺入下一階段的關鍵考驗。

World Labs:空間智慧是「認知能力的鷹架」
有「AI教母」美稱的史丹佛大學教授李飛飛在2024年正式成立聚焦於「空間智慧」的新創World Labs,讓「世界模型」的大眾知名度大增。

身為電腦視覺研發先驅的李飛飛(見下圖)認為,空間智慧是視覺智慧的自然延續。只是辨識影像內容,已不足以支持先進系統的認知發展。多模態模型必須走向更複雜、具深度的範疇,納入對空間的理解,也才能真正在立體的真實世界產生價值。

這番思考呈現在World Labs於2025年11月發布的商用生成式世界模型「Marble」上。Marble能從文字、影像或影片等指令,生成可編輯且可輸出的持久性立體世界,不僅是暫時的影像流。

在高斯潑濺(Gaussian Splatting)、三角網格等技術基礎上,Marble能打造具有穩固底層結構的立體模型。這對遊戲產業已具有立即性的用途,也特別適合建築設計、數位孿生工廠等領域的應用。在這樣的模擬世界中,即使是沒有傳統3D建模知識的使用者也可以輕鬆搬移廊柱、改變產線配置。

李飛飛指出,空間智慧是「人類構築認知能力的鷹架」。即使在處理抽象資訊時,推理、規劃能力的背後也有空間智慧的支持。當機器也擁有這樣的能力時,從敘事、機器人到科學研發等領域,都將迎來變革。她寫道,「這是人工智慧的下一個前沿,也是為何2025是如此關鍵的一年」。

DeepMind:用AI訓練AI,加速智慧演進
Google DeepMind與OpenAI在2025年8、9月接續發表的Genie 3與Sora 2,則以另一種進路形塑世界模型。基本概念是透過大量影片資料讓模型理解物理世界,這能生成高度擬真的影像世界,且在每一幀畫面之間保持因果邏輯。Sora 2在物理精準度的躍進便是一大例證。

Genie 3是DeepMind的世界模型系列中,第一款支持即時生成、互動式探索的模型。也就是模擬世界是在使用者(或AI代理)探索、下達指令時生成出來,而非事先建成。這種動態的幀預測能力,讓Genie 3可以生成大量、多樣化且看似逼真的模擬世界,並保持一定長度的「視覺記憶」。

2025年11月,DeepMind進一步宣布結合SIMA 2與Genie 3。SIMA(Scalable Instructable Multiworld Agent)是一款可在各種虛擬環境中執行指令的AI代理,現已整合Gemini的推理能力。在Genie 3生成的全新世界中,SIMA 2展現了初步泛化能力,能在從未見過的環境中理解指令、採取合理行動來實現目標。

長年研究模擬與代理能力的Google DeepMind一手打造的閉環生態系逐步成形。在近乎無限的模擬世界中,讓AI訓練AI、加速智慧演化的數項要素皆已在軌道上。

旗艦模型Gemini擁有對世界的基礎認識,推理與規劃能力也持續優化。Genie 負責生成各式各樣的擬真世界,其中盡可能地再現物理原則及因果關聯。獲得Gemini驅動的SIMA 則在Genie生成的虛擬「沙盒」中不斷試錯、改進。

例如,在Genie生成的模擬火場中,SIMA可以借助Gemini的規劃能力反覆練習滅火、救出生還者的行動,提升AI在現實世界中面對起火建築的應對能力。

如Google DeepMind CEO哈薩比斯(Demis Hassabis)近期在播客訪談中解釋,如果模型可以生成符合現實物理定律的世界,可以說模型在某意義上來說已掌握了許多物理定律。這也是為什麼能生成仿真影像的Genie、Veo等模型,也是朝向通用世界模型的重要進程。

哈薩比斯指出,Genie、SIMA等專案目前是相互關聯但個別的研究計畫,但終究DeepMind會將所有這些研究成果整合、匯流成一個單一的大模型,「那可能就會是AGI原型的一個候選者。」

楊立昆:不求畫素級再現,關鍵是抽象預測能力
世界模型戰場近期的重要行動,是圖靈獎得主楊立昆(Yann LeCun)宣布卸下Meta首席AI科學家一職,成立自己的新創「先進機器智慧」實驗室(Advanced Machine Intelligence Labs),專注研發世界模型。

與World Labs、DeepMind等團隊的生成式進路不同,楊立昆提倡的「聯合嵌入預測架構」(JEPA)不把重點放在「畫素」,而是專注在足以形成動作規劃的距離、重量等抽象變數。

楊立昆(見下圖)認為,人類在學習世界的物理原則時,並不需要掌握精確細節,而是形成一種抽象的理解。例如,能夠預測「玻璃杯翻倒水會流出」的能力,不需要完美在腦中再現玻璃與水面的光影色澤。同樣地,要規劃都市街道的行車路線,也不需要注意路樹葉面的露水分布情況。

JEPA透過自監督學習,從訓練數據中提取抽象表徵,進而預測未來狀態。這其中不需要生成大量畫素細節,因而大幅降低算力需求,尤其適用於邊緣裝置等資源較有限的用例。

Meta未直接投資AMI Labs,但已建立商業化技術的合作關係。可預期AMI Labs在世界模型上的進展,將讓Meta的AI眼鏡獲益良多。

AI走出螢幕、融入現實世界的基石
各界對世界模型的內涵與細節並無一致共識,但實質的產業影響力已然發酵。正在力推「實體AI」的輝達,透過一系列預訓練的世界模型,支援為數眾多的開發者進行模擬生成,加速自駕車到機器人等多種實體應用開發。

即便研發進路各有側重,比起相互競爭,各團隊打造的世界模型之間很可能更是合作的關係。要在複雜、多變的現實世界中與人類安全協作,AI系統可能需要多個世界模型,根據不同操作呼叫不同模型支援。

例如,傳統機器人靠著記憶建築物內部的樓層地圖規劃路線。如果走廊臨時有障礙物、某些門被鎖起,可能就會迷航。裝載世界模型的機器人則能在幾何結構、物理性質的知識基礎上進行空間推理,知道如何繞道而行,且懂得在急停、轉向時維持安全速度與角度,不讓載送的貨品掉落地面。

超越語意邏輯,掌握現實世界的物理因果關係,是AI系統從數位進入實體世界的關鍵一步目前的世界模型仍存在諸多限制,距離規模化商用還有一段長路。但就如人工智慧領域的許多研究計畫,同樣令人感到興奮、變化快速,彷彿眼前所見的一切只是開端。

錄自:科技新報



已有 1 人評分SOGO幣 收起 理由
smartlion + 30 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 30   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2026-1-10 02:45

© 2004-2026 SOGO論壇 OURSOGO.COM
回頂部