- 註冊時間
- 2025-2-12
- 最後登錄
- 2026-1-8
- 主題
- 查看
- 積分
- 649
- 閱讀權限
- 90
- 文章
- 321
- 相冊
- 1
- 日誌
- 0
  
狀態︰
離線
|
從輝達的領頭助長,到李飛飛的 World Labs 與楊立昆新近成立的 AMI Labs,「世界模型」已成為前沿實驗室與科技巨頭密集投入的關鍵技術,可說是掌握著下一階段 AI 發展的認知基石。機器如何真正理解物理世界?這在前進通用智慧的路上又扮演什麼角色?
隨著ChatGPT、Gemini等基礎模型的對談能力與新奇感趨向高原期,「世界模型」逐漸被視為邁向通用智慧的失落環節。
2025年可說是世界模型從研究計畫邁向具體成果的一年。從輝達在年初CES上發布的「Cosmos」,到Google DeepMind在8月更新的「Genie 3」,以及李飛飛領銜的新創World Labs推出的首款商業化產品「Marble」,提升前沿模型對物理世界的理解能力,已是當下AI研究的一大重心。
究竟世界模型的重要性何在?在人機協作的未來,又將扮演什麼角色?
從理解到行動,世界模型是關鍵缺口
「世界模型」的概念存在已久,人類也可說是擁有這樣的心智模型。這可理解為一種現實世界的心智性再現,包含了對物理定律與因果關聯性的直覺性理解。
這讓我們在強風吹來時,知道要伸手壓住桌上的紙張。因為腦中的世界模型能夠綜合氣流強度的感知,對紙張重量的估算,預測出空氣與紙接觸後會發生的事件,提前出手干預避免。
從大量網路資料中學習的大語言模型,湧現出未經特別訓練的能力,可能是世界模型的一種零碎展現。部分研究者認為,即使沒有直接接觸現實世界,深度神經網路模型仍從文本、影像等資料中,形成了一種對世界的想像。
然而,這種支離破碎的認知,在面對真實世界的複雜任務時時常出錯。為了擴大模型在現實世界的可用性,發展出更可靠、穩健且融貫的「世界模型」,成為AI挺入下一階段的關鍵考驗。
World Labs:空間智慧是「認知能力的鷹架」
有「AI教母」美稱的史丹佛大學教授李飛飛在2024年正式成立聚焦於「空間智慧」的新創World Labs,讓「世界模型」的大眾知名度大增。
身為電腦視覺研發先驅的李飛飛(見下圖)認為,空間智慧是視覺智慧的自然延續。只是辨識影像內容,已不足以支持先進系統的認知發展。多模態模型必須走向更複雜、具深度的範疇,納入對空間的理解,也才能真正在立體的真實世界產生價值。
這番思考呈現在World Labs於2025年11月發布的商用生成式世界模型「Marble」上。Marble能從文字、影像或影片等指令,生成可編輯且可輸出的持久性立體世界,不僅是暫時的影像流。
在高斯潑濺(Gaussian Splatting)、三角網格等技術基礎上,Marble能打造具有穩固底層結構的立體模型。這對遊戲產業已具有立即性的用途,也特別適合建築設計、數位孿生工廠等領域的應用。在這樣的模擬世界中,即使是沒有傳統3D建模知識的使用者也可以輕鬆搬移廊柱、改變產線配置。
李飛飛指出,空間智慧是「人類構築認知能力的鷹架」。即使在處理抽象資訊時,推理、規劃能力的背後也有空間智慧的支持。當機器也擁有這樣的能力時,從敘事、機器人到科學研發等領域,都將迎來變革。她寫道,「這是人工智慧的下一個前沿,也是為何2025是如此關鍵的一年」。
DeepMind:用AI訓練AI,加速智慧演進
Google DeepMind與OpenAI在2025年8、9月接續發表的Genie 3與Sora 2,則以另一種進路形塑世界模型。基本概念是透過大量影片資料讓模型理解物理世界,這能生成高度擬真的影像世界,且在每一幀畫面之間保持因果邏輯。Sora 2在物理精準度的躍進便是一大例證。
Genie 3是DeepMind的世界模型系列中,第一款支持即時生成、互動式探索的模型。也就是模擬世界是在使用者(或AI代理)探索、下達指令時生成出來,而非事先建成。這種動態的幀預測能力,讓Genie 3可以生成大量、多樣化且看似逼真的模擬世界,並保持一定長度的「視覺記憶」。
2025年11月,DeepMind進一步宣布結合SIMA 2與Genie 3。SIMA(Scalable Instructable Multiworld Agent)是一款可在各種虛擬環境中執行指令的AI代理,現已整合Gemini的推理能力。在Genie 3生成的全新世界中,SIMA 2展現了初步泛化能力,能在從未見過的環境中理解指令、採取合理行動來實現目標。
長年研究模擬與代理能力的Google DeepMind一手打造的閉環生態系逐步成形。在近乎無限的模擬世界中,讓AI訓練AI、加速智慧演化的數項要素皆已在軌道上。
旗艦模型Gemini擁有對世界的基礎認識,推理與規劃能力也持續優化。Genie 負責生成各式各樣的擬真世界,其中盡可能地再現物理原則及因果關聯。獲得Gemini驅動的SIMA 則在Genie生成的虛擬「沙盒」中不斷試錯、改進。
例如,在Genie生成的模擬火場中,SIMA可以借助Gemini的規劃能力反覆練習滅火、救出生還者的行動,提升AI在現實世界中面對起火建築的應對能力。
如Google DeepMind CEO哈薩比斯(Demis Hassabis)近期在播客訪談中解釋,如果模型可以生成符合現實物理定律的世界,可以說模型在某意義上來說已掌握了許多物理定律。這也是為什麼能生成仿真影像的Genie、Veo等模型,也是朝向通用世界模型的重要進程。
哈薩比斯指出,Genie、SIMA等專案目前是相互關聯但個別的研究計畫,但終究DeepMind會將所有這些研究成果整合、匯流成一個單一的大模型,「那可能就會是AGI原型的一個候選者。」
楊立昆:不求畫素級再現,關鍵是抽象預測能力
世界模型戰場近期的重要行動,是圖靈獎得主楊立昆(Yann LeCun)宣布卸下Meta首席AI科學家一職,成立自己的新創「先進機器智慧」實驗室(Advanced Machine Intelligence Labs),專注研發世界模型。
與World Labs、DeepMind等團隊的生成式進路不同,楊立昆提倡的「聯合嵌入預測架構」(JEPA)不把重點放在「畫素」,而是專注在足以形成動作規劃的距離、重量等抽象變數。
楊立昆(見下圖)認為,人類在學習世界的物理原則時,並不需要掌握精確細節,而是形成一種抽象的理解。例如,能夠預測「玻璃杯翻倒水會流出」的能力,不需要完美在腦中再現玻璃與水面的光影色澤。同樣地,要規劃都市街道的行車路線,也不需要注意路樹葉面的露水分布情況。
JEPA透過自監督學習,從訓練數據中提取抽象表徵,進而預測未來狀態。這其中不需要生成大量畫素細節,因而大幅降低算力需求,尤其適用於邊緣裝置等資源較有限的用例。
Meta未直接投資AMI Labs,但已建立商業化技術的合作關係。可預期AMI Labs在世界模型上的進展,將讓Meta的AI眼鏡獲益良多。
AI走出螢幕、融入現實世界的基石
各界對世界模型的內涵與細節並無一致共識,但實質的產業影響力已然發酵。正在力推「實體AI」的輝達,透過一系列預訓練的世界模型,支援為數眾多的開發者進行模擬生成,加速自駕車到機器人等多種實體應用開發。
即便研發進路各有側重,比起相互競爭,各團隊打造的世界模型之間很可能更是合作的關係。要在複雜、多變的現實世界中與人類安全協作,AI系統可能需要多個世界模型,根據不同操作呼叫不同模型支援。
例如,傳統機器人靠著記憶建築物內部的樓層地圖規劃路線。如果走廊臨時有障礙物、某些門被鎖起,可能就會迷航。裝載世界模型的機器人則能在幾何結構、物理性質的知識基礎上進行空間推理,知道如何繞道而行,且懂得在急停、轉向時維持安全速度與角度,不讓載送的貨品掉落地面。
超越語意邏輯,掌握現實世界的物理因果關係,是AI系統從數位進入實體世界的關鍵一步。目前的世界模型仍存在諸多限制,距離規模化商用還有一段長路。但就如人工智慧領域的許多研究計畫,同樣令人感到興奮、變化快速,彷彿眼前所見的一切只是開端。
錄自:科技新報
|
-
總評分: SOGO幣 + 30
查看全部評分
|