By DAVID C in 具身智能 — 07 5月 2026

2040机器人终局之战 | Jim Fan | 具身智能 | 模型策略 | VLA | 视频世界模型 | DreamZero | 世界动作模型 | UMI | EgoScale | 规模法则

這是一份關於英偉達（Nvidia）具身智能研究主管 Jim Fan 在紅杉資本 AI Ascent 峰會上演講內容的深度總結：

⓵ 【容易懂 Easy Know】

想像一下，以前我們教機器人做事，就像是給它一本超厚的手冊，規定它每一秒手要動幾公分，這非常笨拙且辛苦。現在，科學家發現了一個聰明的新方法：讓機器人像我們「看影片學習」一樣。機器人會先在腦袋裡「做夢」，預測接下來世界會發生什麼變化，比如杯子倒了水會怎麼流。

這就像是你玩遊戲時，看多了高手過關的影片，自然就學會了怎麼操作。我們不需要再辛苦地用遙控器教它，而是給它看成千上萬小時的人類視角影片。這樣，機器人就能像人類一樣靈活，即使去到一個全新的地方，它也能透過「預測未來」來決定自己該怎麼動手。

⓶ 【總結 Overall Summary】

本次演講由英偉達具身智能領軍人物 Jim Fan 發表，核心論點在於「機器人領域的終局之戰已經打響」，且獲勝的劇本將完全復刻大語言模型（LLM）的成功路徑。Jim Fan 指出，過去三年的主流架構 VLA（視覺-語言-動作）模型已達瓶頸，因為它過於偏重語言邏輯（語言是一等公民），卻忽略了真實物理世界的動態規律，導致機器人在執行複雜物理任務時力不從心。

他提出了一種名為 WAM（世界動作模型） 的新範式。這種模型不依賴人工編寫物理方程式，而是透過海量視頻數據預測物理狀態的演變（類似 Sora），讓機器人具備「預測下一個物理狀態」的能力。此外，他宣告昂貴且低效的「遠程操作」數據採集時代即將結束，未來的核心數據將來自「人類第一人稱視角影片（Egocentric Videos）」。

演講最後強調了機器人領域的 Scaling Laws（規模定律） 已經出現，這意味著進步將是可預測且指數級的。他預言到 2040 年前，人類將達成「物理自動研究」的最終里程碑，屆時機器人將具備自主設計與自我進化的能力，徹底解放人類生產力。

⓷ 【觀點 Viewpoints】

VLA 模型已走到盡頭：Jim Fan 認為 VLA 本質上是「語言模型嫁接動作」，擅長理解名詞卻不擅長執行複雜動詞。機器人需要的是以視覺和動作為核心的架構，而非語言的附庸。
「預測」是通往智能的捷徑：大模型透過預測下一個詞成功，機器人則應透過預測「下一個物理像素狀態」來理解重力、摩擦力等物理規律。
遠程操作數據是規模化的障礙：依賴人類戴著 VR 設備教機器人太慢且太貴。利用人類現成的第一人稱影片進行預訓練，才是達成數據規模化的唯一途徑。
算力即環境（Compute is Environment）：透過神經模擬器（如 DreamDojo），機器人可以在純數據驅動的虛擬世界中進行強化學習，無需耗費昂貴的實體機器人成本。
** Scaling Laws 的確認**：機器人訓練時長與性能之間存在清晰的對數線性關係，這證實了具身智能可以透過投入更多算力與數據來實現飛躍。

⓸ 【摘要 Abstract】

📌 核心策略：將機器人學習目標從「聽從指令」轉向「預測物理世界走向」。
✅ 模型革命：由 WAM（世界動作模型）取代 VLA，讓物理規律在預測中自動湧現。
⚠️ 數據轉型：宣告遠程操作數據採集已死，第一人稱視角影片成為新的核心養料。
🚀 技術突破：DreamZero 模型實現「零樣本」執行任務，機器人能靠預測畫面導向動作。
🛠️ 模擬創新：利用 iPhone 掃描即可實現 Real-to-Sim-to-Real，大幅降低環境建置成本。
📈 定律發現：首次在靈巧操作任務中證實了 Scaling Laws 的存在。
🏁 終極目標：通過物理圖靈測試、建立物理 API、最終實現物理自動研究。
📅 時間預測：2040 年前抵達機器人科技樹的頂點，實現自我進化。

⓹ 【FAQ 測驗】

問題一：根據 Jim Fan 的觀點，為什麼 VLA 模型（視覺-語言-動作）不再是未來的方向？
A. 因為語言數據太少，不夠訓練機器人。
B. 因為它將大部分參數給了語言，導致模型像「偏科生」，不擅長處理物理動作。
C. 因為它太容易受到網路攻擊。
D. 因為它無法與 iPhone 連接。
正確答案：B。解釋：Jim Fan 指出 VLA 模型過度重語言輕物理，導致機器人能理解名詞（如可樂罐）但無法處理複雜的動詞與物理交互。

問題二：Jim Fan 認為未來機器人學習最重要的數據來源是什麼？
A. 人類遙控機器人的軌跡數據。
B. 機器人自我摸索的隨機數據。
C. 人類第一人稱視角的日常生活影片（Egocentric Videos）。
D. 科學家撰寫的物理公式代碼。
正確答案：C。解釋：演講中提到，第一人稱影片數據量巨大且採集成本低，是啟動數據飛輪並突破 Scaling Laws 的關鍵。

問題三：什麼是「物理圖靈測試（Physical Turing Test）」？
A. 機器人是否能寫出比人類更好的論文。
B. 人類是否能分辨一項物理任務是人類做的還是機器人做的。
C. 機器人是否具備人類的情感。
D. 機器人是否能在物理考試中獲得滿分。
正確答案：B。解釋：這是機器人第一個里程碑，標準是機器人能像人類工人一樣，穩定、低成本且高效率地輸出勞動價值。

⓺ 【關鍵標籤 Hashtags】

#具身智能 #英偉達 #世界模型 #機器人終局之戰 #ScalingLaws

✡ Oli小濃縮 Summary bot 為您濃縮重點 ✡

▶

2040机器人终局之战 | Jim Fan | 具身智能 | 模型策略 | VLA | 视频世界模型 | DreamZero | 世界动作模型 | UMI | EgoScale | 规模法则

⓵ 【容易懂 Easy Know】

⓶ 【總結 Overall Summary】

⓷ 【觀點 Viewpoints】

⓸ 【摘要 Abstract】

⓹ 【FAQ 測驗】

⓺ 【關鍵標籤 Hashtags】

被偷走的297年：西元1000年背後的時間騙局｜閣樓研究室‧默薇

我們每天都在「切換」人生 / 不在乎的時候，為什麼卻得到了? / 未來不需要被創造，只需要被「選擇」《現實穿梭》(Reality Transurfing) | 青茶說

⓵ 【容易懂 Easy Know】

⓶ 【總結 Overall Summary】

⓷ 【觀點 Viewpoints】

⓸ 【摘要 Abstract】

⓹ 【FAQ 測驗】

⓺ 【關鍵標籤 Hashtags】

被偷走的297年：西元1000年背後的時間騙局｜閣樓研究室‧默薇

我們每天都在「切換」人生 / 不在乎的時候，為什麼卻得到了? / 未來不需要被創造，只需要被「選擇」《現實穿梭》(Reality Transurfing) | 青茶說

您可能也會感興趣...