阿聯酋阿布扎比人工智能大學發布全新PAN世界模型,超越傳統大語言模型局限。該模型具備通用性、交互性和長期一致性,能深度理解幾何和物理規律,通過"物理推理"學習真實世界材料行為。PAN采用生成潛在預測架構,可模擬數千個因果一致步驟,支持分支操作模擬多種可能未來。預計12月初公開發布,有望為機器人、自動駕駛等領域提供低成本合成數據生成。
全球頂級人工智能公司正加大對"世界模型"的投資,尋求實現機器"超級智能"的新途徑。谷歌DeepMind、Meta和英偉達等公司正開發能通過視頻和機器人數據學習導航物理世界的系統,而非僅依賴語言。這一轉變源于大語言模型發展遭遇瓶頸,各公司LLM性能提升速度放緩。英偉達表示世界模型市場潛力巨大,可達100萬億美元規模。
2009年,比爾·戴利加入英偉達研究實驗室時,該實驗室僅有約12名員工,專注于計算機圖形學中的光線追蹤技術。如今這個實驗室已發展至400多人,幫助英偉達從90年代的游戲GPU初創公司轉型為價值4萬億美元的AI巨頭。目前實驗室重點開發機器人和AI技術,部分研究成果已應用于產品中。英偉達在周一發布了面向機器人開發者的新AI模型、庫和基礎設施,展現了從物理AI到機器人領域的技術進展。
英偉達在SIGGRAPH大會上發布了全新的AI世界模型、庫和機器人開發基礎設施。其中最引人注目的是Cosmos Reason,這是一個70億參數的"推理"視覺語言模型,專門用于物理AI應用和機器人。新發布的還包括Cosmos Transfer-2模型,能夠從3D仿真場景加速合成數據生成,以及速度優化版本。公司還推出了神經重建庫、RTX Pro Blackwell服務器和DGX Cloud云平臺,旨在為機器人開發提供完整的解決方案。
谷歌DeepMind發布新一代世界模型Genie 3,相比前代產品實現多項關鍵提升。新模型支持720p分辨率輸出,可持續運行數分鐘而不產生偽影,并首次支持實時交互和文本提示功能,用戶可通過文本指令動態改變模擬世界狀態。DeepMind將其定位為AI智能體訓練工具,可用于自動駕駛等場景的"假如"情況訓練,提高模型可靠性。
谷歌DeepMind發布了Genie 3基礎世界模型,該實驗室稱其為通向通用人工智能的重要里程碑。Genie 3是首個實時交互的通用世界模型,能夠生成照片級逼真和想象世界。該模型可通過文本提示生成數分鐘的多樣化3D環境,分辨率達720p,幀率24fps。最重要的是,Genie 3的模擬在時間上保持物理一致性,因為模型能夠記住先前生成的內容。研究人員認為世界模型是實現AGI的關鍵,特別是對于具身智能體的訓練。
谷歌DeepMind推出Genie 3"世界模型",僅需提示詞或圖像即可創建交互式世界。該模型支持720p分辨率24幀每秒的實時渲染,相比前代產品顯著提升了視覺保真度和記憶能力,可保持數分鐘的視覺一致性。用戶能夠實時修改環境、添加對象、改變天氣或插入新角色。DeepMind將其視為AI研究工具,用于訓練embodied agents并生成合成訓練數據。盡管仍存在局限性如無法模擬真實地點、易產生AI幻覺等,但該技術為游戲開發和AGI研究提供了新可能性。
谷歌DeepMind部門整合人工智能團隊,專注于開發能模擬物理世界的先進AI大模型。新團隊由前OpenAI項目負責人領銜,將提升AI對現實世界的認知和模擬能力。Genie 2模型能從單一圖像構建交互3D環境,支持長視頻內容生成等?萍季揞^爭奪世界模型開發,預示AI技術在游戲、影視、機器人等領域的廣泛應用。