中國AI實驗室DeepSeek本周爆紅,其聊天機器人應(yīng)用登頂蘋果和谷歌應(yīng)用商店榜首。DeepSeek由量化對沖基金High-Flyer支持,使用計算高效技術(shù)訓練AI模型,讓華爾街分析師質(zhì)疑美國能否保持AI領(lǐng)先地位。該公司發(fā)布的V3和R1推理模型在多項基準測試中表現(xiàn)出色,價格遠低于同類產(chǎn)品。盡管面臨美國芯片出口限制和政府設(shè)備禁用,DeepSeek仍憑借技術(shù)創(chuàng)新和低成本策略在全球AI市場引發(fā)關(guān)注。
Luma AI發(fā)布首個AI推理視頻模型Ray3,該模型能夠在生成視頻前進行"思考"。與傳統(tǒng)AI視頻生成器不同,Ray3采用推理技術(shù),能夠花費更多計算時間處理請求并檢查結(jié)果,從而創(chuàng)建更復雜的動作序列視頻。新功能包括16位HDR生成、可視化注釋工具和草稿模式,用戶可在20秒內(nèi)快速測試創(chuàng)意,然后升級至高清分辨率。
英偉達CEO黃仁勛在公司財報電話會議上表示,未來十年將看到顯著增長機遇,預計AI基礎(chǔ)設(shè)施支出到本世紀末可達3-4萬億美元。他指出,采用"推理"技術(shù)的新AI模型需要傳統(tǒng)大語言模型100倍以上的計算能力,這種"長思考"模式能產(chǎn)生更好答案。隨著代理系統(tǒng)和機器人模型的發(fā)展,對芯片、能源和數(shù)據(jù)中心的需求持續(xù)上升。
英偉達宣布擴展智能AI模型產(chǎn)品線,推出RTX Pro 6000 Blackwell服務(wù)器版GPU,為企業(yè)提供高性能AI推理能力。公司發(fā)布兩款新推理模型Nemotron Nano 2和Llama Nemotron Super 1.5,用于構(gòu)建更智能的AI代理。此外,英偉達還推出Cosmos Reason視覺語言模型,為機器人和物理AI提供視覺推理能力,使機器能夠像人類一樣思考和規(guī)劃行動。
OpenAI發(fā)布了兩款開放權(quán)重AI推理模型gpt-oss-120b和gpt-oss-20b,具備與o系列相似的推理能力。這是OpenAI自五年前GPT-2以來首次發(fā)布開放模型。兩款模型在多項基準測試中表現(xiàn)優(yōu)異,其中120b版本可在單個英偉達GPU上運行,20b版本可在16GB內(nèi)存的消費級筆記本上運行。模型采用Apache 2.0許可證發(fā)布,支持商業(yè)化使用。
蘋果公司研究顯示,Claude、Gemini、DeepSeek-R1等大型推理模型在復雜問題上表現(xiàn)令人失望。研究發(fā)現(xiàn),在低復雜度任務(wù)中,常規(guī)模型優(yōu)于推理模型;中等復雜度時推理模型稍好但耗費10-50倍計算資源;高復雜度下兩者均失效。專家認為這些模型只是復雜的模式匹配,缺乏真正推理能力。對沖基金CEO更傾向預測性AI,研究者建議結(jié)合符號AI與神經(jīng)網(wǎng)絡(luò)構(gòu)建神經(jīng)符號AI系統(tǒng)。
OpenAI正致力于打造能夠執(zhí)行復雜任務(wù)的AI智能體,這一努力源于其數(shù)學推理團隊MathGen的突破性工作。通過結(jié)合大語言模型、強化學習和測試時計算技術(shù),OpenAI開發(fā)出了o1推理模型,該模型在國際數(shù)學奧林匹克競賽中獲得金牌。盡管當前AI智能體在主觀性任務(wù)上仍有局限,但OpenAI相信推理能力的提升將最終實現(xiàn)通用智能體的目標。
OpenAI宣布其最新實驗性推理大語言模型在2025年國際數(shù)學奧林匹克競賽中達到金牌水平。盡管機器在數(shù)學推理、代碼生成等認知任務(wù)上表現(xiàn)卓越,但這并不意味著它們具備真正的智能。機器缺乏知識遷移能力、情感理解、自我意識、內(nèi)在動機等關(guān)鍵特征。它們無法像人類那樣靈活適應(yīng)新環(huán)境,也不具備主觀體驗和意識。真正的智能需要多方面綜合能力,而非僅僅在特定任務(wù)上的優(yōu)異表現(xiàn)。
上海AI公司MiniMax發(fā)布開源推理模型M1,在性能和成本方面挑戰(zhàn)DeepSeek、OpenAI等競爭對手。該模型采用Apache許可證真正開源,支持100萬token輸入和8萬token輸出,上下文窗口是DeepSeek R1的8倍。MiniMax聲稱其Lightning Attention機制使M1在處理長上下文推理時僅需DeepSeek R1約30%的算力,大幅降低計算成本。
百度推出兩款強大的人工智能模型:Ernie X1 和 Ernie 4.5。Ernie X1 是一款推理模型,性能媲美 DeepSeek R1,但成本僅為后者的一半。Ernie 4.5 則是一款多模態(tài)模型,旨在與 OpenAI 的 GPT-4 競爭。這兩款模型的推出標志著百度在人工智能領(lǐng)域的重大進展,也反映了中國科技公司在全球 AI 競賽中的激烈角逐。
中國人工智能實驗室深度思考發(fā)布了其所謂的推理模型DeepSeek-R1的開放版本,聲稱在某些人工智能基準測試中表現(xiàn)與OpenAI的o1相當。R1在AI開發(fā)平臺Hugging Face上以MIT許可證提供,意味著可以在商業(yè)上無限制使用。深度思考表示,R1在AIME、MATH-500和SWE-bench Verified基準測試中超越了o1。AIME使用其他模型來評估模型的性能,而MATH-500是一個包含文字問題的集合。SWE-bench Verified則專注于編程任務(wù)。