GPU租賃公司CoreWeave發布無服務器強化學習平臺,旨在讓企業更容易使用強化學習技術。該平臺基于其收購的OpenPipe和Weights & Biases構建,客戶無需手動配置虛擬機或裸機服務器,僅需為生成的令牌付費。據稱該方案比本地Nvidia H100快1.4倍且成本降低40%。這是CoreWeave拓展AI服務業務、實現客戶群體多元化戰略的一部分。
硅谷科技巨頭多年來一直宣揚AI智能體能夠自主使用軟件完成任務的愿景,但現有的消費級AI智能體技術仍然十分有限。為了讓AI智能體更加強大,業界正在探索新技術,其中包括模擬工作空間的強化學習環境。這些環境可以訓練智能體執行多步驟任務,正成為智能體開發的關鍵要素。目前主要AI實驗室都在內部構建強化學習環境,同時尋求第三方供應商提供高質量環境。
硅谷科技巨頭多年來一直宣傳AI智能體愿景,但現有技術仍然有限。強化學習環境被視為訓練AI智能體的關鍵技術突破。這些環境模擬真實工作場景,讓智能體學習復雜任務。頂級AI實驗室正大量需求此類環境,催生了Mechanize、Prime Intellect等初創公司。數據標注巨頭Scale AI、Surge也在轉型。據報道,Anthropic考慮明年投資超10億美元。盡管前景看好,但專家對強化學習環境的可擴展性存在分歧。
強化學習正在重新成為AI領域的焦點技術。雖然該技術起源于20世紀70年代,但直到最近與大語言模型結合后才展現出巨大潛力。從人類反饋強化學習到可驗證獎勵強化學習,這些方法使AI模型獲得了推理能力。然而,關鍵問題仍待解答:強化學習能否在難以驗證的領域實現突破?大規模擴展會帶來什么結果?盡管存在挑戰,強化學習不受人類能力限制,有望創造超越人類的新型智能。
谷歌DeepMind發布Gemini 2.5 Deep Think,這是一款新的創意問題解決AI模型。該模型能夠同時考慮多個想法并選擇最佳答案來解決復雜問題。Deep Think通過延長"思考時間",探索不同假設以找到創意解決方案。新模型在編程、科學知識和推理能力基準測試中表現優異,特別擅長迭代開發、數學研究和復雜編程問題。該工具將在Gemini應用中向Ultra訂閱用戶提供,月費250美元。
OpenAI正致力于打造能夠執行復雜任務的AI智能體,這一努力源于其數學推理團隊MathGen的突破性工作。通過結合大語言模型、強化學習和測試時計算技術,OpenAI開發出了o1推理模型,該模型在國際數學奧林匹克競賽中獲得金牌。盡管當前AI智能體在主觀性任務上仍有局限,但OpenAI相信推理能力的提升將最終實現通用智能體的目標。
卡內基梅隆大學發布了他們的一項最新研究,他們對20多個開源推理模型進行了后訓練,涵蓋數學推理、科學問答、代碼生成、指令遵循等多個維度,最終發現,數學能力優異的模型,在其他任務上表現平平,甚至還不如未加強數學推理能力的原始模型
MIT研究人員開發出自適應語言模型(SEAL)框架,讓大型語言模型能夠持續學習并通過更新自身內部參數進行適應。SEAL教會模型生成自己的訓練數據和更新指令,永久吸收新知識并掌握新任務。該框架采用雙循環系統和強化學習算法,讓模型學會創建個性化學習指南。在知識整合測試中準確率達47%,在少樣本學習中成功率達72.5%。這對企業AI應用具有重要意義,特別適用于動態環境中的AI智能體,但仍存在災難性遺忘等局限性。
中國AI初創公司MiniMax發布最新開源大語言模型MiniMax-M1,采用Apache 2.0許可證,支持商業應用。該模型擁有100萬輸入token和8萬輸出token的超大上下文窗口,采用創新的混合專家架構和強化學習技術。訓練成本僅53.47萬美元,計算效率比DeepSeek R1高75%。在數學競賽等基準測試中表現優異,為企業提供了高性能、低成本的AI解決方案。
Epoch AI 分析指出,以推理為核心的 AI 模型(如 OpenAI 的 o3)近年來雖取得顯著進步,但因強化學習階段所需的龐大運算和高昂研究成本,未來性能提升可能放緩,預計到2026年將趨向封頂。
本文介紹推理模型如何通過鏈式推理和多路徑探索外部信息,展示其在復雜問題求解中(如數學、規劃和動態決策方面)的卓越優勢,從而推動生成式 AI 技術向更高水平發展。
人工智能代理能否像90年代的個人電腦一樣成為企業運營的基礎?專家們正在熱議這個問題。盡管AI代理在決策和執行任務方面顯示出潛力,但能源消耗、學習效率和數據可靠性等挑戰仍然存在。本文探討了AI代理在商業應用中的價值和準備程度,指出企業需要在追逐熱點與戰略部署之間做出明智選擇。
阿里巴巴旗下的 Qwen 團隊推出了 QwQ-32B,這是一款擁有 320 億參數的推理模型,旨在通過強化學習提升復雜問題解決任務的表現。該模型在 Hugging Face 和 ModelScope 上以開源權重形式發布,適用于商業和研究用途,企業可以立即將其應用于產品和應用程序中。
DeepSeek作為人工智能領域的新興力量,其快速崛起引發了對AI創新未來、開源主導地位和傳統AI商業模式可持續性的討論。文章探討了DeepSeek的成功因素,包括其高效的模型設計、創新的訓練方法以及開源策略,分析了其對AI行業格局的潛在影響,并探討了現有AI公司如何應對這一不斷變化的局面。
香港大學和加州大學伯克利分校的一項新研究顯示,在沒有人工標注數據的情況下,語言模型和視覺語言模型能夠更好地泛化。這一發現挑戰了大型語言模型社區的主流觀點,即模型需要手工標注的訓練樣本。研究表明,過度依賴人工示例反而可能對模型的泛化能力產生負面影響。
AI方案并不是供應鏈領域的新技術,其中很多要素在某些場景下已經被使用了幾十年。只是最近以來,更多新興案例開始快速涌現。
在AI界,對于如何進一步推動AI的發展,存在兩種主要觀點。第一種觀點認為,計算能力是AI進步的唯一瓶頸。另一種觀點卻認為,數據才是關鍵。