AI初創公司Runway和深度求索今日發布兩款新基礎模型,聲稱性能超越科技巨頭算法。Runway的Gen-4.5提供文本轉視頻功能,在人工智能分析文本轉視頻基準測試中創下新紀錄,能更好地遵循提示并生成更逼真的視頻內容。深度求索發布的V3.2版本在編程和數學任務方面表現更優,采用新的注意力機制實現DSA,降低硬件使用率。兩款模型均針對不同應用場景進行了優化。
Anthropic周一發布了旗艦模型Opus 4.5,這是4.5系列的最后一個模型。新版本在編程、工具使用和問題解決等基準測試中表現出色,是首個在SWE-Bench驗證測試中得分超過80%的模型。同時推出Claude for Chrome和Claude for Excel產品,分別面向不同用戶群體。Opus 4.5還改進了長文本處理的內存管理,支持付費用戶的"無限聊天"功能,并針對智能體應用場景進行了優化,將與OpenAI的GPT 5.1和谷歌的Gemini 3展開競爭。
OpenAI宣布推出GPT-5的首個重大升級版本GPT-5.1,包含Instant和Thinking兩個變體。新模型在對話風格上更加自然溫暖,具備自適應推理能力,能根據問題復雜度調整思考深度。GPT-5.1提供八種個性化對話模式供用戶選擇,減少專業術語使用,提升易理解性。該升級旨在解決GPT-5發布后用戶反饋的不足,將逐步向訂閱用戶推出。
OpenAI正式推出GPT-5.1,主打更溫暖自然的對話風格和增強的智能水平。新版本包含即時模式和思考模式兩種變體,其中思考模式在簡單任務上速度更快,復雜任務上更持久。GPT-5.1默認采用更對話化的語調,并提供友好、高效、專業等多種個性化選項。模型在遵循特定指令方面也有顯著改進。該更新首先面向付費用戶推出,隨后擴展至免費用戶。
谷歌發布Veo 3.1 AI視頻生成模型更新,顯著改進了提示詞遵循能力和圖像轉視頻功能。新版本可同時生成視頻和音頻,并在Flow視頻編輯器中新增"幀到視頻"功能,用戶可上傳首尾幀自動生成中間內容。雖然在真實感方面仍不如OpenAI的Sora 2,但谷歌專注于為專業視頻工作者提供實用工具的策略值得認可。
蘋果與俄亥俄州立大學研究人員發布名為FS-DFM的新模型,采用少步離散流匹配技術,僅需8輪快速優化即可生成完整長文本,效果媲美需要上千步驟的擴散模型。該模型通過三步訓練法:處理不同優化預算、使用教師模型指導、調整迭代機制來實現突破。測試顯示,參數量僅1.7億至17億的FS-DFM變體在困惑度和熵值指標上均優于70-80億參數的大型擴散模型。
AI初創公司Liquid AI發布名為"Nanos"的突破性小型AI模型,參數規模在3.5億到26億之間,可在手機、筆記本和嵌入式設備上本地運行。該模型在專門任務上可達到GPT-4o級別性能,支持多語言翻譯、數據提取、數學推理等功能。公司采用"液態神經網絡"架構,使模型能以極小體積提供前沿級性能,實現設備端AI處理,確保隱私安全并降低成本。
谷歌發布的Gemini 2.5 Flash Image AI圖像編輯模型被用戶昵稱為"納米香蕉"。該模型在添加圖像元素和保持人物一致性方面表現出色,處理速度快且自動添加水印。但存在明顯局限:只能生成方形圖像、會降低照片分辨率、難以處理復雜編輯任務如移除反射等。谷歌表示正在改進相關問題。該功能免費提供,付費用戶可獲得更多使用額度。
隨著AI服務成本上升和數據隱私擔憂加劇,越來越多用戶開始嘗試本地部署大語言模型。硬件性能提升和軟件工具優化使得在個人設備上運行AI模型變得可行。通過量化技術降低模型精度要求,配合llama.cpp等開源工具,用戶可在消費級硬件上運行各類專業模型。雖然本地模型在通用性上仍遜色于云端大模型,但在特定場景下已能滿足需求,且在隱私保護和成本控制方面優勢明顯。
OpenAI和微軟發布了兩款新的語音人工智能模型。OpenAI的gpt-realtime被稱為其最強語音模型,可生成更自然的語音并能在句中改變語調和語言。微軟推出的MAI-Voice-1模型已集成到Copilot助手中,具有高硬件效率,單個GPU即可在一秒內生成一分鐘音頻。兩家公司還發布了MAI-1-preview模型,采用專家混合架構提高效率。
Google正式發布Gemini 2.5 Flash Image模型,該模型此前在測試版中被稱為nanobanana。新模型為企業創意項目提供更多選擇,能夠快速修改圖像外觀并提供比以往模型更強的控制能力。該模型在保持人物相似度和編輯一致性方面表現出色,支持多輪編輯、照片融合等功能,并已集成到Gemini應用中供付費和免費用戶使用。
谷歌升級Gemini聊天機器人,推出新的AI圖像模型Gemini 2.5 Flash Image,讓用戶能更精確地控制照片編輯。該模型基于自然語言請求進行圖像編輯,同時保持面部、動物等細節的一致性,解決了競爭對手工具的常見問題。新工具在LMArena等基準測試中表現出色,專為消費者使用場景設計,支持多輪對話和多參考融合功能,并配備安全防護措施防止不當內容生成。
本文詳細介紹了如何使用Llama.cpp在個人電腦上本地運行大語言模型。內容涵蓋了Llama.cpp的安裝配置、模型部署、性能優化、量化壓縮、推測解碼、工具調用等核心功能。文章指出雖然訓練大模型需要巨額投資,但運行已訓練好的模型在普通硬件上是完全可行的。通過Llama.cpp,用戶可以獲得無限制的本地AI服務,避免數據上傳云端,同時享受更好的性能和更多定制選項。
企業普遍認為AI模型需要大量算力,但Hugging Face專家認為應該更智能地使用AI。五個關鍵策略包括:為特定任務選擇合適規模的模型而非通用大模型;將效率設為默認選項,避免不必要的高成本計算模式;通過批處理和精度調整優化硬件利用;推廣能耗透明度評級系統;重新思考"更多算力更好"的觀念,專注于智能架構和優質數據而非簡單擴大GPU集群規模。
Anthropic宣布為企業客戶增加Claude單次提示詞的信息處理量,以吸引更多開發者使用其AI編程模型。Claude Sonnet 4現支持100萬token上下文窗口,可處理75萬詞或7.5萬行代碼的請求,是此前限制的5倍,超過OpenAI GPT-5的40萬token。該功能也將通過Amazon Bedrock和Google Cloud等云合作伙伴提供。更大的上下文窗口有助于AI模型更好地處理軟件工程問題和長期自主編程任務。
谷歌宣布大幅擴展Gemini AI模型家族,高性能的Gemini 2.5 Pro經過數月調優后正式退出預覽版,面向開發者開放。同時推出預覽版高效模型Gemini 2.5 Flash-Lite,成本僅為2.5 Flash的三分之一。所有2.5模型均支持可調節的思考預算功能,為開發者提供更好的成本控制。Flash和Flash-Lite已集成到搜索功能中,根據查詢復雜度智能選擇合適模型。
Google 推出 Gemini 2.5 Flash 模型,基于 Gemini 2.5 Pro 代碼,但運行更快、成本更低。新模型引入動態思考技術,可根據查詢復雜度調整推理深度,提高響應速度并降低成本。Google 還將 Gemini 2.5 Pro 應用于 Deep Research 工具,顯著提升了其準確性和實用性。這些進展有望降低生成式 AI 的高昂成本,推動其更廣泛應用。
xAI 公司推出了旗艦模型 Grok 3 的 API,提供 Grok 3 和 Grok 3 Mini 兩個版本。Grok 3 定價較高,但具有圖像分析和問答能力。盡管馬斯克此前宣稱 Grok 模型不受限制,但實際表現較為中立。xAI 承諾將 Grok 調整為政治中立,但長期影響尚不明確。
Google 推出最新的 Gemini 2.5 Pro (實驗版) AI 模型,并以罕見的速度向免費用戶開放。該模型支持模擬推理,提高了準確性,并在 LMSYS 聊天機器人競技場排行榜上名列前茅。免費用戶可在網頁上試用,但有使用限制,無法上傳文件,且有未明確的token和使用次數限制。
OpenAI 推出的 4o 圖像生成器引發了一場 AI 動畫熱潮。這一發展不僅展示了 AI 輔助視覺創作的能力和局限性,還引發了版權問題的討論。與之前主要聚焦于藝術詮釋和風格轉換的 Dall.E 模型不同,4o 圖像生成器似乎旨在解決特定的專業痛點,尤其是在文本渲染和多圖像一致性方面。隨著各大 AI 平臺開發出各自的專長,這一領域變得日益擁擠,同時也揭示了生成式 AI 的進展和持續挑戰。