Meta發布第三代SAM(分割一切模型)系列AI模型,專注于視覺智能而非語言處理。該模型擅長物體檢測,能夠精確識別圖像和視頻中的特定對象。SAM 3在海量圖像視頻數據集上訓練,可通過點擊或文本描述準確標識目標物體。Meta將其應用于Instagram編輯工具和Facebook市場功能改進。在野生動物保護方面,SAM 3與保護組織合作分析超萬臺攝像頭捕獲的動物視頻,成功識別百余種物種,為生態研究提供重要技術支持。
谷歌正在為搭載其內置信息娛樂系統的汽車推出谷歌地圖實時車道引導功能,首先從極星4開始。該系統利用車輛前置攝像頭和AI技術,分析車道標線和路標,為駕駛者提供更精確的車道指引和視聽提示。該功能將在未來幾個月內在美國和瑞典的極星4車型上推出,目前僅支持高速公路使用。
天際線導航AI公司開發出基于視覺的導航系統Pathfinder,可在沒有GPS信號的情況下提供實時導航。該軟件通過AI識別建筑物、道路等場景,快速匹配數據庫生成導航信息。技術主要應用于GPS信號被阻擋的城市峽谷或山區,以及對抗GPS干擾攻擊。公司已與美國國防部、NASA等機構合作,并推出邊緣計算版本Pathfinder Edge。
據報道,蘋果收購Prompt AI的交易基本確定,該初創公司領導層已召開全體會議討論協議細節。Prompt的核心產品Seemour將AI技術應用于安防攝像頭,可識別特定人員、寵物和物體,發送異;顒泳瘓蟛⑻峁┪淖置枋觥_@種收購人才和技術而非整個公司的策略已成為科技巨頭在AI領域的常見做法,部分為了避免監管審查。
亞馬遜發布Lens Live AI功能,用戶可通過手機攝像頭掃描任何物品進行實時購物。該技術利用人工智能識別用戶拍攝的物品,并在亞馬遜平臺上匹配相關商品,提供即時購買選項。這一創新功能將大幅簡化購物流程,用戶只需"看到即可購買",為在線購物體驗帶來革命性改變。
紐約AI公司Runway過去七年專注為創意產業構建視覺生成工具,現在發現其技術在機器人領域的新機遇。該公司的世界模型技術吸引了機器人和自動駕駛汽車公司的關注,用于訓練仿真。聯合創始人表示,相比現實世界訓練,使用AI模型進行仿真更具成本效益和可擴展性。公司不會為機器人客戶開發全新產品線,而是優化現有模型并組建專門團隊。Runway已獲得超過5億美元融資,估值30億美元。
加州理工學院、NASA噴氣推進實驗室等機構合作開發AI太空皮層系統,利用GPT-4o和計算機視覺技術實現太空任務自主操作。該系統能夠進行實時場景分析、故障自診斷和重新校準,在機械臂受損情況下仍可恢復90%以上精度。項目已在NASA海洋世界著陸器自主測試平臺完成驗證,為未來木星衛星探索任務提供技術支持。
英偉達宣布擴展智能AI模型產品線,推出RTX Pro 6000 Blackwell服務器版GPU,為企業提供高性能AI推理能力。公司發布兩款新推理模型Nemotron Nano 2和Llama Nemotron Super 1.5,用于構建更智能的AI代理。此外,英偉達還推出Cosmos Reason視覺語言模型,為機器人和物理AI提供視覺推理能力,使機器能夠像人類一樣思考和規劃行動。
計算機視覺初創公司Matrice.ai宣布完成種子輪戰略擴展融資,云基礎設施提供商Voltage Park領投。該公司開發的無代碼平臺可創建人工智能視覺模型,開發速度比傳統方法快40%,成本降低80%。該平臺采用數據驅動方法,提供自動化數據集標注工具,無需編程背景即可使用。目前已為數百個企業攝像頭提供服務,客戶遍及能源、零售和公共部門。
谷歌正在將其基于人工智能的圖片轉視頻技術推廣到更多應用程序中。這項技術能夠將靜態圖片轉換為動態視頻內容,利用先進的AI算法分析圖片內容并生成流暢的視頻效果。此舉標志著谷歌在AI視覺處理領域的進一步布局,預計將為用戶提供更豐富的多媒體創作體驗。
微軟在Windows 11中再次推出AI功能,包括爭議性Recall功能的后繼者Copilot Vision。該功能通過持續截屏并將數據發送至微軟服務器進行分析,旨在成為用戶的"真正伴侶"。同時,微軟還發布了基于本地語言模型Mu的代理AI,可代表用戶執行系統設置操作。此外,照片應用獲得AI重新打光功能,畫圖工具新增貼紙生成器等。微軟還推出搭載5G功能的新款Surface筆記本。
微軟推出了Copilot Vision AI新功能,該技術能夠掃描和分析用戶屏幕上的所有內容。這項AI視覺技術可以實時理解用戶正在查看的信息,包括文本、圖像和應用程序界面,為用戶提供更加智能化的交互體驗和個性化建議。此功能的推出標志著AI助手向更深層次的用戶體驗集成邁進。
英特爾旗下計算機視覺子公司RealSense宣布完成5000萬美元融資并從母公司分拆獨立運營。該輪融資由半導體私募股權公司領投,英特爾資本和聯發科創新基金參投。RealSense專注于深度感知和追蹤技術,其深度相機產品廣泛應用于機器人、無人機等設備,幫助它們感知和理解三維環境。公司深度相機已嵌入全球約60%的自主移動機器人和人形機器人中,擁有超過3000個全球客戶。
在人工智能與神經科學交叉領域的研究中,科學家正在探索自然發育的生物大腦與人工神經網絡之間的異同。如今,實驗室培養的生物類器官大腦為這一領域帶來了新的復雜性?茖W家使用干細胞培養出梨形大腦類器官,這些類器官甚至能夠自主生長出眼睛。研究人員通過探索視覺與智能的關系,以及大腦-眼部縮放關系,為人工智能研究提供啟發。
Dell技術團隊在構建筆記本電腦物理損傷識別模型時,遭遇了AI幻覺、垃圾圖像檢測和輸出不穩定等問題。項目從單體提示開始,嘗試了多模態方法,最終創新性地將智能體框架應用于圖像解釋任務。通過組合精確的智能體檢測、廣泛的單體掃描和針對性微調,構建了可靠的混合系統,顯著減少了幻覺問題并提高了檢測準確性。
特斯拉原定6月22日在奧斯汀推出"車內無人"的Robotaxi服務未能如期實現。公司宣布將采用限制性服務模式,配備特斯拉員工作為安全員。與傳統做法不同,安全員將坐在副駕駛座而非駕駛座,這一做法此前曾被俄羅斯Yandex公司采用。服務將限制在上午6點至午夜時段,僅對受邀乘客開放,避開復雜路段,惡劣天氣下暫停服務。業內普遍認為副駕駛配置主要為營造視覺效果,實際安全性不如傳統駕駛位配置。
Meta本周發布了名為V-JEPA 2的開源生成式AI模型,該模型能夠幫助人工智能理解重力和物體永恒性等物理概念。與依賴標記數據或視頻模擬現實的傳統模型不同,V-JEPA 2強調物理世界的邏輯,包括物體如何移動和相互作用。該模型可應用于自動駕駛汽車和機器人等設備,無需針對每種可能情況進行訓練,簡化了流程并提高了現實應用的效率。
本文介紹了 Posha 這款臺面機器人,其創始人 Raghav Gupta 希望解決親自烹飪家常菜所耗費時間的問題。Posha 使用計算機視覺技術,根據用戶選擇的菜譜和預先添加的食材自動完成烹飪,未來還將引入生成式 AI 優化菜譜生成,為忙碌的用戶節省大量廚房時間。
本文討論了AI如何革新航空航天業,從優化航班運營、提升駕駛艙智能化,到加速飛機設計、精益制造和預測性維護,既提高安全性又降低成本,同時強調需平衡技術、監管與倫理挑戰。
Google 在其年度云計算大會上推出了多項 AI 驅動的 Google Maps 新功能,旨在幫助企業和城市改善道路狀況、管理交通擁堵并了解當地趨勢。這些工具包括利用 AI 識別基礎設施、分析地理趨勢和管理道路交通等功能,有望為決策者提供更全面的數據支持,提高城市管理和商業決策的效率。