Goodfire.ai研究人員首次發現AI語言模型中記憶和推理功能通過完全獨立的神經通路運作。研究顯示,移除記憶通路后,模型喪失97%的訓練數據復述能力,但邏輯推理能力幾乎完全保留。令人意外的是,算術運算與記憶共享神經通路而非推理通路,這可能解釋了AI模型在數學方面的困難。該技術未來有望用于移除版權內容或敏感信息而不損害模型核心功能。
人工通用智能和超級人工智能的出現,可能會創造出一種全新的外星智能形態。傳統AI基于人類智能模式構建,但AGI和ASI一旦存在,可能會選擇創造完全不同于人類認知方式的新型智能。這種外星人工智能既可能帶來突破性進展,如找到癌癥治愈方法,也可能存在未知風險。目前尚不確定這種新智能形態是否會超越人類智能,以及我們是否應該追求這一可能改變人類命運的技術突破。
一項新研究揭示,OpenAI 可能在未經許可的情況下使用 O'Reilly 出版社的版權保護書籍來訓練其 GPT-4o 模型。這引發了對 AI 公司使用版權材料的爭議,以及對內容創作者公平補償的擔憂。研究還警告,如果不解決這個問題,可能導致互聯網內容質量和多樣性的下降。
Google 推出名為 Titans 的新型 AI 架構,是 Transformer 的直接進化版。Titans 引入了神經長期記憶、短期記憶和基于驚喜的學習系統,使 AI 更接近人類思維方式。這一突破性技術有望徹底改變 AI 范式,推動機器智能向人類認知邁進一大步。
Cognizant 推出了神經 AI 多代理加速器和服務套件,旨在幫助企業快速開發和部署 AI 代理。該技術通過預構建的代理網絡模板和無代碼框架,實現了跨職能的可擴展性和自主決策能力。這一創新有望推動 AI 代理在企業工作流程中的廣泛應用,促進人機協作,提升業務效率和適應性。
伊利亞因2014年與Oriol Vinyals、Quoc Le共同撰寫的“神經網絡的序列到序列學習”論文,獲得了NeurIPS 2024時間檢驗獎。該論文引入的編碼器-解碼器架構,使用多層長短期記憶網絡(LSTM)將輸入序列映射到固定維度的向量,再從向量解碼目標序列,極大地拓展了自然語言處理的邊界,為序列到序列的任務提供了一種高效的方法,是自然語言處理及機器學習領域的重要基石。
大語言模型并不是簡單的詞匯預測機器,這些模型實際上具有理解它們所生成內容的能力。如果大語言模型只是簡單地基于統計概率來預測下一個詞匯,那么它們不可能在處理復雜問題時表現出色。
利用神經網絡來表示復雜的思想,神經網絡能夠捕捉和學習數據中的復雜模式,從而在各種預測任務中表現出色,這種預測能力是智能的一個主要技能,也是人類作為物種的一個顯著特點。
Nvidia今天推出了新版本的NeMo Megatron AI開發工具,該工具將讓軟件團隊能夠更快地訓練神經網絡。
Meta Platforms今天開放了NLLB-200的系統代碼,NLLB-200是Meta內部開發的一個人工智能系統,可以翻譯200種語言的文本。
通常我們訓練神經網絡模型的時候默認使用的數據類型為單精度FP32。近年來,為了加快訓練時間、減少網絡訓練時候所占用的內存,并且保存訓練出來的模型精度持平的條件下,業界提出越來越多的混合精度訓練的方法。
麻省理工學院的研究人員表示,他們已經開發出了一種能夠在不到一秒鐘內處理磁共振圖像的算法,這對于醫療行業來說將是一項至關重要的進展。