人工智能初創公司aiOla推出基于流匹配訓練技術的語音AI模型Drax,挑戰OpenAI和阿里巴巴等巨頭。該模型重新定義語音算法訓練方式,能在嘈雜環境中準確識別語音,兼顧速度與準確性。相比OpenAI的Whisper和阿里巴巴Qwen2,Drax采用并行流處理技術,速度提升32倍,詞錯誤率僅7.4%。該模型已在GitHub開源,提供三種規模版本。
Sandbar公司推出Stream Ring智能戒指,專為隨時記錄靈感而設計。用戶只需輕觸戒指并輕聲說話,即可將想法轉錄為筆記。該產品采用個性化數字語音技術,創造如自言自語般的體驗。不同于傳統AI助手,Stream Ring專注于認知擴展而非替代思考。產品配備全天候電池,支持私密范圍內的語音識別。銀色版售價249美元,金色版299美元,計劃2026年夏季發貨。
谷歌Gemini應用迎來重要更新,新增音頻文件處理功能。用戶現在可以直接在應用中上傳和處理各類音頻文件,這一功能擴展大大提升了Gemini的多媒體處理能力,為用戶提供更加全面的AI助手體驗。
時光壺公司發布了全新的翻譯耳機產品,這款耳機的最大特色是專為分享設計。用戶可以與他人共享使用,實現實時語言翻譯功能,打破語言溝通障礙。該產品采用先進的翻譯技術,支持多種語言互譯,為跨語言交流提供了便捷解決方案,特別適合旅行、商務會談等場景使用。
亞馬遜宣布收購AI可穿戴設備初創公司Bee,該公司開發了能記錄用戶所有對話的智能手環和Apple Watch應用。Bee產品售價49.99美元,通過監聽對話為用戶創建提醒和待辦事項。此次收購顯示亞馬遜對可穿戴AI設備的興趣,有別于其Echo音箱等家用語音助手產品。盡管Bee承諾保護用戶隱私,但此類產品仍存在安全和隱私風險,特別是在被整合到亞馬遜生態系統后。
語音AI解決方案提供商Krisp發布了VIVA語音隔離AI模型和軟件開發工具包,專為語音AI智能體設計。VIVA每月處理超過10億分鐘的語音音頻,能在20毫秒內處理音頻,將對話輪轉準確性提升3.5倍,減少50%的通話中斷。該工具可過濾背景噪音和笑聲,避免AI誤判,提升轉錄準確性和用戶體驗。
法國AI初創公司Mistral發布首個音頻模型家族Voxtral,旨在為企業提供真正可用的語音智能解決方案。該模型可轉錄30分鐘音頻,理解40分鐘內容,支持問答、摘要生成和語音命令執行。Voxtral支持英語、西班牙語、法語等8種語言,提供24B參數的Small版本和3B參數的Mini版本。定價從每分鐘0.001美元起,聲稱成本不到同類方案的一半。
傳統語音助手往往無法很好地服務于有語音障礙的用戶。通過深度學習和遷移學習技術,新一代對話AI系統能夠理解更廣泛的語音模式。這些系統不僅能識別非標準語音,還能基于用戶的語音樣本生成個性化合成語音,幫助用戶保持聲音身份。實時語音增強技術能夠改善發音、填補停頓,讓AI成為對話中的助手。對于企業而言,構建包容性AI不僅是道德責任,也是巨大的市場機遇。
Deepgram發布了名為Saga的AI語音操作系統,專為開發者設計。該工具作為通用語音界面直接嵌入開發環境,允許開發者僅通過語音控制工具和代碼。Saga集成了多種AI原生編碼環境,包括Cursor和Windsurf,還可維護Linear、Asana、Jira等項目管理軟件的狀態更新。開發者可通過語音表達想法,如"創建一個響應表情符號的Slack機器人",Saga會將其轉換為可執行的編程提示。該工具旨在減少開發者在工具間切換的"靜默稅收",提高開發效率。
谷歌在美國地區的iOS和Android應用中推出了AI搜索語音功能Search Live。用戶需在實驗室模式中開啟AI功能,即可通過語音與搜索進行對話交流。該功能基于定制版Gemini驅動,支持連續語音問答和文本轉換。谷歌稱這適合用戶在移動或多任務處理時使用。未來幾個月還將支持實時圖像識別和解答功能。不過此功能可能影響原始信息源網站的訪問流量。
Wispr 的 Flow 是一款創新的 iOS 語音輸入軟件,借助 AI 技術能將語音無縫轉換為精美文字,每周免費 2000 字,支持 100 多種語言,并能實現多設備同步。
BBC 的研發團隊致力于利用技術為公共利益服務,從內容真實性驗證、沉浸式媒體體驗到 AI 語音轉文字系統,實現跨行業創新,造福社會。
Spotify 的 AI DJ 允許付費用戶通過語音請求播放符合心情、藝術風格、流派或活動氛圍的歌曲。該功能由 OpenAI 實時生成語音,旨在融合個性化推薦與傳統電臺體驗,但初期版本僅支持英文請求。
Yelp 正在測試基于 AI 的語音代理,通過 OpenAI Realtime API 與企業數據整合,實現自動接聽電話、管理預訂、過濾垃圾信息和通話分析,疑難問題由人工跟進,助力客戶服務。
亞馬遜推出了一款名為 Nova Sonic 的 AI 語音模型,它不僅能理解語音內容,還能捕捉說話者的語氣、猶豫等細微變化。這個模型整合了語音識別、回復生成和語音合成功能,能夠實現更自然的對話交互。Nova Sonic 可以根據說話者的語氣調整回應,理解對話中的停頓,并能適當處理打斷等情況,從而提供更智能、更人性化的語音交互體驗。
aiOla 推出了一款名為 Jargonic 的新型自動語音識別模型,專為企業使用而設計。這個模型能夠處理專業術語、背景噪音和各種口音,無需大量再訓練或微調。Jargonic 采用獨特的關鍵詞識別系統,可以零樣本適應企業特定詞匯。在多項基準測試中,Jargonic 在準確性和專業術語識別方面都優于主要競爭對手。這款模型現已通過 API 向企業客戶開放使用。
Observe.AI 正式推出 VoiceAI 智能語音助手,旨在自動化處理呼叫中心的日常客戶交互。該解決方案集成了多項 AI 技術,包括語音識別、文本轉語音和專有 AI 模型,可無縫對接企業現有系統。通過提供擬人化的語音服務,既能提升客戶體驗,又能大幅降低運營成本,幫助企業打造智能化客服中心。
OpenAI 發布三款全新專有語音模型,包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。這些模型基于 GPT-4o 開發,提供更準確的轉錄和語音合成能力,支持 100 多種語言,可通過 API 集成到第三方應用中。新模型在英語轉錄準確率方面表現出色,錯誤率僅為 2.46%,并支持語音定制和情感表達。
據報道,人工智能初創公司 Anthropic 正在為其 AI 聊天機器人 Claude 開發語音功能。公司首席產品官表示,計劃推出允許用戶與 AI 模型對話的體驗。Anthropic 已進行內部原型開發,并與包括亞馬遜在內的多個合作伙伴討論,以加速語音功能的推出。這將使 Claude 的交互方式更加自然,為用戶提供新的使用模式。
ElevenLabs是一家剛剛完成1.8億美元融資的人工智能初創公司,主要以其音頻生成能力而聞名。該公司通過推出首個獨立的語音轉文本模型Scribe,邁出了另一個技術方向。該初創公司估值為33億美元,已幫助許多其他公司提供語音轉文本服務,利用其龐大的聲音庫。然而,該公司現在希望進入語音檢測領域,與Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型競爭。