久久久久久久久久一区二区,黄色国产小视频,久久99国产精品久久99

計算
- 服務器
- 數據中心
存儲
網絡與安全
軟件與服務
商用辦公
CIO與CTO
- 企業開源智庫
- 企業開源實踐聯盟通訊
數字化轉型
新基建
云資訊
人工智能
端側AI
AIPC
數據要素
- 區塊鏈
物聯網
資訊
- 行業資訊

語音識別關鍵字列表

aiOla發布Drax模型，在噪音環境中實現可靠的AI語音識別

人工智能初創公司aiOla推出基于流匹配訓練技術的語音AI模型Drax，挑戰OpenAI和阿里巴巴等巨頭。該模型重新定義語音算法訓練方式，能在嘈雜環境中準確識別語音，兼顧速度與準確性。相比OpenAI的Whisper和阿里巴巴Qwen2，Drax采用并行流處理技術，速度提升32倍，詞錯誤率僅7.4%。該模型已在GitHub開源，提供三種規模版本。

Stream Ring：這枚智能戒指能悄悄記錄你的想法

Sandbar公司推出Stream Ring智能戒指，專為隨時記錄靈感而設計。用戶只需輕觸戒指并輕聲說話，即可將想法轉錄為筆記。該產品采用個性化數字語音技術，創造如自言自語般的體驗。不同于傳統AI助手，Stream Ring專注于認知擴展而非替代思考。產品配備全天候電池，支持私密范圍內的語音識別。銀色版售價249美元，金色版299美元，計劃2026年夏季發貨。

Gemini應用程序終于擴展至音頻文件支持

谷歌Gemini應用迎來重要更新，新增音頻文件處理功能。用戶現在可以直接在應用中上傳和處理各類音頻文件，這一功能擴展大大提升了Gemini的多媒體處理能力，為用戶提供更加全面的AI助手體驗。

Timekettle共享翻譯耳機正式發布

時光壺公司發布了全新的翻譯耳機產品，這款耳機的最大特色是專為分享設計。用戶可以與他人共享使用，實現實時語言翻譯功能，打破語言溝通障礙。該產品采用先進的翻譯技術，支持多種語言互譯，為跨語言交流提供了便捷解決方案，特別適合旅行、商務會談等場景使用。

亞馬遜收購AI可穿戴設備Bee，實現全天候語音記錄

亞馬遜宣布收購AI可穿戴設備初創公司Bee，該公司開發了能記錄用戶所有對話的智能手環和Apple Watch應用。Bee產品售價49.99美元，通過監聽對話為用戶創建提醒和待辦事項。此次收購顯示亞馬遜對可穿戴AI設備的興趣，有別于其Echo音箱等家用語音助手產品。盡管Bee承諾保護用戶隱私，但此類產品仍存在安全和隱私風險，特別是在被整合到亞馬遜生態系統后。

Krisp推出VIVA開發工具包提升語音智能體精準度

語音AI解決方案提供商Krisp發布了VIVA語音隔離AI模型和軟件開發工具包，專為語音AI智能體設計。VIVA每月處理超過10億分鐘的語音音頻，能在20毫秒內處理音頻，將對話輪轉準確性提升3.5倍，減少50%的通話中斷。該工具可過濾背景噪音和笑聲，避免AI誤判，提升轉錄準確性和用戶體驗。

Mistral發布首個開源AI音頻模型Voxtral

法國AI初創公司Mistral發布首個音頻模型家族Voxtral，旨在為企業提供真正可用的語音智能解決方案。該模型可轉錄30分鐘音頻，理解40分鐘內容，支持問答、摘要生成和語音命令執行。Voxtral支持英語、西班牙語、法語等8種語言，提供24B參數的Small版本和3B參數的Mini版本。定價從每分鐘0.001美元起，聲稱成本不到同類方案的一半。

打造能傾聽所有人的語音AI：遷移學習與合成語音的實踐應用

傳統語音助手往往無法很好地服務于有語音障礙的用戶。通過深度學習和遷移學習技術，新一代對話AI系統能夠理解更廣泛的語音模式。這些系統不僅能識別非標準語音，還能基于用戶的語音樣本生成個性化合成語音，幫助用戶保持聲音身份。實時語音增強技術能夠改善發音、填補停頓，讓AI成為對話中的助手。對于企業而言，構建包容性AI不僅是道德責任，也是巨大的市場機遇。

Deepgram發布了名為Saga的AI語音操作系統，專為開發者設計。該工具作為通用語音界面直接嵌入開發環境，允許開發者僅通過語音控制工具和代碼。Saga集成了多種AI原生編碼環境，包括Cursor和Windsurf，還可維護Linear、Asana、Jira等項目管理軟件的狀態更新。開發者可通過語音表達想法，如"創建一個響應表情符號的Slack機器人"，Saga會將其轉換為可執行的編程提示。該工具旨在減少開發者在工具間切換的"靜默稅收"，提高開發效率。

人工智能

語音識別

定制化模型

2025-06-19

谷歌AI搜索實時語音功能正式上線

谷歌在美國地區的iOS和Android應用中推出了AI搜索語音功能Search Live。用戶需在實驗室模式中開啟AI功能，即可通過語音與搜索進行對話交流。該功能基于定制版Gemini驅動，支持連續語音問答和文本轉換。谷歌稱這適合用戶在移動或多任務處理時使用。未來幾個月還將支持實時圖像識別和解答功能。不過此功能可能影響原始信息源網站的訪問流量。

人工智能

語音識別

新型算法

2025-06-09

Wispr 的 Flow 語音轉寫軟件現已可在 iPhone 上使用

Wispr 的 Flow 是一款創新的 iOS 語音輸入軟件，借助 AI 技術能將語音無縫轉換為精美文字，每周免費 2000 字，支持 100 多種語言，并能實現多設備同步。

人工智能

語音識別

內容驗證

2025-05-21

BBC內部訪談：驅動技術創新在BBC

BBC 的研發團隊致力于利用技術為公共利益服務，從內容真實性驗證、沉浸式媒體體驗到 AI 語音轉文字系統，實現跨行業創新，造福社會。

人工智能

語音識別

即時生成

2025-05-16

Spotify 的 AI DJ 現已支持點歌

Spotify 的 AI DJ 允許付費用戶通過語音請求播放符合心情、藝術風格、流派或活動氛圍的歌曲。該功能由 OpenAI 實時生成語音，旨在融合個性化推薦與傳統電臺體驗，但初期版本僅支持英文請求。

人工智能

語音識別

語音助手應用

2025-04-30

Yelp 推出針對餐廳及服務提供商的 AI 語音助手

Yelp 正在測試基于 AI 的語音代理，通過 OpenAI Realtime API 與企業數據整合，實現自動接聽電話、管理預訂、過濾垃圾信息和通話分析，疑難問題由人工跟進，助力客戶服務。

人工智能

語音識別

多模態交互

2025-04-11

Amazon Nova Sonic AI 不只是聽懂你說什么，還能理解你的語氣

亞馬遜推出了一款名為 Nova Sonic 的 AI 語音模型，它不僅能理解語音內容，還能捕捉說話者的語氣、猶豫等細微變化。這個模型整合了語音識別、回復生成和語音合成功能，能夠實現更自然的對話交互。Nova Sonic 可以根據說話者的語氣調整回應，理解對話中的停頓，并能適當處理打斷等情況，從而提供更智能、更人性化的語音交互體驗。

企業專用 AI 語音模型新秀：aiOla 推出 Jargonic，號稱在企業術語識別方面優于競品

人工智能

語音識別

零樣本學習

2025-04-01

企業專用 AI 語音模型新秀：aiOla 推出 Jargonic，號稱在企業術語識別方面優于競品

aiOla 推出了一款名為 Jargonic 的新型自動語音識別模型,專為企業使用而設計。這個模型能夠處理專業術語、背景噪音和各種口音,無需大量再訓練或微調。Jargonic 采用獨特的關鍵詞識別系統,可以零樣本適應企業特定詞匯。在多項基準測試中,Jargonic 在準確性和專業術語識別方面都優于主要競爭對手。這款模型現已通過 API 向企業客戶開放使用。

Observe 推出 VoiceAI 智能助手，通過擬人化語音實現客服中心自動化，避免打斷對話

人工智能

語音識別

自動化創新

2025-03-28

Observe 推出 VoiceAI 智能助手，通過擬人化語音實現客服中心自動化，避免打斷對話

Observe.AI 正式推出 VoiceAI 智能語音助手，旨在自動化處理呼叫中心的日常客戶交互。該解決方案集成了多項 AI 技術，包括語音識別、文本轉語音和專有 AI 模型，可無縫對接企業現有系統。通過提供擬人化的語音服務，既能提升客戶體驗，又能大幅降低運營成本，幫助企業打造智能化客服中心。

OpenAI 新推出的語音 AI 模型 gpt-4o-transcribe 讓你幾秒鐘內為現有文本應用添加語音功能

人工智能

語音識別

模型優化

2025-03-21

OpenAI 新推出的語音 AI 模型 gpt-4o-transcribe 讓你幾秒鐘內為現有文本應用添加語音功能

OpenAI 發布三款全新專有語音模型，包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。這些模型基于 GPT-4o 開發，提供更準確的轉錄和語音合成能力，支持 100 多種語言，可通過 API 集成到第三方應用中。新模型在英語轉錄準確率方面表現出色，錯誤率僅為 2.46%，并支持語音定制和情感表達。

人工智能

語音識別

用戶交互創新

2025-03-19

Anthropic 據報道正在為 Claude 準備語音模式

據報道，人工智能初創公司 Anthropic 正在為其 AI 聊天機器人 Claude 開發語音功能。公司首席產品官表示，計劃推出允許用戶與 AI 模型對話的體驗。Anthropic 已進行內部原型開發，并與包括亞馬遜在內的多個合作伙伴討論，以加速語音功能的推出。這將使 Claude 的交互方式更加自然，為用戶提供新的使用模式。

人工智能

語音識別

模型優化

2025-02-28

ElevenLabs 推出自研語音轉文本模型

ElevenLabs是一家剛剛完成1.8億美元融資的人工智能初創公司，主要以其音頻生成能力而聞名。該公司通過推出首個獨立的語音轉文本模型Scribe，邁出了另一個技術方向。該初創公司估值為33億美元，已幫助許多其他公司提供語音轉文本服務，利用其龐大的聲音庫。然而，該公司現在希望進入語音檢測領域，與Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型競爭。

白皮書

LinuxONE 客戶案例集錦
IBM 存儲客戶案例集錦
智能超融合基礎設施 - HPE SimpliVity 解決方案
借助 HPE GreenLake 提供本地云體驗解決方案
掌控全局 — 推動業務創新：適用于 HPE SimpliVity 的 HPE 主動式系統支持服務
實現居家辦公高效率解決方案
實現關鍵業務革新 - HPE Primera解決方案
搭配Nutanix的HPE GreenLake私有云解決方案
重新定義 HCI，助其更上一層樓
適用于 VDI 的 HPE GreenLake - 本地云服務解決方案

數字化轉型方略

電子競技瞬息萬變，Team Liquid的“數據+AI”制勝秘籍

中國移動呼和浩特數據中心：只有高效存力先行，AI才能跑出全力

從“支撐工具”到“智能中樞”，AI原生ERP進化

阿里要用AI將云計算重做一遍

關注官方公眾號

關注官方微博

關注官方喜馬拉雅

友情鏈接

業界熱點: