數(shù)據(jù)基礎(chǔ)設(shè)施正經(jīng)歷數(shù)十年來(lái)最重大變革。生成式AI和異構(gòu)加速計(jì)算環(huán)境的興起,正在重塑現(xiàn)代數(shù)據(jù)棧的核心需求。傳統(tǒng)基準(zhǔn)測(cè)試如TPC-DS已無(wú)法準(zhǔn)確評(píng)估GPU、TPU等多樣化硬件的真實(shí)性能。硬件廠商的規(guī)格參數(shù)往往與實(shí)際工作負(fù)載表現(xiàn)存在差距,導(dǎo)致數(shù)據(jù)中心運(yùn)營(yíng)商難以做出正確的基礎(chǔ)設(shè)施決策。行業(yè)亟需建立新的系統(tǒng)級(jí)基準(zhǔn)測(cè)試標(biāo)準(zhǔn),涵蓋ETL、商業(yè)智能和生成式AI等多種工作負(fù)載,為異構(gòu)計(jì)算環(huán)境提供準(zhǔn)確的性能評(píng)估。
波蘭研究團(tuán)隊(duì)開(kāi)發(fā)ORCA數(shù)學(xué)基準(zhǔn)測(cè)試,對(duì)五個(gè)主流大語(yǔ)言模型進(jìn)行評(píng)估。結(jié)果顯示ChatGPT-5、Gemini 2.5 Flash、Claude Sonnet 4.5、Grok 4和DeepSeek V3.2的準(zhǔn)確率均低于63%。測(cè)試涵蓋生物化學(xué)、工程建筑、金融經(jīng)濟(jì)等七個(gè)領(lǐng)域的500道數(shù)學(xué)題目。研究發(fā)現(xiàn)模型主要在四舍五入和計(jì)算錯(cuò)誤方面存在問(wèn)題,表明自然語(yǔ)言推理進(jìn)步并未直接轉(zhuǎn)化為可靠的計(jì)算能力。
Laude研究所周四宣布首批Slingshots資助計(jì)劃,旨在推進(jìn)人工智能科學(xué)與實(shí)踐發(fā)展。該加速器項(xiàng)目為研究人員提供學(xué)術(shù)環(huán)境中難以獲得的資源支持,包括資金、算力和產(chǎn)品工程支持。首批15個(gè)項(xiàng)目重點(diǎn)關(guān)注AI評(píng)估難題,包括命令行編程基準(zhǔn)Terminal Bench和ARC-AGI項(xiàng)目最新版本。其他項(xiàng)目涵蓋代碼優(yōu)化評(píng)估、白領(lǐng)AI代理基準(zhǔn)測(cè)試等創(chuàng)新方向。
Salesforce AI研究團(tuán)隊(duì)開(kāi)發(fā)了開(kāi)源基準(zhǔn)測(cè)試MCP-Universe,用于評(píng)估大語(yǔ)言模型在真實(shí)世界中與MCP服務(wù)器的交互能力。測(cè)試涵蓋位置導(dǎo)航、代碼庫(kù)管理、金融分析等六個(gè)企業(yè)核心領(lǐng)域的231項(xiàng)任務(wù)。結(jié)果顯示,即使是OpenAI最新發(fā)布的GPT-5等頂級(jí)模型,在處理企業(yè)級(jí)真實(shí)場(chǎng)景任務(wù)時(shí)仍面臨挑戰(zhàn),超過(guò)一半的企業(yè)典型任務(wù)無(wú)法成功完成,特別是在長(zhǎng)上下文和未知工具使用方面表現(xiàn)不佳。
Lightbits聲稱(chēng)在使用超微服務(wù)器硬件的基準(zhǔn)測(cè)試中,為容器化事務(wù)處理展示了最快的共享塊存儲(chǔ)性能。測(cè)試配置采用AMD EPYC 9575F處理器和8塊三星NVMe SSD,實(shí)現(xiàn)了360萬(wàn)4K隨機(jī)讀IOPS、160萬(wàn)4K隨機(jī)寫(xiě)IOPS等優(yōu)異成績(jī)。雙方發(fā)布的Kubernetes參考架構(gòu)結(jié)合了Lightbits的NVMe/TCP存儲(chǔ)技術(shù),為金融交易、實(shí)時(shí)分析、AI訓(xùn)練等高性能應(yīng)用提供解決方案。
獨(dú)立測(cè)試顯示,OpenAI 的 o3 模型得分約 10%,遠(yuǎn)低于內(nèi)部報(bào)告的25%上限。公開(kāi)版與內(nèi)測(cè)版存在差異,后續(xù)版本預(yù)計(jì)將更加強(qiáng)大,提醒業(yè)界對(duì) AI 基準(zhǔn)測(cè)試結(jié)果保持謹(jǐn)慎。
WEKA 在 SPECstorage Solution 2020 基準(zhǔn)測(cè)試的五個(gè)工作負(fù)載場(chǎng)景中全面領(lǐng)先,采用 HPE PCIe Gen 5 硬件實(shí)現(xiàn)卓越性能。此次測(cè)試涵蓋 AI 圖像處理、電子設(shè)計(jì)自動(dòng)化等多個(gè)領(lǐng)域,WEKA 不僅提高了處理速度,還顯著降低了延遲,展現(xiàn)了其在存儲(chǔ)解決方案領(lǐng)域的領(lǐng)先地位。
在人工智能和高性能計(jì)算領(lǐng)域,GPU 扮演著至關(guān)重要的角色。作為 GPU 領(lǐng)域的領(lǐng)導(dǎo)者,NVIDIA 推出的 H100 和 A100 兩款產(chǎn)品備受矚目。H100 作為 A100 的繼任者,在架構(gòu)、性能和功能上都進(jìn)行了顯著的提升。本文將深入剖析這兩款 GPU 的技術(shù)細(xì)節(jié)、性能差異以及應(yīng)用場(chǎng)景,幫助讀者全面了解 H100 和 A100,從而在實(shí)際應(yīng)用中做出明智的選擇。
與大模型推理測(cè)試結(jié)果直接相關(guān)的,就是GPU的型號(hào)和數(shù)量。除此之外,我們還能看到更多信息,比如使用的服務(wù)器型號(hào)、CPU,以及軟件平臺(tái)環(huán)境等。參考上面截圖,實(shí)際上NVIDIA GPU在Llama-2-70b測(cè)試中基本都是用CUDA+TensorRT;而AMD則是ROCm+PyTorch+vLLM。