機器學習的突破性進展顛覆了傳統數據中心架構,AI模型訓練的計算需求持續增長。MLPerf訓練基準測試作為標準化框架應運而生,用于評估機器學習性能,幫助數據中心專業人員做出符合快速發展工作負載需求的基礎設施決策。該基準測試通過"訓練時間"這一核心指標,為不同系統提供公平比較標準。
Galileo 發布了 Agentic Evaluations 平臺,用于評估基于大語言模型的 AI 代理性能。該平臺提供全生命周期框架,支持系統級和步驟級評估,幫助開發者快速定位inefficiencies和錯誤。平臺使用專有的 LLM-as-a-Judge 指標,支持 LangGraph 和 CrewAI 框架,現已向所有 Galileo 用戶開放。