行到AI“降本”處,坐看“阿里云”起時
過去的很長一段時間里,AI在人們心中就像是天上的星星,它被賦予了遠遠超出其本身能力期待,人人都以為萬物智能的時代觸手可及。現在,企業開始更加理性地看待AI和數據的能力。
在晴朗天空的夜晚,抬起頭,我們總能看到點點星辰掛在幽暗的天空中。伸出手,就好像能抓住一捧閃亮的星星。
過去的很長一段時間里,AI在人們心中就像是天上的星星,它被賦予了遠遠超出其本身能力期待,人人都以為萬物智能的時代觸手可及。
然而,現實在美麗的星空前遮上了厚厚的烏云——自2020年下半年以來,芯片缺貨成了全球科技行業頭上的一把達摩克里斯之劍。AI產業鏈也由于缺貨造成了不同程度的產品價格上漲。再加上AI從研發到落地部署都需要巨額成本的投入,且大量的算法在應用落地上并不順利。疫情之下,企業也逐步理性地看待AI和數據的能力。
企業在面對AI上,已經開始追求更加務實的效益目標。阿里云智能AI產品總監黃博遠認為,相比過去對規模效益的追求,企業更注重于 AI能為實際業務帶來的成果和轉化,更加關注計算效率和資源成本,這也促進了優化技術在市場上的廣泛應用。
阿里云智能AI產品總監黃博遠
如何降本增效,成為企業在面對AI時最關注的問題。
AI成本從何而來?
隨著云計算、異構計算、融合智算的發展,計算結合AI與大數據,開始展現更加強大的能力。為了提高深度學習模型的性能,科學家就需要構建更大的模型,使用更多的數據對其進行訓練,這其中的成本是大多數人無法想象的。在黃博遠看來,具體體現在以下三個方面。
首先是資源成本。硬件,尤其是異構計算、高性能網絡和高吞吐的存儲,價格非常昂貴,如果軟硬件配合不好,會造成大量的浪費。馬薩諸塞大學阿默斯特分校的研究人員通過測量訓練過程中常用硬件的功耗,估算了開發人工智能語言模型的能源成本。他們發現,訓練一次 BERT 的碳足跡相當于一名乘客在紐約和舊金山之間飛一個來回。
機器學習智庫OpenAI斥資400多萬美元,設計并訓練了深度學習語言系統GPT-3。盡管研究人員在操作中犯了一個錯誤,但他們并沒有修復它,僅僅在論文附錄中簡要解釋道:“由于高昂的訓練成本,對模型重新訓練是不現實的。”
第二是人才成本。現在越來越多的傳統行業開始利用AI解決其實際問題,這個過程需要大量的復合型人才,既懂技術,又懂業務。這就需要通過技術、產品能力提升這些人才創造業務價值的效率,阿里云靈杰提供的大數據AI一體化平臺就是解決人員效率的利器。
第三是知識成本。人才不僅僅是一個簡單的成本問題,企業在難以找到適配人才的情況下需要提升培養人才的效率,讓人員快速掌握跨領域知識,讓非專業人員變得更專業。例如,通過機器學習PAI平臺,可以讓普通的AI工程師利用優化框架,寫出更高效的多機多卡并行訓練任務,提高效率的同時減少試錯。
顯然,AI的成本問題,算力是癥結之一,也是破局突破口。通過算力集群的規模化,降低單位算力成本,是一條清晰的、具有一定可行性的道路。
可以說云計算通過彈性及優化能力,真正做到資源招之即來、揮之即去、高效利用,大大地解決了AI算力成本的問題。
云計算扮演了什么角色?
云計算見證了互聯網行業的高速發展和迭代,如今“高質量上云”的趨勢,將為互聯網行業帶來二次騰飛的資源紅利、數據紅利以及管理紅利的增長新動能。
云計算本身提供了一種極致的彈性,能夠大幅提升大家使用資源的性價比。同時,云服務提供了涵蓋了從軟件、網絡、存儲優化,到框架、平臺軟件等一整套端到端的協同優化能力。企業可以借助云計算隨時隨地按需靈活擴縮容,進而提升算力效率、降低AI研發成本,基礎設施及平臺層的運維等問題也可以交由更專業的云廠商處理。
這讓企業在AI領域模型越演進越復雜,算力需求越來越強的大背景下,可以揚長避短,充分利用市場上已有的技術紅利去自我賦能,提升自身業務迭代效率。
以阿里云為代表的國內互聯網云廠商,早已提前布局,并將這一系列技術對外服務。
據黃博遠介紹,AI是阿里云最為重要核心投入領域之一。早在2021杭州云棲大會上阿里云計算平臺就發布大數據+AI一體化平臺新品牌“阿里靈杰”,提供從“采集-存儲-分析-開發-訓練-推理-服務-治理-價值體現”整套云原生技術架構和產品體系,配套智能化運維平臺和強大的數據資產安全管控能力。
依托阿里云領先的基礎設施、大數據和AI工程能力、場景算法技術和多年行業實踐,一站式地為企業和開發者提供云原生的AI能力體系。幫助提升AI應用開發效率,促進AI在產業中規模化落地,激發業務價值。
黃博遠認為,大數據+AI是核心技術創新的土壤,是鏈接客戶業務與云基礎設施核心技術能力的橋梁,是為客戶創造場景化業務價值驅動力。從AI的基礎設施,到底層框架、開發平臺、上層應用以及開放生態等幾個角度,阿里云以及達摩院都在持續加大對AI的投入。
撥開烏云,見阿里云
AI計算是一個非常復雜的工程問題,會涉及到異構硬件(最熟悉的就是GPU)、網絡、存儲,再到框架以及上層的算法。阿里云最新發布的全棧智能計算解決方案飛天智算平臺提供公共云和專有云兩種模式,為各類科研和智能企業機構提供強大的智能計算服務。據黃博遠介紹,飛天智算平臺重點從三個層面解決企業各種使用AI過程匯總的問題。
首先,飛天智算平臺提供了軟硬一體聯合優化的能力。通過軟硬一體,將計算、網絡、I/O訪問結合AI Framework的特點、機器學習/深度學習的計算特點,進行聯合優化,大幅提升AI分布式訓練以及推理的性能/性價比。而性價比則決定了AI被廣泛使用門檻,規模和性價比相輔相成、缺一不可。
其次,飛天智算平臺提供了大數據、AI一體化平臺。平臺能夠大幅提升產業鏈上各種參與人員的工作效率。“人才往往是比機器資源本身更加昂貴的資源。”黃博遠表示。
第三,飛天智算平臺提供了大量上層AI服務。在AI應用的過程中,有著大量的開發人員,他們的核心訴求是使用某一項或某幾項AI能力,對于這些能力本身是如何構建的,他們并不關心。阿里云依托阿里巴巴集團的眾多業務、達摩院的核心算法能力以及作為云計算領域的領導者在眾多行業中積累的經驗和最佳實踐,為廣大的用戶提供了一些列經過生產實踐考驗的AI能力,助力企業快速、高效使用AI能力。
此外,AI的部署不僅僅是簡單的硬件成本,發布、運維、監控、穩定性等都會給企業帶來更大的無形成本。通過機器學習PAI平臺提供的EAS(彈性算法服務),企業可以一鍵將模型發布成在線服務,同時利用平臺,輕松使用藍綠部署、線上監控、反饋評估等能力。
阿里云提供了涵蓋基礎設施、平臺、服務等全方位的AI相關服務,助力企業的數字化、數據化及智能化轉型。除了標準的產品、服務之外,阿里云還提供了豐富的最佳實踐。
在零售行業、金融行業、數字政府、企業數據中臺、AI中臺等各類場景中,阿里云都提供了豐富的實踐案例。例如,小鵬汽車與阿里云合作,在烏蘭察布建成中國最大的自動駕駛智算中心“扶搖”,用于自動駕駛模型訓練。“扶搖”基于阿里云智能計算平臺,算力可達600PFLOPS(每秒浮點運算60億億次),將小鵬自動駕駛核心模型的訓練速度提升了近170倍。
面向未來,黃博遠表示,綠色、低碳發展,將促進AI平臺全面提升效率。不論是在大規模計算、大模型生成、模型推理服務還是生態協作方面,全面提升算力的利用效率、框架的優化效率、數據使用效率,以及從業者的開發與學習效率,都將成為AI降本增效,長期發展的重要驅動力。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內容,請掃描下方二維碼
