自動駕駛的「數據引擎」,該如何“降本”、“增效”和“精準化”?
未來針對真正落地之前的特定場景的增效百分比,合成數據能夠達到80%,甚至更高。
80%的數據+20%的模型=更好的AI。
這是人工智能領域知名學者吳恩達在他45歲生日當天提出的人工智能領域的“二八定律”,他說“讓我們的工作從以模型為中心轉向以數據為中心,將對很多(人工智能)團隊大有裨益。”
在過往十幾年人工智能產業高速發展過程中,算法模型研發的重要性被空前放大,互聯網大廠更是動輒為算法工程師開出百萬年薪,這讓本就默默無聞的數據一度沒什么光環。
實際上,時下主流AI算法要以數據驅動仍是一個不爭的事實,在人工智能產業中,數據收集、數據處理仍是關鍵的前置環節,而支撐這些前置環節的是一個龐大的數據服務產業。
澳鵬就是這樣一家數據服務供應商,澳鵬Appen(中國)產品及研發總監錢程告訴至頂網,“隨著近年來人工智能工業化和工程化成為趨勢,企業對定制化、復雜性的數據需求度越來越高,而對于一些商業化落地比較好的公司,他們需要的數據量也在成倍增長。”
數據成本的增加,也就成了企業加載人工智能引擎時無可回避的一個問題。
高質量數據為什么是自動駕駛的關鍵
自動駕駛是當下商業化落地比較好的一個應用場景,也是澳鵬一個核心業務場景,自動駕駛涉及的數據服務按場景劃分又可以劃分為兩大類——艙內數據、艙外數據。
澳鵬Appen(中國)高級客戶經理張先雄告訴至頂網,“2016年-2020年,我們拿到的絕大部分數據服務訂單是以車內場景為主,車內場景主要涉及的是人車交互(TTS合成、語音識別)和車內人的輿情監控(人的情緒識別、是否安全駕駛的識別),相比起車外場景,車內場景相對簡單,能到千萬級別的項目很少。”
不過,隨著自動駕駛進程提速,尤其是在自動駕駛道路測試牌照陸續發放后,自動駕駛廠商紛紛開始向L3及以上的自動駕駛技術沖刺,這時,自動駕駛廠商對艙外數據服務的需求也與日俱增。這樣的需求變化既有數據需求量的增長,也有更復雜的數據類型的變化。
從數據量來看,艙內數據需求量基本在億幀以下,而艙外數據需求量都在億幀以上,甚至會達到幾十億幀的規模;從數據類型來看,艙外的數據類型既有攝像頭拍攝的圖像數據,也有激光雷達3D點云數據,數據標注起來更為復雜。
以艙外為主的數據標注服務的不斷涌現,也使得數據成本急劇上升。
身在潮流中的澳鵬自然也感受到了這樣的變化,據張先雄透露,“從2020年左右,L3及以上的自動駕駛研發,越來越受市場關注,我們能看到一些重投入客戶一年會拿出幾個億的預算來做數據標注,少一點的也在千萬級別。”
僅僅是每年在數據標注上的投入,就已經相當于不少中小型企業的年營收,這也使得提起人工智能時,不少中小體量企業會望而卻步。
對于企業而言,如何低成本獲取高質量數據就成了他們在這個時代的剛需。
數據如何降本、增效、精準化
作為一家成立于1996年的數據服務公司,澳鵬在數據服務領域已經深耕多年,根據澳鵬最新發布的《人工智能和機器學習全景報告》調查數據顯示,42%的技術專家表示, AI生命周期中的數據獲取階段很有挑戰性。這樣的挑戰同樣存在于自動駕駛領域。
錢程告訴至頂網,AI在自動駕駛項目中部署產生的成本主要來自兩方面,一方面是硬件成本,另一方面則是人力成本。人力成本主要集中在數據服務上,這其中既有平臺建設上的人力投入,也有數據采集、數據標注上的人力投入。
以特斯拉為例,特斯拉現在已經建立起千人規模的數據標注團隊,搭建了一套用于數據標注的軟件平臺,針對數據標注的軟件平臺,特斯拉還有一個完整的開發維護團隊。
實際上,除了自建數據服務團隊外,不少車廠也在與數據服務商合作,以此降低人力成本。張先雄告訴至頂網,“國內不少整車廠、汽車解決方案廠商,以及造車新勢力都在使用我們的數據服務,自動駕駛領域的營收也已經占到我們公司整體營收的較大比重。”
以澳鵬與某自動駕駛廠商艙外合作項目為例,張先雄透露,“項目推進過程中受到數據采集流轉集中度影響其實存在波峰波谷,在項目推進波峰期,有時一次會傳回幾億幀,甚至幾十億幀的圖像數據,對這些數據進行清洗、標注的團隊投入就要達到5000-10000人,即便是在波谷期也要一兩千人團隊做服務支持。”
目前,澳鵬在全球擁有超過100萬名技能嫻熟的眾包資源,支持235+種語言和方言,遍布170+個國家和70000個地區,在中國擁有超過千余名全職員工、1000+BPO資源、數萬名高質量本土眾包人員,擁有專業的評估和項目團隊全程跟進試標、采集、標注、質檢、驗收和交付流程。
除了通過與數據服務商合作以降低人工智能落地成本外,在澳鵬內部,也在通過搭建搭建數據標注平臺來提效降本。
2019年,在人工智能高速發展這一年,澳鵬搭建了人工智能數據標注平臺,錢程告訴至頂網,“平臺帶來的效率提升是最直接的,也是最容易被客戶忽略的。”
實際上,平臺開發最難的不是前期幾百萬、幾千萬成本的投入,而是搭建團隊有多少項目經驗,團隊見到過多少數據類型、看到過多少不同細分場景的數據邏輯和規則,“只有經歷過多個項目、不同場景實戰經驗,才能打造出一個高效的數據標注平臺。”
據錢程介紹稱,澳鵬MatrixGo數據標注平臺可以兩部分能力:
第一,項目管理功能,在一個實際項目中,整個數據標注過程可以分為初始標注、多輪質檢,以及最后的數據驗收,整個過程還存在數據打回、數據鎖定、數據釋放等環節,例如在質檢環節通過的標注數據,沒能通過最終驗收,還會打回重新進行數據標注。MatrixGo平臺針對這樣的場景可以構建靈活的工作流,整個工作過程可以自定義配置。
第二,數據標注工具,針對文本、圖像、視頻、音頻、3D點云等各類數據,MatrixGo平臺構建了一整套數據標注工具,澳鵬團隊在項目中也在使用這些工具,在這些項目中不斷打磨這些工具。
這樣一套平臺既可以作為軟件直接提供給需要數據服務的廠商使用,也可以進行私有化部署,錢程告訴至頂網,”澳鵬正是通過這套平臺推動數據降本,服務提效的。“
除了通過降低人力成本、平臺成本,澳鵬還在合成數據上進行了重點布局,而合成數據,有可能成為未來數據降本的一個利器。
合成數據新趨勢
2022年3月,澳鵬以200萬英鎊收購了合成數據公司Mindtech Global的少數股權。與此同時,合成數據也正在成為行業的一個焦點。
“人工智能在實際落地之前通常針對特定場景需要做一些優化,這個時候會需要大量針對特定場景的數據作為AI算法模型的訓練數據,如果僅僅依靠現場采集,針對一些特殊場景,無法采集到足夠的訓練數據,這時合成數據就是一個很好的選擇。”
不過,這里也存在一個人工智能技術發展成熟度的問題,由于自動駕駛針對艙外數據需求還普遍停留在優化普通場景的階段,對合成數據的需求度并不高,澳鵬在合成數據領域的布局也還未真正來到產業落地關口,不過張先雄相信,“未來合成數據一定會變得越來越重要。”
而當談到合成數據對人工智能降本的推動作用,張先雄告訴至頂網,“未來針對真正落地之前的特定場景的增效百分比,合成數據能夠達到80%,甚至更高。”
本文章選自《AI啟示錄》雜志,閱讀更多雜志內容,請掃描下方二維碼

