螞蟻數科隱私增強型數據協作平臺(FAIR)在數據要素領域的應用——螞蟻區塊鏈科技(上海)有限公司
案例基本內容和執行情況
螞蟻區塊鏈科技(上海)有限公司(以下簡稱螞蟻數科)圍繞數據要素為核心,融合隱私計算、區塊鏈、大數據、可驗證計算等技術推出隱私協作平臺(簡稱FAIR平臺),實現面向數據開放與數據基建的隱私增強型數據計算樞紐,并在監管、營銷、風控、民生等多個垂直領域的落地使用,推動了隱私安全、可信的數據共享及價值流轉。
平臺全面建設并實踐了隱私保護模式下的數據查詢,統計分析,聯合建模等能力,并融合軟硬結合技術實現特定算法的高性能硬件加速。支持快速對接現有數據源,提供資源友好的可配置輕量化底座,在多個場景實踐中展示出大規模數據下生產級可用的標準。例如在風控的使用場景中,可以在保護數據隱私的前提下實現聯合建模,可在2分鐘完成10萬樣本100棵樹的XGB建模,產出模型精度相比單方建模精度提升30%以上,極大提升了風控識別準確率,降低了運營成本。
案例主要經濟成效和社會成效分析
2021年12月,我國首次提出“十四五”數字經濟發展規劃,其中明確指出“(數字經濟)是以數據資源為關鍵要素...的新經濟形態。”。同時我們也看到數據要素在輔助企業進行智能化分析與決策等方面發揮著重要的作用,但在綜合運用多方數據產生更大乘法效應的階段,卻面臨數據共享存在隱私安全風險、數據持續流通存在可信挑戰的問題。螞蟻數科基于這一背景,綜合隱私計算、區塊鏈、大數據、可驗證計算等技術推出隱私協作平臺FAIR,實現面向數據開放與數據基建的隱私增強型數據計算樞紐,并賦能落地了監管、營銷、風控、民生等多個垂直領域。FAIR產品每年銷售收入數千萬元并實現了穩步、高質量增長,除此之外,作為一款面向企業的隱私增強型數據平臺產品,通過其密態分析與密態機器學習能力,在企業提升生產效率、降低運營成本、提升公共服務水平等方面帶來了諸多實際落地成果。后續將以幾個典型落地案例分別闡述這幾個方面的提升。
在信貸風控場景的案例中,通過FAIR平臺的高精度密態機器學習能力,提升了客戶風控能力,降低運營成本。客戶為某汽車金融廠商,通過機器學習模型進行信貸授信、反欺詐等風險防控。但其風險標簽一般來自人工認定,往往數據量較少,且汽車廠商的用戶畫像特征數據維度偏少,訓練后的機器學習模型精度不高,影響了風控質量。客戶利用FAIR平臺的密態機器學習算法,聯合合作方提供的消費、交易、金融偏好等特征數據,充分融合多參與方、多維度的數據形成聯合訓練數據,在隱私保護多方數據的前提下進行聯合建模,產出的模型精度提升30%以上。FAIR密態機器學習能力具備常見特征工程、建模、推理與評估能力,同時針對風控領域常見的樣本不均衡等問題進行了針對性優化,最終可以在2分鐘內完成10萬級樣本百棵樹XGB模型的訓練,1小時內完成數億樣本的模型推理,提升了密態機器學習效率,有效幫助客戶改善了風險防控能力,實現降本提效與高質量發展。
在公共服務的案例中,通過FAIR平臺的多方數據密態分析能力,幫助相關部門實現了多方數據安全核驗,提高了公共服務水平。客戶需要綜合社保、稅務等政務數據對企業數據進行交叉核驗,判斷其是否滿足特定政策。然而由于政務數據的敏感性,無法歸集到此部門進行調用,往年只能通過人工方式進行核驗。通過引入FAIR平臺的多方數據密態分析能力,在政務原始數據不出域的情況下實現聯合計算,核驗數據數千萬條,實現相關事項的智能核驗與秒批秒辦,高效服務企業超千家。
在醫學數據分析的案例中,通過FAIR平臺的密態數據計算能力,完成了跨地區多家醫院數據的聯合統計分析。特定疾病的發生率是支撐衛生政策的重要信息,一般可基于人口學信息、實驗室檢查檢驗信息、住院信息等,經特定規則運算分析得出。而綜合多家醫院的數據將極大提升準確率,并可通過FAIR平臺的數據脫敏與密態數據統計分析能力,解決多方數據交互過程中的隱私安全問題。FAIR平臺提供SQL化的數據分析接入界面,客戶通過構造SQL語句,就可以方便地完成多方數據的聯合查詢、統計分析、統計分布和相關性分析,進而實現疾病發生率的分析,為當地公共衛生政策制定提供決策支撐。
本文選自數據要素價值創新示范案例集(2023年度)