為33家企業測過大模型的“方升”,是一個怎樣的評測體系?
如何識別大模型的能力強弱?
2023年,是大模型乘風直上的一年,也是諸侯混戰的一年。
在百模大戰中,亟需一套大模型評估體系、評測標準,來評估各類大模型的能力,尤其是在行業大模型正式進入到產業中,批量化落地之前,如何區分大模型的實戰能力,就成了大家關注的問題。
中國信通院是從2022年開始開展大模型評測體系構建工作的,經過兩年三次迭代,就在本周,大模型評測體系升級到了3.0版本,全新的“方升”大模型基準測試體系在12月24日正式對外發布。
兩年三迭代,“方升”問世
2022年,中國信通院提出大模型評測體系1.0。
在大模型還沒有火起來時,中國信通院聚焦于模型開發、模型能力兩個維度,就研發過程中的工程技術能力和驗證性評估的模型能力,展開了大模型評測體系構建工作。
到2023年,大模型作為人工智能技術發展主流方向成為共識時,中國信通院將大模型評測體系升級到了2.0版本,圍繞模型開發、模型能力、模型運營、模型應用和模型可信五個維度,重點針對大模型落地中的工程化問題進一步開展了標準和評測工作。
據悉,2023年,中國信通院累計服務了33家企業,對60多項大模型產品和服務進行了測試,服務企業有華為、百度、騰訊、科大訊飛、360、昆侖萬維、H3C、海爾等。
在這一年的測試過程中,中國信通院也發現了當時評測體系的一些不足,同時也從產業中獲得了更多的需求反饋。例如,有廠商希望在應對具體行業或場景中的問題時,大模型可以給一個明確的反饋。
基于此,在進一步對模型能力量化評估基準體系不足之處補充后,中國信通院再次將大模型評測體系升級到了3.0版本。
據悉,中國信通院大模型評測體系3.0,也就是“方升”評測體系整體構建思路包括三個方面:
第一,圍繞產業需求,解決應用效果評估的問題,通過測試驅動模型能力高效評估,例如解決大模型刷榜問題。
第二,圍繞能力補齊,補齊量化評估結果、多維度細粒度的大模型評估、海量動態更新測試數據集。
第三,圍繞方法落地,大模型基準測試問題挑戰、先進的人工智能測試方法的問題,并以及面向重點領域提前布局。
為此,中國信通院圍繞測試規范、方法創新、應用導向、高效測試幾個方面,構建了方升大模型基準測試體系。
方升大模型基準測試體系解析
中國信通院最新發布的“方升”大模型基準測試體系,涵蓋4個維度、15個能力域,40+能力項。
針對指標體系,“方升”大模型基準測試體系主要從基準測試能力、基準測試數據、基準測試方法、基準測試平臺四個方面進行構建。
例如,針對大模型基準測試能力,這一基準測試體系主要從通用能力、行業能力、應用能力、安全能力四個維度,來評估大模型在不同場景中的能力表現。
為了解決評測數據集難管理、大模型測試“刷榜”、測試數據質量難評估、測試效率低等問題,“方升”測試體系還自創提出了自適應動態測試方法,保證大模型基準測試全面、客觀、高效。
具體而言,中國信通院有大量未開源的數據集,在測試過程中,通過固定的抽取規則抽取相關數據集,保證每個大模型測試過程中抽取不同題目的比例相同,又能夠保證是一個“閉卷考試”。從而真正實現對大模型治理水平的一個公平、公正的測試。
針對這其中難度較大的測試數據集的構建,“方升”測試體系目前測試數據集涵蓋領域包括金融、醫療、教育、法律、政府、電信、軟件工程等多個領域,整體測試數據集超過100個,測試題目數超過100萬道。
針對專業領域的數據集,中國信通院是與行業中具有相關儲備的企業與高校共同合作構建的。
例如,中國信通院與北京市政府服務管理局共建了國內政務行業評測數據集,與東方財富共建了金融行業評測數據集,與甲骨易共建了幻覺評測數據集,與天津大學共建了道德倫理、角色扮演、AGENT的評測數據集。
目前,“方升”測試體系在實驗室內部測試,支持兩類測試:
第一類,選擇性測試,即選擇某個特定的評測維度,抽取相關數據集評測大模型能力,最終數據兩個大模型的雷達圖。
第二類,全面性測試,即從整體題庫中按比例和規則抽取一定量的數據集,全面評測摸個大模型的能力,最終根據測試結果確定大模型后續優化方向。
“方升”測試體系還支持針對業務場景的測試。
例如,2023年7月由北京市政務服務中心牽頭,委托中國信通院作為第三方測評機構,依托“方升”體系測評多家技術廠商政務大模型綜合服務能力,驗證在真實政務問答業務場景中大模型的應用效果。
2023年是大模型進入全球視野的一年,但更多行業專家預測,2024年才是大模型規模化商業落地的一年,在此之前,如何構建好一套大模型評測體系就成了一個亟需解決的問題。
中國信通院在這一年年底發布的方升大模型基準測試體系,就顯得來得恰逢其時。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內容,請掃描下方二維碼



