Fabarta創始人兼CEO高雪峰:“圖+向量”超越幻覺邊界 企業智能應用呈現“新姿態”
Fabarta創始人兼CEO,原IBM認知計算研究院院長、阿里云大數據&AI 產品與解決方案總經理高雪峰,解構大模型“幻覺”。
自“百模大戰”開戰以來,每隔幾周便有一個新的大模型誕生,似乎有一個不成文的規則在科技界流傳:不發布一個大模型,就不配坐上通往AI時代的列車。
當大大小小的科技公司紛紛推出了自己的大模型,這場“競技”似乎演變成了一個無盡的循環。這就造成一種現象——高度雷同,同質競爭,大家一蜂窩撲上來,重復造輪子。
然而,在人工智能熱潮持續近一年后的今天,業內迎來了“冷”思考,不僅要解決影響大模型總體準確率的幻覺,也要解決“大模型不是越多越好”這一認知“幻覺”。或許,是時候建立一套大模型能力強弱的評判標準了。
AI也“刷題”,大模型需要一場怎樣的“考試”?
如果每個大型模型都要參加一場考試,那這場考試的試卷是什么樣的?目前,行業內對此還沒有一個統一的答案。
綜觀全球范圍內推出的形形色色的大模型性能評估榜單,不論是伯克利的“LMSYS”,還是上海交通大學或清華大學的大模型評估榜單,亦或是專注于醫療、法律等特定領域的評估榜單,這些評價體系對大模型能力的評估指標和標準“大同小異”,無法更客觀地評估大模型的優越性。
有趣的是,大模型世界里還存在“應試教育”。一些開放的數據集像是公開的題庫,讓大模型可以通過“刷題”來提高在特定數據集上的表現。
盡管為了解決這個問題,有評價機制嘗試采用閉源測試,也就是不公開“考題”,但卻也“收效甚微”,因為模型仍然可以通過記錄提問來進行“學習”。
事實上,大模型綜合能力評估真正的挑戰在于,如何設計出既公平又能全面考察模型能力的考試。
在Fabarta創始人兼CEO高雪峰看來,對大模型綜合能力去評估,一定是多元化的,需要考慮多個維度,包括模型的推理能力、性能、能效、安全性,以及在不同學科領域的應用能力。
Fabarta創始人兼CEO 高雪峰
對于業界最關心的性能評估方面問題,高雪峰認為,大模型的性能主要體現在推理效率方面。具體而言,就是評估模型完成復雜任務所需的時間。高雪峰解釋說:“如果模型在推理過程中需要多次調用,例如使用COT(大模型鏈式思考)的方法,那么完成一次完整推理所需的時間也會增加。因此,重點在于衡量模型完成推理任務并得出正確答案所需的時間。”
“完備的測試集要與大模型的算法能力同步迭代、相輔相成。”高雪峰直言,隨著各行業領域測試集的不斷完善和豐富,大型模型能夠通過針對這些全面測試集進行調優,從而展現其基礎能力的均衡性。未來,隨著大模型不斷更新、進步,我們也終將會迎接這一天的到來。
面向“AIGD” 如何破除大模型幻覺?
作為新的基礎的生產力工具,如何利用大模型讓其產生實際的價值,是現階段各行業試驗的重點。而相關企業要想持久坐在牌桌上,就得看清浪潮的流向。“做不了通才,那就做專才”。和業界諸多企業一樣,高雪峰也認為,大型模的未來應該是在特定行業場景中應用。在他看來,大模型不僅僅是為了提供通用的SaaS服務或面向C端用戶的模型服務。更加關鍵的是,面向“toB”場景時實現決策智能(AIGD),形成適用于各種精準行業和細分領域的模型。這是一個AIGC向AIGD轉變的過程。
“在AIGC時代,計算與存儲已經成為過去,推理和記憶才是未來”高雪峰這樣形容。
現在,幾乎所有的企業開始逐步嘗試結合企業數據落地私有化大模型,但要有效地將AIGC技術轉化為決策智能,基于Transformer的大型模型面臨幾個主要挑戰。
其一是大模型“一本正經胡說八道”(幻覺)的問題,嚴重影響了大模型應用的可靠性,可能會產生信息錯誤或侵犯隱私等嚴重后果。諸如在醫療等特殊場景中,若為病患提供了錯誤的診斷信息,甚至會影響他們的生命安全。所以,盡管不可能完全消除幻覺,但B端的大模型應該盡量減少幻覺的產生。
其次,大模型生成的內容需要具備可解釋性,即便信息不準確,也應明確其來源,以便用戶進行判斷。
此外,大模型還要確保數據安全性和可控制性,特別是在企業的具體應用場景中,不同部門間的數據隔離至關重要。
同時,還需解決大模型“非歧視性”問題,確保在應用于特定領域時,模型的安全性得到保障。
在高雪峰看來,解決這些問題的關鍵在于兩方面:一方面,要建立針對特定行業的知識庫。另一方面利用私有化部署的商用大模型或開源大模型,并對其進行特定域的訓練。這種方法依賴于知識庫中的公共數據,避免涉及敏感信息,從而保障數據的安全可控。
“圖+向量”融合 構建‘小模型’新范式
事實上,從百度、阿里、字等等一眾大廠最近的動向中不難發現,建立“toB”場景下的大模型已經成為行業共識。然而,部署一個可用的“toB”場景下的大模型成本之高昂,訓練要求之高,并非一般企業所能承擔。這也是許多企業開始感慨大模型應用落地難的原因之一。
如何訓練大模型在更小規模上達到能力涌現,是當前研究的重點。面對這一共同的困局,高雪峰坦言道:“沒必要拿行業、企業中小范圍、小規模的數據去預訓練一個行業‘小模型’,這不僅無法降低“幻覺”,且驗證也比較困難。
他建議,企業可基于多模態數據(如文本、圖像、視頻、音頻等多模態信息),引入大模型的能力,構建一個完善、易更新維護的行業知識庫。而這其中,建立針對大模型時代的AI基礎設施至關重要。
作為一家AI基礎設施公司,Fabarta構筑了以數據為中心的AIGC落地架構范式——“圖+向量”。
Fabarta推出的ArcNeural是以 Data-Centric AI 為核心構建的用于處理符號化數據圖(Graph)和向量(Vector)的多模態智能引擎,它將傳統數據庫的“存儲&計算”架構演進為“記憶&推理”架構,可為AI智能應用提供私有記憶和可解釋的精確推理。
ArcGraph是ArcNeural 中的圖引擎,是Fabarta自主設計和研發的一款分布式、云原生的高性能圖 HTAP數據庫,采用 Multi-Raft 協議來滿足系統的分布式一致性和高可用性;同時支持存儲節點和計算節點的無縫擴縮容,支持分布式事務和分布式查詢功能;通過采用原圖內存引擎,支持高性能圖查詢和 Serverless 圖計算;并且通過圖、JSON 和向量的深度融合,實現了ArcGraph的多模態能力。
高雪峰解釋說:“圖數據庫以其強大的關聯分析能力滿足了AI對復雜關系處理的需求。圖和向量的融合技術也實現了多模態的數據處理,為AI的發展提供了新的可能性。
現階段,這一策略已經在相關行業落地。在金融風控、營銷等場景中,通過構建自己的多模態數據知識庫,引入大型模型進行問答和檢索,可以有效提升企業的決策智能。但要實現這一點,首先需要構建企業知識庫和AI數據基礎設施,然后對接一個或幾個大型模型,以支持更加智能和精準的決策制定。
“這種技術的行業稀缺性和能力在解決以往難以解決的問題上展現出了其獨特價值。”高雪峰強調,這一點,Fabarta已經為客戶做過相應的PoC(概念驗證),并已經在多個行業生產落地。
面對即將到來的2024年,高雪峰展望道:“明年,或許是私有化大模型崛起的一年,而我們的愿景則是幫助萬千企業打造核心的面向智能應用的數據基礎設施,以標準化和定制化并行的策略,幫助企業在具體的決策場景中落地AI。”
本文章選自《AI啟示錄》雜志,閱讀更多雜志內容,請掃描下方二維碼
