德比軟件:生成式AI讓每個人都是數據高手
生成式AI可以極大降低大模型的開發成本,讓技術人員可以有更多時間與精力著重在上層的行業應用與功能調優上,大幅提高生產效率。
多年前,在線上預訂酒店的流程非常冗長,預訂的房價和酒店庫存都需要長時間確認,有時在訂房一來一回的查詢后,房價可能發生變化,甚至出現沒有房間的情況。
酒店分銷的核心是酒店房價和庫存數據,2002年成立的德比軟件做的就是在OTA與酒店間架設了一條“信息高速公路”,讓用戶在所有OTA(Online Travel Agency,全球在線旅游公司)上看到的都是實時酒店房價和庫存,生成訂單就不會出現房價變更、房態變化的情況。
這條高速公路對接了旅游者、酒店和旅游企業,只要有訂單生成,德比軟件就會從中收取一筆小額的“過路費“。現在德比軟件正處理全球超過22.7萬家酒店數據,每月處理超過1800萬酒店間夜數。
經歷了20多年的發展,現階段實現數據普惠、提高數據分析效率、加速企業決策成為了德比軟件的主要目標,在生成式AI爆發后,德比軟件也開始進行嘗試。德比軟件架構與基礎設施技術副總裁鄭歡鳴表示,生成式AI解決方案可以極大降低大模型的開發成本,讓技術人員可以有更多時間與精力著重在上層的行業應用與功能調優上,大幅提高生產效率。
德比軟件架構與基礎設施技術副總裁鄭歡鳴
12年的云上之旅
早在20年前,德比軟件就開始擁抱云,是國內較早進入云計算時代的企業之一。
2012年,選擇All in亞馬遜云科技。德比軟件中國市場部經理楊幸祺說,最早使用亞馬遜云科技的初衷是彈性能力,讓我們能更快time to market,除此之外我們也獲得了遍布全球的資源以及安全的保障。
2014年,實現了PCI DSS(支付卡行業數據安全標準)認證環境遷移上云。
2022年,進一步提升企業運營效率,為旅游企業提供更加穩定、可靠的服務,德比軟件啟動了全面的應用現代化改造計劃。實現了應用的全面容器化,將傳統應用遷移到基于容器的現代化架構之上,提高了資源利用效率和應用的彈性伸縮能力。
2023年,計算和數據庫層面進行了全面優化。一方面,大規模采用高性價比的Amazon Graviton實例,優化運營環境,成本優化比例達到20%;另一方面,引入Amazon MemoryDB和Amazon Aurora Global Database等數據庫服務,為應用提供高性能、高可用、高韌性的數據支持,穩定性提高到99.9%。
同年,德比軟件也注意到生成式AI技術,利用亞馬遜云科技的云計算服務及生成式AI相關的服務,在酒店智能推薦、智能BI報表、智能客服、智能數據標注等多個場景進行創新性實踐。并且為了推廣并找到生成式AI的結合場景,還舉行了AI Summer活動,最終產生了20多個創新idea。
2024年,開始利用大模型提高員工效率,與亞馬遜云科技合作上線了智能分析工具ChatBI。
大模型讓數據實現普惠
德比軟件雖然部署了傳統的BI系統,但數據分析應用在企業和員工兩個層面還存在一些挑戰。
企業方面存在業務決策人的即席查詢在月初月末會激增,對于需求響應需要一定的開發周期;客戶很難在報表之外準確查詢到訂單、銷售等數據;部門間互相對數據結構不了解,因此無法實現跨產品的數據查詢的問題。
員工方面存在如何在不了解SQL的前提下進行數據分析;如何在沒有專業能力的前提下進行數據解讀;數據解讀分析需要過多專業能力的問題。
德比軟件的數據平臺希望通過大模型進一步賦能讓這些問題得到改善,真正實現數據普惠。鄭歡鳴認為,隨著數據的普惠,可以加速公司的整體決策,原來幾天或一周才能完成的數據分析,現在幾分鐘就能完成,將大大提高效率。
帶著這樣的想法,德比軟件構建了智能分析工具ChatBI。鄭歡鳴解釋道,ChatBI可以理解為是一個BI GPT,ChatBI是基于Anthropic Claude 3大模型構建的生成式BI解決方案,允許用戶使用自然語言對話進行數據查詢和分析。
ChatBI通過實體識別、知識庫檢索、數據重構等技術,提高了查詢準確率,降低了SQL生成復雜度,并支持可視化展示分析結果,旨在推動數據普惠,為企業賦能創造價值。
大模型+RAG+規則=ChatBI
要實現ChatBI的目標,首先需要數據分析師進行一個前置的輸入,對數據分析思路標準化、歸因推理思路標準化、SQL書寫規范。其次結合企業特定的上下文能力,以及大模型本身的上下文學習、指令遵循能力、循序漸進的推理能力。最后通過大模型的應用能力生成SQL,生成的數據可以進行運營診斷,數據規律總結,甚至提供運營建議。
在模型上,德比軟件選擇Amazon Bedrock中的Claude 3和Amazon Titan模型,使用Amazon SageMaker構建基于自然語言的結構化查詢語言(Structured Query Language, SQL)生成器。并利用檢索增強生成(RAG)和Prompt Engineering(PE)等工程化技術,提升生成準確度。底層采用Amazon DynamoDB、Amazon OpenSearch Service作為服務支撐。
“我們總結了50多個常見問題,人工根據SQL規范生成對應的SQL語句,形成規則。”鄭歡鳴說,用戶輸入一個語句首先會通過Claude 3進行意圖識別,判斷是否是BI問題,之后通過Amazon Titan模型將其進行向量化,再去向量數據庫中進行模糊查詢匹配,最后通過查詢結果生成一個優質的提示詞,給到Claude 3生成對應的SQL。
除了查詢,在這個過程中,德比軟件還可以生成搜索查詢表里的元數據,并將查詢回來的數據讓Claude 3進行分析,生成圖表。
ChatBI的數據覆蓋了酒店、訂單、客戶數據,打通了整個平臺數據的隔離,實現自然語言對話即分析,自動生成SQL提高數據分析師開發BI報表的效率,通過自然語言描述查詢結果。未來希望擴展到成本分析、客戶分析、產品分析。
“目前ChatBI準確率可以達到90%。”鄭歡鳴指出,現在ChatBI主要的使用對象還是數據分析師,他們通過自然語言加速了業務查詢請求時間,從原來以周為單位人工開發縮短至分鐘級智能響應,未來經過培訓,也會擴展到業務人員使用。
隨著生成式 AI 的不斷進步和應用場景的擴展,德比軟件也將在內容匹配、垂直領域應用、跨平臺整合、智能助手等方面進行實踐,真正做到讓數據賦能企業里的每一個人。
本文章選自《AI啟示錄》雜志,閱讀更多雜志內容,請掃描下方二維碼
