演講嘉賓|李飛
編輯 |Kitty
策劃 |QCon 全球軟件開發(fā)大會
隨著大模型技術(shù)成熟,AI 正在推動(dòng)數(shù)據(jù)分析從“工具輔助”到“決策建議和工作流協(xié)同”的質(zhì)變,基于大模型的智能分析技術(shù)正在吸引越來越企業(yè)的關(guān)注。在 InfoQ 舉辦的 QCon 全球軟件開發(fā)大會(北京站)上,來自數(shù)勢科技的 AI 負(fù)責(zé)人李飛帶來了題為《AI 引領(lǐng)的企業(yè)級智能分析架構(gòu)演進(jìn)與行業(yè)實(shí)踐》的分享,圍繞智能分析如何在企業(yè)落地,實(shí)踐中有哪些要點(diǎn)等內(nèi)容展開。
預(yù)告:將于 10 月 23 - 25 召開的QCon 上海站設(shè)計(jì)了「大模型驅(qū)動(dòng)的智能數(shù)據(jù)分析」專題,聚焦于大模型在智能數(shù)據(jù)分析中的最新應(yīng)用及核心技術(shù),探討如何利用大模型實(shí)現(xiàn)數(shù)據(jù)的可信分析、可視化呈現(xiàn)、自動(dòng)洞察決策及主動(dòng)式數(shù)據(jù)服務(wù)。為聽眾呈現(xiàn)豐富的技術(shù)落地實(shí)踐,包括工程架構(gòu)、算法實(shí)現(xiàn)、產(chǎn)品范式、業(yè)務(wù)價(jià)值等,揭示未來數(shù)據(jù)分析的發(fā)展趨勢和邊界。敬請關(guān)注。
以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變原意的編輯整理)。
1 企業(yè)數(shù)據(jù)分析與洞察的難點(diǎn)和挑戰(zhàn)
在過去十幾年的中國數(shù)字化轉(zhuǎn)型浪潮中,企業(yè)的數(shù)字化建設(shè)進(jìn)度可以分為三個(gè)層次。第一層次是數(shù)據(jù)倉庫,大部分企業(yè)已經(jīng)完成了數(shù)倉的建設(shè);第二層次是 BI 系統(tǒng),這類系統(tǒng)可以通過很多低代碼工具幫助業(yè)務(wù)人員提效。但 BI 系統(tǒng)主要落地在業(yè)務(wù)域,針對整個(gè)公司或集團(tuán)的數(shù)據(jù)進(jìn)行統(tǒng)一匯報(bào)時(shí),不同業(yè)務(wù)域的口徑之間并沒有拉齊,每個(gè)人對數(shù)據(jù)的口徑和理解也是不一致的。到了第三個(gè)層次,部分企業(yè)已經(jīng)基于業(yè)務(wù)場景搭建了指標(biāo)平臺。
要對企業(yè)數(shù)據(jù)進(jìn)行智能分析,就需要考慮以上這三個(gè)層次。當(dāng)企業(yè)存在三層數(shù)據(jù)系統(tǒng)時(shí),智能分析平臺應(yīng)該建立一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來銜接這三層,然后形成上層應(yīng)用的統(tǒng)一入口,這就是所謂的 MCP。有了 MCP 這樣的統(tǒng)一協(xié)議,上層的智能分析就可以理解并使用這些數(shù)據(jù)了。
在工具層面,企業(yè)內(nèi)部也有很多能力和系統(tǒng)。例如研發(fā)人員會使用 Python、SQL 做分析,業(yè)務(wù)人員會用低代碼平臺開發(fā)各種組件等等。一家成熟的,經(jīng)歷了數(shù)字化轉(zhuǎn)型的企業(yè),內(nèi)部的工具和組件的數(shù)量會很多,而大量的技能會分布在不同的角色、平臺、系統(tǒng)上。面對這樣的情況,智能分析平臺如何整合多樣化的分析能力,如何縮短漫長的分析鏈路,如何喚醒沉睡的技能,都是需要解決的問題。
2 數(shù)據(jù)分析為什么要結(jié)合 Agent
那么要解決上述的問題,為什么要在數(shù)據(jù)智能分析中結(jié)合 Agent 技術(shù)?考慮我們獲取信息的幾種方式,搜索引擎檢索出的內(nèi)容是需要人工過濾的,而推薦系統(tǒng)是結(jié)合用戶偏好來推薦內(nèi)容,這就會造成信息繭房效應(yīng)。如今的大模型則有希望更進(jìn)一步,通過精準(zhǔn)的生成和檢索能力來打破信息繭房。此外,在物理世界中,人除了檢索信息,還要檢索工具。而 Agent 就可以將各類信息和工具整合在一起,提供一個(gè)檢索通道,起到“檢索連接”這樣的作用。因此 Agent 可以成為企業(yè)內(nèi)部落地智能分析系統(tǒng)的良好立足點(diǎn)。
除了檢索連接,Agent 還可以提升效率。早期的數(shù)據(jù)分析工具都需要用戶編寫代碼來操作,接下來出現(xiàn)了更易用的圖形化工具,如今又出現(xiàn)了對話機(jī)器人這樣使用自然語言交互的形式。近年來火熱的語言模型應(yīng)用也讓很多用戶養(yǎng)成了使用習(xí)慣,他們開始希望在數(shù)據(jù)分析這樣的專業(yè)領(lǐng)域也用自然語言交互來完成任務(wù)。
但需要注意的是,從 BI 系統(tǒng)到大模型分析是需要有數(shù)量級的效率提升的,如果沒有顯著的效率提升,在數(shù)據(jù)分析場景應(yīng)用大模型的意義就不明顯。而 Agent 的意義就在于可以幫助大模型實(shí)現(xiàn)這樣的提升效果。
Agent 在應(yīng)用落地時(shí)還要考慮思考的“快”與“慢”的問題。每一個(gè)業(yè)務(wù)環(huán)節(jié)都有不同的快慢需求,例如一些基本的任務(wù)需要足夠迅速地完成,減少用戶等待時(shí)間;一些復(fù)雜的任務(wù)下,用戶可以容忍較長的處理時(shí)間,但對結(jié)果的質(zhì)量要求很高。此時(shí)就需要在產(chǎn)品機(jī)制中設(shè)計(jì)不同類型的 Agent,滿足不同場景的需求。
結(jié)合上述三點(diǎn)本質(zhì),我們認(rèn)為 Agent 可以替代傳統(tǒng)的冗余數(shù)據(jù)分析流程。它可以讓數(shù)據(jù)分析能力覆蓋的人群進(jìn)一步擴(kuò)大,實(shí)現(xiàn)數(shù)據(jù)分析更加民主化的目標(biāo)。
一個(gè)通用的 Agent 數(shù)據(jù)分析流程中,必不可少的是編排器和固定工作流。比較固定的,較短的工作流一般使用固定設(shè)計(jì),而涉及較長的工作節(jié)點(diǎn),需要應(yīng)對靈活的場景的任務(wù)可以使用流程編排器。這樣就可以兼顧穩(wěn)定和靈活性。其次,Agent 的工具要具備多樣性,這也是它的核心能力,通過多樣化的工具提供豐富的能力選項(xiàng)。最后,針對數(shù)據(jù)分析的結(jié)果還要建立一套專屬的評估標(biāo)準(zhǔn)。
3 Data Agent 技術(shù)路線的選擇和升級
我們在做數(shù)據(jù)分析 Agent 時(shí),設(shè)計(jì)了一套完整的處理流程。在用戶請求預(yù)處理階段,我們會區(qū)分?jǐn)?shù)據(jù)對象和邏輯對象,前者會區(qū)分?jǐn)?shù)據(jù)的關(guān)系、描述和口徑,后者則涉及對數(shù)據(jù)的合理編排。而在進(jìn)行對象編排時(shí),我們需要考慮對象之間的從屬和沖突關(guān)系。接下來就要使用大模型來做 DSL 生成,這里會結(jié)合多步思考、解碼策略和投票策略來提供穩(wěn)定的輸出。最后我們一定要有后處理階段,包括錯(cuò)誤修改、語義和字段的一致性檢查,還有重排序等步驟。
為了降低 Agent 輸出為 SQL 查詢時(shí)的錯(cuò)誤率,我們需要考慮四點(diǎn):
數(shù)據(jù)模型和業(yè)務(wù)場景相關(guān),降低大模型關(guān)聯(lián)的錯(cuò)誤性。比如針對幾個(gè)表進(jìn)行關(guān)聯(lián)時(shí),需要考慮明顯的可關(guān)聯(lián)字段以及模糊的關(guān)聯(lián)關(guān)系,甚至一些隱式的關(guān)聯(lián)關(guān)系。
字段冗余存儲,降低選擇的錯(cuò)誤性。這里需要解決多個(gè)表合并存儲時(shí)的字段冗余帶來的選擇錯(cuò)誤率增加問題。
減少文本生成長度,降低時(shí)間復(fù)雜度和錯(cuò)誤傳遞。大模型生成的 token 較多時(shí),不僅速度會較慢,錯(cuò)誤也容易積累。
查詢語句提前優(yōu)化,減少慢 SQL 生成的概率。如果生成了一個(gè)慢 SQL 再做優(yōu)化,效果往往不盡人意。
數(shù)據(jù)分析 Agent 落地時(shí),語義層的處理是很重要的。我們認(rèn)為廣義的語義層要包括對象語義、加速語義和權(quán)限語義的定義。其中,對象語義包括了數(shù)據(jù)對象和邏輯對象。加速語義是說要提前設(shè)置生成的快 SQL 語句來提升速度。權(quán)限語義則要分角色、分部門、分場景,讓不同的用戶能夠知道他們該用到什么字段,使用什么樣的數(shù)據(jù)。
具體到對象語義,例如用戶輸入是“幫我看一下上個(gè)月的 GMV“,這里的 GMV 就是一個(gè)數(shù)據(jù)對象的語義,可以通過大模型去做檢索。而邏輯對象需要貼合用戶的寬泛的表達(dá),比如用戶想要怎樣展示 GMV,按照什么樣的粒度去展示,還有展示的時(shí)候是什么樣的排序、分組,這些都是邏輯對象的范疇。
在這一塊我們分了兩層來處理。除了提前做預(yù)制算子外,我們也會用到 Fix SQL 語句。比如說寫面試題時(shí)我們不用寫詳細(xì)的代碼,寫一段簡單的偽代碼來表達(dá)邏輯即可。這里我們也通過 Fix SQL 來提取一些算子,嵌入到底層的執(zhí)行引擎中,這樣可以減少大量的預(yù)制算子相關(guān)的工作。
區(qū)分了語義層,我們還有語義加速的引擎。這個(gè)引擎應(yīng)對的場景是不同表按照維度展開時(shí)經(jīng)常出現(xiàn)的大查詢量情況。
為了加速語義查詢,首先我們做了預(yù)存儲和預(yù)計(jì)算,提前初始化業(yè)務(wù)使用的場景。當(dāng)遇到不同的字段,涉及到多維度展開時(shí),我去評估去掉某個(gè)維度,可能原本 1 億行的數(shù)據(jù)就變成了 10 萬行的數(shù)據(jù)。因?yàn)槲抑烙行┚S度,比如像 SQL ID,它展開的時(shí)候行數(shù)是特別多的,全局掃描速度特別慢,所以我們要有提前拆分的邏輯,這樣掃描小表的時(shí)候查詢速度就會比較快。
第二點(diǎn),針對用戶問答,我們做了一個(gè)非常好的自適應(yīng)加速場景。我們統(tǒng)計(jì)了用戶經(jīng)常問的問題,將最近不同用戶常問的指標(biāo)下沉到加速的邏輯里,達(dá)到用戶越問越快的目的。
第三點(diǎn)我們做了一個(gè)記憶機(jī)制。在企業(yè)數(shù)據(jù)分析中,我們需要定義什么是 Agent 應(yīng)該有的記憶。因?yàn)閿?shù)據(jù)分析的用戶問答的每個(gè)字可能都能影響結(jié)果,所以不能對問答隨便壓縮,否則可能因?yàn)槟銐嚎s掉了它的字段名稱,導(dǎo)致你下次再去問同樣的問題,Agent 給的結(jié)果會不一樣。所以我們定義了三類記憶。
第一是角色的記憶,就是講你在做什么樣的運(yùn)營場景,以及你個(gè)人再去使用的時(shí)候它的角色的標(biāo)簽。舉個(gè)很簡單的例子,我告訴大模型,我是銀行的運(yùn)營人士,我想查看今天我的業(yè)績指標(biāo)是多少,這樣 Agent 就能檢索某個(gè)部門的運(yùn)營指標(biāo),檢索的范圍就會比較小。尤其在做深度搜索報(bào)告時(shí),角色的記憶會占據(jù)很大的權(quán)重。
第二是會話的記憶。它更多針對不同會話空間的穿越記憶。Agent 需要考慮現(xiàn)有和之前的會話窗口的相關(guān)內(nèi)容的總結(jié),形成多會話之間的穿越記憶。
第三是輪次記憶。這其實(shí)就是我們認(rèn)為的短期記憶。你在當(dāng)前的會話窗口,對話的內(nèi)容就是我們的上下文,每個(gè)輪次的對話的上下文的細(xì)粒度內(nèi)容就是輪次記憶重點(diǎn)關(guān)注的。
關(guān)于記憶機(jī)制的結(jié)構(gòu)設(shè)計(jì),我們舉了一個(gè)例子。結(jié)構(gòu)化記憶部分,我們會提取一些常見提問內(nèi)容對應(yīng)的字段,比如“賣了多少”對應(yīng)銷售額,“上分”對應(yīng)“上海分行”,等等,通過實(shí)體鏈接建立這些記憶關(guān)系。
非結(jié)構(gòu)化記憶部分包括了會話偏好記憶,比如說用戶查詢銷售額的時(shí)候,經(jīng)常喜歡用餅狀圖進(jìn)行對比,經(jīng)常想問上海公司的銷售額,那么我們會存儲用戶的偏好。這樣當(dāng)用戶以后再輸入類似的對話,我們會把之前的記憶通過一些權(quán)重拉過來,進(jìn)行相似檢索。這樣用戶就不需要每次都要求展示餅狀圖之類。
這樣的機(jī)制里也有幾個(gè)重點(diǎn)需要關(guān)注。第一,記憶的狀態(tài)一定是和時(shí)間衰減相關(guān)的,什么時(shí)候增刪改要做好處理。第二,用戶的個(gè)人角色記憶與會話記憶在融合時(shí)一定要有加權(quán),再通過向量化的手段做聚合。這樣可以避免重復(fù)識別,提高計(jì)算效率,同時(shí)還能提高識別的效果和準(zhǔn)確性,不至于出現(xiàn)用戶兩次問了相同的問題,模型卻給出了不同的結(jié)果這樣的狀況。
我們發(fā)現(xiàn),數(shù)據(jù)洞察 Research 是 Agent 在數(shù)據(jù)分析領(lǐng)域最好的落地場景。相比之下,查數(shù)據(jù)的大模型產(chǎn)品雖然容易被企業(yè)接受,但提效往往不明顯,很容易被棄用。而深度研究就符合“慢思考”和“10 倍提效”的要求。用戶讓 Agent 生成深度報(bào)告,對生成時(shí)間要求是很寬容的,主要關(guān)注的還是結(jié)果質(zhì)量。
這里我們也做了一個(gè)數(shù)據(jù)洞察研究報(bào)告的生成流水線,這樣生成的報(bào)告的大綱和任務(wù)都是支持手動(dòng)修改的。
做數(shù)據(jù)洞察研究時(shí),我們也在思考什么時(shí)候適合用推理模型,什么時(shí)候適合非推理模型。有一些簡單的內(nèi)容使用快思考非推理模型,甚至小參數(shù)量的模型來處理就比較合適。而針對千人千面,思維鏈各不相同的情況,推理模型就比較合適。因?yàn)橥评砟P推鋵?shí)是把思維鏈做了內(nèi)化,降低了寫 COT 的成本。
4 Data Agent 的思考和展望
行業(yè)對 Agent 的數(shù)據(jù)場景落地之前一直聚焦在上圖的前半段,而我們認(rèn)為 Agent 應(yīng)該聚焦于后半段,也就是解決數(shù)據(jù)到洞見的問題。因?yàn)槠髽I(yè)數(shù)據(jù)人員給業(yè)務(wù)方提供數(shù)據(jù)時(shí),需要考慮業(yè)務(wù)方下一步要做什么。業(yè)務(wù)方一定是拿你的數(shù)據(jù)去做總結(jié)、決策、匯總,那么 Agent 真正要解決的是這里的問題,提出合理的結(jié)論和建議,這樣才能做到 10 倍提效。相比之下,前半段的場景中 Agent 很難做到 10 倍提效。
關(guān)于模型基座,我們的思考是要不要只做一個(gè)模型。以國外的 Claude、Gemini、GPT 三大模型為例,Claude 的代碼能力很強(qiáng),GPT 偏重推理,而 Gemini 的多模態(tài)能力很強(qiáng)。那么我們在選擇模型基座時(shí),涉及代碼生成就可以選擇 Claude,涉及推理規(guī)劃用 GPT,涉及多模態(tài)交互用 Gemini。整個(gè)行業(yè)的基座模型都越來越垂直化,沒有哪家是全面領(lǐng)先的。所以我們需要靈活選擇,具體到每個(gè)落地場景,我們要識別這個(gè)場景要解決什么問題,什么樣的模型在什么樣的階段適合這樣的場景,這是一定要去做預(yù)研分析的。
關(guān)于產(chǎn)品的形態(tài),我們的思考是不要舍本逐末。不是說用戶習(xí)慣了自然語言對話,我們就只能用自然對話的產(chǎn)品形態(tài)。“Click”是很好的形態(tài),它并不會消失,所以 Agent 產(chǎn)品也不是說每個(gè)技能都全部通過對話形態(tài)來承載,很多東西直接點(diǎn)擊是要更方便的。這里就要結(jié)合產(chǎn)品設(shè)計(jì)和算法 AI 以及多維的思考能力,選擇最合適的邏輯。
在做企業(yè)數(shù)字化應(yīng)用落地的過程中,我們的一個(gè)心得是大膽選擇,匍匐前進(jìn)。就是說我們要做的事情一定要大膽評估,評估好后要堅(jiān)定去做。你不去做,永遠(yuǎn)不知道里面有怎樣的困難。所以我們要大膽落地,邁出第一步。所謂匍匐前進(jìn),是說你要接受你的技術(shù)和產(chǎn)品會被所有人吐槽的結(jié)果。我們用心感受這些吐槽,是產(chǎn)品迭代飛輪中非常重要的一環(huán)。我們的 Know-how 不僅包括了業(yè)務(wù)知識,也包括了對別人吐槽的 Know-how,這樣才能讓你快速進(jìn)步。
關(guān)于數(shù)勢科技
數(shù)勢科技成立于 2020 年,團(tuán)隊(duì)主要來自百度、京東等科技企業(yè)。數(shù)勢科技 2021 年就開始研發(fā)標(biāo)簽平臺和指標(biāo)平臺,并開發(fā)了行業(yè)首個(gè)商業(yè)化落地的數(shù)據(jù)分析智能體 SwiftAgent。公司在金融、零售、先進(jìn)制造領(lǐng)域有深度技術(shù)和業(yè)務(wù) know-how。
演講嘉賓介紹
李飛,數(shù)勢科技 AI 負(fù)責(zé)人。負(fù)責(zé)數(shù)勢科技智能算法的開發(fā),包括 LLM Agent,RAG,內(nèi)容推薦,文本生成,知識圖譜挖掘等算法技術(shù)。英國紐卡斯?fàn)柎髮W(xué)博士,在智能算法領(lǐng)域?qū)W術(shù)與工作經(jīng)驗(yàn)豐富。在學(xué)術(shù)研究方面,擁有 10 項(xiàng)智能算法相關(guān)專利并發(fā)表 4 篇國際期刊,曾主導(dǎo)由歐洲瑪麗居里計(jì)劃資助的國際項(xiàng)目,在研究期間,共發(fā)表了 3 篇期刊文章、1 篇會議文章和 1 篇 Chapter;在工作方面,曾任職京東零售數(shù)據(jù)中臺,負(fù)責(zé)人工智能技術(shù)在營銷領(lǐng)域的相關(guān)落地,多次獲得優(yōu)秀員工及集團(tuán)戰(zhàn)略項(xiàng)目獎(jiǎng),曾獲 HICOOL 全球創(chuàng)業(yè)大賽二等獎(jiǎng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.