2025 年 8 月 29 日,由清華大學(xué)計算機(jī)系崔鵬教授團(tuán)隊聯(lián)合穩(wěn)準(zhǔn)智能共同研發(fā)的結(jié)構(gòu)化數(shù)據(jù)通用大模型「極數(shù)」(LimiX)正式宣布開源。
此次發(fā)布標(biāo)志著我國在結(jié)構(gòu)化數(shù)據(jù)智能處理領(lǐng)域的技術(shù)突破與生態(tài)開放邁出關(guān)鍵一步,將顯著降低千行百業(yè)應(yīng)用結(jié)構(gòu)化數(shù)據(jù) AI 技術(shù)的門檻,特別是在結(jié)構(gòu)化數(shù)據(jù)占主導(dǎo)的泛工業(yè)領(lǐng)域,「極數(shù)」大模型將助力 AI 深度融入工業(yè)生產(chǎn)全流程,破解工業(yè)數(shù)據(jù)價值挖掘難題,為實現(xiàn)智能制造與新型工業(yè)化提供關(guān)鍵支撐,推動產(chǎn)業(yè)技術(shù)變革和優(yōu)化升級。
在泛工業(yè)領(lǐng)域,結(jié)構(gòu)化數(shù)據(jù)是核心資產(chǎn)——工業(yè)生產(chǎn)參數(shù)、設(shè)備運行數(shù)據(jù)、質(zhì)量檢測數(shù)據(jù)、科研實驗數(shù)據(jù)等均以結(jié)構(gòu)化數(shù)據(jù)形式呈現(xiàn),其智能處理能力直接影響產(chǎn)業(yè)效率與科研突破,也是 AI 賦能工業(yè)制造的關(guān)鍵突破口。
雖然通用大語言模型(LLM)憑借強(qiáng)大的文本理解與生成能力,已在內(nèi)容創(chuàng)作、對話交互等領(lǐng)域?qū)崿F(xiàn)廣泛應(yīng)用,但 LLM 在面對表格、時序等結(jié)構(gòu)化數(shù)據(jù)時短板明顯:數(shù)值比較、計算等基礎(chǔ)任務(wù)易出偏差,更無法勝任數(shù)據(jù)分類、預(yù)測、歸因等復(fù)雜任務(wù),準(zhǔn)確率難以滿足真實行業(yè)需求。因此,目前工業(yè)結(jié)構(gòu)化數(shù)據(jù)處理依然依賴私有數(shù)據(jù) + 專用模型的傳統(tǒng)范式。
由于專用模型難泛化、不通用,面對不同場景需要訓(xùn)練多個專用模型,成本高、效果差,且難以發(fā)揮數(shù)據(jù)要素聚集的乘數(shù)效應(yīng),嚴(yán)重制約了 AI 在工業(yè)場景的落地路徑。
結(jié)構(gòu)化數(shù)據(jù)通用大模型(Large Data Model, LDM)則針對性解決這一痛點:不同于 LLM 聚焦文本,LDM 融合結(jié)構(gòu)因果推斷與預(yù)訓(xùn)練大模型技術(shù),既能捕捉結(jié)構(gòu)化數(shù)據(jù)的內(nèi)在關(guān)聯(lián),又具備強(qiáng)泛化能力,可跨行業(yè)適配多類任務(wù)。
「極數(shù)」大模型可以支持分類、回歸、高維表征抽取、因果推斷等多達(dá) 10 類任務(wù),在工業(yè)時序預(yù)測、異常數(shù)據(jù)監(jiān)測、材料性能預(yù)測等場景中,性能達(dá)到甚至超越最優(yōu)專用模型,實現(xiàn)單一模型適配多場景、多任務(wù)的通用性突破,為人工智能賦能工業(yè)提供了 One-For-All 解決方案。
從技術(shù)性能到產(chǎn)業(yè)落地,「極數(shù)」大模型的核心優(yōu)勢已得到充分驗證。
在超過 600 個數(shù)據(jù)集上的十余項測試結(jié)果表明,「極數(shù)」大模型無需進(jìn)行二次訓(xùn)練,已經(jīng)在準(zhǔn)確率、泛化性等關(guān)鍵指標(biāo)上均能達(dá)到或超過專有 SOTA 模型。
而在產(chǎn)業(yè)應(yīng)用層面,「極數(shù)」大模型已成功落地多個真實工業(yè)場景,無需訓(xùn)練、部署成本低、準(zhǔn)確率高、通用性強(qiáng)的特點獲得合作企業(yè)的高度認(rèn)可,成為推動工業(yè)數(shù)據(jù)價值轉(zhuǎn)化的實用型技術(shù)方案,正加速形成面向泛工業(yè)垂直行業(yè)核心業(yè)務(wù)場景的真正智能底座。
研發(fā)團(tuán)隊
「極數(shù)」模型的研發(fā)核心力量,由清華大學(xué)計算機(jī)系崔鵬教授牽頭組建,團(tuán)隊匯聚了學(xué)術(shù)研究與產(chǎn)業(yè)落地的雙重優(yōu)勢,其技術(shù)突破背后是深厚的科研積淀與前瞻性的方向布局。
作為團(tuán)隊核心,崔鵬教授是我國數(shù)據(jù)智能領(lǐng)域的頂尖學(xué)者:他不僅是國家杰出青年科學(xué)基金獲得者,更以突出成果兩度斬獲國家自然科學(xué)二等獎,同時獲評國際計算機(jī)協(xié)會(ACM)杰出科學(xué)家,其學(xué)術(shù)影響力獲國際學(xué)界廣泛認(rèn)可。在基礎(chǔ)研究領(lǐng)域,崔鵬教授開創(chuàng)性提出「因果啟發(fā)的穩(wěn)定學(xué)習(xí)」新范式,突破傳統(tǒng)機(jī)器學(xué)習(xí)在數(shù)據(jù)分布偏移場景下的性能局限,為 AI 模型的可靠性與泛化性研究奠定重要理論基礎(chǔ)。
2022 年 OpenAI 推出 ChatGPT 引發(fā)大模型技術(shù)浪潮后,崔鵬教授敏銳洞察到結(jié)構(gòu)化數(shù)據(jù)方向大模型技術(shù)的發(fā)展?jié)摿Γ杆賹⒀芯糠较驈囊蚬€(wěn)定學(xué)習(xí)拓展至結(jié)構(gòu)化數(shù)據(jù)通用大模型(LDM)領(lǐng)域。依托既有理論積累,團(tuán)隊攻克結(jié)構(gòu)因果數(shù)據(jù)合成、模型結(jié)構(gòu)設(shè)計、跨場景泛化等核心難題,最終實現(xiàn)「極數(shù)」模型在多領(lǐng)域任務(wù)中的性能突破,為此次開源奠定關(guān)鍵技術(shù)基礎(chǔ)。
極數(shù)大模型簡介
「極數(shù)」大模型將多種能力集成到同一基礎(chǔ)模型中,包括:分類、回歸、缺失值插補、數(shù)據(jù)密度估計、高維表征抽取、數(shù)據(jù)生成、因果推斷、因果發(fā)現(xiàn)和分布外泛化預(yù)測等;在擁有優(yōu)秀結(jié)構(gòu)化數(shù)據(jù)建模性能的同時,極大提高了模型的通用性。
在預(yù)訓(xùn)練階段,「極數(shù)」大模型基于海量因果合成數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)中的因果關(guān)系,不同于專用模型在訓(xùn)練階段記憶住數(shù)據(jù)特征的模式,「極數(shù)」大模型可以直接在不同的上下文信息中捕捉因果變量,并通過條件掩碼建模的方式學(xué)習(xí)數(shù)據(jù)的聯(lián)合分布,以適應(yīng)包括分類、回歸、缺失值預(yù)測、數(shù)據(jù)生成、因果推斷等各種下游任務(wù)。
在推理階段,極數(shù)可直接基于提供的上下文信息進(jìn)行推理,無需訓(xùn)練即可直接適用于各種應(yīng)用場景。
模型技術(shù)架構(gòu)
「極數(shù)」大模型沿用了 transformer 架構(gòu),并針對結(jié)構(gòu)化數(shù)據(jù)建模和任務(wù)泛化進(jìn)行了相關(guān)的優(yōu)化。
「極數(shù)」大模型先對先驗知識庫中的特征和目標(biāo)分別進(jìn)行 embedding;之后在主要模塊中,在樣本和特征維度上分別使用注意力機(jī)制,來聚焦關(guān)鍵樣本的關(guān)鍵特征。
最終,提取到的高維特征被分別傳入 regression head 和 classification head,實現(xiàn)對不同功能的支持。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.