時(shí)序數(shù)據(jù)分析在工業(yè)監(jiān)控、醫(yī)療診斷等領(lǐng)域至關(guān)重要。
比如航空發(fā)動機(jī)監(jiān)控這個(gè)復(fù)雜工業(yè)場景中,工程師需分析海量多通道傳感器數(shù)據(jù),以判斷設(shè)備狀態(tài)并制定維護(hù)決策。
然而,現(xiàn)有研究多聚焦于分類、預(yù)測等單一任務(wù),與實(shí)際工業(yè)場景中專家通過自然語言進(jìn)行復(fù)雜交互和決策的需求存在顯著差異。
上海交通大學(xué)航空航天學(xué)院李元祥教授團(tuán)隊(duì)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)數(shù)據(jù)科學(xué)學(xué)院團(tuán)隊(duì)以航空發(fā)動機(jī)運(yùn)維為背景,提出高效、可遷移的時(shí)序-語言橋接架構(gòu)——ITFormer,將專家診斷過程抽象為”理解、感知、推理、決策”四個(gè)認(rèn)知層次,并首次系統(tǒng)性地定義為“時(shí)序問答”任務(wù)范式。
團(tuán)隊(duì)基于NASA航空發(fā)動機(jī)數(shù)據(jù),構(gòu)建了包含11萬余問答對的EngineMT-QA數(shù)據(jù)集。該數(shù)據(jù)集的任務(wù)設(shè)計(jì)緊密貼合專家的認(rèn)知流程,為評估模型在真實(shí)工業(yè)場景下的推理能力提供了首個(gè)標(biāo)準(zhǔn)化基準(zhǔn)。
結(jié)果顯示,ITFormer以模塊化設(shè)計(jì)實(shí)現(xiàn)了時(shí)序數(shù)據(jù)與大語言模型的高效融合,僅需訓(xùn)練不足1%的額外參數(shù),便可在通用時(shí)序問答數(shù)據(jù)集上表現(xiàn)出優(yōu)越的性能和良好的遷移能力,展現(xiàn)了卓越的“即插即用”特性。它可無縫適配PatchTST、Informer、Crossformer等多種時(shí)序編碼器,以及Qwen、LLaMA、GLM等不同規(guī)模和架構(gòu)的大語言模型。
此外,在使用EngineMT-QA進(jìn)行預(yù)訓(xùn)練后,ITFormer的性能得到進(jìn)一步的巨大提升,在全部五項(xiàng)任務(wù)上均達(dá)到SOTA水平,其中“因果分析”準(zhǔn)確率高達(dá)0.83。
用戶可以進(jìn)行追問式探索,“昨天哪個(gè)設(shè)備的能耗最高?” “為什么它的能耗這么高?” “和上周同期相比情況如何?”。這種交互式的分析流程,讓數(shù)據(jù)探索過程更符合人類的思維習(xí)慣,從而真正實(shí)現(xiàn)了數(shù)據(jù)分析的大眾化。
航空發(fā)動機(jī)能用大模型了
技術(shù)難點(diǎn)
高維數(shù)據(jù)的語義提取:單個(gè)時(shí)序樣本可包含數(shù)萬個(gè)數(shù)值(如32通道×600時(shí)間步),如何從中提取出有效的語義特征是首要難題。
抽象語義的對齊建模:時(shí)序信號的模式變化(如緩慢上升、突然波動)與物理系統(tǒng)的狀態(tài)轉(zhuǎn)換(如設(shè)備老化、突發(fā)故障)之間的對應(yīng)關(guān)系高度抽象,難以直接建模。
多尺度時(shí)間依賴的處理:時(shí)序數(shù)據(jù)中的關(guān)鍵信息可能分布在不同的時(shí)間尺度上,模型必須具備處理多尺度依賴的能力。
ITFormer架構(gòu)與關(guān)鍵模塊
ITFormer的設(shè)計(jì)思想是作為一個(gè)輕量級的”橋梁”,在凍結(jié)預(yù)訓(xùn)練時(shí)序編碼器和大型語言模型(LLM)的前提下,實(shí)現(xiàn)兩者的高效對齊與融合。
時(shí)間令牌位置編碼(TPE)
為精確表征多維時(shí)序數(shù)據(jù)的結(jié)構(gòu),TPE在三個(gè)層次上進(jìn)行位置編碼:時(shí)間步(Temporal Steps)、通道(Channels)和時(shí)序片段(Segments),確保模型能區(qū)分不同時(shí)間點(diǎn)、不同傳感器以及不同數(shù)據(jù)段的語義信息。
可學(xué)習(xí)指令令牌(LIT)
為了讓模型理解具體的任務(wù)指令,LIT在文本查詢前添加了一組可學(xué)習(xí)的令牌。這些令牌通過自注意力機(jī)制,能夠從自然語言查詢中自動捕獲并濃縮任務(wù)相關(guān)的語義信息,從而指導(dǎo)后續(xù)的跨模態(tài)融合。
指令時(shí)間注意力(ITA)
作為ITFormer的核心創(chuàng)新,ITA通過一個(gè)高效的兩階段過程實(shí)現(xiàn)跨模態(tài)對齊:
- 通道指令融合(Channel Instruct Fusing):根據(jù)LIT提供的任務(wù)指令,動態(tài)地對每個(gè)時(shí)間步上的多通道特征進(jìn)行加權(quán)聚合,篩選出與任務(wù)最相關(guān)的傳感器信息。
- 時(shí)間指令注意力(Time Instruct Attention):在上一步的基礎(chǔ)上,再次根據(jù)任務(wù)指令,在時(shí)間維度上進(jìn)行注意力加權(quán),聚合最關(guān)鍵的時(shí)間片段信息。
這一設(shè)計(jì)顯著提升了計(jì)算效率,同時(shí)保證了對齊的精確性。
時(shí)間令牌即語言(TAL)
該策略將ITA融合后的時(shí)序特征向量直接視為語言令牌,并替換掉文本查詢中預(yù)設(shè)的占位符。這使得時(shí)序信息能以一種與語言模型兼容的方式,無縫嵌入到LLM的輸入序列中,從而實(shí)現(xiàn)端到端的建模。
EngineMT-QA數(shù)據(jù)集設(shè)計(jì)
EngineMT-QA基于真實(shí)的工業(yè)應(yīng)用場景設(shè)計(jì),其任務(wù)層次反映了專家處理時(shí)序數(shù)據(jù)的認(rèn)知過程。
數(shù)據(jù)規(guī)模:包含超過11萬對高質(zhì)量問答數(shù)據(jù),源于NASA N-CMAPSS標(biāo)準(zhǔn)數(shù)據(jù)集。
數(shù)據(jù)維度:覆蓋32個(gè)傳感器通道,每個(gè)樣本包含600個(gè)時(shí)間步。
質(zhì)量保證:所有數(shù)據(jù)均經(jīng)過領(lǐng)域?qū)<业慕徊鎸徍?,確保技術(shù)準(zhǔn)確性。
適配主流LLMs,性能實(shí)現(xiàn)SOTA
EngineMT-QA數(shù)據(jù)集上的性能對比
在EngineMT-QA數(shù)據(jù)集上,ITFormer的性能全面超越了包括主流多模態(tài)API,如ChatGPT-4o、Gemini,以及專用時(shí)序-文本模型Time-LLM、AutoTime在內(nèi)的所有基線。尤其在需要深度分析的“推理”和“決策”任務(wù)上,F(xiàn)1分?jǐn)?shù)和BLEU得分的顯著領(lǐng)先,證明了ITFormer對復(fù)雜時(shí)序-語言關(guān)系具備強(qiáng)大的建模能力。
ITFormer模塊有效性驗(yàn)證:消融實(shí)驗(yàn)
消融實(shí)驗(yàn)結(jié)果量化了ITFormer各核心組件的貢獻(xiàn)。實(shí)驗(yàn)表明:TPE(時(shí)間令牌位置編碼) 對模型性能的提升最為關(guān)鍵,是模型理解多維時(shí)序結(jié)構(gòu)的基礎(chǔ)。同時(shí),ITA(指令時(shí)間注意力) 與TPE的結(jié)合能夠產(chǎn)生顯著的協(xié)同效應(yīng)。最終,包含全部組件的完整架構(gòu)性能最佳,驗(yàn)證了ITFormer系統(tǒng)性設(shè)計(jì)的有效性。
架構(gòu)通用性:適配不同時(shí)序編碼器與語言模型
ITFormer展現(xiàn)了卓越的“即插即用”特性。實(shí)驗(yàn)證明,它可無縫適配PatchTST、Informer、Crossformer等多種時(shí)序編碼器,以及Qwen、LLaMA、GLM等不同規(guī)模和架構(gòu)的大語言模型。此外,隨著底層語言模型規(guī)模的提升,整體任務(wù)性能也隨之穩(wěn)步提高,表現(xiàn)出良好的可擴(kuò)展性。
跨域泛化與數(shù)據(jù)集價(jià)值
為驗(yàn)證模型與數(shù)據(jù)集的通用價(jià)值,研究團(tuán)隊(duì)在公開基準(zhǔn)TimeSeriesExam上進(jìn)行了測試。
結(jié)果顯示:1.ITFormer方法的有效性:即便不經(jīng)過預(yù)訓(xùn)練,ITFormer直接在TimeSeriesExam上訓(xùn)練,其性能已在多個(gè)任務(wù)上優(yōu)于通用基線,證明了其架構(gòu)設(shè)計(jì)的先進(jìn)性。 2.EngineMT-QA數(shù)據(jù)集的價(jià)值:在使用EngineMT-QA進(jìn)行預(yù)訓(xùn)練后,ITFormer的性能得到進(jìn)一步的巨大提升,在全部五項(xiàng)任務(wù)上均達(dá)到SOTA水平,其中“因果分析”準(zhǔn)確率高達(dá)0.83。
這充分說明,EngineMT-QA作為一個(gè)時(shí)序文本對數(shù)據(jù)集,能夠?yàn)槟P吞峁╆P(guān)于時(shí)序-文本關(guān)系的本質(zhì)性知識,從而顯著提升其在其他任務(wù)上的泛化能力。
推理效率驗(yàn)證
效率測試表明,ITA機(jī)制相較于傳統(tǒng)的跨模態(tài)注意力(cross-attention),在處理多通道、長序列數(shù)據(jù)時(shí)推理速度優(yōu)勢明顯。同時(shí),LIT模塊也能有效降低長文本輸入帶來的計(jì)算開銷。這些結(jié)果證明,ITFormer的架構(gòu)設(shè)計(jì)兼顧了高性能與高效率,為大規(guī)模實(shí)時(shí)應(yīng)用提供了可能。
ITFormer及EngineMT-QA為時(shí)序AI社區(qū)提供了新的研究范式和寶貴資源,在工程和科學(xué)領(lǐng)域均具有廣闊的應(yīng)用前景。
時(shí)序QA論文合集:
https://github.com/Pandalin98/Awesome-Time-Series-QA-Papers
項(xiàng)目主頁:
https://pandalin98.github.io/itformer_site/
論文鏈接:http://arxiv.org/abs/2506.20093
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.