航空發(fā)動機(jī)用上大模型：解決復(fù)雜時(shí)序問題，性能超越ChatGPT-4o

2025-06-28 12:58:12　來源: 量子位

北京舉報(bào)

分享至

時(shí)序數(shù)據(jù)分析在工業(yè)監(jiān)控、醫(yī)療診斷等領(lǐng)域至關(guān)重要。

比如航空發(fā)動機(jī)監(jiān)控這個(gè)復(fù)雜工業(yè)場景中，工程師需分析海量多通道傳感器數(shù)據(jù)，以判斷設(shè)備狀態(tài)并制定維護(hù)決策。

然而，現(xiàn)有研究多聚焦于分類、預(yù)測等單一任務(wù)，與實(shí)際工業(yè)場景中專家通過自然語言進(jìn)行復(fù)雜交互和決策的需求存在顯著差異。

上海交通大學(xué)航空航天學(xué)院李元祥教授團(tuán)隊(duì)、上海創(chuàng)智學(xué)院、復(fù)旦大學(xué)數(shù)據(jù)科學(xué)學(xué)院團(tuán)隊(duì)以航空發(fā)動機(jī)運(yùn)維為背景，提出高效、可遷移的時(shí)序-語言橋接架構(gòu)——ITFormer，將專家診斷過程抽象為”理解、感知、推理、決策”四個(gè)認(rèn)知層次，并首次系統(tǒng)性地定義為“時(shí)序問答”任務(wù)范式。

團(tuán)隊(duì)基于NASA航空發(fā)動機(jī)數(shù)據(jù)，構(gòu)建了包含11萬余問答對的EngineMT-QA數(shù)據(jù)集。該數(shù)據(jù)集的任務(wù)設(shè)計(jì)緊密貼合專家的認(rèn)知流程，為評估模型在真實(shí)工業(yè)場景下的推理能力提供了首個(gè)標(biāo)準(zhǔn)化基準(zhǔn)。

結(jié)果顯示，ITFormer以模塊化設(shè)計(jì)實(shí)現(xiàn)了時(shí)序數(shù)據(jù)與大語言模型的高效融合，僅需訓(xùn)練不足1%的額外參數(shù)，便可在通用時(shí)序問答數(shù)據(jù)集上表現(xiàn)出優(yōu)越的性能和良好的遷移能力，展現(xiàn)了卓越的“即插即用”特性。它可無縫適配PatchTST、Informer、Crossformer等多種時(shí)序編碼器，以及Qwen、LLaMA、GLM等不同規(guī)模和架構(gòu)的大語言模型。

此外，在使用EngineMT-QA進(jìn)行預(yù)訓(xùn)練后，ITFormer的性能得到進(jìn)一步的巨大提升，在全部五項(xiàng)任務(wù)上均達(dá)到SOTA水平，其中“因果分析”準(zhǔn)確率高達(dá)0.83。

用戶可以進(jìn)行追問式探索，“昨天哪個(gè)設(shè)備的能耗最高？” “為什么它的能耗這么高？” “和上周同期相比情況如何？”。這種交互式的分析流程，讓數(shù)據(jù)探索過程更符合人類的思維習(xí)慣，從而真正實(shí)現(xiàn)了數(shù)據(jù)分析的大眾化。

航空發(fā)動機(jī)能用大模型了

技術(shù)難點(diǎn)

高維數(shù)據(jù)的語義提取：單個(gè)時(shí)序樣本可包含數(shù)萬個(gè)數(shù)值（如32通道×600時(shí)間步），如何從中提取出有效的語義特征是首要難題。

抽象語義的對齊建模：時(shí)序信號的模式變化（如緩慢上升、突然波動）與物理系統(tǒng)的狀態(tài)轉(zhuǎn)換（如設(shè)備老化、突發(fā)故障）之間的對應(yīng)關(guān)系高度抽象，難以直接建模。

多尺度時(shí)間依賴的處理：時(shí)序數(shù)據(jù)中的關(guān)鍵信息可能分布在不同的時(shí)間尺度上，模型必須具備處理多尺度依賴的能力。

ITFormer架構(gòu)與關(guān)鍵模塊

ITFormer的設(shè)計(jì)思想是作為一個(gè)輕量級的”橋梁”，在凍結(jié)預(yù)訓(xùn)練時(shí)序編碼器和大型語言模型（LLM）的前提下，實(shí)現(xiàn)兩者的高效對齊與融合。

時(shí)間令牌位置編碼（TPE）
為精確表征多維時(shí)序數(shù)據(jù)的結(jié)構(gòu)，TPE在三個(gè)層次上進(jìn)行位置編碼：時(shí)間步（Temporal Steps）、通道（Channels）和時(shí)序片段（Segments），確保模型能區(qū)分不同時(shí)間點(diǎn)、不同傳感器以及不同數(shù)據(jù)段的語義信息。

可學(xué)習(xí)指令令牌（LIT）
為了讓模型理解具體的任務(wù)指令，LIT在文本查詢前添加了一組可學(xué)習(xí)的令牌。這些令牌通過自注意力機(jī)制，能夠從自然語言查詢中自動捕獲并濃縮任務(wù)相關(guān)的語義信息，從而指導(dǎo)后續(xù)的跨模態(tài)融合。

指令時(shí)間注意力（ITA）
作為ITFormer的核心創(chuàng)新，ITA通過一個(gè)高效的兩階段過程實(shí)現(xiàn)跨模態(tài)對齊：

通道指令融合（Channel Instruct Fusing）：根據(jù)LIT提供的任務(wù)指令，動態(tài)地對每個(gè)時(shí)間步上的多通道特征進(jìn)行加權(quán)聚合，篩選出與任務(wù)最相關(guān)的傳感器信息。
時(shí)間指令注意力（Time Instruct Attention）：在上一步的基礎(chǔ)上，再次根據(jù)任務(wù)指令，在時(shí)間維度上進(jìn)行注意力加權(quán)，聚合最關(guān)鍵的時(shí)間片段信息。
這一設(shè)計(jì)顯著提升了計(jì)算效率，同時(shí)保證了對齊的精確性。

時(shí)間令牌即語言（TAL）
該策略將ITA融合后的時(shí)序特征向量直接視為語言令牌，并替換掉文本查詢中預(yù)設(shè)的占位符。這使得時(shí)序信息能以一種與語言模型兼容的方式，無縫嵌入到LLM的輸入序列中，從而實(shí)現(xiàn)端到端的建模。

EngineMT-QA數(shù)據(jù)集設(shè)計(jì)

EngineMT-QA基于真實(shí)的工業(yè)應(yīng)用場景設(shè)計(jì)，其任務(wù)層次反映了專家處理時(shí)序數(shù)據(jù)的認(rèn)知過程。

數(shù)據(jù)規(guī)模：包含超過11萬對高質(zhì)量問答數(shù)據(jù)，源于NASA N-CMAPSS標(biāo)準(zhǔn)數(shù)據(jù)集。
數(shù)據(jù)維度：覆蓋32個(gè)傳感器通道，每個(gè)樣本包含600個(gè)時(shí)間步。
質(zhì)量保證：所有數(shù)據(jù)均經(jīng)過領(lǐng)域?qū)＜业慕徊鎸徍?，確保技術(shù)準(zhǔn)確性。

適配主流LLMs，性能實(shí)現(xiàn)SOTA

EngineMT-QA數(shù)據(jù)集上的性能對比

在EngineMT-QA數(shù)據(jù)集上，ITFormer的性能全面超越了包括主流多模態(tài)API，如ChatGPT-4o、Gemini，以及專用時(shí)序-文本模型Time-LLM、AutoTime在內(nèi)的所有基線。尤其在需要深度分析的“推理”和“決策”任務(wù)上，F(xiàn)1分?jǐn)?shù)和BLEU得分的顯著領(lǐng)先，證明了ITFormer對復(fù)雜時(shí)序-語言關(guān)系具備強(qiáng)大的建模能力。

ITFormer模塊有效性驗(yàn)證：消融實(shí)驗(yàn)

消融實(shí)驗(yàn)結(jié)果量化了ITFormer各核心組件的貢獻(xiàn)。實(shí)驗(yàn)表明：TPE（時(shí)間令牌位置編碼）對模型性能的提升最為關(guān)鍵，是模型理解多維時(shí)序結(jié)構(gòu)的基礎(chǔ)。同時(shí)，ITA（指令時(shí)間注意力）與TPE的結(jié)合能夠產(chǎn)生顯著的協(xié)同效應(yīng)。最終，包含全部組件的完整架構(gòu)性能最佳，驗(yàn)證了ITFormer系統(tǒng)性設(shè)計(jì)的有效性。

架構(gòu)通用性：適配不同時(shí)序編碼器與語言模型

ITFormer展現(xiàn)了卓越的“即插即用”特性。實(shí)驗(yàn)證明，它可無縫適配PatchTST、Informer、Crossformer等多種時(shí)序編碼器，以及Qwen、LLaMA、GLM等不同規(guī)模和架構(gòu)的大語言模型。此外，隨著底層語言模型規(guī)模的提升，整體任務(wù)性能也隨之穩(wěn)步提高，表現(xiàn)出良好的可擴(kuò)展性。

跨域泛化與數(shù)據(jù)集價(jià)值

為驗(yàn)證模型與數(shù)據(jù)集的通用價(jià)值，研究團(tuán)隊(duì)在公開基準(zhǔn)TimeSeriesExam上進(jìn)行了測試。

結(jié)果顯示：1.ITFormer方法的有效性：即便不經(jīng)過預(yù)訓(xùn)練，ITFormer直接在TimeSeriesExam上訓(xùn)練，其性能已在多個(gè)任務(wù)上優(yōu)于通用基線，證明了其架構(gòu)設(shè)計(jì)的先進(jìn)性。 2.EngineMT-QA數(shù)據(jù)集的價(jià)值：在使用EngineMT-QA進(jìn)行預(yù)訓(xùn)練后，ITFormer的性能得到進(jìn)一步的巨大提升，在全部五項(xiàng)任務(wù)上均達(dá)到SOTA水平，其中“因果分析”準(zhǔn)確率高達(dá)0.83。

這充分說明，EngineMT-QA作為一個(gè)時(shí)序文本對數(shù)據(jù)集，能夠?yàn)槟Ｐ吞峁╆P(guān)于時(shí)序-文本關(guān)系的本質(zhì)性知識，從而顯著提升其在其他任務(wù)上的泛化能力。

推理效率驗(yàn)證

效率測試表明，ITA機(jī)制相較于傳統(tǒng)的跨模態(tài)注意力（cross-attention），在處理多通道、長序列數(shù)據(jù)時(shí)推理速度優(yōu)勢明顯。同時(shí)，LIT模塊也能有效降低長文本輸入帶來的計(jì)算開銷。這些結(jié)果證明，ITFormer的架構(gòu)設(shè)計(jì)兼顧了高性能與高效率，為大規(guī)模實(shí)時(shí)應(yīng)用提供了可能。

ITFormer及EngineMT-QA為時(shí)序AI社區(qū)提供了新的研究范式和寶貴資源，在工程和科學(xué)領(lǐng)域均具有廣闊的應(yīng)用前景。

時(shí)序QA論文合集：
https://github.com/Pandalin98/Awesome-Time-Series-QA-Papers
項(xiàng)目主頁：
https://pandalin98.github.io/itformer_site/
論文鏈接：http://arxiv.org/abs/2506.20093

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.