在大模型的競(jìng)賽中,參數(shù)規(guī)模往往被視為性能的決定性因素。但近期,Liquid AI 的研究團(tuán)隊(duì)提出了一個(gè)不同尋常的案例:一個(gè)僅有 3.5 億參數(shù)的模型,經(jīng)過(guò)微調(diào)后,竟能在中短上下文的實(shí)時(shí)日語(yǔ)英語(yǔ)翻譯任務(wù)上,與 GPT-4o 競(jìng)爭(zhēng)。
這一模型被命名為 LFM2-350M-ENJP-MT, 在多項(xiàng)評(píng)測(cè)中,它的表現(xiàn)不僅在同類(lèi)模型中遙遙領(lǐng)先,甚至比其自身大 2 個(gè)數(shù)量級(jí)的模型表現(xiàn)更好。
圖|不同模型日英翻譯表現(xiàn)對(duì)比(來(lái)源:Liquid AI)
作為一個(gè)專(zhuān)攻日英翻譯的模型,LFM2-350M-ENJP-MT 能夠順利完成日常文本、技術(shù)描述、商務(wù)溝通和新聞報(bào)道的翻譯,并且具備著保留像口語(yǔ)化表達(dá)、新聞措辭和商業(yè)溝通方面語(yǔ)言的細(xì)微差別的能力。
LFM2-350M-ENJP-MT 是在 LFM2-350M 基礎(chǔ)上微調(diào)得到的翻譯模型,而 LFM2-350M 本身是 LFM2 的最小尺寸 350M 參數(shù)版本,相比于市面上大多數(shù)模型體積很小。LFM2 由 Liquid AI 于今年 7 月 10 號(hào)發(fā)布,為第二代 Liquid Foundation Model(LFM),提供 350M、700M 和 1.2B 三種規(guī)格,專(zhuān)為邊緣 AI 和設(shè)備端部署設(shè)計(jì)。
LFM2-350M-ENJP-MT 所用的模型架構(gòu)與 LFM2 相同,采用了包含卷積和注意力模塊的混合架構(gòu),結(jié)合 10 個(gè)雙門(mén)控短程 LIV(Linear Input-Varying)卷積塊和 6 個(gè)分組查詢(xún)注意 (GQA) 塊,這種方法在不犧牲準(zhǔn)確率的情況下最大限度地提高了推理速度。線性輸入變化 (LIV) 算子的概念則是由 Liquid AI 研究團(tuán)隊(duì)于 2024 年提出,作為一種線性算子,其權(quán)重由輸入動(dòng)態(tài)生成,從而使卷積、遞歸、注意力機(jī)制和其他結(jié)構(gòu)層都?xì)w屬于一個(gè)統(tǒng)一的、對(duì)輸入敏感的框架。
同時(shí)團(tuán)隊(duì)還開(kāi)發(fā)了一個(gè)叫 STAR 的神經(jīng)架構(gòu)搜索引擎,通過(guò)進(jìn)化算法(evolutionary algorithm)來(lái)自動(dòng)探索最優(yōu)架構(gòu),滿(mǎn)足精度、內(nèi)存、延遲等需求。
圖|LFM2 架構(gòu)(來(lái)源:Omkaar Kamath)
和 LFM2-350M-ENJP-MT 一樣,LFM2 在基準(zhǔn)測(cè)試中,展現(xiàn)了“四兩撥千斤”的能力,性能超過(guò)很多同規(guī)格,甚至更大體積的模型。根據(jù)評(píng)估,LFM2-1.2B 的性能與 Qwen3-1.7B 相當(dāng),后者的參數(shù)數(shù)量比后者多 47%。LFM2-700M 的性能優(yōu)于 Gemma 3 1B IT,而 LFM2-350M 與 Qwen3-0.6B 和 Llama 3.2 1B Instruct 相當(dāng)。
而本次微調(diào)版本 LFM2-350M-ENJP-MT,更是將“小模型”的潛力發(fā)揮到了極致。在中短文日英翻譯上,表現(xiàn)比肩 ChatGPT-4o。
(來(lái)源:Liquid AI)
圖|LFM2 速度與其他模型速度對(duì)比(來(lái)源:Liquid AI)
與 LFM2-350M-ENJP-MT 一同發(fā)布的是 LFM2-350M-ENJP-MT-GGUF,也就是該模型的 GGUF 格式版本。GGUF 是一種經(jīng)過(guò)優(yōu)化等二進(jìn)制格式,能加快模型的加載與存儲(chǔ),從而提高推理效率。GGUF 專(zhuān)為 GGML 及其他執(zhí)行器設(shè)計(jì),而 GGML 等執(zhí)行器可以幫助大模型在商用硬件上實(shí)現(xiàn)高性能運(yùn)作。
這一點(diǎn),契合了 Liquid AI 的戰(zhàn)略:打造真正能在移動(dòng)端與邊緣設(shè)備落地的 AI 系統(tǒng)。成立于 2023 年的 Liquid AI,由來(lái)自 MIT 的研究員 Ramin Hasani 和 Mathias Lechner 創(chuàng)辦。團(tuán)隊(duì)的目標(biāo)就是致力于打造兼具性能與效率的基礎(chǔ)模型,并推動(dòng)其在設(shè)備端的普及應(yīng)用。
圖|Liquid AI 創(chuàng)始人(來(lái)源:LinkedIn)
當(dāng)前,LFM2-350M-ENJP-MT 還在特定方面有所不足,尤其是其處理超長(zhǎng)文本以及專(zhuān)業(yè)或語(yǔ)境敏感的翻譯的能力,例如: 技術(shù)及專(zhuān)業(yè)用語(yǔ)(醫(yī)學(xué)、法律、工程);新專(zhuān)有名詞(新產(chǎn)品、品牌、文化);或行業(yè)、領(lǐng)域內(nèi)部特有的術(shù)語(yǔ)。
Liquid AI 表示,他們將與開(kāi)源社區(qū)合作,持續(xù)微調(diào)改進(jìn) LFM2-350M-ENJP-MT。未來(lái),或許有越來(lái)越多這樣的“小模型”在更多復(fù)雜場(chǎng)景中發(fā)揮作用。
參考資料:
https://www.liquid.ai/blog/liquid-foundation-models-v2-our-second-series-of-generative-ai-models
https://huggingface.co/LiquidAI/LFM2-350M-ENJP-MT
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.