網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI真能“理解”人類語言嗎？這個(gè)大模型開掛了

2023-12-27 10:59:37　來源: 智能進(jìn)化論

北京舉報(bào)

分享至

導(dǎo)讀：算法創(chuàng)新，如何解鎖語義理解新高度？

2023年，大模型從年初卷到年末。無論是國內(nèi)的百模大戰(zhàn)格局，還是國外一超多強(qiáng)的新競(jìng)爭(zhēng)態(tài)勢(shì)，基礎(chǔ)模型的能力依然是生成式AI的核心。

對(duì)于提升基礎(chǔ)模型能力，OpenAI曾提出一個(gè)著名的Scaling Law，即模型的參數(shù)規(guī)模越大、投入的高質(zhì)量數(shù)據(jù)越多、投入的算力越多，模型就越強(qiáng)大越智能。這一法則也被稱之為伸縮法則或擴(kuò)展定律。

然而，從算力、數(shù)據(jù)到算法，各個(gè)方面資源均受約束的情況，則是訓(xùn)練基礎(chǔ)大模型時(shí)面臨的常態(tài)。比如算力緊缺一卡難求，高質(zhì)量數(shù)據(jù)嚴(yán)重不足等。那么，算法的創(chuàng)新能否扛起提升大模型精度的重任？

11月底，浪潮信息的千億開源模型源2.0在算法創(chuàng)新方面為產(chǎn)業(yè)界探索了新的方向。

源2.0采用了一種新型的注意力算法結(jié)構(gòu)LFA（局部注意力過濾增強(qiáng)機(jī)制，Localized Filtering-based Attention），對(duì)比傳統(tǒng)Transformer架構(gòu)下的注意力機(jī)制，LFA對(duì)自然語言的關(guān)聯(lián)語義理解更精準(zhǔn)，能夠顯著提升模型精度。

Train Loss是衡量模型精度的指標(biāo)之一，數(shù)值越低意味著模型精度越好。基于 LFA 模型結(jié)構(gòu)，102B的源 2.0模型訓(xùn)練 288B 的 Tokens，最終 Train Loss 為 1.18，相比245B的源 1.0模型，Train Loss 降低了 28%。

這意味著，源2.0打開了一扇新的大門，在無需大幅提升模型參數(shù)規(guī)模、計(jì)算量和內(nèi)存開銷的情況下，通過算法創(chuàng)新也可以實(shí)現(xiàn)模型精度的顯著提升。

為什么LFA能顯著提升大語言模型精度？

2017年谷歌推出的Transformer架構(gòu)是當(dāng)前大語言模型的基礎(chǔ)架構(gòu)，也是這一輪生成式AI浪潮的核心技術(shù)底座。雖然Transformer架構(gòu)具有強(qiáng)大的泛化能力，但并非在所有場(chǎng)景下都有完美表現(xiàn)。對(duì)自然語言長序列的處理，以及對(duì)序列中的順序信息的理解就是其短板之一。

Transformer架構(gòu)中的注意力機(jī)制對(duì)輸入的所有文字一視同仁，不會(huì)假設(shè)自然語言相鄰詞之間存在先驗(yàn)的語義關(guān)聯(lián)。而在自然語言中，相鄰詞之間的語義關(guān)聯(lián)是一個(gè)明顯特征。

比如，“我想吃重慶火鍋”這句話，重慶是修飾火鍋的，這兩個(gè)詞之間有更強(qiáng)的依賴關(guān)系。

當(dāng)把這句話丟給一個(gè)Transformer架構(gòu)的大語言模型時(shí)，其注意力機(jī)制會(huì)首先進(jìn)行分詞，我/想/吃/重慶/火鍋，即對(duì)所有token平均對(duì)待，而不會(huì)注意到相鄰詞之間是否存在更強(qiáng)的局部關(guān)系。

如果能將相鄰詞之間的語義關(guān)聯(lián)引入大模型的注意力機(jī)制，將獲得更精準(zhǔn)的自然語言理解能力，從而提升大語言模型的精度。

源2.0研發(fā)團(tuán)隊(duì)首先嘗試了常用的EMA算法。EMA（指數(shù)移動(dòng)平均）是在處理時(shí)序數(shù)據(jù)時(shí)一種比較經(jīng)典的考慮局部關(guān)系的算法。雖然EMA也能降低Train Loss值，改進(jìn)模型精度，但會(huì)導(dǎo)致內(nèi)存開銷和計(jì)算耗時(shí)大幅增加，尤其是對(duì)千億規(guī)模的模型來說，訓(xùn)練成本太大。

最終，源2.0研發(fā)團(tuán)隊(duì)采用了兩組卷積+RMSNorm的方法，構(gòu)建了LFA結(jié)構(gòu)。也就是說，依然基于Transformer架構(gòu)，但在自注意力層中引入了CNN捕捉相鄰詞的關(guān)系。

兩組卷積中，卷積核為2，步長為1，然后再經(jīng)過RMSNorm歸一化。第二次卷積后，相鄰詞之間的關(guān)系又被傳遞到下一個(gè)詞，相當(dāng)于能夠捕捉到三個(gè)相鄰詞之間的關(guān)系。

以“有只貓?jiān)诔詵|西”這句話為例，第二次卷積后，注意力機(jī)制能夠覆蓋三個(gè)相鄰詞之間的局部關(guān)系，如：（空格，有），（（空格，有），只），（（有，只），貓），（（只，貓），在），（（貓，在），吃），（（在，吃），東西）。

從源2.0技術(shù)論文中的消融實(shí)驗(yàn)可以看出，basic是LLaMA結(jié)構(gòu)即傳統(tǒng)Transformer注意力機(jī)制，對(duì)比之下，LFA結(jié)構(gòu)的模型可以將Train Loss值從1.251降低到1.2069，而模型參數(shù)和訓(xùn)練耗時(shí)的增加并不明顯。

算法創(chuàng)新推動(dòng)源2.0能力全面升級(jí)

基于LFA結(jié)構(gòu)的算法創(chuàng)新，源2.0探索出一個(gè)在有限算力資源、有限數(shù)據(jù)質(zhì)量、有限參數(shù)規(guī)模的情況下，提升模型精度的新方向。

這種算法創(chuàng)新加上數(shù)據(jù)、算力層面的創(chuàng)新，也讓源2.0在數(shù)理邏輯、代碼生成、知識(shí)問答、中英文翻譯、語義理解等方面的能力大幅提升，實(shí)現(xiàn)了對(duì)源1.0的全面超越。

在源2.0的技術(shù)論文中，浪潮信息公布了源2.0在多個(gè)權(quán)威評(píng)測(cè)中的表現(xiàn)，包括：面向代碼生成任務(wù)的基準(zhǔn)測(cè)試HumanEval、用于數(shù)學(xué)問題求解的測(cè)試GSM-8K、用來評(píng)估標(biāo)準(zhǔn)化考試的基準(zhǔn)測(cè)試AGIEval、事實(shí)性問答測(cè)試 TruthfulQA等。

從測(cè)試結(jié)果看，源2.0在精準(zhǔn)度方面全面超過了ChatGPT，并在某些測(cè)試上接近GPT4的水平。

在HumanEval評(píng)測(cè)集上，使用了SC（自洽性，Self-Consistency）方法的源2.0準(zhǔn)確率達(dá)到77.4%。

在AGIEval測(cè)試中，源2.0已經(jīng)可以對(duì)相當(dāng)復(fù)雜的高考數(shù)學(xué)題進(jìn)行完美解答。源2.0的回答，無論是推理思路、求解過程，還是符號(hào)計(jì)算和數(shù)值計(jì)算都非常準(zhǔn)確。

“LFA事實(shí)上也代表著一個(gè)新的研究方向，我們可以沿著這個(gè)方向走下去，發(fā)現(xiàn)更多更好的局部性結(jié)構(gòu)，來建模自然語言處理或者序列關(guān)系?！崩顺毙畔⑷斯ぶ悄苘浖邪l(fā)總監(jiān)吳韶華表示。

以開源方式，聚焦基礎(chǔ)模型能力迭代

根據(jù)北京市經(jīng)濟(jì)和信息化局的數(shù)據(jù)，截止到2023年10月，單是中國國內(nèi)公開的大模型數(shù)量，就已經(jīng)達(dá)到了238個(gè)。當(dāng)最初的粗放式發(fā)展過后，國內(nèi)百模大戰(zhàn)的格局必將走向逐漸收斂的階段。

其中，有戰(zhàn)略定力和技術(shù)實(shí)力能夠持續(xù)迭代基礎(chǔ)模型能力的企業(yè)并不多，浪潮信息就是其中之一。目前，浪潮信息在生成式AI領(lǐng)域的布局聚焦在基礎(chǔ)模型能力的提升上，而且始終堅(jiān)持開源路線。

在開源方面，源大模型堅(jiān)持全面開源，包括開源API、基礎(chǔ)模型參數(shù)和代碼、訓(xùn)練數(shù)據(jù)集等。

圖片來自攝圖網(wǎng)

2021年9月推出的2457億參數(shù)的源1.0模型是當(dāng)時(shí)業(yè)界最大規(guī)模的大語言模型，模型發(fā)布后浪潮信息便推出了開源開放計(jì)劃，目前已經(jīng)賦能海量開發(fā)者基于源1.0進(jìn)行應(yīng)用創(chuàng)新。

2023年11月，源2.0基礎(chǔ)大模型一經(jīng)發(fā)布即開源，包括1026億、518億、21億三種參數(shù)規(guī)模。通過算法、數(shù)據(jù)、算力三大維度的全面創(chuàng)新，源2.0實(shí)現(xiàn)了基礎(chǔ)模型能力的大幅提升。

同時(shí)，源2.0還推出了開源共訓(xùn)計(jì)劃，所有開發(fā)者都可以提出自己的場(chǎng)景需求，源大模型團(tuán)隊(duì)會(huì)開展相關(guān)的數(shù)據(jù)清洗/收集與模型訓(xùn)練，訓(xùn)練完成后的基礎(chǔ)模型會(huì)持續(xù)開源到社區(qū)反饋給開發(fā)者，為開發(fā)者提供更好的模型基礎(chǔ)能力支持。

“大模型開源，能夠加速整個(gè)產(chǎn)業(yè)協(xié)同發(fā)展，這是它最本質(zhì)的價(jià)值。產(chǎn)業(yè)要健康發(fā)展，不能說只有一家公司擁有一個(gè)非常領(lǐng)先的能力，其他人都沒有辦法提供類似的能力。生成式AI一定是一個(gè)多元化的生態(tài)。我們希望這個(gè)產(chǎn)業(yè)能夠百花齊放，能夠更加的豐富?！?浪潮信息高級(jí)副總裁劉軍曾向媒體表示。

目前，能夠超越Transformer的下一代模型結(jié)構(gòu)會(huì)是什么樣子，業(yè)界仍處于拆黑盒的探索階段。

但換一個(gè)思路，前沿技術(shù)的發(fā)展從來不是突進(jìn)式變化，而是連續(xù)演進(jìn)的。在探索大模型算法結(jié)構(gòu)的發(fā)展方向上，當(dāng)下任何一個(gè)微小的技術(shù)改進(jìn)都是尤為踏實(shí)的一步。從這點(diǎn)來看，源2.0的算法創(chuàng)新也為業(yè)界推開一扇新的大門。

本文為「智能進(jìn)化論」原創(chuàng)作品。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.