夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI真能“理解”人類語言嗎?這個(gè)大模型開掛了

0
分享至

導(dǎo)讀:算法創(chuàng)新,如何解鎖語義理解新高度?

2023年,大模型從年初卷到年末。無論是國內(nèi)的百模大戰(zhàn)格局,還是國外一超多強(qiáng)的新競(jìng)爭(zhēng)態(tài)勢(shì),基礎(chǔ)模型的能力依然是生成式AI的核心。

對(duì)于提升基礎(chǔ)模型能力,OpenAI曾提出一個(gè)著名的Scaling Law,即模型的參數(shù)規(guī)模越大、投入的高質(zhì)量數(shù)據(jù)越多、投入的算力越多,模型就越強(qiáng)大越智能。這一法則也被稱之為伸縮法則或擴(kuò)展定律。

然而,從算力、數(shù)據(jù)到算法,各個(gè)方面資源均受約束的情況,則是訓(xùn)練基礎(chǔ)大模型時(shí)面臨的常態(tài)。比如算力緊缺一卡難求,高質(zhì)量數(shù)據(jù)嚴(yán)重不足等。那么,算法的創(chuàng)新能否扛起提升大模型精度的重任?

11月底,浪潮信息的千億開源模型源2.0在算法創(chuàng)新方面為產(chǎn)業(yè)界探索了新的方向。

源2.0采用了一種新型的注意力算法結(jié)構(gòu)LFA(局部注意力過濾增強(qiáng)機(jī)制,Localized Filtering-based Attention),對(duì)比傳統(tǒng)Transformer架構(gòu)下的注意力機(jī)制,LFA對(duì)自然語言的關(guān)聯(lián)語義理解更精準(zhǔn),能夠顯著提升模型精度。

Train Loss是衡量模型精度的指標(biāo)之一,數(shù)值越低意味著模型精度越好。基于 LFA 模型結(jié)構(gòu),102B的源 2.0模型訓(xùn)練 288B 的 Tokens,最終 Train Loss 為 1.18,相比245B的源 1.0模型,Train Loss 降低了 28%。

這意味著,源2.0打開了一扇新的大門,在無需大幅提升模型參數(shù)規(guī)模、計(jì)算量和內(nèi)存開銷的情況下,通過算法創(chuàng)新也可以實(shí)現(xiàn)模型精度的顯著提升。



為什么LFA能顯著提升大語言模型精度?

2017年谷歌推出的Transformer架構(gòu)是當(dāng)前大語言模型的基礎(chǔ)架構(gòu),也是這一輪生成式AI浪潮的核心技術(shù)底座。雖然Transformer架構(gòu)具有強(qiáng)大的泛化能力,但并非在所有場(chǎng)景下都有完美表現(xiàn)。對(duì)自然語言長序列的處理,以及對(duì)序列中的順序信息的理解就是其短板之一。

Transformer架構(gòu)中的注意力機(jī)制對(duì)輸入的所有文字一視同仁,不會(huì)假設(shè)自然語言相鄰詞之間存在先驗(yàn)的語義關(guān)聯(lián)。而在自然語言中,相鄰詞之間的語義關(guān)聯(lián)是一個(gè)明顯特征。

比如,“我想吃重慶火鍋”這句話,重慶是修飾火鍋的,這兩個(gè)詞之間有更強(qiáng)的依賴關(guān)系。

當(dāng)把這句話丟給一個(gè)Transformer架構(gòu)的大語言模型時(shí),其注意力機(jī)制會(huì)首先進(jìn)行分詞,我/想/吃/重慶/火鍋,即對(duì)所有token平均對(duì)待,而不會(huì)注意到相鄰詞之間是否存在更強(qiáng)的局部關(guān)系。

如果能將相鄰詞之間的語義關(guān)聯(lián)引入大模型的注意力機(jī)制,將獲得更精準(zhǔn)的自然語言理解能力,從而提升大語言模型的精度。

源2.0研發(fā)團(tuán)隊(duì)首先嘗試了常用的EMA算法。EMA(指數(shù)移動(dòng)平均)是在處理時(shí)序數(shù)據(jù)時(shí)一種比較經(jīng)典的考慮局部關(guān)系的算法。雖然EMA也能降低Train Loss值,改進(jìn)模型精度,但會(huì)導(dǎo)致內(nèi)存開銷和計(jì)算耗時(shí)大幅增加,尤其是對(duì)千億規(guī)模的模型來說,訓(xùn)練成本太大。

最終,源2.0研發(fā)團(tuán)隊(duì)采用了兩組卷積+RMSNorm的方法,構(gòu)建了LFA結(jié)構(gòu)。也就是說,依然基于Transformer架構(gòu),但在自注意力層中引入了CNN捕捉相鄰詞的關(guān)系。



兩組卷積中,卷積核為2,步長為1,然后再經(jīng)過RMSNorm歸一化。第二次卷積后,相鄰詞之間的關(guān)系又被傳遞到下一個(gè)詞,相當(dāng)于能夠捕捉到三個(gè)相鄰詞之間的關(guān)系。



以“有只貓?jiān)诔詵|西”這句話為例,第二次卷積后,注意力機(jī)制能夠覆蓋三個(gè)相鄰詞之間的局部關(guān)系,如:(空格,有),((空格,有),只),((有,只),貓),((只,貓),在),((貓,在),吃),((在,吃),東西)。



從源2.0技術(shù)論文中的消融實(shí)驗(yàn)可以看出,basic是LLaMA結(jié)構(gòu)即傳統(tǒng)Transformer注意力機(jī)制,對(duì)比之下,LFA結(jié)構(gòu)的模型可以將Train Loss值從1.251降低到1.2069,而模型參數(shù)和訓(xùn)練耗時(shí)的增加并不明顯。



算法創(chuàng)新推動(dòng)源2.0能力全面升級(jí)

基于LFA結(jié)構(gòu)的算法創(chuàng)新,源2.0探索出一個(gè)在有限算力資源、有限數(shù)據(jù)質(zhì)量、有限參數(shù)規(guī)模的情況下,提升模型精度的新方向。

這種算法創(chuàng)新加上數(shù)據(jù)、算力層面的創(chuàng)新,也讓源2.0在數(shù)理邏輯、代碼生成、知識(shí)問答、中英文翻譯、語義理解等方面的能力大幅提升,實(shí)現(xiàn)了對(duì)源1.0的全面超越。

在源2.0的技術(shù)論文中,浪潮信息公布了源2.0在多個(gè)權(quán)威評(píng)測(cè)中的表現(xiàn),包括:面向代碼生成任務(wù)的基準(zhǔn)測(cè)試HumanEval、用于數(shù)學(xué)問題求解的測(cè)試GSM-8K、用來評(píng)估標(biāo)準(zhǔn)化考試的基準(zhǔn)測(cè)試AGIEval、事實(shí)性問答測(cè)試 TruthfulQA等。

從測(cè)試結(jié)果看,源2.0在精準(zhǔn)度方面全面超過了ChatGPT,并在某些測(cè)試上接近GPT4的水平。



在HumanEval評(píng)測(cè)集上,使用了SC(自洽性,Self-Consistency)方法的源2.0準(zhǔn)確率達(dá)到77.4%。



在AGIEval測(cè)試中,源2.0已經(jīng)可以對(duì)相當(dāng)復(fù)雜的高考數(shù)學(xué)題進(jìn)行完美解答。源2.0的回答,無論是推理思路、求解過程,還是符號(hào)計(jì)算和數(shù)值計(jì)算都非常準(zhǔn)確。





“LFA事實(shí)上也代表著一個(gè)新的研究方向,我們可以沿著這個(gè)方向走下去,發(fā)現(xiàn)更多更好的局部性結(jié)構(gòu),來建模自然語言處理或者序列關(guān)系?!崩顺毙畔⑷斯ぶ悄苘浖邪l(fā)總監(jiān)吳韶華表示。

以開源方式,聚焦基礎(chǔ)模型能力迭代

根據(jù)北京市經(jīng)濟(jì)和信息化局的數(shù)據(jù),截止到2023年10月,單是中國國內(nèi)公開的大模型數(shù)量,就已經(jīng)達(dá)到了238個(gè)。當(dāng)最初的粗放式發(fā)展過后,國內(nèi)百模大戰(zhàn)的格局必將走向逐漸收斂的階段。

其中,有戰(zhàn)略定力和技術(shù)實(shí)力能夠持續(xù)迭代基礎(chǔ)模型能力的企業(yè)并不多,浪潮信息就是其中之一。目前,浪潮信息在生成式AI領(lǐng)域的布局聚焦在基礎(chǔ)模型能力的提升上,而且始終堅(jiān)持開源路線。

在開源方面,源大模型堅(jiān)持全面開源,包括開源API、基礎(chǔ)模型參數(shù)和代碼、訓(xùn)練數(shù)據(jù)集等。



圖片來自攝圖網(wǎng)

2021年9月推出的2457億參數(shù)的源1.0模型是當(dāng)時(shí)業(yè)界最大規(guī)模的大語言模型,模型發(fā)布后浪潮信息便推出了開源開放計(jì)劃,目前已經(jīng)賦能海量開發(fā)者基于源1.0進(jìn)行應(yīng)用創(chuàng)新。

2023年11月,源2.0基礎(chǔ)大模型一經(jīng)發(fā)布即開源,包括1026億、518億、21億三種參數(shù)規(guī)模。通過算法、數(shù)據(jù)、算力三大維度的全面創(chuàng)新,源2.0實(shí)現(xiàn)了基礎(chǔ)模型能力的大幅提升。

同時(shí),源2.0還推出了開源共訓(xùn)計(jì)劃,所有開發(fā)者都可以提出自己的場(chǎng)景需求,源大模型團(tuán)隊(duì)會(huì)開展相關(guān)的數(shù)據(jù)清洗/收集與模型訓(xùn)練,訓(xùn)練完成后的基礎(chǔ)模型會(huì)持續(xù)開源到社區(qū)反饋給開發(fā)者,為開發(fā)者提供更好的模型基礎(chǔ)能力支持。

“大模型開源,能夠加速整個(gè)產(chǎn)業(yè)協(xié)同發(fā)展,這是它最本質(zhì)的價(jià)值。產(chǎn)業(yè)要健康發(fā)展,不能說只有一家公司擁有一個(gè)非常領(lǐng)先的能力,其他人都沒有辦法提供類似的能力。生成式AI一定是一個(gè)多元化的生態(tài)。我們希望這個(gè)產(chǎn)業(yè)能夠百花齊放,能夠更加的豐富?!?浪潮信息高級(jí)副總裁劉軍曾向媒體表示。

目前,能夠超越Transformer的下一代模型結(jié)構(gòu)會(huì)是什么樣子,業(yè)界仍處于拆黑盒的探索階段。

但換一個(gè)思路,前沿技術(shù)的發(fā)展從來不是突進(jìn)式變化,而是連續(xù)演進(jìn)的。在探索大模型算法結(jié)構(gòu)的發(fā)展方向上,當(dāng)下任何一個(gè)微小的技術(shù)改進(jìn)都是尤為踏實(shí)的一步。從這點(diǎn)來看,源2.0的算法創(chuàng)新也為業(yè)界推開一扇新的大門。

本文為「智能進(jìn)化論」原創(chuàng)作品。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
毛主席視察天津時(shí)想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個(gè)字

毛主席視察天津時(shí)想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個(gè)字

南書房
2025-09-28 23:01:03
鄭麗文不裝了?國臺(tái)辦回應(yīng)武統(tǒng)后,鄭麗文表態(tài):絕不放棄武力保臺(tái)

鄭麗文不裝了?國臺(tái)辦回應(yīng)武統(tǒng)后,鄭麗文表態(tài):絕不放棄武力保臺(tái)

阿校談史
2025-11-14 16:38:17
瑟瑟發(fā)抖!抖音女神王小雨賬戶7連跌后殺入農(nóng)行...

瑟瑟發(fā)抖!抖音女神王小雨賬戶7連跌后殺入農(nóng)行...

金石隨筆
2025-11-17 00:09:39
隨著葡萄牙9-1,挪威4-1意大利,世預(yù)賽最新積分榜:歐洲5隊(duì)直通

隨著葡萄牙9-1,挪威4-1意大利,世預(yù)賽最新積分榜:歐洲5隊(duì)直通

侃球熊弟
2025-11-16 23:56:49
央視改稱郭晶晶了,三字微變暗藏強(qiáng)烈信號(hào),霍震霆果然全說對(duì)啦

央視改稱郭晶晶了,三字微變暗藏強(qiáng)烈信號(hào),霍震霆果然全說對(duì)啦

草莓解說體育
2025-11-15 03:12:12
全運(yùn)會(huì)王曼昱4-2孫穎莎,不和諧一幕再次出現(xiàn):球迷一邊倒惹爭(zhēng)議

全運(yùn)會(huì)王曼昱4-2孫穎莎,不和諧一幕再次出現(xiàn):球迷一邊倒惹爭(zhēng)議

大秦壁虎白話體育
2025-11-17 00:37:46
央八《隱鋒》僅播1晚就被要求下架?理由:胡編亂造,漏洞百出

央八《隱鋒》僅播1晚就被要求下架?理由:胡編亂造,漏洞百出

詩意世界
2025-11-14 21:57:48
你見過最狠的人有多狠?網(wǎng)友:好家伙,這么狠的人超乎我的想象力

你見過最狠的人有多狠?網(wǎng)友:好家伙,這么狠的人超乎我的想象力

帶你感受人間冷暖
2025-11-02 00:15:03
分享解剖學(xué)知識(shí),破除多年來的G點(diǎn)謠傳

分享解剖學(xué)知識(shí),破除多年來的G點(diǎn)謠傳

遠(yuǎn)方青木
2025-10-25 00:06:11
遼粵青年軍大戰(zhàn),廣東33分大勝,杜鋒看中之人17分,吳慶龍也沒轍

遼粵青年軍大戰(zhàn),廣東33分大勝,杜鋒看中之人17分,吳慶龍也沒轍

萌蘭聊個(gè)球
2025-11-16 22:06:23
一人一城!NBA現(xiàn)役實(shí)現(xiàn)該成就的概率:4人100%,兩人80%字母僅50%

一人一城!NBA現(xiàn)役實(shí)現(xiàn)該成就的概率:4人100%,兩人80%字母僅50%

籃球圈里的那些事
2025-11-14 18:18:05
3位副市長(擬)任市委常委

3位副市長(擬)任市委常委

上觀新聞
2025-11-16 16:05:04
上海多區(qū)出現(xiàn)!緊急提醒:破壞力強(qiáng)大,看到立即上報(bào)!

上海多區(qū)出現(xiàn)!緊急提醒:破壞力強(qiáng)大,看到立即上報(bào)!

環(huán)球網(wǎng)資訊
2025-11-16 21:13:14
國家出手!李梓萌騙人真相大白,幕后黑手被揪,受害者不止一人

國家出手!李梓萌騙人真相大白,幕后黑手被揪,受害者不止一人

許穋很機(jī)智
2025-10-19 13:34:42
上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的8倍不止?

上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的8倍不止?

霹靂炮
2025-10-17 21:31:29
趙露思就這樣再出神圖!穿“老頭衫”練舞,這顏值是真實(shí)存在的?

趙露思就這樣再出神圖!穿“老頭衫”練舞,這顏值是真實(shí)存在的?

小椰的奶奶
2025-11-16 16:00:36
2026年1月起加國七汽油!中石化率先換油,國四國五車適合嗎?

2026年1月起加國七汽油!中石化率先換油,國四國五車適合嗎?

小李子體育
2025-11-17 05:58:02
“世界最大駕校”翻車了:董事長被捕、股價(jià)暴跌,30年神話崩塌!

“世界最大駕校”翻車了:董事長被捕、股價(jià)暴跌,30年神話崩塌!

青眼財(cái)經(jīng)
2025-11-09 20:09:54
印度人在廬山戲水?三名境外游客在廬山一水潭戲水,景區(qū)官方致歉:“事發(fā)4月份,景區(qū)正加強(qiáng)規(guī)范化管理”

印度人在廬山戲水?三名境外游客在廬山一水潭戲水,景區(qū)官方致歉:“事發(fā)4月份,景區(qū)正加強(qiáng)規(guī)范化管理”

觀威海
2025-11-15 10:10:03
東京餐廳廁所門:櫻花妹與黑人男友的“15分鐘激戰(zhàn)”,老板怒掛全網(wǎng)后結(jié)局神反轉(zhuǎn)!

東京餐廳廁所門:櫻花妹與黑人男友的“15分鐘激戰(zhàn)”,老板怒掛全網(wǎng)后結(jié)局神反轉(zhuǎn)!

日本物語
2025-11-16 20:33:33
2025-11-17 08:32:49
智能進(jìn)化論 incentive-icons
智能進(jìn)化論
關(guān)注AI產(chǎn)業(yè)趨勢(shì)、場(chǎng)景應(yīng)用
410文章數(shù) 68關(guān)注度
往期回顧 全部

科技要聞

營銷話術(shù)反噬信任,雷軍不該只是一怒了之

頭條要聞

5名中國游客在巴厘島車禍死亡 傷者:司機(jī)一點(diǎn)傷沒有

頭條要聞

5名中國游客在巴厘島車禍死亡 傷者:司機(jī)一點(diǎn)傷沒有

體育要聞

最佳新秀候選!2028美國男籃有他一個(gè)位置

娛樂要聞

CEO爆料肖戰(zhàn)《藏海傳》狂賺幾十億!

財(cái)經(jīng)要聞

房源暗中調(diào)價(jià) 央企舉報(bào)廣州國資房企

汽車要聞

"冰彩沙"全配齊 紅旗HS6 PHEV預(yù)售17.88萬起

態(tài)度原創(chuàng)

本地
家居
旅游
藝術(shù)
教育

本地新聞

沈陽都市圈“冷資源”點(diǎn)燃“熱聯(lián)動(dòng)” “組團(tuán)”北上“圈粉”哈爾濱

家居要聞

現(xiàn)代簡(jiǎn)逸 尋找生活的光

旅游要聞

小心套路!商家包裝的“快通”不是景區(qū)的“快速通道”

藝術(shù)要聞

Charles Chaplin:19世紀(jì)法國新洛可可風(fēng)格畫家

教育要聞

官宣!南京又多一所附屬中學(xué)!

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲日本韩国欧美云霸高清| 人妻中文字幕九区| 亚洲一区二区三区写真| 国产jiZZHD精品巨大粗暴长 | 久久久精品人妻一区二区三区同人| 日韩欧美亚欧在线视频| 丁香五月婷婷夜夜| 色婷婷亚洲婷婷五月| 老骚屄老熟女| 亚洲AV无码久久精品国产 | 午夜无码成人福利| 青草青草久热精品视频在线观看 | 日本夜爽爽一区二区三区| 少妇高潮太爽了在线观看免费| 欧美日韩在线视频一区| 国产欧美婬乱一区二区| 欧美性猛xxx| 亚洲成av人片一区二区三区| 亚洲日韩成人| 国产成人av乱码在线观看| 欧美成aⅴ人高清怡红院| 一牛影视国产无码| 成年男女免费视频网站不卡| 国产成人精品亚洲午夜| 99草国产视频| 人妻爽爽人妻夜夜| 无码日本精品一区二区片| 欧美精品38videos性欧美| 人人操人人操妻| 潮喷无码正在播放| 日本成人午夜在线观看| 日本人妻人人操人人| 亚洲一区二区三区啪啪| 久久99欧美| 久久av一区二区三区| 伊人激情av一区二区三区| 99在线精品免费视频九九视| 久久久久亚洲AV成人片毛片| 丰满人妻跪趴高撅肥臀| 果冻传媒剧国产MV在线观看| 五月开心五月深深爱|