夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek技術(shù):如何通過注意力機制提升AI智能?

0
分享至



11月27日,DeepSeek的DeepSeekMath-V2模型,在IMO2025測試中拿到了金牌水平,分數(shù)比人類歷史最高分還高。

更有意思的是,這模型還是目前唯一開源開放權(quán)重的IMO金牌級模型。

能在數(shù)學(xué)推理這種"燒腦"領(lǐng)域超過人類頂尖水平,背后肯定不是拍腦袋搞出來的,而是攢了一整年的技術(shù)"大招"集中爆發(fā)。

今天咱們就來聊聊,這個讓AI在數(shù)學(xué)競賽里"封神"的模型,到底藏著哪些不為人知的技術(shù)小心思。



要搞懂DeepSeekMath-V2為啥這么強,得先看看它的"前輩們"都練了哪些"內(nèi)功"。

今年2月,DeepSeek發(fā)過一篇關(guān)于注意力機制的論文,叫NativeSparseAttention(NSA)。

傳統(tǒng)的注意力機制就像撒網(wǎng)捕魚,不管有用沒用的信息全兜住,序列越長計算量越夸張,簡直是"吃力不討好"。

NSA就聰明多了,搞了個"動態(tài)分層稀疏",簡單說就是先粗篩一遍,再精挑細選,最后用滑動窗口盯著最近的信息。



你猜怎么著?在64k長度的序列上,解碼速度直接快了11倍多,前向傳播快9倍,反向傳播快6倍。

關(guān)鍵是速度快了,效果還沒降,反而略有提升。

袁境陽團隊靠這個拿了ACL2025最佳論文,他們的目標更野,要把上下文長度擴展到100萬。

光處理得快還不夠,怎么把這些信息存下來也是個大問題。

這就輪到10月發(fā)布的OCR技術(shù)登場了,傳統(tǒng)存長上下文就像往U盤里硬塞文件,塞多了要么卡要么丟。

DeepSeek的思路有點意思,把文本渲染成圖像,用視覺encoder壓縮。



實驗結(jié)果挺驚喜,壓縮10倍的時候,解碼精度還能保持97%,就算壓到20倍,也有60%左右。

MITTechnologyReview評價這技術(shù)"可能找到了改善AI記憶的新方法",確實沒夸張。

更絕的是它模擬人類記憶衰減的設(shè)計,歷史圖像分辨率慢慢降低,就像咱們記東西,最近的事記得清,越老的事越模糊。

這種"聰明的忘記"比一股腦全記住實用多了,這思路比單純堆硬件存數(shù)據(jù)要巧多了。

除了處理和存儲上下文,DeepSeek在多模態(tài)能力上也沒閑著。

今年1月底,他們發(fā)布了Janus-Pro多模態(tài)模型,正好趕上R1引發(fā)全球關(guān)注那周。

這模型厲害在哪兒?能同時看懂圖像和生成圖像,就像既能看畫又能畫畫的全能選手。



傳統(tǒng)多模態(tài)模型經(jīng)常"精神分裂",理解圖像要細節(jié),生成圖像要創(chuàng)意,倆需求打架。

Janus-Pro搞了個"解耦視覺編碼",兩條路各管一攤,共用一個Transformer主干,這下不打架了。

這技術(shù)不光解決了當下的問題,更重要的是驗證了"一個大腦干多種活"的可行性,給未來通用智能體打了個好底子。

這些"內(nèi)功"練好了,終于在數(shù)學(xué)推理這個"硬仗"上派上了用場,這就是DeepSeekMath-V2的故事。



現(xiàn)在主流數(shù)學(xué)推理模型有點走偏了,被訓(xùn)練得只想著答對題,不管推理過程對不對。

就像有些學(xué)生考試靠蒙,答案對了但思路全錯,老師一追問就露餡。

用強化學(xué)習(xí)死磕最終答案正確率,結(jié)果模型寫的推理過程可能漏洞比篩子還多。

這種模式對付有標準答案的題還行,遇到開放問題就抓瞎。

DeepSeekMath-V2換了個思路,搞了個"生成器-驗證器"雙模型架構(gòu)。

你可以理解成,生成器負責(zé)寫證明過程,就像學(xué)生做題,驗證器負責(zé)當老師,批改這個證明對不對、嚴不嚴謹,然后把意見反饋給生成器。

這樣一來,生成器不光要答對,還得寫清楚"為什么對"。



不過這里有個難題,生成器寫的證明有時候太繞,驗證器看不懂,這就是"生成-驗證差距"。

DeepSeek的辦法是"動態(tài)擴展驗證計算",遇到難驗證的證明,就多花點計算資源仔細看,實在看不懂的,就自動標出來當成新訓(xùn)練數(shù)據(jù),讓驗證器慢慢學(xué)。

就像老師遇到學(xué)生寫的怪答案,先多看幾遍,實在不懂就記下來當教學(xué)案例,下次就會了。

這種自我驗證機制的價值可不小,首先,模型能自己發(fā)現(xiàn)推理問題并修正,不用老等著人類給標準答案。

以前模型學(xué)數(shù)學(xué)像照著答案抄作業(yè),現(xiàn)在能自己檢查作業(yè)了。



擺脫了對外部標準答案的依賴,這對解決開放問題太重要了,現(xiàn)實世界里很多問題根本沒有標準答案,總不能一直等著人來教吧?這步棋走得比單純提高正確率有遠見多了。

這些技術(shù)拼到一起,你會發(fā)現(xiàn)DeepSeek不是在瞎搞。

NSA解決長上下文處理效率,OCR解決存儲效率,倆技術(shù)湊一塊,指向的是百萬級甚至更長的上下文窗口,Janus-Pro的多模態(tài)能力是通用智能體的基礎(chǔ)設(shè)施。

各項技術(shù)不是孤立的,而是一套有內(nèi)在聯(lián)系的組合拳。

未來的大模型會往哪兒走?在線強化學(xué)習(xí)肯定是個重要方向。

簡單說就是模型能邊用邊學(xué),實時跟環(huán)境互動、獲取反饋、更新策略。



R1靠純強化學(xué)習(xí)突破推理能力,R1-Zero證明了用固定習(xí)題就能練出強模型,這些都在說明"邊做邊學(xué)"比"一次性喂飽"更高效。

DeepSeek的各項技術(shù)其實都在為這個方向鋪路,自我驗證機制讓模型能自己找錯,動態(tài)擴展計算讓模型能根據(jù)問題難度調(diào)整努力程度,多模態(tài)能力讓模型能跟更復(fù)雜的環(huán)境互動。

現(xiàn)在的DeepSeekMath-V2已經(jīng)邁出了第一步,未來要是把這些技術(shù)全整合好,再加上開源這個大優(yōu)勢,說不定真能讓AI在通用智能的路上走得更穩(wěn)。



畢竟,聰明的AI不光要會做題,更要學(xué)會怎么自己變得更聰明,這大概就是DeepSeek想告訴我們的事。



聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
知名醫(yī)生:別把張水華一棍子打死!醫(yī)院宣傳她,每年省千萬廣告費

知名醫(yī)生:別把張水華一棍子打死!醫(yī)院宣傳她,每年省千萬廣告費

念洲
2025-12-13 08:30:11
戀愛快5年了!于小彤摟著女友北京逛街,推車拎包這回終于成熟了

戀愛快5年了!于小彤摟著女友北京逛街,推車拎包這回終于成熟了

TVB的四小花
2025-12-14 00:33:07
在窗戶LED屏上惡意投放動態(tài)火焰,引來5輛消防車,廣州一市民被行政處罰

在窗戶LED屏上惡意投放動態(tài)火焰,引來5輛消防車,廣州一市民被行政處罰

環(huán)球網(wǎng)資訊
2025-12-13 08:23:04
突發(fā)!里夫斯被“官宣”受傷,4大疑點實錘湖人正進行交易保護?

突發(fā)!里夫斯被“官宣”受傷,4大疑點實錘湖人正進行交易保護?

籃球小布丁
2025-12-14 02:00:11
大爺花700萬買房,4年后才發(fā)現(xiàn)房子有地下室,走近卻愣住了

大爺花700萬買房,4年后才發(fā)現(xiàn)房子有地下室,走近卻愣住了

小秋情感說
2025-12-11 13:51:27
2026春晚官宣不到24小時,令人惡心的事情就發(fā)生了,還不止一件!

2026春晚官宣不到24小時,令人惡心的事情就發(fā)生了,還不止一件!

丹妮觀
2025-12-13 15:52:02
冬天穿“大衣+毛衣”,竟能如此驚艷!

冬天穿“大衣+毛衣”,竟能如此驚艷!

泰安秋子
2025-12-14 07:42:16
重要賽事!12月14晚上19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

重要賽事!12月14晚上19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-12-14 07:06:18
看完《藏海傳》再看《長安二十四計》,我想說:沒對比就沒傷害

看完《藏海傳》再看《長安二十四計》,我想說:沒對比就沒傷害

古木之草記
2025-12-13 14:09:32
“那咋了”,正在毀掉我們這一代人嗎?

“那咋了”,正在毀掉我們這一代人嗎?

知著網(wǎng)
2025-12-12 22:41:04
何鴻燊沒想到,最不受寵的“三房”,會在自己離開后成了最終贏家

何鴻燊沒想到,最不受寵的“三房”,會在自己離開后成了最終贏家

梁獼愛玩車
2025-12-12 16:49:45
方昊電梯戰(zhàn)神慢走 子銘或去成都!三大豪門爭搶朱5 大連無力競爭

方昊電梯戰(zhàn)神慢走 子銘或去成都!三大豪門爭搶朱5 大連無力競爭

刀鋒體育
2025-12-13 20:26:38
哭了!原來有錢人冬天過得這么舒服,網(wǎng)友:貧富差距真的具象化了

哭了!原來有錢人冬天過得這么舒服,網(wǎng)友:貧富差距真的具象化了

觀察鑒娛
2025-12-13 18:56:07
庫里39+5+5,燃盡了!賽后巴特勒先一步退場,愛德華茲抱住庫里

庫里39+5+5,燃盡了!賽后巴特勒先一步退場,愛德華茲抱住庫里

擔(dān)酒
2025-12-13 13:41:27
男子駕車碾壓拖拽妻子致死案一審宣判,被告人張某犯過失致人死亡罪判處有期徒刑五年

男子駕車碾壓拖拽妻子致死案一審宣判,被告人張某犯過失致人死亡罪判處有期徒刑五年

臺州交通廣播
2025-12-13 14:30:00
北京有多大?天津同事下班到家,昌平同事卻還在路上!

北京有多大?天津同事下班到家,昌平同事卻還在路上!

特約前排觀眾
2025-12-14 00:15:07
官方整治“大字吸睛、小字免責(zé)”!廣告不得利用減小字號等進行補充說明 市場監(jiān)管總局公開征求《廣告引證內(nèi)容執(zhí)法指南(征求意見稿)》意見

官方整治“大字吸睛、小字免責(zé)”!廣告不得利用減小字號等進行補充說明 市場監(jiān)管總局公開征求《廣告引證內(nèi)容執(zhí)法指南(征求意見稿)》意見

每日經(jīng)濟新聞
2025-12-12 22:11:40
里勒36+7北控6人上雙逆轉(zhuǎn)山東 廖三寧14+7鄒雨宸眼角被打出血

里勒36+7北控6人上雙逆轉(zhuǎn)山東 廖三寧14+7鄒雨宸眼角被打出血

醉臥浮生
2025-12-13 21:44:32
婚姻法新規(guī):非夫妻關(guān)系的男女自愿同居,如果被查到了...

婚姻法新規(guī):非夫妻關(guān)系的男女自愿同居,如果被查到了...

譚老師地理大課堂
2025-12-09 18:24:33
2500億造了座“空城”?碧桂園海外超級項目,如今空得讓人發(fā)毛

2500億造了座“空城”?碧桂園海外超級項目,如今空得讓人發(fā)毛

GA環(huán)球建筑
2025-12-06 10:28:42
2025-12-14 09:00:49
呂甒極限手工
呂甒極限手工
在極限條件下爆發(fā)出大智慧
735文章數(shù) 65關(guān)注度
往期回顧 全部

科技要聞

比亞迪、小鵬、北汽,集體表態(tài)

頭條要聞

牛彈琴:印度人對梅西發(fā)飆了 比賽場變成"殺戮場"

頭條要聞

牛彈琴:印度人對梅西發(fā)飆了 比賽場變成"殺戮場"

體育要聞

有了風(fēng)騷白人禿頭,忘掉談了10年的前任

娛樂要聞

插刀門后,印小天一舉動實現(xiàn)口碑逆轉(zhuǎn)

財經(jīng)要聞

重大違法強制退市!10人被判刑

汽車要聞

表面風(fēng)平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

態(tài)度原創(chuàng)

本地
游戲
旅游
公開課
軍事航空

本地新聞

云游安徽|阜陽三朝風(fēng)骨,傳承千年墨香

夢幻西游旭旭寶寶一發(fā)點出破血鞋變身套,1109傷寶珠炸裂出爐

旅游要聞

多圖|飛雪染長城,雄關(guān)美如畫

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏“和平計劃”磋商頓巴斯成焦點

無障礙瀏覽 進入關(guān)懷版 九九热只有精品| 国产亚洲婷婷香蕉久久精品| 人妻无码一区二区三区久久99| 精品天码乱码AV片国产爱色| 黄色的视频美女他妈的| 最新日韩精品中文字幕| 搡老女人老女人老熟女| 亚洲熟妇白浆无码AV在线| 成人亚洲欧美在线观看| 国产免费午夜a无码v视频| 亚洲啪啪av无码片| 国产91吞精一区二区三区| 九九热爱视频精品| ZzzzxXxX乱偷| 中国CHINA体内裑精亚洲日本| 水滴偷拍久久久久久久久久久久久| 十分钟免费毛片| 亚洲久热无码av中文字幕| 亚洲精品不卡午夜精品| 猛躁女人120分钟| 日本少妇视频诱惑| 免费国产裸体美女视频全黄| 中国性爱首页| 舒服视频啊嗯哦| 成人内射国产免费观看| 久激情内射婷内射蜜桃人妖| 在线青涩少妇| 久久久久波多野结衣高潮| 97色在线播放视频| 国产亚洲精品aaaaaaa片| 亚洲综合国产成人无码| 国产精品亚洲第一区在线| 成人 免费视频| free少妇交换videos| 久久中文无码精品| 在线免费黄色av| 伊人久久大香线蕉精品| 88国产精品欧美一区二区三区三区| 丁香五月麻豆| 我要看肥胖人操逼| 国产免费拔擦拔擦8X在线牛|