夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI持續(xù)擴(kuò)展的隱憂——靜默數(shù)據(jù)損壞

0
分享至

(本文編譯自Electronic Design)

隨著晶體管尺寸不斷縮小、系統(tǒng)復(fù)雜度持續(xù)提升,一個(gè)不容忽視的事實(shí)愈發(fā)清晰:靜默數(shù)據(jù)損壞的發(fā)生頻率和造成的影響,遠(yuǎn)超大多數(shù)系統(tǒng)架構(gòu)師的預(yù)期。這類錯(cuò)誤無跡可尋,極難識(shí)別,而單個(gè)錯(cuò)誤就可能篡改多個(gè)獨(dú)立節(jié)點(diǎn)的模型權(quán)重,悄然破壞一項(xiàng)可能持續(xù)數(shù)周、動(dòng)用超過2.5萬個(gè)圖形處理器(GPU)、成本超1億美元的訓(xùn)練任務(wù)。

即便在驗(yàn)證與測(cè)試環(huán)節(jié)投入巨大成本,未被檢測(cè)到的故障仍存在于大規(guī)模人工智能部署場(chǎng)景中,對(duì)芯片可靠性構(gòu)成嚴(yán)峻挑戰(zhàn)。

若單個(gè)芯片在同步過程中引入靜默錯(cuò)誤,錯(cuò)誤可能會(huì)在整個(gè)集群中擴(kuò)散。電氣和電子工程師協(xié)會(huì)(IEEE)的研究顯示,軟錯(cuò)誤率已急劇上升——從65納米工藝下的每年一次故障,攀升至16納米工藝下的每1.5小時(shí)一次(如下圖所示)。


圖:靜默數(shù)據(jù)損壞(SDC)之類的軟錯(cuò)誤發(fā)生率顯著上升。

Meta和阿里巴巴分別報(bào)告稱,在其人工智能及云基礎(chǔ)設(shè)施中,每3小時(shí)就會(huì)出現(xiàn)一次硬件錯(cuò)誤,百萬件缺陷率(DPPM)分別為361。雖然361的百萬件缺陷率甚至數(shù)千的數(shù)值在小規(guī)模場(chǎng)景下可能不會(huì)引發(fā)警報(bào),但在擁有數(shù)百萬臺(tái)設(shè)備的大規(guī)模集群中,情況會(huì)發(fā)生巨大變化,此時(shí)靜默數(shù)據(jù)損壞事件的發(fā)生頻率足以危及整個(gè)系統(tǒng)的可靠性。

人工智能規(guī)模擴(kuò)大,靜默數(shù)據(jù)損壞的威脅亦隨之加劇

對(duì)于不斷擴(kuò)展的生成式人工智能和機(jī)器學(xué)習(xí)(ML)工作負(fù)載(包括模型訓(xùn)練、推理及高性能人工智能應(yīng)用)而言,靜默數(shù)據(jù)損壞正成為日益嚴(yán)峻的可靠性威脅。這些流程往往將處理器推向性能極限,從而增加了靜默損壞的發(fā)生概率。

與通常可通過糾錯(cuò)碼緩解的內(nèi)存位翻轉(zhuǎn)不同,靜默數(shù)據(jù)損壞源于細(xì)微的計(jì)算層面故障:時(shí)序違規(guī)、老化效應(yīng)或常規(guī)半導(dǎo)體測(cè)試中遺漏的邊緣缺陷。這些錯(cuò)誤會(huì)悄然扭曲整個(gè)計(jì)算過程,但往往不會(huì)觸發(fā)警報(bào),直到呈現(xiàn)為錯(cuò)誤輸出或潛在有缺陷的決策時(shí)才會(huì)被發(fā)現(xiàn)。人工智能系統(tǒng)規(guī)模越大、復(fù)雜度越高,此類故障發(fā)生的可能性就越大,造成的影響也越嚴(yán)重。

傳統(tǒng)冗余方法可保護(hù)內(nèi)存和通信路徑,但對(duì)執(zhí)行層面的故障幾乎無能為力,而執(zhí)行層面故障正是現(xiàn)代人工智能環(huán)境中靜默數(shù)據(jù)損壞的主要來源?,F(xiàn)實(shí)中的后果輕則是幾乎難以察覺的計(jì)算誤差,重則是影響業(yè)務(wù)的嚴(yán)重故障。行業(yè)報(bào)告已記錄多起相關(guān)案例,包括因有缺陷的CPU的數(shù)學(xué)運(yùn)算錯(cuò)誤導(dǎo)致數(shù)據(jù)庫文件丟失,以及存儲(chǔ)應(yīng)用程序因缺陷CPU出現(xiàn)用戶數(shù)據(jù)校驗(yàn)和不匹配的情況。

遏制靜默數(shù)據(jù)損壞問題的嘗試

隨著工藝節(jié)點(diǎn)不斷微縮、芯片架構(gòu)日益先進(jìn),掃描自動(dòng)測(cè)試圖形生成(ATPG)、內(nèi)置自測(cè)試(BIST)以及基礎(chǔ)功能測(cè)試等傳統(tǒng)測(cè)試方法已難以跟上步伐。這些方法雖足以檢測(cè)出離散的制造缺陷,卻往往無法識(shí)別導(dǎo)致靜默數(shù)據(jù)損壞的更細(xì)微的半導(dǎo)體工藝偏差。

這就形成了一個(gè)長期存在的監(jiān)測(cè)盲區(qū),凸顯了現(xiàn)場(chǎng)監(jiān)測(cè)的必要性。據(jù)Meta稱,調(diào)試靜默數(shù)據(jù)損壞問題可能需要數(shù)月時(shí)間。排查這類無跡可尋的故障不僅需要巧思,還通常要投入大量資源。更糟糕的是,盡管耗費(fèi)了巨額成本,許多靜默數(shù)據(jù)損壞的調(diào)查仍以無果告終,這實(shí)際上加劇了不確定性。

在2023年亞洲測(cè)試會(huì)議(ITC-Asia)的一場(chǎng)會(huì)議中,博通(Broadcom)報(bào)告稱,其高達(dá)50%的靜默數(shù)據(jù)損壞調(diào)查最終未能找到解決方案,被標(biāo)記為“未發(fā)現(xiàn)故障(No Trouble Found)”。這些挑戰(zhàn)凸顯了傳統(tǒng)測(cè)試方法的局限性,也迫切需要更先進(jìn)的解決方案。

現(xiàn)場(chǎng)測(cè)試同樣存在漏洞。使用預(yù)兆單元(canary circuits)的原位測(cè)試方法,往往無法監(jiān)測(cè)到實(shí)際的關(guān)鍵路徑時(shí)序裕量,該裕量可能會(huì)因芯片老化和工藝偏差而減小。正如《MRHIEP》中所提及的,隨著單芯片內(nèi)部差異的不斷增大,這一問題已變得至關(guān)重要。

定期維護(hù)測(cè)試的靈敏度也可能不足,大多只能識(shí)別明顯的故障,卻忽略了與單錯(cuò)糾正(SEC)相關(guān)的更細(xì)微問題。此外,由于測(cè)試設(shè)備會(huì)從集群中移除,這類測(cè)試缺乏原位監(jiān)測(cè)所具備的真實(shí)工作環(huán)境,導(dǎo)致那些可能引發(fā)靜默數(shù)據(jù)損壞的細(xì)微異常仍無法被檢測(cè)到。

一些機(jī)構(gòu)嘗試通過冗余計(jì)算方法克服這些局限,即在多個(gè)內(nèi)核上重復(fù)執(zhí)行計(jì)算,僅當(dāng)所有內(nèi)核都產(chǎn)生相同結(jié)果時(shí),才認(rèn)定計(jì)算正確。盡管這種方法可以防止靜默數(shù)據(jù)損壞的擴(kuò)散,但它對(duì)硬件要求極高、成本高昂,且在超大規(guī)模場(chǎng)景下不具備可擴(kuò)展性。

解決SDC的兩階段檢測(cè)方案

隨著數(shù)據(jù)中心規(guī)模不斷擴(kuò)大、能源需求持續(xù)攀升,投入大量工程時(shí)間追蹤數(shù)千臺(tái)服務(wù)器中難以察覺的故障已不再具備可持續(xù)性。一種具備可擴(kuò)展性的解決方案在于更先進(jìn)的測(cè)試方法,即基于人工智能的兩階段深度數(shù)據(jù)檢測(cè)技術(shù)。

在芯片制造和現(xiàn)場(chǎng)運(yùn)行兩個(gè)階段實(shí)施多階段檢測(cè),既能幫助芯片制造商重獲產(chǎn)品可靠性,也能讓集群運(yùn)營商重新建立對(duì)硬件的信心。通過深度數(shù)據(jù)可視性對(duì)多個(gè)階段進(jìn)行監(jiān)測(cè),可大幅提高在易發(fā)生靜默數(shù)據(jù)損壞的組件失效前將其檢測(cè)出來的概率。

要實(shí)現(xiàn)有效檢測(cè),測(cè)試必須突破“合格/不合格”的二元分級(jí)模式。采用考慮工藝偏差和預(yù)測(cè)性能裕量的參數(shù)分級(jí)進(jìn)行更高粒度的芯片測(cè)試,即便某些設(shè)備在技術(shù)上通過了標(biāo)準(zhǔn)測(cè)試,也能標(biāo)記出異常設(shè)備。這可防止“勉強(qiáng)能用”的問題芯片流入生產(chǎn)集群。

實(shí)現(xiàn)這一級(jí)別的檢測(cè)需要轉(zhuǎn)變芯片診斷思路:從邊界檢查轉(zhuǎn)向基于嵌入式人工智能的遙測(cè)技術(shù),對(duì)每臺(tái)設(shè)備的健康狀態(tài)進(jìn)行持續(xù)評(píng)估。通過在芯片中嵌入智能模塊,并將機(jī)器學(xué)習(xí)應(yīng)用于豐富的遙測(cè)數(shù)據(jù),能夠在制造階段和整個(gè)現(xiàn)場(chǎng)運(yùn)行周期內(nèi)實(shí)現(xiàn)持續(xù)的狀態(tài)可視性。

人工智能算法可以檢測(cè)到傳統(tǒng)測(cè)試方法所忽略的細(xì)微參數(shù)偏差,并預(yù)測(cè)故障模式,在潛在漏洞導(dǎo)致靜默故障的很早之前就將其識(shí)別出來。這種前瞻性的、數(shù)據(jù)驅(qū)動(dòng)的方法能夠及早發(fā)現(xiàn)漏洞,并為芯片分檔、部署以及集群級(jí)可靠性管理提供更明智的決策依據(jù),且無需增加大量成本或?qū)е卵诱`。

隨著人工智能規(guī)模持續(xù)擴(kuò)大,未被檢測(cè)到的故障所帶來的成本也將隨之上升。靜默數(shù)據(jù)損壞已不再是理論上的隱患,而是對(duì)性能、可靠性和業(yè)務(wù)構(gòu)成的實(shí)際風(fēng)險(xiǎn)。傳統(tǒng)測(cè)試方法并非為應(yīng)對(duì)這一挑戰(zhàn)而設(shè)計(jì),而融合深度數(shù)據(jù)、全生命周期監(jiān)測(cè)和人工智能驅(qū)動(dòng)分析的新解決方案則提供了一條清晰的前進(jìn)路徑。借助兩階段檢測(cè)方案,行業(yè)最終能夠在靜默數(shù)據(jù)損壞擾亂系統(tǒng)之前,搶占先機(jī),對(duì)其進(jìn)行有效遏制。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
46畝!4.61億!民企展宇競(jìng)得溫州市區(qū)一高低配宅地!

46畝!4.61億!民企展宇競(jìng)得溫州市區(qū)一高低配宅地!

樓市IN溫州
2025-12-26 11:29:04
劉芳菲登門向龐叔令道歉!龐叔令家首曝光,除了藏品外,太簡樸

劉芳菲登門向龐叔令道歉!龐叔令家首曝光,除了藏品外,太簡樸

張例喜歡軟軟糯糯
2025-12-26 22:04:51
女子與男網(wǎng)友喝酒被勸酒駕,撞車剮蹭遭索賠10萬私了;警方披露:男子發(fā)現(xiàn)女方有些財(cái)力開豪車,自導(dǎo)自演碰瓷,5人被刑拘

女子與男網(wǎng)友喝酒被勸酒駕,撞車剮蹭遭索賠10萬私了;警方披露:男子發(fā)現(xiàn)女方有些財(cái)力開豪車,自導(dǎo)自演碰瓷,5人被刑拘

極目新聞
2025-12-26 22:04:36
鹿泉區(qū)人大常委會(huì)組織石家莊市人大代表開展會(huì)前視察活動(dòng)

鹿泉區(qū)人大常委會(huì)組織石家莊市人大代表開展會(huì)前視察活動(dòng)

公民與法治雜志社
2025-12-26 14:23:15
撕破臉了?罵張柏芝三胎全是賠錢貨,向太出手曝光寧靜嫁老外內(nèi)幕

撕破臉了?罵張柏芝三胎全是賠錢貨,向太出手曝光寧靜嫁老外內(nèi)幕

喜歡歷史的阿繁
2025-12-26 01:24:55
毒霧繼續(xù)鎖城,新德里萬人出逃,喜馬拉雅化身生態(tài)門神

毒霧繼續(xù)鎖城,新德里萬人出逃,喜馬拉雅化身生態(tài)門神

華山穹劍
2025-12-26 21:13:11
歐拉弄真頭鐵,甩臉不滿蘇提達(dá)王后當(dāng)她仆人,轉(zhuǎn)頭泰王又公開站她

歐拉弄真頭鐵,甩臉不滿蘇提達(dá)王后當(dāng)她仆人,轉(zhuǎn)頭泰王又公開站她

另子維愛讀史
2025-12-26 16:21:17
宇航員登月回歸后精神失常,死前坦言:人類不應(yīng)踏足遠(yuǎn)方

宇航員登月回歸后精神失常,死前坦言:人類不應(yīng)踏足遠(yuǎn)方

清茶淺談
2024-12-20 22:30:46
海南封關(guān)成照妖鏡,東南亞國家挨個(gè)現(xiàn)行,新加坡直言不準(zhǔn)自給自足

海南封關(guān)成照妖鏡,東南亞國家挨個(gè)現(xiàn)行,新加坡直言不準(zhǔn)自給自足

離離言幾許
2025-12-26 14:16:02
解放軍突然圍島,臺(tái)媒急了!要求大陸對(duì)臺(tái)再讓利 “軟的要更軟”

解放軍突然圍島,臺(tái)媒急了!要求大陸對(duì)臺(tái)再讓利 “軟的要更軟”

小蘭聊歷史
2025-12-26 19:54:04
太夸張了!iPhone 17 單月銷量超 600 萬臺(tái),創(chuàng)歷史新紀(jì)錄

太夸張了!iPhone 17 單月銷量超 600 萬臺(tái),創(chuàng)歷史新紀(jì)錄

XCiOS俱樂部
2025-12-26 19:34:41
終究是瞞不住的!低價(jià)買走這幅古畫的“顧客”,其實(shí)不神秘

終究是瞞不住的!低價(jià)買走這幅古畫的“顧客”,其實(shí)不神秘

忠于法紀(jì)
2025-12-24 21:39:36
47歲吳建豪暴瘦,1米8才100斤,尖嘴猴腮像老頭,健康狀況引擔(dān)憂

47歲吳建豪暴瘦,1米8才100斤,尖嘴猴腮像老頭,健康狀況引擔(dān)憂

法老不說教
2025-12-02 23:15:23
支持中國分裂,拒飛內(nèi)地航線,歧視大陸游客的國泰航空,如今怎樣

支持中國分裂,拒飛內(nèi)地航線,歧視大陸游客的國泰航空,如今怎樣

小莜讀史
2025-12-15 21:00:06
我入院要10萬手術(shù)費(fèi),父母電話不接,2年后我媽:你弟結(jié)婚缺錢

我入院要10萬手術(shù)費(fèi),父母電話不接,2年后我媽:你弟結(jié)婚缺錢

堇色夜行
2025-12-22 11:54:52
《治安管理處罰法》第80條引發(fā)公眾「私域監(jiān)控、親密關(guān)系」焦慮

《治安管理處罰法》第80條引發(fā)公眾「私域監(jiān)控、親密關(guān)系」焦慮

普通人ThePeople
2025-12-26 10:38:33
全面停止進(jìn)口,一票否決!日本徹底傻眼,三十五年布局白費(fèi)!

全面停止進(jìn)口,一票否決!日本徹底傻眼,三十五年布局白費(fèi)!

小曙說娛
2025-11-30 01:23:05
郭晶晶給大女兒慶8歲生日,79歲霍震霆慈眉善目,家庭氛圍好融洽

郭晶晶給大女兒慶8歲生日,79歲霍震霆慈眉善目,家庭氛圍好融洽

章眽八卦
2025-11-27 13:31:50
和睦家醫(yī)院回應(yīng)女明星生產(chǎn)信息疑被泄露

和睦家醫(yī)院回應(yīng)女明星生產(chǎn)信息疑被泄露

老頭的傳奇色彩
2025-12-26 20:56:57
勇士126-116獨(dú)行俠!巴特勒看清現(xiàn)實(shí),庫里賽后表態(tài)也成重中之重

勇士126-116獨(dú)行俠!巴特勒看清現(xiàn)實(shí),庫里賽后表態(tài)也成重中之重

魚崖大話籃球
2025-12-26 11:50:19
2025-12-27 04:51:00
TechSugar incentive-icons
TechSugar
做你身邊值得信賴的科技新媒體
4954文章數(shù) 12727關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

頭條要聞

老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財(cái)經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測(cè)

態(tài)度原創(chuàng)

藝術(shù)
游戲
本地
親子
公開課

藝術(shù)要聞

你絕對(duì)想不到,佛陀微笑隱藏的秘密竟然是!

PS6或兼容PS1-PS5全世代游戲!索尼新專利曝光

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

親子要聞

為什么買好衣服給孩子是個(gè)大坑?你絕對(duì)想不到!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲 欧美 国产 日韩 精品| 久久夜色撩人国产综合av| 黄网站色成年片在线观看| 亚洲国产精品va在线看黑人| 欧美黑人性爱网| 无码人妻丰满熟妇啪啪| 亚洲午休国产熟女| 99久久精品费精品国产| 岛国动漫精品一区二区三区动漫精品| 大陆精大陆国产国语精品| 亚洲欧洲韩国精品午夜在线观看| 亚洲春色AV无码专区最| 亚洲国产精品无码观看久久| 午夜激情四射| 日女人视频网站免费| 久久农妇女视频| 午夜av在线| 国产精品亚洲专区无码色婷婷久久综合| 国产老熟女高潮精品网站| 国产又色又刺激高潮视频| 男女爱爱福利视频| 亚洲一区二区精品无码久久久| 亚洲国产精品无码aaa片| 强行交换配乱婬| 日本欧美久久久久免费播放网| 久久综合99re88久久爱 | 西西大胆午夜人体视频| 中文字幕亚洲乱码熟女在线萌芽 | 嗯嗯热亚洲69| 国产精品国产三级欧美二区| 人人欧美人人| 国产午夜亚洲精品区| 无码中文精品视视在线观看| 无码人妻一区二区三区在线视频| 无码中文字幕乱在线观看| 国产成人美女视频网站| 中文字幕亚洲乱码熟女在线萌芽| 一区二区三区四区亚洲综合| 国产AV男女| 国产亚洲精品久久久久久无| 精品国产三级a∨在线|