夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

如何以DeepSeek為契機(jī)實(shí)現(xiàn)信息技術(shù)全面超美?

0
分享至

如果認(rèn)真讀完本文(90%以上普通讀者都可以理解清楚),您不僅是對(duì)人工智能,而且對(duì)整個(gè)信息技術(shù)的認(rèn)知就達(dá)到這個(gè)領(lǐng)域全球一切博士生導(dǎo)師,甚至院士的層次。

DeepSeek沖擊波意味著的是全球信息技術(shù)即將實(shí)現(xiàn)的基本架構(gòu)革命,這場(chǎng)革命有兩大特征:

  • 硬件體系從算力依賴型轉(zhuǎn)向存儲(chǔ)依賴型。

  • 整體架構(gòu)從硬件依賴型轉(zhuǎn)向編程依賴型。

一、DeepSeek沖擊波

一個(gè)月前,整個(gè)美國(guó)軍事圈在密集地討論中國(guó)六代機(jī)。

半個(gè)月前,整個(gè)媒體圈在討論小紅書上中美大對(duì)賬。

現(xiàn)在,整個(gè)全球科技圈又在密集地討論DeepSeek。

順便提一下,DeepSeek V3的發(fā)布日期也是在2024年12月26日,教員的誕辰紀(jì)念日。在DeepSeek V3發(fā)布后短短的一個(gè)月左右,又連續(xù)兩個(gè)大動(dòng)作。2025年1月20日發(fā)布了DeepSeek R1,這是真正引爆全球的版本,其達(dá)到與OpenAI o1版本性能基本相同的程度,但訓(xùn)練成本僅為不到560萬美元,只是o1的3%-5%。

請(qǐng)注意,并不是說DeepSeek R1的技術(shù)性能遠(yuǎn)超過了OpenAI o1,而是在性能基本相同或略好的情況下,其訓(xùn)練成本、訓(xùn)練時(shí)間卻呈現(xiàn)數(shù)量級(jí)的下降,這兩者帶來的結(jié)果都是顛覆性的。原因在于:

訓(xùn)練成本極低的主要因素是對(duì)算力需求數(shù)量級(jí)的下降,這樣一來,英偉達(dá)人工智能算力卡市場(chǎng)需求就會(huì)受到極大的沖擊。

訓(xùn)練時(shí)間從過去6個(gè)月下降到只有6天,這會(huì)使人工智能軟件的迭代速度發(fā)生質(zhì)的變化。6個(gè)月的訓(xùn)練時(shí)間,簡(jiǎn)直就是農(nóng)業(yè)領(lǐng)域種子大田實(shí)驗(yàn)的周期長(zhǎng)度了,一粒水稻種子從發(fā)芽、插秧、抽穗、收割的時(shí)間也不過如此。早熟型的水稻全部生長(zhǎng)周期甚至也就3個(gè)月。任何軟件都是需要不斷迭代演進(jìn)的,如果你的軟件需要6個(gè)月才能完整地運(yùn)行一次,而我的只要6天,那么你的軟件做一次升級(jí)后要進(jìn)行一下測(cè)試就得至少等6個(gè)月時(shí)間,而我的只要6天,那么即使我的軟件一開始比你的差很多,要不了幾個(gè)回合我已經(jīng)迭代10次了,你一次都還沒迭代完,那你還怎么玩?就算你有天大的編程本事也沒法和我競(jìng)爭(zhēng)了。而且DeepSeek還完全開源,這么一搞,全世界所有公司的大模型軟件都不得不追隨這個(gè)技術(shù)路線,尤其是技術(shù)理念,否則就是農(nóng)業(yè)文明與工業(yè)文明相競(jìng)爭(zhēng)了。

DeepSeek在美國(guó)的蘋果應(yīng)用商店上下載量瞬間排名第一。

2025年1月27日,Deepseek引發(fā)了美國(guó)納斯達(dá)克震動(dòng),尤其受沖擊最大的英偉達(dá)股價(jià)下跌16.97%,上一個(gè)交易日下跌3.12%。1月28日除夕,在美股重挫之后,DeepSeek又發(fā)布開源多模態(tài)模型Janus-Pro,其中70億參數(shù)版本的Janus-Pro-7B模型在使用文本提示的圖像生成排行榜中優(yōu)于OpenAI的 DALL-E 3和Stability AI的Stable Diffusion。



英偉達(dá)兩天內(nèi)蒸發(fā)7000多億美元,跌去了約五分之一的市值,27日一天跌去了約5900億美元,創(chuàng)下美國(guó)歷史上單日下跌幅度的歷史記錄。 也帶動(dòng)納斯達(dá)克指數(shù)當(dāng)日跳空暴跌3.07%。 當(dāng)然,這種短期的波動(dòng)不一定完全具有長(zhǎng)期意義,1月28日英偉達(dá)反彈了8.93%,29日再次下跌4.10%。 但是,一個(gè)中國(guó)剛成立一年多、僅140人的小公司發(fā)布的產(chǎn)品,居然對(duì)整個(gè)美國(guó)納斯達(dá)克科技股板塊產(chǎn)生如此巨大的影響力,這是歷史上的第一次。

因?yàn)檎麄€(gè)美國(guó)科技界產(chǎn)生的恐慌,來自美國(guó)的一些特定的IP地址針對(duì)DeepSeek服務(wù)器發(fā)起了空前的惡意攻擊。這種惡意攻擊一直持續(xù)到現(xiàn)在還在繼續(xù)并且不斷升級(jí)。

特朗普也在個(gè)人賬號(hào)上發(fā)出哀嘆:



請(qǐng)注意特朗普個(gè)人賬號(hào)發(fā)這個(gè)信息的合集分別是#美國(guó)優(yōu)先#中國(guó)正殺死美國(guó)#AI#MAGA?。?!


做出DeepSeek的幻方量化創(chuàng)始人梁文鋒在總理召集的座談會(huì)上發(fā)言。

中國(guó)出現(xiàn)如此震撼性的科技進(jìn)展,也令整個(gè)中國(guó)社會(huì)沸騰。很多網(wǎng)友留言希望我談一下這個(gè)問題,很多媒體也向我約稿談相關(guān)問題。對(duì)于如此專業(yè)的技術(shù)領(lǐng)域,一般媒體人,甚至一些專業(yè)人士都可能很難抓住要害。

人們可能非常疑惑的一個(gè)問題是:為什么DeepSeek居然能在美國(guó)看起來如此領(lǐng)先的AI領(lǐng)域做出讓人炫目的巨大改進(jìn)?或者換個(gè)說法:為什么在看似美國(guó)領(lǐng)先的AI領(lǐng)域居然會(huì)存在如此巨大的改進(jìn)空間?如果沒有這種改進(jìn)空間存在,即使你有天大的本事也無濟(jì)于事。

其實(shí),這種巨大的改進(jìn)潛力不僅不是什么奇怪的事情,而且是整個(gè)信息技術(shù)領(lǐng)域存在的極為普遍的情況,只不過是DeepSeek把這層窗戶紙?jiān)谌鐣?huì)層面捅穿了而已。要清楚理解DeepSeek為什么能做到這一點(diǎn),如果是專業(yè)的網(wǎng)友,可以直接去看以下這篇DeepSeek R1的論文,甚至直接去看開源的源代碼。



但對(duì)于絕大多數(shù)普通網(wǎng)友來說,如果完全陷到這些AI專業(yè)技術(shù)細(xì)節(jié)中去的話,肯定會(huì)頭大,即使想盡辦法進(jìn)行科普,可能也還是很難理解。并且,即使專業(yè)的網(wǎng)友去直接看DeepSeek的論文,或者分析清楚DeepSeek的所有算法,也未必能完全理解為什么他可能做出這么大的改進(jìn)。

所以,本文將盡可能采用90%以上的網(wǎng)友都能聽得懂的語言或科普知識(shí),來讓人們理解為什么美國(guó)式的信息技術(shù)會(huì)存在如此巨大的提升空間,并且是幻方量化的創(chuàng)始人梁文峰的團(tuán)隊(duì)成功做到了。事實(shí)上,這種潛在改進(jìn)空間的存在是我窮其一生系統(tǒng)研究過,一直努力去進(jìn)行改進(jìn),并且獲得過不少成果的。所以,本文不僅是要讓普通網(wǎng)友聽明白,而且希望成為一篇信息技術(shù)領(lǐng)域的“討美檄文”,借此機(jī)會(huì)號(hào)召所有專業(yè)的網(wǎng)友、政府機(jī)構(gòu)相關(guān)人員和投資人看明白之后,從效率最優(yōu)化角度發(fā)起一場(chǎng)系統(tǒng)的中國(guó)式信息技術(shù)革命,徹底顛覆美國(guó)式的信息架構(gòu)和體系。我會(huì)在本文中枚舉出大量可以做出巨大改進(jìn)的重多技術(shù)細(xì)節(jié),但整個(gè)信息技術(shù)領(lǐng)域事實(shí)上可以改進(jìn)的地方太多了,本文最后會(huì)給出初步的總體建議。

二、認(rèn)識(shí)世界的兩種路徑

為了理解本文,我們不是像一般人那樣一上來就先鉆到技術(shù)細(xì)節(jié)中去,而是脫離出來,先站在盡可能最高層面的、科學(xué)認(rèn)識(shí)世界的兩種基本路徑的簡(jiǎn)要比較上。一個(gè)是經(jīng)驗(yàn)的方法,另一個(gè)是理論的方法。這兩種方法大家都是比較熟悉的。

經(jīng)驗(yàn)的方法是什么呢?用信息技術(shù)的語言來說,就是存儲(chǔ)的歷史知識(shí)依賴型的方法。當(dāng)遇到一個(gè)新問題時(shí),經(jīng)驗(yàn)的方法可能不是去深入系統(tǒng)地理解問題本身,而是瞬間就能給出答案,它是直接對(duì)比問題與存儲(chǔ)的歷史知識(shí),找出差別最小的一個(gè),只要對(duì)存在差別的地方進(jìn)行一下簡(jiǎn)單的處理,就能給出結(jié)果。所以,這種方法也是算力依賴度相對(duì)最小的。它本質(zhì)上主要就是一種以經(jīng)驗(yàn)知識(shí)查詢和調(diào)用為主的算法。

另一種方法是理論的方法,發(fā)展到極致就是科學(xué)的理論,牛頓力學(xué)用極簡(jiǎn)的四個(gè)定律的數(shù)學(xué)公式,就能描述世間所有的運(yùn)動(dòng)規(guī)律。麥克斯韋方程也只是幾個(gè)極簡(jiǎn)的數(shù)學(xué)公式,就能描述所有電磁學(xué)的規(guī)律。理論的方法存儲(chǔ)的知識(shí)量可以達(dá)到極小化,這是它的經(jīng)濟(jì)性體現(xiàn)。但是,當(dāng)用這種理論的方法去解決實(shí)際問題時(shí),要用這些數(shù)學(xué)公式進(jìn)行大量的計(jì)算才能給出結(jié)果。所以,這種方法是算力依賴型的。

以上兩種方法是各有優(yōu)劣的,并不能絕對(duì)說哪一個(gè)就更好。

經(jīng)驗(yàn)的方法算力依賴度最小,速度極快,但不一定完備、準(zhǔn)確和深入,它也有可能搞不清因果關(guān)系。在計(jì)算機(jī)編程的時(shí)候可能通用性不是最好,要針對(duì)特定問題進(jìn)行定制。

理論的方法知識(shí)存儲(chǔ)量最小,完備,因果關(guān)系清晰,精確,編程相對(duì)簡(jiǎn)單且通用性較強(qiáng),但實(shí)際解決問題時(shí)需要精確獲得所有邊界條件,必須要大量的計(jì)算。

現(xiàn)實(shí)生活中并不一定絕對(duì)分得清采用的是理論的方法還是經(jīng)驗(yàn)的方法,很多都是兩種方法的混合。例如很多經(jīng)驗(yàn)公式看起來是一個(gè)理論,也的確可能存在一定的因果關(guān)系成分,但事實(shí)上是界于理論和經(jīng)驗(yàn)之間的、不完備、也就是不完全清楚因果關(guān)系的數(shù)字統(tǒng)計(jì)結(jié)果。

現(xiàn)在的人工智能很大程度上也是界于理論和經(jīng)驗(yàn)之間的一種形態(tài)。

如果舉一些具體的例子來說明一下以上兩種方法在信息技術(shù)中的體現(xiàn),可能大家會(huì)更清晰一些。我在北郵上研究生期間的導(dǎo)師蔡學(xué)勛,他主要的一個(gè)貢獻(xiàn)是最早實(shí)現(xiàn)了將原來只能用巨型機(jī)處理的氣象衛(wèi)星數(shù)據(jù),轉(zhuǎn)換成在個(gè)人電腦上進(jìn)行處理。這個(gè)團(tuán)隊(duì)研究的成果之一是最先從衛(wèi)星云圖中發(fā)現(xiàn)了著名的1987年大興安嶺火災(zāi),就是那個(gè)當(dāng)年春晚小品節(jié)目中戲稱為被費(fèi)翔“冬天里的一把火”點(diǎn)燃的森林大火。要將衛(wèi)星云圖數(shù)據(jù)在算力很低的個(gè)人電腦上進(jìn)行處理,遇到的最大挑戰(zhàn)就是如何降低相關(guān)數(shù)據(jù)處理的算力需求。其中最大的運(yùn)算量之一,就是將原始衛(wèi)星云圖數(shù)據(jù)投影到平面圖上時(shí),要進(jìn)行數(shù)據(jù)的投影轉(zhuǎn)換。它的原理并不復(fù)雜,也就是初中幾何知識(shí)就能明白的,這里不去討論,只是要說明這種投影轉(zhuǎn)換每一個(gè)像素點(diǎn)處理都要進(jìn)行三角函數(shù)的計(jì)算。

三角函數(shù)的公式書寫起來非常簡(jiǎn)單,可是要在計(jì)算機(jī)中進(jìn)行計(jì)算的話就很麻煩。因?yàn)楝F(xiàn)代的電子計(jì)算機(jī)CPU事實(shí)上只能進(jìn)行二進(jìn)制的加法運(yùn)算。所以,一切數(shù)學(xué)計(jì)算事實(shí)上都是把它們通過一定的算法轉(zhuǎn)換成一系列加法運(yùn)算的累加。一般的方法是先將任何數(shù)學(xué)函數(shù)展開成只含有加減乘除的冪級(jí)數(shù)展開式,然后再把其中的乘、除、減法轉(zhuǎn)換成加法運(yùn)算。


上面就是一個(gè)初中生都可以理解的正弦函數(shù)的冪級(jí)數(shù)展開式案例。從純理論上說,上面這個(gè)展開式的運(yùn)算量是無限大的。但在不同的精度要求中,可以選擇一個(gè)有限的最大n取值就可以了,以此進(jìn)行可以保證一定精度的有限運(yùn)算量。最大的n取值不同,當(dāng)然運(yùn)算量就不一樣。

但這樣一轉(zhuǎn)換,表面看起來一個(gè)很簡(jiǎn)單的數(shù)學(xué)函數(shù),在計(jì)算機(jī)中需要進(jìn)行的最基本二進(jìn)制加法運(yùn)算量就可能會(huì)擴(kuò)張到成千上萬次二進(jìn)制加法運(yùn)算。好在計(jì)算機(jī)過去按摩爾定律可以不斷地翻倍增長(zhǎng),所以計(jì)算量大點(diǎn)用計(jì)算機(jī)來算就不是問題。這就是算力依賴型的解決思路。

因?yàn)槊恳粋€(gè)像素點(diǎn)都要進(jìn)行這樣的處理,如果直接采用這種理論的算力依賴型的方法,在上個(gè)世紀(jì)80年代根本不可能在個(gè)人電腦上實(shí)現(xiàn)哪怕最簡(jiǎn)單的衛(wèi)星圖像數(shù)據(jù)的平面投影處理。所以解決的方法就是:先計(jì)算出一個(gè)實(shí)際應(yīng)用中會(huì)用到的相對(duì)完整的三角函數(shù)表,并且存儲(chǔ)起來。下面是一個(gè)常用的三角函數(shù)表。


當(dāng)用到哪個(gè)角度的三角函數(shù)計(jì)算時(shí),直接到這個(gè)表里面查就可以了。這就把前面那種算力依賴型的方法運(yùn)算量成千上萬倍地降低了。如果要計(jì)算的角度不能直接查到,是在表中的兩個(gè)角度之間,那就用相鄰的兩個(gè)表中的角度三角函數(shù)值進(jìn)行簡(jiǎn)單的插值處理就可以得出結(jié)果了。這種方法就是存儲(chǔ)的歷史知識(shí)依賴型的方法。

原來我們聽說過中國(guó)兩彈一星的科學(xué)家們是用算盤算出了原子彈的模型,很多人感覺不可思議。事實(shí)上,他們肯定不會(huì)用和計(jì)算機(jī)完全一樣的算法來進(jìn)行計(jì)算,肯定是會(huì)尋求算力依賴度最小的方法。主要也是基于各種已經(jīng)算出來的函數(shù)表,諸如對(duì)數(shù)表、根號(hào)表、三角函數(shù)表等,在計(jì)算過程中盡可能依賴查表和插值處理,以此來盡最大可能地減少計(jì)算量,再用算盤來算,否則是不可能完成這個(gè)工作的。當(dāng)年祖沖之用算盤算一個(gè)圓周率都花了幾十年的時(shí)間,如果真的用算盤直接進(jìn)行各種函數(shù)的計(jì)算,肯定是不可能在有限時(shí)間內(nèi)算出原子彈相關(guān)模型的。

初中生實(shí)用的根號(hào)表


為什么我們要先談這些最基本的科學(xué)認(rèn)識(shí)方法論問題,因?yàn)橹灰斫饬诉@些,就會(huì)很容易理解DeepSeek為什么如此高效的最基本的算法:以“先期預(yù)訓(xùn)練為基礎(chǔ)”的純強(qiáng)化學(xué)習(xí)(Pure Reinforcement Learning)算法。雖然單純從強(qiáng)化學(xué)習(xí)算法本身來說可以從任何基礎(chǔ)開始,但前面有一個(gè)預(yù)訓(xùn)練的基礎(chǔ)還是非常重要的,簡(jiǎn)單點(diǎn)說就是已經(jīng)訓(xùn)練過的內(nèi)容就不要再重復(fù)訓(xùn)練了。就像已經(jīng)計(jì)算過的三角函數(shù)就不要在每一個(gè)像素處理時(shí)重復(fù)計(jì)算。這就是節(jié)省大量算力的奧秘之一。強(qiáng)化學(xué)習(xí)算法主要以原來的訓(xùn)練結(jié)果為基礎(chǔ),只是不斷調(diào)整新的處理結(jié)果與目標(biāo)問題(強(qiáng)化學(xué)習(xí)算法本身的專業(yè)術(shù)語叫“環(huán)境”)之間的偏差(專業(yè)術(shù)語叫“獎(jiǎng)勵(lì)”)。

我之所以盡量不用專業(yè)術(shù)語,而用一般人能理解的自然語言,不僅是理解起來會(huì)更為容易,還有更重要的一點(diǎn)是:很多專業(yè)術(shù)語事實(shí)上可能存在不一定完全合適的問題,很容易讓人產(chǎn)生誤解,后面會(huì)談到。

所以,簡(jiǎn)單地說最新的DeepSeek版本訓(xùn)練成本只有560萬美元是不完全準(zhǔn)確的,DeepSeek過去投入的17億不能說在最新的版本中沒有任何體現(xiàn)。但在此基礎(chǔ)上,完全新的訓(xùn)練真的可以做到新增的成本就非常低了。所以,說它最新的訓(xùn)練成本只有560萬美元當(dāng)然是有道理的。

那其他很多大模型難道是每次新版本都是一次又一次重復(fù)去訓(xùn)練嗎?客觀地說,利用已經(jīng)有的訓(xùn)練結(jié)果這種經(jīng)驗(yàn)知識(shí)依賴的方法在其他大模型中也有體現(xiàn),但總體上說他們的確是存在大量一遍又一遍進(jìn)行重復(fù)訓(xùn)練的問題。這當(dāng)然對(duì)算力的消耗就數(shù)量級(jí)地增大了。

所以,信息技術(shù)雖然變化很快,但如果理解了最一般的科學(xué)認(rèn)識(shí)方法,就會(huì)發(fā)現(xiàn)幾乎沒什么新技術(shù)。一切所謂的創(chuàng)新技術(shù)都是原來已經(jīng)有的技術(shù)原理在新的技術(shù)條件下的再現(xiàn),別被那些所謂的“尖端技術(shù)”包裝唬住了。中國(guó)是如此,美國(guó)同樣是如此。

三、提升信息處理效率的最一般方法

1.去掉冗余

無論是理論的還是經(jīng)驗(yàn)的方法,要提升信息處理效率,其最基本的原則其實(shí)是一樣的,就是盡可能減少“重復(fù)” —— 或者用信息技術(shù)的語言叫減少“冗余”。

如果是在存儲(chǔ)中,已經(jīng)存了一份信息,完全相同的信息不用再重復(fù)地存儲(chǔ),這就是存儲(chǔ)信息的壓縮。一切文本、圖像、視頻的壓縮技術(shù)和存儲(chǔ)器的壓縮技術(shù),都是通過各種途徑減少重復(fù)的信息,這就可以節(jié)省存儲(chǔ)空間。

如果是已經(jīng)計(jì)算過一遍的模型,就不要再重復(fù)地進(jìn)行計(jì)算了,這就是算法上運(yùn)算量的壓縮。

2.適當(dāng)降低精度

精度要求越高,一般來說對(duì)算力的需求就更大。尤其是一些關(guān)系不大的細(xì)節(jié),簡(jiǎn)單地去掉,就可以節(jié)省大量的算力以及存儲(chǔ)量。例如,圖像處理中,因?yàn)槿藢?duì)顏色的細(xì)節(jié)敏感度遠(yuǎn)遠(yuǎn)低于亮度,所以一般是在相鄰的四個(gè)像素的色度信息中,只保留一個(gè)就可以了。這樣本來是每個(gè)像素一個(gè)亮度兩個(gè)色度共三個(gè)信息,四個(gè)像素3*4=12個(gè)信息,直接可以去掉6個(gè)(三個(gè)像素中的兩個(gè)色度信息),這樣就可以直接將圖像信息量減少一半。這種圖像格式就叫4:2:0,原始圖像格式是4:4:4。在圖像的有損壓縮中,也是將部分不重要的細(xì)節(jié)信息(信息量會(huì)更大)直接丟掉,從而極大減少存儲(chǔ)所需要的信息量。

在人工智能中,也存在這種適當(dāng)降低精度的方法,叫“量化”。我個(gè)人認(rèn)為這個(gè)術(shù)語起的名字很不好,尤其一般人可能不太好理解。所以,如果你是普通人,看不懂一些專業(yè)術(shù)語,不要自卑,可能不是你理解力不行,而是這個(gè)術(shù)語名字起得真是太差了,這種情況其實(shí)是非常普遍的。量化這個(gè)詞用得場(chǎng)合太多,大多都不太合適。例如DeepSeek這家公司最初所從事的行業(yè)就叫“量化交易”。這個(gè)“量化交易”中的量化一詞起得名字也不是太好。最好的詞是普通人第一眼看到的理解就是準(zhǔn)確的,并且與術(shù)語本身字面的意義最好一致。所謂“量化”是把原來不是“數(shù)量的”變化成“數(shù)量的”。例如模數(shù)轉(zhuǎn)換(A/D)電路中把原來的模擬量轉(zhuǎn)化成數(shù)字量,這個(gè)過程就叫“量化”。這也是“量化”這個(gè)專業(yè)術(shù)語最原始的正宗含義,其他領(lǐng)域的“量化”叫法都是借用的。我就是在大學(xué)里學(xué)電路專業(yè)出身的。所以這種術(shù)語唬別人可以,想唬住我行不通。

人工智能中所謂的“量化”是簡(jiǎn)單地降低數(shù)據(jù)的精度,例如把4個(gè)字節(jié)的浮點(diǎn)數(shù)據(jù)減少成2個(gè)字節(jié)的浮點(diǎn)數(shù)據(jù),存儲(chǔ)量就簡(jiǎn)單地降低了一半。原來的數(shù)據(jù)就是數(shù)量化的,只是精度減少了,這怎么能稱為“量化”呢?它是“粗略化”“低精度化”。但如果這么按真實(shí)含義來起名字,就顯得自己這個(gè)技術(shù)很Low。所以就起個(gè)“量化”這種聽起來高大上又讓人云里霧里的名字。

量化交易中的“量化”這個(gè)詞也是不太合適的。因?yàn)樵瓉淼耐顿Y交易也是依據(jù)大量數(shù)學(xué)模型和數(shù)據(jù)為基礎(chǔ)的。量化交易的關(guān)鍵,是把選股和買賣決策判斷,通過設(shè)定相應(yīng)的交易策略后,交給計(jì)算機(jī)程序自動(dòng)實(shí)現(xiàn)了。所以,稱“計(jì)算機(jī)自動(dòng)化交易”可能更容易理解一些。當(dāng)然,也可能最初搞這個(gè)交易的人就是不希望普通人搞明白,才起這種聽起來高大上又含糊不清的術(shù)語。既然最初的人起了名字,后面的人只好延續(xù)這個(gè)術(shù)語,好顯得自己是專業(yè)的。所以,不要以為你能講專業(yè)術(shù)語就能唬住人。

與量化交易相對(duì)應(yīng)的還有“高頻交易”。中國(guó)證監(jiān)會(huì)2024年5月11日發(fā)布的《證券市場(chǎng)程序化交易管理規(guī)定(試行)》第二十一條的規(guī)定,高頻交易是指具備以下特征的程序化交易:(一)短時(shí)間內(nèi)申報(bào)、撤單的筆數(shù)、頻率較高;(二)日內(nèi)申報(bào)、撤單的筆數(shù)較高;(三)證券交易所認(rèn)定的其他特征。其實(shí),這些定義都沒抓住要害,也是這個(gè)名稱中的“高頻”這個(gè)用詞不完全恰當(dāng)造成的。這種交易的關(guān)鍵要害是利用比一般交易所更低延時(shí)的通訊技術(shù)手段,因?yàn)槠溲訒r(shí)更低,這樣就可以在一個(gè)極短的時(shí)間內(nèi),相當(dāng)于提前可以獲知股價(jià)的變動(dòng),從而提前下單買進(jìn)和賣出,這就鐵定可以賺錢了,雖然一次賺得不一定很多。因此,這種交易的本質(zhì)是“短時(shí)提前交易”,而不一定絕對(duì)的頻度很高。當(dāng)然,因?yàn)槠涠虝r(shí),股票的差價(jià)就不一定會(huì)大到那里去,為了獲得更多收益,它一般的確會(huì)進(jìn)行更多次的交易。多次可能“高頻”也可能不一定是“高頻”,而只是在相當(dāng)長(zhǎng)的一個(gè)時(shí)間內(nèi)“多次”,頻度倒不一定很高。但無論如何,如果你不具備低時(shí)延的光纖通訊系統(tǒng)作支撐,比他人提前獲取股票價(jià)格和買賣雙方的下單信息,單純的程序化高頻只會(huì)死得很慘。

回到本節(jié)主題的降低精度減少硬件需求的方法,需要注意的是,簡(jiǎn)單的降低精度也有可能導(dǎo)致最終效果不一定滿足要求。所以這里面也是有技巧的。

3.適當(dāng)簡(jiǎn)化、降低問題復(fù)雜度

如果要計(jì)算的參數(shù)越多,當(dāng)然計(jì)算量就越大。如果對(duì)模型進(jìn)行適當(dāng)?shù)睾?jiǎn)化,減少參數(shù)和復(fù)雜度,計(jì)算量一般就會(huì)相應(yīng)地下降。100億參數(shù)模型進(jìn)行數(shù)據(jù)訓(xùn)練,與1000億參數(shù)相比,簡(jiǎn)單地來評(píng)估,在其他方面都一樣的情況下,計(jì)算量就會(huì)下降一到兩個(gè)數(shù)量級(jí)。但復(fù)雜度或參數(shù)減少了,可能其性能表現(xiàn)等也會(huì)有所降低。如果能夠很好地選擇參數(shù)和調(diào)整好各項(xiàng)系數(shù),有可能做到性能表現(xiàn)上差異極小。這種方法在人工智能中叫“蒸餾”(Distillation)。我同樣認(rèn)為這個(gè)術(shù)語很不好甚至非常糟糕。因?yàn)樗@然是引用化學(xué)中的蒸餾法這個(gè)術(shù)語。但化學(xué)中的蒸餾法是什么呢?

比如我們喝的蒸餾水,是通過把含有極少量雜質(zhì)的水加熱成蒸汽,然后在另一個(gè)冷凝器重新變成水。從中可知蒸餾法的特點(diǎn):目的是去除水中極少量的雜質(zhì),因此,蒸餾以后的水與之前的可能體積和重量變化都極小。一公斤含雜質(zhì)的水,蒸餾以后可能還是非常接近一公斤的純凈的水。

但人工智能中的蒸餾法想表達(dá)的過程,與化學(xué)中的蒸餾法顯然有比較大的差異。事實(shí)上它與“提純”更為接近:

  • 提純后體積重量一般會(huì)極大地變小。

  • 提純后的物質(zhì)可能還是有極少量雜質(zhì)。

  • 被提純過程丟棄的部分也可能含有少量未提純出來的有效物質(zhì)。

或者,也可以叫“裁減”等更準(zhǔn)確并更容易理解的術(shù)語表達(dá)。

但是,如果采用這些更通俗并更準(zhǔn)確和容易理解的術(shù)語的話,那就顯不出是尖端技術(shù)了。所以,叫“蒸餾”這種有點(diǎn)莫名其妙的術(shù)語,就會(huì)顯得比較牛掰。在技術(shù)甚至很多科學(xué)領(lǐng)域,其實(shí)都存在類似情況。我過去曾專門寫文章討論過分子生物學(xué)領(lǐng)域起的學(xué)術(shù)名字非常糟糕的大量案例。一旦搞清楚這些,讀者理解他們就不會(huì)那么困難了。

所以,本文為什么一開始就強(qiáng)調(diào)要站在更高的層面來看問題,因?yàn)橹挥羞@樣“看扁”那些專業(yè)術(shù)語,你才能很容易地真正理解它們的準(zhǔn)確含義。

OpenAI現(xiàn)在指責(zé)DeepSeek是對(duì)其對(duì)應(yīng)版本軟件的蒸餾。事實(shí)是否如此我們不去評(píng)論,但就算存在相應(yīng)的過程又能怎么的?這本身就是人工智能中通用的合理方法。況且,DeepSeek也未必只針對(duì)OpenAI為藍(lán)本去進(jìn)行優(yōu)化。還可以有更多自我優(yōu)化的過程。他也未必只是從OpenAI模型的參數(shù)中簡(jiǎn)化出來的。

你可以去指責(zé)DeepSeek抄襲,但我可以告訴你,這個(gè)世界上幾乎就沒有幾個(gè)技術(shù)是絕對(duì)原創(chuàng)的??梢哉f美國(guó)幾乎所有的技術(shù)全是在新的基礎(chǔ)條件下,對(duì)完全相同技術(shù)原理的不同實(shí)現(xiàn)和綜合,只不過給了個(gè)不同的技術(shù)概念名稱,就以為是全新的頂尖科技了。整個(gè)現(xiàn)代的計(jì)算技術(shù)就是對(duì)中國(guó)算盤的抄襲和新技術(shù)條件下的細(xì)節(jié)改變,所有信息存儲(chǔ)技術(shù)全都是對(duì)中國(guó)造紙術(shù)在新技術(shù)條件下的發(fā)展,所有現(xiàn)代的數(shù)字編碼技術(shù)全是對(duì)周易八卦的抄襲和新技術(shù)條件下的發(fā)展。

有人指責(zé)鴻蒙系統(tǒng)中有Android的代碼,那你以為Android是谷歌原創(chuàng)的嗎?不是。并且,創(chuàng)立Android的安迪·魯賓在之前有在蘋果和微軟公司的工作經(jīng)歷。Android是在Linux、蘋果、微軟公司的大量技術(shù)資源基礎(chǔ)上發(fā)展起來的。谷歌不僅不是Android的原創(chuàng)者,而且它是把安迪·魯賓與其他人在2003年10月創(chuàng)立的Android公司,在2005年通過收購(gòu)并入谷歌的。

微軟最初的DOS系統(tǒng),就是抄襲基爾·代爾的CP/M操作系統(tǒng),而且還不是微軟自己抄襲,是直接買的另一家抄襲的小公司產(chǎn)品,連其中基爾·代爾最初的語法錯(cuò)誤“1 file(s) copied”都原封不動(dòng)地抄襲過來,一直到微軟的DOS操作系統(tǒng)被視窗系統(tǒng)替代完了,這個(gè)語法錯(cuò)誤都沒完全改過來。

只要法律上不違反專利,“抄襲”換個(gè)名字就叫“學(xué)習(xí)”。

所以,那些指責(zé)DeepSeek抄襲的人早點(diǎn)閉嘴吧,這唯一證明的只是你們壓根就不是這個(gè)圈子里的人。除了中國(guó)的算盤、造紙和周易是真正0到1的原創(chuàng)技術(shù)以外,此后的信息技術(shù)發(fā)展從始至終就全都是“抄襲”的。

四、DeepSeek的特色技術(shù)

1. 三個(gè)重要的特色技術(shù)

要理解DeepSeek為什么效率這么高,僅僅說它采用了蒸餾技術(shù)是差太遠(yuǎn)的。需要認(rèn)識(shí)到它的確有很多自己特色性的技術(shù)。從這些特色性的技術(shù)中可以看到,他們的出發(fā)點(diǎn)都是盡最大努力去減少人工智能中的各項(xiàng)成本。例如:

  • 不依賴于對(duì)用于訓(xùn)練的數(shù)據(jù)進(jìn)行人工打標(biāo)簽。

  • 混合專家架構(gòu)(Mixture of Experts:MoE)。

  • 多頭潛在注意力(Multi-Head Latent Attention,MLA)

2. 打標(biāo)簽是怎么回事

要理解DeepSeek不依賴于人工打標(biāo)簽,首先得理解打標(biāo)簽是怎么回事。人工智能軟件為什么能理解人類的文本和圖像等數(shù)據(jù)?這個(gè)如果不理解對(duì)數(shù)據(jù)打標(biāo)簽的話可能會(huì)感覺很神奇,但理解了這個(gè)后可能就沒有什么神秘感了。如果從一開始就是把互聯(lián)網(wǎng)上的數(shù)據(jù)直接輸入人工智能軟件里,要讓它準(zhǔn)確理解是極為困難的。所以,原始的數(shù)據(jù)并不是直接輸給軟件,而是先由人去判斷并打上標(biāo)簽。簡(jiǎn)單來說,比如“美國(guó)”和“美圖”這兩個(gè)詞,前一個(gè)要理解成一個(gè)國(guó)家“美國(guó)”,后一個(gè)要理解成“美麗的圖片”簡(jiǎn)稱。這類理解是首先由人工智能的工程師制定好一些規(guī)則,然后交由專門進(jìn)行打標(biāo)簽的人去干的活。所以,別以為大模型的人工智能真的那么神奇,真的有智能,其實(shí)還是人類智能的計(jì)算機(jī)化。但是,這么干的話有一個(gè)問題,就是人工打標(biāo)簽是一個(gè)成本很高,效率也比較低,而且工作量很大的事情。美國(guó)Scale AI公司就是專業(yè)給其他大模型公司做人工打標(biāo)簽的工作的。所以現(xiàn)在這個(gè)公司的創(chuàng)始人亞歷山大·王就馬上跑出來公開指責(zé)DeepSeek。原因很簡(jiǎn)單,你DeepSeek要是這么搞,會(huì)讓Scale AI壓力山大,沒活干了。

那DeepSeek為什么可以不依賴于人工打標(biāo)簽?zāi)??最初的模型還是需要人工打標(biāo)簽的,但是我們前面說了,提升效率的方法就是去掉冗余——已經(jīng)打過標(biāo)簽的應(yīng)該就不用重復(fù)再打了呀!另外,采用強(qiáng)化學(xué)習(xí)的方法,事實(shí)上不是在事先對(duì)數(shù)據(jù)進(jìn)行人工理解的判斷并打標(biāo)簽,而是可以在模型運(yùn)行之后做出人工的判斷來調(diào)整之前訓(xùn)練的數(shù)據(jù),也起到與人工打標(biāo)簽類似的作用。如果整體上是在之前已經(jīng)采用人工打標(biāo)簽的方法訓(xùn)練過的基礎(chǔ)數(shù)據(jù)之上進(jìn)行強(qiáng)化學(xué)習(xí),就基本不需要再人工打標(biāo)簽了。

理解了我們前面鋪墊的基礎(chǔ)方法論層面的知識(shí),這個(gè)奧秘是不是就可以一語道破了。

3. 混合專家架構(gòu)MoE

我在本文中盡量不深入技術(shù)細(xì)節(jié),尤其不深入DeepSeek具體是怎么實(shí)現(xiàn)的,原因在于對(duì)絕大多數(shù)人來說,不需要去了解那些細(xì)節(jié)。對(duì)其他專業(yè)的技術(shù)人員來說,如果你理解了最基本的原理,你也可以用不同的技術(shù)路線去實(shí)現(xiàn),甚至獲得更好的技術(shù)實(shí)現(xiàn)。對(duì)DeepSeek來說,他們本身就在天天修改代碼進(jìn)行各種改進(jìn),所以其他人太過于深入地追實(shí)現(xiàn)的細(xì)節(jié)永遠(yuǎn)也追不上的。

我個(gè)人事實(shí)上從了解通用人工智能技術(shù)的一開始就很推崇混合專家模型這個(gè)技術(shù)路線。那還是十多年前,連OpenAI都還沒有成立的時(shí)候,我就作為投資人在硅谷接觸到一些當(dāng)時(shí)頂尖的通用人工智能創(chuàng)業(yè)公司。我當(dāng)時(shí)就對(duì)“通用人工智能”這個(gè)概念非常有疑問,或者說非常不贊同。各種專業(yè)的人工智能技術(shù)早就有了,為什么不通過整合不同專家系統(tǒng)來實(shí)現(xiàn)通用的人工智能呢?當(dāng)時(shí)那些創(chuàng)業(yè)者的技術(shù)團(tuán)隊(duì)給我的回復(fù)是:這種思路業(yè)界不是沒人提,但要提前進(jìn)行數(shù)據(jù)的專業(yè)分類會(huì)非常麻煩,而且不同人的理解會(huì)不一樣。

“通用人工智能”這個(gè)概念本身也不是太合適的,誤導(dǎo)了社會(huì)大眾。事實(shí)上這個(gè)技術(shù)最初的Transformer最大貢獻(xiàn)是實(shí)現(xiàn)了一種比較通用的生成式人工智能算法。所以重點(diǎn)在“生成式”,而不是“通用”。目前人工智能熱點(diǎn)向混合專家架構(gòu)轉(zhuǎn)化,可以說與我最初的判斷是相符合的。當(dāng)年的神經(jīng)網(wǎng)絡(luò)技術(shù)也是有很大通用性的???為什么不說神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)算法也是通用人工智能呢?當(dāng)然,中間走一個(gè)大而全的通用人工智能過程也是有意義的,就是先摸索出一些新的模式出來。而且,不同專家模型的形成也是在這個(gè)過程中自然形成,這樣就不用提前去做專業(yè)數(shù)據(jù)分類的工作。這種提前進(jìn)行的分類可能也不一定合適。

人類也是分成各個(gè)領(lǐng)域?qū)<业?,要解通用的問題也是不同專家合在一起來實(shí)現(xiàn)。人工智能當(dāng)然也會(huì)走向這個(gè)模式。

混合專家架構(gòu)的好處是什么呢?這個(gè)需要結(jié)合前面所說的強(qiáng)化學(xué)習(xí)。因?yàn)橐呀?jīng)訓(xùn)練出來的數(shù)據(jù)需要在新的與環(huán)境的交流中不斷地進(jìn)化。設(shè)想一下,我們就以量化這個(gè)詞為例,因?yàn)樗诓煌膶I(yè)領(lǐng)域含義是不一樣的。如果不加任何區(qū)別,它就會(huì)在不同專業(yè)領(lǐng)域跳來跳去,差別較大。如果出現(xiàn)一個(gè)新的領(lǐng)域采用量化這個(gè)詞,產(chǎn)生的差異就更大了。這就會(huì)給已經(jīng)訓(xùn)練好的人工智能數(shù)據(jù)產(chǎn)生比較大的干擾。但是,如果分成各個(gè)不同的專業(yè)領(lǐng)域,那么它們相互之間就不會(huì)產(chǎn)生干擾了。新的環(huán)境變化越小,對(duì)模型產(chǎn)生的干擾就越小,也越容易趨于穩(wěn)定、計(jì)算量也越小。

通用人工智能的技術(shù)路線,所有的數(shù)據(jù)與其他數(shù)據(jù)都可能有相關(guān)性(被稱為“稠密模型”),這個(gè)計(jì)算量就太龐大了。但通過混合專家系統(tǒng)的專業(yè)分類(被稱為“稀疏模型”),大多數(shù)的相關(guān)性計(jì)算可以只與自己專家模型內(nèi)的數(shù)據(jù)進(jìn)行,這就極大地降低了總體的計(jì)算量。很多會(huì)議為什么要分組討論,其實(shí)也是同樣的原理,沒多大關(guān)系的就不要在一起浪費(fèi)時(shí)間。

多個(gè)專業(yè)模型合在一起,表現(xiàn)得像是一個(gè)什么都懂的通用人工智能,就需要在一開始先分清楚新的輸入屬于哪個(gè)專家模型的,從而好交給它來處理。這就需要一個(gè)“門控”的判斷機(jī)制。但凡是學(xué)過編程的人是不是馬上會(huì)想起Switch(英文含義是轉(zhuǎn)換、開關(guān)等)這個(gè)幾乎所有編程語言都常用的語句?它就是一個(gè)門控機(jī)制。最簡(jiǎn)化的只有兩個(gè)選擇的門控編程語句是if。所以,真正的技術(shù)原理其實(shí)都是差不多的,只是不同條件下不同的實(shí)現(xiàn)而已。Switch這個(gè)語句就是會(huì)提供一個(gè)判斷的條件,當(dāng)判斷出不同結(jié)果時(shí),就交給不同條件下的子程序去處理。它就像是一個(gè)大公司的前臺(tái),來的客人說明自己的來意,前臺(tái)就會(huì)判斷他要找的是哪個(gè)部門的人,然后就會(huì)給你引導(dǎo)到這個(gè)部門去具體處理。

混合專家架構(gòu)MoE可以看成是一個(gè)高度放大版的Switch編程語句。

4.多頭潛在注意力MLA

我同樣再?gòu)?qiáng)調(diào)一下別被表面深?yuàn)W的技術(shù)概念搞暈頭了。簡(jiǎn)單來說,當(dāng)很多人去用人工智能軟件如DeepSeek或豆包等進(jìn)行查詢的時(shí)候,輸入的查詢要變成計(jì)算機(jī)的語言,它叫鍵(Key)和相應(yīng)的值(Value)。記住我們前面說的基本原理,你馬上就可以想到,那么多查詢肯定有大量重復(fù)的。如果所有查詢?nèi)仟?dú)立地在內(nèi)存中存儲(chǔ),當(dāng)然會(huì)占用大量寶貴的內(nèi)存。那么,如果把那些重復(fù)的查詢整合在一起,實(shí)現(xiàn)壓縮,那內(nèi)存占用是不是就非常小了?MLA其實(shí)就這么簡(jiǎn)單。實(shí)際進(jìn)行查詢的時(shí)候解壓縮出來就和原來是一樣處理過程了。

這個(gè)就如同我們?cè)诰W(wǎng)上看直播的時(shí)候,視頻最初是經(jīng)過壓縮后才在網(wǎng)上傳的,等傳到用戶處再解壓縮后重現(xiàn)出來。

如果有人直接將原始視頻在網(wǎng)上傳,當(dāng)然占用的資源就大多了?!?美國(guó)的人工智能就是這么干的。所以不是DeepSeek效率太高,而是美國(guó)的技術(shù)路線實(shí)在是太 Low了。

五、為什么美國(guó)的信息技術(shù)會(huì)存在這么大的改進(jìn)空間?

美國(guó)引領(lǐng)了整個(gè)信息技術(shù)的進(jìn)程。這使得美國(guó)建立的信息架構(gòu)成了全世界的標(biāo)準(zhǔn)。其他國(guó)家的技術(shù)人員往往是不問為什么標(biāo)準(zhǔn)會(huì)這么建立,直接拿過來就用。即使發(fā)現(xiàn)一些看似很不合理的地方,也會(huì)認(rèn)為這里面肯定有什么我們不知道的原因才如此,人家美國(guó)肯定都想清楚了。事實(shí)上完全不是這樣的。

其實(shí)也可以說DeepSeek采用的技術(shù)沒有任何是真正原創(chuàng),美國(guó)全都有。信息技術(shù)實(shí)在是太多了,實(shí)現(xiàn)相同目標(biāo)的技術(shù)路徑和方案可以有非常非常多選擇。選擇不同的方案和技術(shù)路線不同,可能會(huì)體現(xiàn)出不同的文化。

1. 各種資源的成本平衡問題

第一個(gè)問題是:軟件的實(shí)現(xiàn)涉及到很多方面資源成本的平衡:

  • 計(jì)算能力成本。

  • 存儲(chǔ)能力成本。

  • 網(wǎng)絡(luò)帶寬成本。

  • 編程的人工成本。

  • 其他。

實(shí)際的產(chǎn)品實(shí)現(xiàn)中,需要根據(jù)不同資源的成本差異,設(shè)計(jì)不同的實(shí)現(xiàn)方案。

(1) 如果計(jì)算能力獲得很容易,存儲(chǔ)成本很高,那么在算法上就會(huì)傾向于算力依賴型,這樣更為經(jīng)濟(jì)。

(2) 反之,如果存儲(chǔ)成本很低,計(jì)算成本很高,就可以傾向于采用算力極小化,歷史經(jīng)驗(yàn)知識(shí)依賴型算法。

(3) 如果編程的人工成本和管理成本很高,計(jì)算和存儲(chǔ)能力的獲得都很容易且成本較低,就會(huì)傾向于用最簡(jiǎn)單的編程算法去實(shí)現(xiàn),而不用太關(guān)注產(chǎn)品計(jì)算和存儲(chǔ)的成本消耗和效率。這就是一種硬件依賴型的算法。

(4) 如果硬件成本相對(duì)極高,就得通過更為復(fù)雜的編程去盡可能節(jié)省計(jì)算和存儲(chǔ)的硬件資源。

(5) 如果網(wǎng)絡(luò)帶寬成本很高,就會(huì)追求需要傳輸?shù)男畔⒏邏嚎s率。

所以,如果沒有以上各個(gè)方面成本的綜合平衡,是不能簡(jiǎn)單地說哪種算法或策略更好的。

但是,美國(guó)在引領(lǐng)信息技術(shù)發(fā)展的過程中,逐步地形成了他們自己特定的文化。因?yàn)樾酒哪柖?,?jì)算和存儲(chǔ)能力是可以很容易獲得并迅速增長(zhǎng)的,而美國(guó)的人工比較貴。所以,美國(guó)就形成不太關(guān)注計(jì)算和存儲(chǔ)效率的最優(yōu)化,而主要關(guān)注編程的方便性、簡(jiǎn)潔性、可讀性等。這個(gè)雖然不那么絕對(duì),但總體上是這樣。

20世紀(jì)90年代初,我在北郵上研究生期間有過很深的體會(huì),我的課題是要做一個(gè)叫作潮涌填充的算法軟件。這個(gè)是被用作諸如衛(wèi)星云圖中任意不規(guī)則的如湖泊等水面確定以及面積計(jì)算。所謂潮涌填充算法是先由軟件操作人員從一個(gè)很明顯是湖面上的一點(diǎn)開始,然后計(jì)算機(jī)自己從這個(gè)像素點(diǎn)開始,通過判斷與其相鄰的像素是否有相同的顏色。如果是相同的,就打上標(biāo)簽,如果不是就放棄這個(gè)方向的繼續(xù)判斷。這樣到最后會(huì)把所有相鄰的(相互連通的)湖面像素全都找出來。這種潮涌填充最原始的算法是非常簡(jiǎn)單的,就是一個(gè)像素點(diǎn)的處理是判斷其上、下、左、右四個(gè)像素,如果是相同的,就以這個(gè)新的像素為基礎(chǔ)進(jìn)行相同的處理過程。這種自己調(diào)用自己的方法被稱為“遞歸”方法。

這種最簡(jiǎn)單像素判斷的“遞歸”算法帶來的一個(gè)問題是,它不去記住已經(jīng)判斷過的像素,每次遞歸調(diào)用都是上下左右四個(gè)像素都進(jìn)行判斷,這樣每個(gè)湖面的像素點(diǎn)很可能會(huì)被重復(fù)判斷四次。這種算法就是純粹算力依賴型的。我當(dāng)時(shí)就建立了一種“有向潮涌填充算法”,可以使湖面的每個(gè)像素點(diǎn)只要被判斷一次就可以了。其原理也就是歷史經(jīng)驗(yàn)知識(shí)依賴型的方法,把已經(jīng)判斷過的像素記住(實(shí)際實(shí)現(xiàn)中是采用記信相同顏色的線段兩個(gè)端點(diǎn)),這樣就可以使所有湖面的像素基本上作一次判斷就可以了,這就使計(jì)算效率達(dá)到了最理想的程度。實(shí)現(xiàn)這個(gè)軟件后,我與美國(guó)當(dāng)時(shí)最先進(jìn)的同類軟件進(jìn)行了對(duì)比測(cè)試,的確效率成倍提高,與理論分析是一致的,達(dá)到了當(dāng)時(shí)世界上最高的計(jì)算效率。這個(gè)給我非常大的觸動(dòng) —— 啊,我怎么這么容易就搞出一個(gè)世界第一呢?而且改進(jìn)的幅度居然這么大?在此過程中,我對(duì)軟件系統(tǒng)的效率問題專門作過大量的研究。例如,將最常用到的變量(如計(jì)數(shù)器變量等)設(shè)置成CPU中的寄存器變量的話,因?yàn)榧拇嫫髟L問速度最快,所以即使其他部分不作變動(dòng),軟件所需要的計(jì)算時(shí)間也會(huì)顯著縮短。

研究生畢業(yè)后我作為王碼電腦惠州有限公司的總工程師,進(jìn)行過大量電腦硬件和軟件開發(fā)工作。在此期間我刻意研究過軟件系統(tǒng)的效率問題。例如,我曾將一個(gè)數(shù)據(jù)庫系統(tǒng)整個(gè)軟件和數(shù)據(jù)通過當(dāng)時(shí)的一個(gè)“虛擬硬盤”的軟件全部裝進(jìn)內(nèi)存里,就這么一個(gè)簡(jiǎn)單的措施,居然讓運(yùn)算效率提升了一個(gè)數(shù)量級(jí)。

這些研究經(jīng)歷使我明白一個(gè)道理:美國(guó)因?yàn)槭荂PU芯片等計(jì)算能力生產(chǎn)的核心,它的產(chǎn)品研發(fā)理念是不缺計(jì)算能力,但軟件編程的工程師很貴。所以采用編程盡可能簡(jiǎn)單、好管理,而不用太關(guān)注計(jì)算效率的信息技術(shù)文化。

2.商業(yè)因素

形成這種文化還有第二個(gè)方面的商業(yè)原因。因?yàn)镃PU是INTEL等公司生產(chǎn)的,他們嚴(yán)格按照摩爾定律不斷地成倍升級(jí)芯片性能。如果拋棄計(jì)算依賴型的算法,過多地提升計(jì)算效率,新的CPU就不會(huì)有那么強(qiáng)烈的需求了。在整個(gè)信息技術(shù)的硬件產(chǎn)品中,掌握CPU的公司無疑具有整個(gè)信息技術(shù)架構(gòu)最基本的標(biāo)準(zhǔn)控制能力。所以,在所有硬件中,掌握CPU的公司相比于存儲(chǔ)產(chǎn)品的公司,擁有更大的話語權(quán)。外設(shè)類的公司話語權(quán)就更弱了。

所謂的WINTEL聯(lián)盟,就是這兩家公司形成一種默契,INTEL會(huì)說服微軟根本不用過于關(guān)注軟件的計(jì)算效率,這個(gè)問題交給INTEL來解決就可以了。微軟也樂得將更多精力關(guān)注于編程的簡(jiǎn)單性和用戶界面的更加友好。因此,這種文化長(zhǎng)期演變下來,就會(huì)在計(jì)算效率上形成巨大的改進(jìn)空間。

這種計(jì)算效率非常低下的改進(jìn)空間,在人工智能時(shí)代也延續(xù)到英偉達(dá)與OpenAI等形成的軟硬件體系上。

事實(shí)上,所有那些技術(shù)改進(jìn),提升計(jì)算效率的方法美國(guó)人都知道,甚至大多數(shù)都是他們最先提出來的。但因?yàn)檫@種文化的形成他們,甚至因?yàn)樯虡I(yè)的人為因素,他們不會(huì)去充分利用這些技術(shù),在一定條件下還會(huì)人為地故意降低硬件的使用效率,甚至?xí)惯@種效率的人為降低達(dá)到令人感到匪夷所思的荒唐地步,僅此而已。

這就是為什么DeepSeek可以將人工智能的計(jì)算效率提升這么大的技術(shù)可能性所在。

六、中國(guó)式的“編程依賴型、硬件資源極小化”文化

1.中國(guó)歷史形成的硬件資源極小化的文化

中國(guó)共產(chǎn)黨從最初創(chuàng)立之始,就是在極度缺乏各種硬件資源的條件下發(fā)展起來的。所以,中國(guó)早就形成了“編程依賴型的、硬件資源極小化”的文化。這種文化體現(xiàn)在非常多的領(lǐng)域,例如抗美援朝戰(zhàn)場(chǎng)上,志愿軍能將武器裝備的資源利用效率,通過各種途徑發(fā)揮到極致,利用的是“人的主觀能動(dòng)性”。但美國(guó)卻是一種簡(jiǎn)單投入更多硬件資源的所謂“范弗里特彈藥量”文化。

硬件資源極小化,對(duì)應(yīng)的就是硬件資源利用率的極大化。

在信息技術(shù)領(lǐng)域,中國(guó)并不是從一開始就形成硬件資源極小化文化的。因?yàn)槊绹?guó)最初掌握了幾乎所有硬件,給其他人留下的主要是應(yīng)用層的編程。如何去調(diào)用最底層硬件資源的算法,是通過各種“函數(shù)庫”、高級(jí)編程語言等給封裝起來的。單純應(yīng)用層的編程人員只知道程序在干什么,一般并不知道它具體在CPU、寄存器、內(nèi)存、緩存、硬盤、總線中是怎么存儲(chǔ)、傳輸和計(jì)算的。在這種情況下就很難去提升硬件效率。

但是,隨著中國(guó)產(chǎn)業(yè)鏈不斷地深入到底層的硬件,中國(guó)的工程師們也逐步了解了最底層的技術(shù)細(xì)節(jié)。要想充分地發(fā)揮硬件的能力,就需要在編程時(shí)采用更為底層的編程方法。采用匯編語言一般來說就很容易實(shí)現(xiàn)比高級(jí)語言的硬件效率更高。尤其中國(guó)公司做了更多軟硬件集成的系統(tǒng)工作,對(duì)充分發(fā)揮硬件能力的技術(shù)積累有很多的條件和機(jī)會(huì)。

DeepSeek主要采用的編程語言是PTX(Parallel Thread Execution)語言,接近于比較底層的匯編語言,它可以更好地在大算力需求的程序上直接調(diào)度硬件資源,從而實(shí)現(xiàn)更高的硬件效率。而一般常用的人工智能高級(jí)語言Python,主要被用于模型的建構(gòu)、訓(xùn)練和部署等硬件執(zhí)行效率不是那么高的部分。

因此,DeepSeek就是采用的抗美援朝戰(zhàn)場(chǎng)上志愿軍的打法,用遠(yuǎn)低于對(duì)手的硬件需求,超高的硬件使用效率,從而能將對(duì)手殺得丟盔卸甲。

2.后摩爾定律時(shí)代的大趨勢(shì)

現(xiàn)在社會(huì)很多對(duì)人工智能的觀念理解都是錯(cuò)誤的。例如認(rèn)為發(fā)展人工智能一定要很大的電力消耗。如果真是這樣的話,人工智能是發(fā)展不下去的。

在過去摩爾定律正常有效的時(shí)代,用相同的電力消耗可以持續(xù)獲得成倍增加的算力。但是現(xiàn)在隨著摩爾定律越來越失效,要獲得成倍增加的算力,就得接近于成倍增加電力消耗。如果還是延續(xù)過去摩爾定律有效時(shí)代的算力依賴型編程文化,即使中國(guó)這樣電力發(fā)展非常好的國(guó)家也是承受不了的。

因此,算力提升的困難并不僅僅是中國(guó)會(huì)遇到,美國(guó)也會(huì)遇到的。只是中國(guó)因?yàn)槊绹?guó)對(duì)高端芯片的制裁而提前認(rèn)清了算力不足將在未來成為長(zhǎng)期的客觀事實(shí)。也造成了中國(guó)工程師和企業(yè)提前轉(zhuǎn)向算力極小化的策略。

因此,這一次DeepSeek的沖擊并不僅僅是一次特定產(chǎn)品技術(shù)的沖擊,而是一次兩種信息技術(shù)發(fā)展文化和理念的大對(duì)撞。

七、中國(guó)的戰(zhàn)略選擇

2024年8月份,DeepSeek的部分投資人和一些人工智能相關(guān)領(lǐng)域的專業(yè)人士,邀請(qǐng)我和華為負(fù)責(zé)戰(zhàn)略的一位朋友一起進(jìn)行非正式的餐敘,討論人工智能大模型的相關(guān)問題。雖然說是非正式的討論,但作為投資人當(dāng)然還是想尋求大模型、尤其DeepSeek的大模型是否可以找到某種商業(yè)模式賺錢。席間剛開始我是不太敢說話的,因?yàn)槲覍?duì)人工智能的觀點(diǎn)向來比較保守。華為的朋友一直很坦率地持否定的態(tài)度,認(rèn)為很難有什么成功的商業(yè)模式。我是在華為的朋友說了很多以后才敢說出自己基本認(rèn)同他的個(gè)人想法的。但是,這個(gè)餐敘談得大家都很郁悶和心情沉重,到后來我又不敢再說話了。作為DeepSeek的投資人甚至有些直白地表達(dá)出:汪老師,別再這么說了,如果再這么講下去,那就等同于完全否定掉這個(gè)項(xiàng)目了。席間我也試圖積極地提出各種商業(yè)模式的可能性,例如模仿Scale AI的打標(biāo)簽外包等,也提到既然沒有商業(yè)效益,不如完全開源獲得社會(huì)效益。

今天DeepSeek的社會(huì)效益的確達(dá)到了那天我們?cè)O(shè)想和討論過的所有局面。

這也是幻方量化這家公司可以干成這件事的原因所在,因?yàn)樗煌耆侵竿@個(gè)掙錢的。

我不能說那次非正式討論對(duì)今天的DeepSeek開源起到什么作用,但很欣慰在DeepSeek今天被公眾知道之前,就有機(jī)會(huì)深入研究過這家公司。

從中國(guó)目前特定階段的情況來看,我們已經(jīng)突破了隨機(jī)存儲(chǔ)(合肥長(zhǎng)鑫等)與閃存(長(zhǎng)江存儲(chǔ)等)硬件技術(shù)。從芯片技術(shù)本身來說,存儲(chǔ)的集成度天然地就高于計(jì)算,因?yàn)樵陔S機(jī)存儲(chǔ)器芯片中,存一個(gè)比特信息只需要一個(gè)晶體管;在閃存中,一個(gè)晶體管甚至可以存2個(gè)(MLC閃存芯片)、3個(gè)(TLC閃存芯片)、4個(gè)(QLC閃存芯片)比特的信息。而在CPU中,一個(gè)比特的信息單元至少需要四個(gè)晶體管實(shí)現(xiàn)。在人工智能算力的芯片領(lǐng)域,中國(guó)目前還稍微落后。所以:

在整個(gè)硬件的成本平衡中,中國(guó)應(yīng)當(dāng)采用算力極小化,存儲(chǔ)依賴型的策略。以往的計(jì)算體系,尤其在PC時(shí)代形成的計(jì)算體系架構(gòu)中,是以“內(nèi)存稀缺”為前提建立的。例如最初設(shè)計(jì)的“虛擬內(nèi)存”技術(shù),就是為解決內(nèi)存非常稀缺的問題而提出的。這種情況在內(nèi)存成本已經(jīng)大幅度降底,并且可以實(shí)現(xiàn)海量?jī)?nèi)存以后依然延續(xù)。我曾在1998年就提出過“海量?jī)?nèi)存計(jì)算機(jī)”的概念,并且相關(guān)文章作為專題分三期發(fā)表在當(dāng)時(shí)的《計(jì)算機(jī)世界報(bào)》上。十年之后SAP公司才提出“內(nèi)存計(jì)算”的概念,但“內(nèi)存計(jì)算”這個(gè)概念是不準(zhǔn)確的,因?yàn)樗杏?jì)算都需要內(nèi)存,只有海量?jī)?nèi)存才是本質(zhì)所在。因此,建立“計(jì)算稀缺,海量?jī)?nèi)存”為前提的信息技術(shù)架構(gòu),是未來必然的方向。

在整體成本的平衡中,中國(guó)則應(yīng)當(dāng)采用編程依賴型,硬件資源極小化的策略。我在業(yè)界最先提出的SDN(軟件定義網(wǎng)絡(luò)),在數(shù)碼視訊工作時(shí)提出的EMR架構(gòu),都是硬件資源需求最小化的解決思路。當(dāng)時(shí)在荷蘭阿姆斯特丹參加IBC展會(huì)時(shí),中國(guó)廣電系統(tǒng)的領(lǐng)導(dǎo)看了EMR之后興奮的說:太好了,這個(gè)和國(guó)外相比差距還剩多少啊。我回答說:國(guó)外公司和我們相比嘛,那差距還是有的。不好意思,這個(gè)體系架構(gòu)的創(chuàng)始人就在你眼前。他們聽后:啊?啊!好呀,好呀!這個(gè)體系架構(gòu)引領(lǐng)了當(dāng)時(shí)全球廣電系統(tǒng)的硬件平臺(tái),包括美國(guó)的CISCO、德國(guó)的Blankom等眾多公司以及中國(guó)公司都沿用了這個(gè)平臺(tái)架構(gòu),成為了全球的事實(shí)標(biāo)準(zhǔn)。過去這些技術(shù)策略只是在部分領(lǐng)域采用,而在未來需要成為一種具有普遍性的文化和發(fā)展戰(zhàn)略全面超越美國(guó)的基本戰(zhàn)略策略,也是中國(guó)的優(yōu)勢(shì)所在。如果只是補(bǔ)上EUV光刻機(jī)與英偉達(dá)同級(jí)別的人工智能算力芯片,那最多只是與對(duì)手打平。只有采用完全不同的賽道,不同的信息技術(shù)文化,才能全面實(shí)現(xiàn)超越。

以此戰(zhàn)略策略為指南,動(dòng)員了全國(guó)的工程技術(shù)人員、相關(guān)企業(yè)、政府人員和投資者,就造成了陷敵于滅頂之災(zāi)的汪洋大海,造成了彌補(bǔ)算力芯片、EUV光刻機(jī)等等暫時(shí)不足的補(bǔ)救條件,造成了克服一切困難并引領(lǐng)未來人類信息技術(shù)架構(gòu)和標(biāo)準(zhǔn)的前提。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
震驚全韓!中國(guó)學(xué)生為工科拼命,韓國(guó)學(xué)生為醫(yī)學(xué)瘋魔,KBS紀(jì)錄片揭露真實(shí)現(xiàn)狀

震驚全韓!中國(guó)學(xué)生為工科拼命,韓國(guó)學(xué)生為醫(yī)學(xué)瘋魔,KBS紀(jì)錄片揭露真實(shí)現(xiàn)狀

最英國(guó)
2025-11-03 19:26:41
比亞迪的這款新車,引起了日本的警惕

比亞迪的這款新車,引起了日本的警惕

徐靜波靜說日本
2025-11-04 08:12:55
32萬年終獎(jiǎng)變成3千我沒鬧,每天準(zhǔn)時(shí)上下班,再也不維護(hù)公司程序

32萬年終獎(jiǎng)變成3千我沒鬧,每天準(zhǔn)時(shí)上下班,再也不維護(hù)公司程序

小秋情感說
2025-11-01 18:30:30
男子帶94歲母親下深圳高鐵,吐槽工作人員冷漠,網(wǎng)友:鄭智化沒錯(cuò)

男子帶94歲母親下深圳高鐵,吐槽工作人員冷漠,網(wǎng)友:鄭智化沒錯(cuò)

戶外釣魚哥阿勇
2025-11-02 16:04:55
史上最搞笑的造反:謀劃3個(gè)月才起兵,結(jié)果發(fā)現(xiàn)本就該自己當(dāng)皇帝

史上最搞笑的造反:謀劃3個(gè)月才起兵,結(jié)果發(fā)現(xiàn)本就該自己當(dāng)皇帝

掠影后有感
2025-11-04 09:16:13
馬斯克呼吁紐約選民:明日投票給科莫

馬斯克呼吁紐約選民:明日投票給科莫

特特農(nóng)村生活
2025-11-04 10:20:34
黃金稅收新政落地,市場(chǎng)波瀾驟起:10克金條漲至萬元以上!銀行暫停部分積存業(yè)務(wù)

黃金稅收新政落地,市場(chǎng)波瀾驟起:10克金條漲至萬元以上!銀行暫停部分積存業(yè)務(wù)

紅星資本局
2025-11-03 20:00:21
130億美元估值!博裕投資拿下星巴克中國(guó)至多60%股權(quán),雙方成立合資公司

130億美元估值!博裕投資拿下星巴克中國(guó)至多60%股權(quán),雙方成立合資公司

每日經(jīng)濟(jì)新聞
2025-11-04 06:36:30
湖人官方:東契奇和里夫斯將缺陣隊(duì)開拓者的背靠背客場(chǎng)比賽

湖人官方:東契奇和里夫斯將缺陣隊(duì)開拓者的背靠背客場(chǎng)比賽

懂球帝
2025-11-04 07:06:36
曼聯(lián)不要的左右邊鋒閃耀西甲 安東尼9場(chǎng)5球2助 拉什福德霸榜巴薩

曼聯(lián)不要的左右邊鋒閃耀西甲 安東尼9場(chǎng)5球2助 拉什福德霸榜巴薩

智道足球
2025-11-04 11:52:12
也是首發(fā),淡厚然出戰(zhàn)西雅圖大學(xué)NCAA揭幕戰(zhàn),上半場(chǎng)拿到3籃板

也是首發(fā),淡厚然出戰(zhàn)西雅圖大學(xué)NCAA揭幕戰(zhàn),上半場(chǎng)拿到3籃板

懂球帝
2025-11-04 12:49:02
翁青雅道歉后,真實(shí)學(xué)歷被扒,朱珠客套回應(yīng),饒雪漫留言意味深長(zhǎng)

翁青雅道歉后,真實(shí)學(xué)歷被扒,朱珠客套回應(yīng),饒雪漫留言意味深長(zhǎng)

鋭娛之樂
2025-11-02 21:02:17
好消息:烏克蘭援軍來了,紅軍村反擊戰(zhàn)取得初步勝利

好消息:烏克蘭援軍來了,紅軍村反擊戰(zhàn)取得初步勝利

史政先鋒
2025-11-02 13:40:39
中國(guó)與朝鮮關(guān)于長(zhǎng)白山歸屬問題的爭(zhēng)議,歷經(jīng)多年,塵埃落定了嗎

中國(guó)與朝鮮關(guān)于長(zhǎng)白山歸屬問題的爭(zhēng)議,歷經(jīng)多年,塵埃落定了嗎

抽象派大師
2025-11-02 21:40:37
神操作!曼聯(lián)追巴西新星替代拉什福德,巴薩靠20%條款躺賺

神操作!曼聯(lián)追巴西新星替代拉什福德,巴薩靠20%條款躺賺

夜白侃球
2025-11-04 10:31:56
立即停用這種“廚房神器”,已致多人死亡,很多家庭還在用!

立即停用這種“廚房神器”,已致多人死亡,很多家庭還在用!

DrX說
2025-11-03 14:13:43
重讀《天道》才恍然大悟:識(shí)人不必“日久”,三個(gè)時(shí)刻,是人是鬼一看便知

重讀《天道》才恍然大悟:識(shí)人不必“日久”,三個(gè)時(shí)刻,是人是鬼一看便知

阿廢冷眼觀察所
2025-10-31 11:23:30
超巨風(fēng)范,約基奇22中14砍34分14助7板4斷2帽1失誤,正負(fù)值+18

超巨風(fēng)范,約基奇22中14砍34分14助7板4斷2帽1失誤,正負(fù)值+18

懂球帝
2025-11-04 12:54:22
4連勝!杜蘭特21+6死神降臨,申京26+11,阿門27+5進(jìn)化成頂級(jí)控衛(wèi)

4連勝!杜蘭特21+6死神降臨,申京26+11,阿門27+5進(jìn)化成頂級(jí)控衛(wèi)

巴叔GO聊體育
2025-11-04 12:08:37
65歲大爺狂吞90粒安眠藥!頭孢配白酒輕生,只因妻子不讓賣玉米?

65歲大爺狂吞90粒安眠藥!頭孢配白酒輕生,只因妻子不讓賣玉米?

奇思妙想草葉君
2025-11-03 22:44:18
2025-11-04 13:16:49
純科學(xué) incentive-icons
純科學(xué)
以純科學(xué)解決一切認(rèn)知問題
170文章數(shù) 399關(guān)注度
往期回顧 全部

科技要聞

硅谷甄嬛傳:奧特曼優(yōu)雅挑釁馬斯克狠狠回?fù)?/h3>

頭條要聞

白所成等5人被判死刑:賭詐資金290億 致6名中國(guó)人死亡

頭條要聞

白所成等5人被判死刑:賭詐資金290億 致6名中國(guó)人死亡

體育要聞

27歲熱刺門將,奪冠后退役當(dāng)導(dǎo)演

娛樂要聞

《繁花》錄音事件完整版長(zhǎng)達(dá)43分鐘

財(cái)經(jīng)要聞

作價(jià)40億美元!星巴克中國(guó)易主

汽車要聞

上汽旗艦智己LS9首發(fā)評(píng)測(cè) 可能是最好開的9系SUV

態(tài)度原創(chuàng)

本地
旅游
教育
公開課
軍事航空

本地新聞

全網(wǎng)圍觀,到底多少人被這個(gè)野人大學(xué)生笑瘋了

旅游要聞

美旅游協(xié)會(huì)警告:若“停擺”至感恩節(jié)假期旅行季,將對(duì)全美各州社區(qū)造成災(zāi)難性經(jīng)濟(jì)后果

教育要聞

在南京,上四星級(jí)高中有多難?考多少分才能上四星高中?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄最新核潛艇下水 可搭載“末日魚雷”

無障礙瀏覽 進(jìn)入關(guān)懷版 国产95在线 | 欧美| 亚洲欧美丝袜精品久久中文字幕| 国产欧美日本| 无码少妇一二三区免费| 经典国产乱子伦精品视频| 亚洲无玛一区| 日韩国精品一区二区a片| 国产一区二区不卡老阿姨| 午夜免费男女aaaa片| 性色欲情网站iwww| 岛国中文字幕一区二区| 久久久久无码| 久久99精品久久久久久婷婷2021| 亚洲最新综合网| 日韩精品中文字幕有码| 久久婷婷五月综合色国产香蕉| 国产 校园 另类 小说区| 1000部国产高清在线观看视频| 成人内射国产免费观看| 私人影院日韩高清| 国产中文综合无码视频| 欧美人与动牲猛交xxxxbbbb| 日韩精品一区二区三区色欲av在线播放| A级毛片免费观看完整| 久久人妻vlp| 免费观看av网址| 国产精品video| 久久精品成人免费网站| 黑人与亚洲A级黄片| 3751色影院一区二区三区| 在线观看亚洲最大成年网址| 日韩专区第三页| 久久久久国产精品| 亚洲欧洲精品日韩av| 日本二区在线| 亚洲AV无码乱码国产精品,国产精品无码一区二区三区 | 国产又色又爽又刺激视频| 成人女人a级毛片免费软件| 国产精品亚洲二区在线播放| 亚洲欧洲日产国无高清码图片| 久精品国产欧美亚洲色aⅴ大片|