編輯 | 虞爾湖
出品 | 潮起網(wǎng)「于見專欄」
0.927的相似度,正在撕開華為技術(shù)的遮羞布……
當(dāng)開源代碼的“擦邊球”遇上大國科技博弈,一場看似尋常的技術(shù)爭議,正在將華為推向輿論風(fēng)暴中心。GitHub最新報告顯示,華為盤古Pro MoE模型與阿里Qwen-2.5L4B模型的注意力參數(shù)相似度高達(dá)0.927(行業(yè)閾值0.7),更驚人的是,其代碼庫中赫然標(biāo)注著“Copyright 2024 Alibaba Group”的版權(quán)聲明。這場“開源合規(guī)”與“技術(shù)剽竊”的爭論,正在撕碎華為苦心經(jīng)營多年的“技術(shù)自研”人設(shè)。
證據(jù)確鑿,0.927只是“巧合”?
6月30日,華為云開源發(fā)布了包括70億參數(shù)稠密模型與720億參數(shù)混合專家模型(盤古?Pro?MoE)等成果。模型發(fā)布后立刻引發(fā)了業(yè)內(nèi)廣泛關(guān)注,而在各媒體平臺上也“不出意外”的對華為盤古不吝贊美。
不過很快,質(zhì)疑的聲音就出現(xiàn)了。7月4日,一名研究者在GitHub發(fā)布“LLM?Fingerprint”研究報告指出,通過“模型指紋”技術(shù)分析發(fā)現(xiàn),盤古Pro MoE的注意力層參數(shù)與阿里Qwen模型存在顯著重疊,甚至在部分模塊達(dá)到逐層復(fù)現(xiàn)的程度。業(yè)內(nèi)人士指出,這種相似性已遠(yuǎn)超“參考開源代碼”的合理范疇,更接近“參數(shù)遷移”。
而更直接的“實(shí)錘”來自華為開源代碼倉庫——部分核心模塊赫然標(biāo)注著阿里Qwen的版權(quán)信息。盡管華為辯稱“遵循開源協(xié)議”,但根據(jù)Apache 2.0協(xié)議規(guī)定,商用場景下二次分發(fā)需明確聲明修改來源,而華為并未在商業(yè)版模型中履行這一義務(wù)。
緊急聲明,合規(guī)還是狡辯?
7月5日,華為諾亞方舟實(shí)驗(yàn)室緊急發(fā)布聲明。聲稱“盤古Pro MoE基于昇騰硬件自主研發(fā)”,并非基于其他廠商模型增量訓(xùn)練而來。團(tuán)隊(duì)還強(qiáng)調(diào),模型在架構(gòu)設(shè)計上提出了分組混合專家模型(MoGE),解決了大規(guī)模分布式訓(xùn)練的負(fù)載均衡難題,屬于關(guān)鍵創(chuàng)新。
不過,華為承認(rèn)部分基礎(chǔ)組件代碼參考了開源實(shí)踐,但嚴(yán)格遵循開源許可證要求。并強(qiáng)調(diào),在代碼中標(biāo)注版權(quán)聲明,是行業(yè)通用實(shí)踐。但吊詭的是,華為拒絕公布訓(xùn)練日志、數(shù)據(jù)集來源等關(guān)鍵信息。對比阿里Qwen的透明化開源流程,如公開預(yù)訓(xùn)練數(shù)據(jù)清單,這樣的操作也讓華為的辯解顯得蒼白無力。
值得注意的是,這已不是華為第一次面對抄襲的質(zhì)疑。翻開華為技術(shù)史,2023年,思科指控華為抄襲其路由器代碼,華為以“純屬巧合”回應(yīng),最終以和解告終;2009年,華為被指抄襲Quintel的“per user tilt”專利技術(shù),并在專利申請文件中未刪除對方公司名稱;2016年,華為宣傳Polar碼為“自研”,實(shí)則從土耳其教授處購買專利;2021年,鴻蒙系統(tǒng)被扒出AOSP內(nèi)核,遭遇“套殼安卓”質(zhì)疑,直至鴻蒙NEXT完全洗白。此次“抄襲門”被網(wǎng)友戲稱為“歷史重演”,甚至有人調(diào)侃:“華為的創(chuàng)新就是把別人的輪子擦亮打上logo。”
開源擋劍,行業(yè)信任恐遭重創(chuàng)
此次事件爭議的焦點(diǎn)在于,“開源代碼的使用是否構(gòu)成抄襲?”
華為的邏輯是:開源代碼的合理借鑒是行業(yè)慣例,只要遵循許可證要求并標(biāo)注來源,就不算剽竊。這一立場在開源社區(qū)內(nèi)有一定合理性——例如Linux內(nèi)核、PyTorch等開源項(xiàng)目本身也依賴大量第三方代碼。
但質(zhì)疑者認(rèn)為,若兩個模型在核心參數(shù)分布上出現(xiàn)異常相似性(如0.927),僅靠“開源代碼”解釋難以令人信服。尤其在當(dāng)前AI模型訓(xùn)練成本高昂的背景下,直接復(fù)制參數(shù)結(jié)構(gòu)可能比重新訓(xùn)練更高效,這使得“巧合”的可能性降低。
有業(yè)內(nèi)人士指出,開源不等于無主之地,華為的行為暴露了其對開源精神的誤解,合規(guī)不是擋箭牌,尊重原創(chuàng)才是底線?!伴_源≠無限制復(fù)用”,使用需遵守協(xié)議,如需商業(yè)化部署,必須進(jìn)行明確著錄并可能需授權(quán)。
該人士同時表示,此次事件揭開了AI行業(yè)“偽創(chuàng)新”的遮羞布,部分廠商通過“微調(diào)+代碼混淆”將開源模型包裝成自研產(chǎn)品,形成“國產(chǎn)替代”假象,影響惡劣。隨著國產(chǎn)大模型競爭白熱化,應(yīng)加快構(gòu)建“開源合規(guī)指引”“行業(yè)自律標(biāo)準(zhǔn)”,避免“套殼炒?!钡呢?fù)面路徑。
待續(xù)未完,華為技術(shù)人設(shè)或崩塌
目前,圍繞盤古是否抄襲的討論仍在發(fā)酵,除華為緊急聲明,阿里巴巴方面尚未對事件公開表態(tài)。不過,無論結(jié)果如何,華為都可能遭遇前所未有的信任危機(jī)。若華為能通過技術(shù)細(xì)節(jié)公開、第三方審計等方式證明其清白,或許能化解危機(jī);反之,若處理不當(dāng),可能進(jìn)一步削弱其“技術(shù)自研”的公信力。
眾所周知,華為長期以“技術(shù)自研”“民族脊梁”形象示人。這本質(zhì)就是一種營銷策略:通過強(qiáng)調(diào)國產(chǎn)替代和開放合作,爭取政策支持和用戶認(rèn)同。然而,在AI技術(shù)高度復(fù)雜化、競爭激烈的當(dāng)下,技術(shù)爭議可能成為其人設(shè)的“阿喀琉斯之踵”。
就在剛剛,疑似華為大模型團(tuán)隊(duì)的內(nèi)部技術(shù)人員發(fā)文,揭露了其內(nèi)部管理混亂,小模型團(tuán)隊(duì)抄襲成癮的大瓜。一邊標(biāo)榜“向死而生”的創(chuàng)新精神,一邊陷入“拿來主義”爭議,完全撕裂的價值觀也引發(fā)了網(wǎng)友的熱議,更有人直言,“抄襲一時爽,人設(shè)火葬場!”
抄襲沒未來,高管回旋鏢式神預(yù)言
華為創(chuàng)始人任正非曾在內(nèi)部講話中強(qiáng)調(diào):“沒有創(chuàng)新,要在高科技行業(yè)中生存下去幾乎是不可能的。這曾被華為的眾多支持者奉為金句。如今,這番話被有些網(wǎng)友拿來反諷:“看來任總說的‘創(chuàng)新’,是指抄作業(yè)的創(chuàng)新?”
更大的回旋鏢是,余承東曾在某次活動中措辭激烈的痛斥抄襲行為,并高調(diào)喊話友商“靠抄襲是沒有未來的”。
但開源不是抄襲的溫床,技術(shù)自信更不該建立在別人的代碼之上。我們期待華為給出經(jīng)得起推敲的解釋,而非用“合規(guī)”二字掩蓋創(chuàng)新惰性。畢竟,靠抄襲收割民族情懷的時代,早已過去了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.