始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,H800/H20等資源上線,價格實惠,靈活方便,支持在線微調(diào)訓練模型,及和,并。
在人工智能領(lǐng)域,內(nèi)存占用和性能之間的平衡一直是亟待解決的難題。姚期智院士團隊帶來了破局方案——全新注意力機制TPA。
TPA通過對每個token實施動態(tài)張量分解,突破傳統(tǒng)。它不再保存完整的靜態(tài)KV,而是存儲其分解版本。
實驗數(shù)據(jù)顯示,這一創(chuàng)新使內(nèi)存占用銳減90%甚至更多,同時模型性能并未受到絲毫影響。
TPA不僅性能卓越,還從理論上證明了流行的MHA、MQA、GQA都是它的特殊情況,用一個框架統(tǒng)一了現(xiàn)代注意力設計。
T6一經(jīng)發(fā)布便引發(fā)各界熱議。創(chuàng)業(yè)者們驚喜地發(fā)現(xiàn),借助TPA技術(shù),能大幅降低云服務成本;研究者們則期待團隊能在更大規(guī)模模型上開展實驗,帶來更多令人期待的成果。代碼已上線始智AI-wisemodel開源社區(qū),歡迎大家使用。
代碼地址
https://wisemodel.cn/codes/yifanzhang/T6/intro
動態(tài)張量分解,無縫集成RoPE
在AI領(lǐng)域,現(xiàn)有注意力機制雖然成果斐然,卻飽受計算與內(nèi)存開銷大的困擾。像DeepSeek-v2提出的MLA,雖壓縮了KV緩存,卻與RoPE位置編碼不兼容,每個注意力頭都得額外設置位置編碼參數(shù)。為突破這些瓶頸,姚期智院士團隊創(chuàng)新性地推出張量積注意力(TPA,Tensor Product Attention)機制。
TPA獨辟蹊徑,在注意力計算時對QKV進行分解。和LoRA系列低秩分解方法不同,TPA會把QKV分別構(gòu)建成與上下文相關(guān)的分解張量,能根據(jù)實際情況動態(tài)適應。
而且,TPA僅緩存分解后的秩,合理設置參數(shù)就能讓內(nèi)存占用銳減90%甚至更多。
更值得一提的是,TPA與流行的RoPE位置編碼能無縫集成,能以低成本旋轉(zhuǎn)分解KV,無需復雜調(diào)整。
基于TPA,團隊打造出全新模型T6。實驗中,用FineWeb-Edu 100B數(shù)據(jù)集訓練T6,其困惑度相比其他注意力設計更低。
在ARC、BoolQ、HellaSwag和MMLU等基準測試里,T6的零樣本和少樣本性能出色,TPA和TPA-KVonly在多數(shù)任務中優(yōu)于或追平所有基線。
TPA的出現(xiàn),為人工智能領(lǐng)域的發(fā)展開辟了新路徑,有望推動更多高效能模型的誕生 。
論文由清華&上海期智研究員團隊、UCLA顧全全團隊合作,共同一作為清華博士生張伊凡與姚班校友、現(xiàn)UCLA博士生劉益楓。此外還有來自心動網(wǎng)絡Taptap的Qin Zhen。
編輯:成蘊年
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設AI開源創(chuàng)新生態(tài)。
向上滑動查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.