財(cái)聯(lián)社8月29日訊(記者 付靜)“當(dāng)前各方都普遍認(rèn)為,數(shù)據(jù)資源非常重要,現(xiàn)在大家都愿意為模型、算力買單,我們也希望各行各業(yè)在推動行業(yè)大模型的應(yīng)用過程中,也加大對數(shù)據(jù)資源的投入。再次呼吁全社會強(qiáng)化數(shù)據(jù)要素的價(jià)值認(rèn)同,加快價(jià)值共創(chuàng),共同培育為優(yōu)質(zhì)數(shù)據(jù)買單的共識。”8月28日開幕的2025數(shù)博會期間,國家數(shù)據(jù)局黨組書記、局長劉烈宏呼吁。
近兩年人工智能產(chǎn)業(yè)尤以算力方向受關(guān)注,但財(cái)聯(lián)社記者在2025數(shù)博會現(xiàn)場注意到,人工智能數(shù)據(jù)亦受到熱議。28日下午,由國家數(shù)據(jù)局主辦,中國信息通信研究院、中國移動通信集團(tuán)承辦的高質(zhì)量數(shù)據(jù)集主題交流活動現(xiàn)場頗為火爆,不僅是“一座難求”,開場前數(shù)十位從業(yè)者站在舞臺一側(cè),期待國家數(shù)據(jù)局的最新發(fā)聲。
從業(yè)者等待活動開始 財(cái)聯(lián)社記者攝
全國高質(zhì)量數(shù)據(jù)集累計(jì)交易額達(dá)40億元
本周國務(wù)院印發(fā)《關(guān)于深入實(shí)施“人工智能+”行動的意見》,持續(xù)加強(qiáng)人工智能高質(zhì)量數(shù)據(jù)集的建設(shè)。國家數(shù)據(jù)局會同有關(guān)方面共同推動高質(zhì)量數(shù)據(jù)集的建設(shè)和應(yīng)用,亦已取得積極成效。
財(cái)聯(lián)社記者最新從國家數(shù)據(jù)局方面了解到,今年上半年,全國各地已建設(shè)高質(zhì)量數(shù)據(jù)集超過了3.5萬個,總體量超過300PB。截至目前,全國各地高質(zhì)量數(shù)據(jù)集累計(jì)交易額已達(dá)40億元,交易機(jī)構(gòu)掛牌3364個高質(zhì)量數(shù)據(jù)集,總規(guī)模達(dá)到246PB。
國家數(shù)據(jù)局方面透露,為推進(jìn)高質(zhì)量數(shù)據(jù)集的建設(shè),國家數(shù)據(jù)局布局建設(shè)成都、沈陽等七個數(shù)據(jù)標(biāo)注基地,目前國內(nèi)多數(shù)模型訓(xùn)練使用的中文數(shù)據(jù)占比達(dá)到了60-80%,中文高質(zhì)量數(shù)據(jù)的開發(fā)和供給能力顯著增強(qiáng)。
同時(shí),人工智能模型訓(xùn)練正推動數(shù)據(jù)交易需求上升。以北京數(shù)交所為例,高質(zhì)量數(shù)據(jù)集占交易總量的比例從去年10%左右提升到目前的近80%。上海、天津、安徽等地正在試點(diǎn)“數(shù)據(jù)語料作價(jià)入股”模式,引導(dǎo)企業(yè)將高質(zhì)量數(shù)據(jù)集折算為股權(quán)投入新企業(yè)。
此外,國家數(shù)據(jù)局強(qiáng)調(diào)高質(zhì)量數(shù)據(jù)集建設(shè)基礎(chǔ)保障。通過建立健全數(shù)據(jù)基礎(chǔ)制度,加快建設(shè)數(shù)據(jù)基礎(chǔ)設(shè)施,推進(jìn)公共數(shù)據(jù)開發(fā)利用,布局攻關(guān)數(shù)據(jù)領(lǐng)域核心技術(shù),完善數(shù)字人才培養(yǎng)體系等一系列組合拳和體系化的布局,持續(xù)推進(jìn)數(shù)據(jù)要素市場化改革和“人工智能+”行動同頻共振,聯(lián)合各部門創(chuàng)新工作模式,構(gòu)建部門協(xié)同的工作制度,協(xié)同發(fā)力,聯(lián)合施策,積極引導(dǎo)做好高質(zhì)量數(shù)據(jù)集建設(shè)工作。
國家數(shù)據(jù)局稱,下一步將加快打造重點(diǎn)領(lǐng)域,以及具身智能、低空經(jīng)濟(jì)、生物制造等領(lǐng)域數(shù)據(jù)高地。
財(cái)聯(lián)社記者了解到,大模型能力邊界幾乎完全由數(shù)據(jù)的質(zhì)量、規(guī)模和安全性來定義,數(shù)據(jù)是提升模型能力的關(guān)鍵和模型訓(xùn)練的基礎(chǔ),也是拓展智力上線和性能優(yōu)化的支撐,高質(zhì)量數(shù)據(jù)將有效降低模型幻覺。
“很多專家說當(dāng)前的技術(shù)條件下,人工智能的發(fā)展體現(xiàn)出很強(qiáng)的數(shù)據(jù)驅(qū)動特色。數(shù)據(jù)決定了大模型的性能上限。”劉烈宏表示。
多家企業(yè)布局高質(zhì)量數(shù)據(jù)集
目前,多家企業(yè)的業(yè)務(wù)布局也順應(yīng)著這一趨勢。
此次數(shù)博會,財(cái)聯(lián)社記者注意到,在智算服務(wù)器領(lǐng)域表現(xiàn)突出的超聚變2024年起發(fā)力數(shù)據(jù)層面,目前已構(gòu)建了統(tǒng)一的資產(chǎn)與數(shù)據(jù)安全管理體系。
超聚變CIO、城企數(shù)智事業(yè)部總裁藍(lán)文廣表示,新一代AI+數(shù)據(jù)技術(shù)改變了從業(yè)務(wù)到數(shù)智化的生產(chǎn)方式、業(yè)務(wù)設(shè)計(jì)與數(shù)智化實(shí)施方法框架并重構(gòu)所有的業(yè)務(wù)及應(yīng)用。據(jù)悉,在企業(yè)服務(wù)領(lǐng)域,超聚變推出的xIBT業(yè)務(wù)變革與數(shù)智化轉(zhuǎn)型解決方案,依托100+場景智能體,將企業(yè)業(yè)務(wù)流程深度融入智能體架構(gòu)。
財(cái)聯(lián)社記者從中國電科集團(tuán)旗下的中國司法大數(shù)據(jù)研究院有限公司(以下簡稱“中國法研”)方面了解到,研究院為我國公共數(shù)據(jù)資源授權(quán)運(yùn)營的先行先試單位,在司法領(lǐng)域高質(zhì)量數(shù)據(jù)集建設(shè)方面,組織法律專業(yè)知識專家、法律從業(yè)者和高校法律學(xué)生共同組成數(shù)據(jù)標(biāo)注團(tuán)隊(duì),構(gòu)建了基于法律知識體系指引的數(shù)據(jù)標(biāo)注系統(tǒng),通過“人機(jī)協(xié)同”方式,開展了專業(yè)領(lǐng)域數(shù)據(jù)標(biāo)注。
中國法研以積累的“法律法規(guī)、司法解釋、指導(dǎo)案例、公開文書”等作為基礎(chǔ)數(shù)據(jù)源,結(jié)合司法領(lǐng)域?qū)I(yè)知識和應(yīng)用場景需要,歸納和整理形成“法律問答、法條推薦、案件認(rèn)知”等在內(nèi)的27類司法語料庫,共計(jì)600萬對精調(diào)語料;同時(shí),針對檢索增強(qiáng)生成,基于法律實(shí)務(wù)(文書)和專家觀點(diǎn)數(shù)據(jù),構(gòu)建了超2億條法律行業(yè)知識。
公開信息顯示,作為產(chǎn)業(yè)鏈“鏈主”,目前三大運(yùn)營商以數(shù)據(jù)專業(yè)公司為立腳點(diǎn),致力于構(gòu)建高質(zhì)量數(shù)據(jù)集。其中中國移動已建成覆蓋32個行業(yè)、超3500TB通用高質(zhì)量數(shù)據(jù)集。
高質(zhì)量數(shù)據(jù)集建設(shè)仍面臨挑戰(zhàn)
值得關(guān)注的是,中國信息通信研究院院長余曉暉在數(shù)博會期間發(fā)布了《高質(zhì)量數(shù)據(jù)集建設(shè)指引》。
財(cái)聯(lián)社記者了解到,在上述《指引》發(fā)布背后,高質(zhì)量數(shù)據(jù)集的建設(shè)仍面臨諸多挑戰(zhàn)。
余曉暉稱,目前全國已建成超過3.5萬個數(shù)據(jù)集,Token消耗量呈高速增長態(tài)勢,中央、地方和行業(yè)層面也在積極推動相關(guān)工作。然而,實(shí)踐中仍面臨諸多挑戰(zhàn),如數(shù)據(jù)供給、技術(shù)、治理體系和標(biāo)準(zhǔn)等問題亟待解決。
中國法研總經(jīng)理專項(xiàng)助理李曉智在采訪中告訴財(cái)聯(lián)社記者,現(xiàn)實(shí)應(yīng)用中,數(shù)據(jù)的合法性和數(shù)據(jù)保護(hù)問題客觀上增加了數(shù)據(jù)集建設(shè)的難度,技術(shù)瓶頸仍然存在,當(dāng)前的算法和工具仍無法有效解決數(shù)據(jù)標(biāo)注的高成本和低效率問題,尤其是在人力資源有限的情況下,如何高效、準(zhǔn)確地完成大規(guī)模數(shù)據(jù)集的標(biāo)注和清洗仍是關(guān)鍵問題。
據(jù)悉,高質(zhì)量的領(lǐng)域語料建設(shè),是一項(xiàng)領(lǐng)域知識密集型工作,需投入大量的領(lǐng)域?qū)I(yè)人員。李曉智介紹,雖然現(xiàn)在中國法研已經(jīng)形成一套人機(jī)結(jié)合的語料構(gòu)建、質(zhì)量檢測方法,但是人工勞動還是占語料構(gòu)建30%+以上的工作量。后續(xù)中國法研考慮基于法律大模型聯(lián)盟形成“數(shù)據(jù)伙伴”團(tuán)隊(duì)以及中國法研CNAS測評團(tuán)隊(duì),共同進(jìn)行行業(yè)語料集建設(shè)和評價(jià),希望國家相關(guān)部門能夠予以頂層指導(dǎo)和政策支持。
吳世忠研究員亦在其演講中提到了數(shù)據(jù)來源的合法性風(fēng)險(xiǎn)。
同時(shí)吳世忠表示,數(shù)據(jù)內(nèi)容面臨可靠性風(fēng)險(xiǎn),現(xiàn)實(shí)中數(shù)據(jù)集經(jīng)常面臨低質(zhì)噪聲、失實(shí)性錯誤甚至價(jià)值觀的偏差;數(shù)據(jù)供應(yīng)鏈方面存在風(fēng)險(xiǎn),“應(yīng)高度關(guān)注篡改的隱患,數(shù)據(jù)集從采集、標(biāo)注、實(shí)用多個環(huán)節(jié),數(shù)據(jù)供應(yīng)商,外包標(biāo)注團(tuán)隊(duì)、云平臺等等,任何漏洞都可能成為攻擊的入口”;數(shù)據(jù)使用方面面臨倫理風(fēng)險(xiǎn),“嚴(yán)防濫用與失控潛在危險(xiǎn),即使數(shù)據(jù)集本身合法合規(guī),如果缺乏對使用場景的約束,也可能引發(fā)問題及某些包含生物特征的數(shù)據(jù),人臉照片,影音片斷,生成類的大模型導(dǎo)致深度偽造方面的技術(shù)濫用,這方面的例子出現(xiàn)了很多?!?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.