/記得星標(biāo)我/
比大部分人早一步看見(jiàn)未來(lái)
數(shù)據(jù)是AI的新戰(zhàn)場(chǎng),而高質(zhì)量數(shù)據(jù)集已成為數(shù)據(jù)流通的“硬通貨”。在這場(chǎng)關(guān)乎人工智能未來(lái)的競(jìng)爭(zhēng)中,中國(guó)電信天翼AI以350TB高質(zhì)量行業(yè)數(shù)據(jù)集和10萬(wàn)億tokens通用語(yǔ)料的積累,正悄然成為重要的市場(chǎng)參與者。
——是為序
人工智能產(chǎn)業(yè)正經(jīng)歷從模型中心化向數(shù)據(jù)中心化的戰(zhàn)略轉(zhuǎn)變。據(jù)最新數(shù)據(jù)顯示,2025年中國(guó)高質(zhì)量數(shù)據(jù)集交易量呈現(xiàn)爆發(fā)式增長(zhǎng),在某些數(shù)據(jù)交易所從去年占交易量10%猛增至近80%,成為數(shù)據(jù)流通最活躍的領(lǐng)域。
在這場(chǎng)由數(shù)據(jù)驅(qū)動(dòng)的AI競(jìng)賽中,中電信人工智能科技(北京)有限公司(以下簡(jiǎn)稱天翼AI)已構(gòu)建覆蓋14個(gè)關(guān)鍵行業(yè)、總量達(dá)350TB的高質(zhì)量數(shù)據(jù)集,以及超過(guò)10萬(wàn)億tokens的通用大模型語(yǔ)料,成為人工智能賽道的重要參與者,并逐步成長(zhǎng)為引領(lǐng)者。
產(chǎn)業(yè)背景:從數(shù)據(jù)荒到高質(zhì)量數(shù)據(jù)集的戰(zhàn)略價(jià)值
全球AI產(chǎn)業(yè)正面臨嚴(yán)峻的“數(shù)據(jù)荒”。Epoch AI研究人員預(yù)測(cè),到2028年左右,用于訓(xùn)練人工智能模型的典型數(shù)據(jù)集的規(guī)模將達(dá)到公共在線文本的估計(jì)總存量。這意味著,高質(zhì)量數(shù)據(jù)資源將成為制約AI發(fā)展的關(guān)鍵瓶頸。
2024年以來(lái),國(guó)家數(shù)據(jù)局等部委連續(xù)出臺(tái)《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃》和《高質(zhì)量數(shù)據(jù)集建設(shè)指南》,推動(dòng)科研機(jī)構(gòu)、龍頭企業(yè)等開(kāi)展行業(yè)共性數(shù)據(jù)資源庫(kù)建設(shè)。截至2025年6月,全國(guó)建設(shè)高質(zhì)量數(shù)據(jù)集已超3.5萬(wàn)個(gè)、總量超400PB。
高質(zhì)量數(shù)據(jù)集的需求主要集中于模型行業(yè)知識(shí)底座構(gòu)建。隨著AI應(yīng)用從通用場(chǎng)景向垂直行業(yè)深入,行業(yè)專有知識(shí)成為提升模型性能的關(guān)鍵。
正如清華大學(xué)數(shù)字政府與治理研究院院長(zhǎng)張小勁所言:“人工智能大模型走到哪里,高質(zhì)量數(shù)據(jù)集就走到哪里,反之,高質(zhì)量數(shù)據(jù)集走到哪里,人工智能就走到哪里,這是相輔相成的,是雙輪驅(qū)動(dòng)的格局?!?/p>
高質(zhì)量數(shù)據(jù)集背后:星辰MaaS平臺(tái)的神奇魔力
那天翼AI是如何解決數(shù)據(jù)荒和數(shù)據(jù)質(zhì)量差的問(wèn)題的呢?它又是如何快速構(gòu)建覆蓋十多個(gè)關(guān)鍵行業(yè)、總量達(dá)350TB的高質(zhì)量數(shù)據(jù)集以及超過(guò)10萬(wàn)億tokens的通用大模型語(yǔ)料的呢?
一切都要從星辰MaaS平臺(tái)說(shuō)起——
MaaS是AI架構(gòu)中的“中樞層”,基于算力基礎(chǔ)設(shè)施的支持,面向場(chǎng)景提供多種應(yīng)用,具備從模型生產(chǎn)到模型調(diào)取并打造成 AI 應(yīng)用的全流程能力。MaaS層以模型為核心,下接算力和數(shù)據(jù),上承應(yīng)用,承擔(dān)“從模型服務(wù)到應(yīng)用支撐”的關(guān)鍵定位,是AI應(yīng)用生態(tài)繁榮的關(guān)鍵要素。
對(duì)于天翼AI來(lái)說(shuō),星辰MaaS平臺(tái)至關(guān)重要,它像是一個(gè)數(shù)據(jù)精煉廠,通過(guò)“基礎(chǔ)大模型-數(shù)據(jù)工具鏈-模型工具鏈-智能體”四大核心協(xié)同運(yùn)作,構(gòu)建“數(shù)據(jù)—模型—服務(wù)”的完整閉環(huán)。其中——
基礎(chǔ)大模型(星辰大模型)作為“動(dòng)力引擎”,提供基礎(chǔ)認(rèn)知與推理能力;數(shù)據(jù)工具鏈(星海數(shù)據(jù)中臺(tái))作為“原料庫(kù)”,持續(xù)輸送高質(zhì)量的數(shù)據(jù)資源;模型工具鏈(星海AI中臺(tái))作為“加工廠”,將數(shù)據(jù)高效轉(zhuǎn)化為可用模型;智能體(星辰智能體平臺(tái))作為“執(zhí)行中樞”,靈活調(diào)度資源并自主完成復(fù)雜任務(wù),實(shí)現(xiàn)決策智能化與行為自動(dòng)化,服務(wù)千行百業(yè)。
這四大核心并非孤立存在,而是構(gòu)成了一個(gè)緊密協(xié)作、自我優(yōu)化的“數(shù)據(jù)-模型-服務(wù)”閉環(huán),共同支撐星辰MaaS平臺(tái)發(fā)揮價(jià)值。整個(gè)流程始于數(shù)據(jù)工具鏈,星海數(shù)據(jù)中臺(tái)負(fù)責(zé)準(zhǔn)備和提純高質(zhì)量的“數(shù)據(jù)原料”。這些原料被輸送到模型工具鏈,也就是星海AI中臺(tái)這座“加工廠”,利用基礎(chǔ)大模型提供的強(qiáng)大認(rèn)知、推理能力,通過(guò)微調(diào)、訓(xùn)練等工藝,生產(chǎn)出面向具體行業(yè)場(chǎng)景的精準(zhǔn)模型。隨后,這些訓(xùn)練好的模型被封裝和部署到星辰智能體平臺(tái)上,智能體作為終端執(zhí)行者,將模型能力與各種工具相結(jié)合,轉(zhuǎn)化為解決用戶實(shí)際問(wèn)題的智能化服務(wù)。
最重要的是,這個(gè)閉環(huán)形成了一個(gè)正向飛輪。智能體在服務(wù)千行百業(yè)的過(guò)程中,會(huì)不斷產(chǎn)生新的交互數(shù)據(jù)和反饋,這些數(shù)據(jù)通過(guò)回流機(jī)制,再次進(jìn)入數(shù)據(jù)工具鏈,經(jīng)過(guò)加工后,又可以用于模型工具鏈對(duì)模型的迭代優(yōu)化,從而讓基模和整個(gè)平臺(tái)都變得越來(lái)越聰明、越來(lái)越精準(zhǔn)。正是通過(guò)這種環(huán)環(huán)相扣、持續(xù)演進(jìn)的方式,星辰MaaS平臺(tái)最終實(shí)現(xiàn)了將原始數(shù)據(jù)轉(zhuǎn)化為智能服務(wù),賦能各行各業(yè)數(shù)字化升級(jí)的核心價(jià)值。
行業(yè)賦能實(shí)踐:天翼AI推進(jìn)行業(yè)應(yīng)用百花齊放
天翼AI以高質(zhì)量數(shù)據(jù)集為核心引擎,深度釋放數(shù)據(jù)要素潛能,驅(qū)動(dòng)行業(yè)生產(chǎn)邁向智能化與高效化。通過(guò)構(gòu)建覆蓋工業(yè)制造、采購(gòu)供應(yīng)鏈、民航等多個(gè)關(guān)鍵領(lǐng)域的行業(yè)通識(shí)與專識(shí)數(shù)據(jù)集,天翼AI將散落的行業(yè)數(shù)據(jù)轉(zhuǎn)化為可直接驅(qū)動(dòng)大模型與AI應(yīng)用的高價(jià)值資產(chǎn)。
在實(shí)踐中,這些數(shù)據(jù)集有效解決了行業(yè)痛點(diǎn):在工業(yè)質(zhì)檢中實(shí)現(xiàn)了超高精度與少樣本快速上線,在供應(yīng)鏈管理中賦能智能決策以降低成本,在垂直領(lǐng)域中通過(guò)注入專業(yè)知識(shí)提升了模型的精準(zhǔn)性與可靠性。最終,天翼AI將高質(zhì)量數(shù)據(jù)集轉(zhuǎn)化為提升生產(chǎn)效率、優(yōu)化業(yè)務(wù)流程、激發(fā)創(chuàng)新的核心動(dòng)力,為產(chǎn)業(yè)數(shù)字化升級(jí)提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
在智能制造領(lǐng)域,星海數(shù)據(jù)中臺(tái)首先匯聚了產(chǎn)業(yè)鏈上下游的設(shè)計(jì)、生產(chǎn)、運(yùn)維等原始數(shù)據(jù),隨后對(duì)這些數(shù)據(jù)進(jìn)行清洗、標(biāo)注和增強(qiáng),構(gòu)建出面向不同場(chǎng)景的訓(xùn)練數(shù)據(jù)集;星海AI中臺(tái)基于這些數(shù)據(jù)集訓(xùn)練出預(yù)測(cè)性維護(hù)、智能排產(chǎn)等模型,通過(guò)星辰智能體平臺(tái)的應(yīng)用部署,投入到企業(yè)生產(chǎn)系統(tǒng)中。這種端到端的解決方案,使企業(yè)設(shè)備緊急維修率降低80%,排產(chǎn)效率提升數(shù)倍。
一個(gè)典型的案例就是紡織行業(yè)AI質(zhì)檢——晉江市聯(lián)盟舒坦科技有限公司作為大型紡織企業(yè),面臨驗(yàn)布工招工難、培訓(xùn)周期長(zhǎng)、漏檢率高等行業(yè)共性難題。星辰MaaS平臺(tái)通過(guò)匯聚紡織行業(yè)歷史缺陷數(shù)據(jù),構(gòu)建出包含15萬(wàn)張圖像、覆蓋20+類疵點(diǎn)類型的專業(yè)數(shù)據(jù)集,最終部署出智能驗(yàn)布模型。
具體實(shí)施中,天翼AI在驗(yàn)布機(jī)前端加裝4個(gè)工業(yè)相機(jī)和光源模塊,實(shí)時(shí)對(duì)布匹進(jìn)行線掃拍照;部署自研AI視覺(jué)缺陷檢測(cè)系統(tǒng),識(shí)別瑕疵類型、位置和數(shù)量;與客戶原有質(zhì)檢系統(tǒng)對(duì)接,實(shí)現(xiàn)自動(dòng)定級(jí)。項(xiàng)目成效顯著:質(zhì)檢準(zhǔn)確率從人工的55%提升至85%,驗(yàn)布速率從30米/分鐘提升到60米/分鐘,每臺(tái)機(jī)器年均節(jié)約人工成本20萬(wàn)元。更重要的是,AI驗(yàn)布機(jī)實(shí)現(xiàn)了0.02mm的檢測(cè)精度,遠(yuǎn)超人眼1mm的極限,且具備無(wú)情緒、24小時(shí)持續(xù)工作的優(yōu)勢(shì)。
(圖為數(shù)據(jù)標(biāo)注工具在標(biāo)識(shí)缺陷樣本)
這一案例的深層價(jià)值在于,天翼AI不僅提供了技術(shù)解決方案,更通過(guò)高質(zhì)量行業(yè)數(shù)據(jù)集的持續(xù)優(yōu)化,將紡織行業(yè)的專業(yè)知識(shí)沉淀為可復(fù)用的數(shù)字資產(chǎn)。針對(duì)織造廠的緯密度檢測(cè)、漂染廠的色差檢測(cè)、成衣廠的缺陷自動(dòng)打標(biāo)等細(xì)分需求,平臺(tái)都能夠快速適配,展現(xiàn)了柔性定制能力。
在智慧城市領(lǐng)域,星辰MaaS平臺(tái)接入了城市基礎(chǔ)設(shè)施、環(huán)境監(jiān)測(cè)、公共服務(wù)等多源數(shù)據(jù),針對(duì)交通治理、安全監(jiān)管等場(chǎng)景構(gòu)建專用數(shù)據(jù)集,并訓(xùn)練出事故預(yù)警、違規(guī)識(shí)別等模型,并通過(guò)API服務(wù)賦能政府部門(mén)。杭州“中國(guó)視谷”項(xiàng)目就是典型例證,天翼AI構(gòu)建了統(tǒng)一的“視覺(jué)理解中樞”,通過(guò)構(gòu)建涵蓋26萬(wàn)路城市視圖的龐大數(shù)據(jù)庫(kù)與具備2000多種標(biāo)簽的視覺(jué)大模型,天翼AI將城市中散亂、非結(jié)構(gòu)化的視頻流,轉(zhuǎn)化為了機(jī)器可理解、可分析的標(biāo)準(zhǔn)化數(shù)據(jù)要素。這一能力直接賦能于交通管理、公共安全、應(yīng)急響應(yīng)乃至低空經(jīng)濟(jì)監(jiān)管等十大關(guān)鍵城市治理領(lǐng)域,實(shí)現(xiàn)了從“看得見(jiàn)”到“看得懂”的質(zhì)變,顯著提升了城市治理的精細(xì)化、智能化與高效化水平。
特別值得關(guān)注的是高質(zhì)量行業(yè)數(shù)據(jù)集在垂直行業(yè)領(lǐng)域的深度賦能。在醫(yī)療行業(yè),天翼AI不僅提供通用技術(shù)平臺(tái),更通過(guò)與三甲醫(yī)院合作構(gòu)建??萍膊?shù)據(jù)集,訓(xùn)練出具備臨床實(shí)用價(jià)值的輔助診療模型。這種“平臺(tái)+數(shù)據(jù)+場(chǎng)景”的深度結(jié)合,使得天翼AI能夠突破單純的技術(shù)服務(wù)商角色,真正成為行業(yè)數(shù)字化轉(zhuǎn)型的伙伴。
- 04 -
生態(tài)構(gòu)建策略:平臺(tái)能力的對(duì)外輸出
天翼AI參與多個(gè)國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地建設(shè)的過(guò)程,實(shí)際上是其平臺(tái)能力的對(duì)外復(fù)制。每個(gè)標(biāo)注基地都部署了星辰MaaS平臺(tái)的全鏈路服務(wù)能力,形成完整的本地化數(shù)據(jù)服務(wù)體系。
比如,在成都與沈陽(yáng)兩大國(guó)家級(jí)數(shù)據(jù)標(biāo)注基地的建設(shè)中,由中國(guó)電信集團(tuán)數(shù)據(jù)發(fā)展中心牽頭,天翼AI作為核心技術(shù)實(shí)體與戰(zhàn)略驅(qū)動(dòng)者,發(fā)揮了不可替代的價(jià)值。。在成都,天翼AI主導(dǎo)了從新津的產(chǎn)教融合實(shí)訓(xùn)、簡(jiǎn)陽(yáng)的產(chǎn)業(yè)集聚到高新的技術(shù)研發(fā)的全鏈條布局。在這個(gè)過(guò)程中,天翼AI并非簡(jiǎn)單的參與者,而是以技術(shù)賦能與生態(tài)構(gòu)建為核心,為成都打造了一個(gè)集人才培養(yǎng)、企業(yè)孵化與關(guān)鍵技術(shù)攻關(guān)于一體的綜合性數(shù)據(jù)產(chǎn)業(yè)基礎(chǔ)設(shè)施,將自身的AI能力深度融入地方數(shù)字經(jīng)濟(jì)發(fā)展脈絡(luò)。
在沈陽(yáng)基地,天翼AI輸出的價(jià)值不僅在于提供基礎(chǔ)的標(biāo)注能力,更在于通過(guò)打造“具有沈陽(yáng)特色”的專業(yè)化標(biāo)注體系,直接賦能于沈陽(yáng)政務(wù)大模型的開(kāi)發(fā)與數(shù)字政府建設(shè)。這標(biāo)志著天翼AI正將其數(shù)據(jù)標(biāo)注與大模型技術(shù),從單純的商業(yè)服務(wù)提升為服務(wù)于城市級(jí)數(shù)字化治理的核心引擎,實(shí)現(xiàn)了從技術(shù)輸出到戰(zhàn)略賦能的跨越。
更重要的是,通過(guò)數(shù)據(jù)標(biāo)注基地建設(shè),天翼AI正在將自身的數(shù)據(jù)處理標(biāo)準(zhǔn)和方法論推向更廣泛的生態(tài)圈。合作伙伴不僅可以使用平臺(tái)工具,更可以學(xué)習(xí)到完整的數(shù)據(jù)治理方法論,這種知識(shí)傳遞的價(jià)值可能比技術(shù)輸出更為深遠(yuǎn)。
- 05 -未來(lái)展望:平臺(tái)化戰(zhàn)略的演進(jìn)路徑
從天翼AI的實(shí)踐中,我們可以窺見(jiàn)數(shù)據(jù)要素市場(chǎng)未來(lái)的幾個(gè)重要趨勢(shì):
技術(shù)架構(gòu)層面,星辰MaaS平臺(tái)作為“數(shù)據(jù)即服務(wù)”的一體化平臺(tái),用戶無(wú)需關(guān)心底層技術(shù)細(xì)節(jié),即可獲得從數(shù)據(jù)到模型的全棧能力。天翼AI目前的分層架構(gòu)為這種演進(jìn)提供了良好基礎(chǔ)。
商業(yè)模式方面,平臺(tái)化運(yùn)作將催生新的價(jià)值分配機(jī)制。高質(zhì)量行業(yè)數(shù)據(jù)集作為大模型、智能體行業(yè)應(yīng)用的上游供給,可能發(fā)展出數(shù)據(jù)分紅、模型分成等創(chuàng)新模式。天翼AI在14個(gè)行業(yè)的數(shù)據(jù)集積累,使其在未來(lái)的價(jià)值分配中占據(jù)有利位置。
產(chǎn)業(yè)影響維度,這種平臺(tái)化能力將降低AI應(yīng)用門(mén)檻。中小企業(yè)無(wú)需自建完整技術(shù)棧,即可通過(guò)星辰MaaS平臺(tái)獲得行業(yè)大模型能力。天翼AI的實(shí)踐正在推動(dòng)AI技術(shù)從“技術(shù)精英”走向“產(chǎn)業(yè)大眾”,這種普惠化趨勢(shì)具有深遠(yuǎn)的社會(huì)意義。
- 06 -AI時(shí)代高質(zhì)量數(shù)據(jù)集的平臺(tái)化解決方案
中國(guó)電信天翼AI的價(jià)值不僅在于350TB數(shù)據(jù)集的規(guī)模,更在于其構(gòu)建了一套完整的“數(shù)據(jù)-模型-服務(wù)”平臺(tái)化體系。這種平臺(tái)化架構(gòu)的意義超越了一家企業(yè)的商業(yè)成功,它實(shí)際上是在構(gòu)建數(shù)字時(shí)代的新型基礎(chǔ)設(shè)施。正如工業(yè)時(shí)代的電網(wǎng)、交通網(wǎng)一樣,天翼AI正在參與建設(shè)數(shù)據(jù)時(shí)代的基礎(chǔ)服務(wù)網(wǎng)絡(luò)。其成功實(shí)踐表明,中國(guó)的數(shù)據(jù)要素市場(chǎng)化不僅需要政策引導(dǎo),更需要扎實(shí)的技術(shù)架構(gòu)和工程化能力作為支撐。
正如中國(guó)電信天翼AI公司副總經(jīng)理阮宜龍所說(shuō)的,“中國(guó)電信堅(jiān)定履行建設(shè)網(wǎng)絡(luò)強(qiáng)國(guó)和數(shù)字中國(guó)、維護(hù)網(wǎng)信安全的使命擔(dān)當(dāng),持續(xù)推進(jìn)新型數(shù)字信息基礎(chǔ)設(shè)施建設(shè),推動(dòng)AI向善和應(yīng)用普惠,這要求我們打造安全、可信的高質(zhì)量數(shù)據(jù)集,推進(jìn)數(shù)據(jù)流通交互,賦能千行百業(yè)智能化轉(zhuǎn)型?!?/p>
隨著國(guó)家“數(shù)據(jù)要素×”行動(dòng)的深入推進(jìn),天翼AI的平臺(tái)化探索或許代表了未來(lái)發(fā)展方向。在數(shù)據(jù)成為關(guān)鍵生產(chǎn)要素的時(shí)代,這種系統(tǒng)化、平臺(tái)化的解決方案,不僅具有商業(yè)價(jià)值,更關(guān)乎國(guó)家數(shù)字競(jìng)爭(zhēng)力的構(gòu)建。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.