2025 年 9 月 15 日,在國家網(wǎng)絡(luò)安全宣傳周主論壇上,《人工智能安全治理框架》2.0 版正式發(fā)布,這一頂層治理文件的更新引發(fā)行業(yè)廣泛關(guān)注,既精準(zhǔn)呼應(yīng)人工智能技術(shù)發(fā)展節(jié)奏,更直指生成式 AI 落地過程中日益突出的安全風(fēng)險,為產(chǎn)業(yè)風(fēng)險防控劃定關(guān)鍵方向。
當(dāng)前,生成式 AI 技術(shù)正加速落地,驅(qū)動 AIGC 行業(yè)進(jìn)入爆發(fā)式增長階段。據(jù) IDC 預(yù)測,2028 年全球生成式 AI 市場規(guī)模將達(dá) 2842 億美元,中國市場規(guī)模也將突破 300 億美元,占 AI 總投資的 30.6%。然而,市場規(guī)??焖贁U(kuò)張的背后,內(nèi)容合規(guī)漏洞、數(shù)據(jù)安全隱患、算法歧視等風(fēng)險問題日益凸顯,成為制約產(chǎn)業(yè)健康發(fā)展的重要瓶頸。
事實(shí)上,國家對 AI 風(fēng)險治理的布局已逐步深化。早在 2025 年 8 月,國務(wù)院便印發(fā)《關(guān)于深入實(shí)施 “人工智能 +” 行動的意見》,為產(chǎn)業(yè)發(fā)展搭建政策框架;此次《人工智能安全治理框架》2.0 版的發(fā)布,進(jìn)一步完善了 AI 安全治理體系,也讓 “安全治理是 AI 賦能千行百業(yè)的基石與前提” 這一認(rèn)知更加明確。
在此背景下,AI 風(fēng)控領(lǐng)域深耕者數(shù)美科技,立足于 AIGC 技術(shù)發(fā)展現(xiàn)狀與行業(yè)實(shí)際需求,緊密結(jié)合國家戰(zhàn)略方向與治理要求,重磅發(fā)布《AIGC 全生命周期業(yè)務(wù)風(fēng)控白皮書》。該白皮書從全流程視角出發(fā),構(gòu)建了一套貫穿 AIGC 應(yīng)用 “上線前安全評估 - 上線后風(fēng)險防控 - 長期運(yùn)營保障” 的全生命周期業(yè)務(wù)風(fēng)控體系,為行業(yè)應(yīng)對 AI 風(fēng)險提供切實(shí)可行的實(shí)踐路徑。
1 聚焦合規(guī)核心:破解 “雙備案” 難題,提供一站式攻略
合規(guī)是 AIGC 應(yīng)用上線的 “第一道門檻”,我國 “算法備案 + 大模型備案” 的雙備案制度,讓不少企業(yè)面臨 “材料不全、測試不達(dá)標(biāo)、流程不清晰” 的困境?!栋灼丰槍@一痛點(diǎn),進(jìn)行了系統(tǒng)性拆解:
在備案差異與流程上,《白皮書》明確:算法備案通過線上系統(tǒng)提交,按流程反饋結(jié)果,核心材料包括《算法安全自評估報告》《擬公示內(nèi)容》等;大模型備案需線下向?qū)俚鼐W(wǎng)信辦提交,按規(guī)定周期推進(jìn),核心材料涵蓋攔截關(guān)鍵詞列表、測試題庫(區(qū)分生成內(nèi)容、拒答內(nèi)容測試)、安全評估報告及語料標(biāo)注規(guī)則等。
針對備案中的核心難點(diǎn),《白皮書》給出具體解決方案:例如語料安全評估需滿足 “不良信息占比<5%、人工抽檢合格率≥96%”,并配套 NLP 自動化篩查 + 人工復(fù)核的清洗流程;敏感內(nèi)容拒答率需達(dá) 95% 以上,同時提供紅隊(duì)攻擊模擬測試方法。此外,《白皮書》還解答了 “接入開源大模型是否需備案”“企業(yè)內(nèi)部使用是否合規(guī)” 等高頻問題,幫助企業(yè)精準(zhǔn)定位備案義務(wù)。
2 筑牢安全基線:拆解大模型安全評測,聚焦核心合規(guī)要求
大模型安全評測是 AIGC 應(yīng)用合規(guī)備案的核心前提,也是提前識別技術(shù)漏洞、規(guī)避運(yùn)營風(fēng)險的關(guān)鍵環(huán)節(jié)?!栋灼穱@ “合規(guī)落地 + 風(fēng)險防控” 雙目標(biāo),提煉大模型安全評測核心要點(diǎn):
在評測核心能力上,《白皮書》明確企業(yè)需具備四大基礎(chǔ)能力:一是百萬級敏感測試題集(覆蓋 TC260 標(biāo)準(zhǔn) 31 種風(fēng)險,分生成、拒答、非拒答三類題庫);二是全場景驗(yàn)證能力(含語料安全、模型安全、紅隊(duì)攻擊模擬及敏感場景專項(xiàng)驗(yàn)證);三是語料安全評估體系(三重篩查確保不良信息占比<5%);四是專業(yè)藍(lán)隊(duì)組建(含安全專家、AI 算法工程師等)。
在評測執(zhí)行上,《白皮書》提供 “設(shè)計(jì)攻擊指令 - 構(gòu)建測試題集 - 自動化 + 人工協(xié)同測試 - 輸出評測報告” 四步核心方案,并強(qiáng)調(diào)評測需貫穿運(yùn)營全周期 —— 備案后每月提交報告、模型升級重測,確保風(fēng)險動態(tài)可控。
3 覆蓋全鏈路風(fēng)險:構(gòu)建 “賬號 + 內(nèi)容” 雙輪風(fēng)控體系
AIGC 應(yīng)用的風(fēng)險貫穿用戶交互全流程,直接影響用戶體驗(yàn)與平臺安全。《白皮書》圍繞 “賬號安全” 與 “內(nèi)容合規(guī)” 兩大核心,結(jié)合用戶實(shí)際痛點(diǎn)深化防控策略:
賬號風(fēng)控:多維防御偷算力、薅羊毛問題
從用戶體驗(yàn)視角出發(fā),AIGC 應(yīng)用常面臨黑產(chǎn)偷算力、薅羊毛等新挑戰(zhàn):黑產(chǎn)通過篡改設(shè)備、使用機(jī)房 IP 批量注冊賬號,不僅占用大量算力導(dǎo)致普通用戶訪問卡頓、響應(yīng)延遲,還會通過 “刷免費(fèi)額度”“惡意擠占資源” 等行為薅取平臺服務(wù),間接影響用戶可享受的資源配額?!栋灼丰槍@些問題,從 “資源層 + 行為層” 雙維度構(gòu)建賬號風(fēng)控體系:
資源層:精準(zhǔn)識別 “同設(shè)備短時間注冊超 5 個賬號”“手機(jī)號歸屬地與 IP 地域不符”“物聯(lián)網(wǎng)卡批量注冊” 等黑產(chǎn)常用異常信號,從源頭阻斷違規(guī)賬號注冊;
行為層:通過頻度特征(如短時間內(nèi)高頻發(fā)起算力請求)、關(guān)聯(lián)特征(如多賬號共用同一支付信息)、聚集特征(如大量賬號集中在同一時段訪問),定位批量注冊、賬號倒賣、偷算力等風(fēng)險行為,保障普通用戶的正常使用權(quán)益與平臺資源穩(wěn)定。
內(nèi)容風(fēng)控:引入“大模型審核 Agent”,高效精準(zhǔn)識別復(fù)雜風(fēng)險
《白皮書》創(chuàng)新性提出 “AI 機(jī)器審核 + 大模型審核 Agent + 人工審核” 的數(shù)美內(nèi)容風(fēng)控新范式,依托 LLM 技術(shù)突破傳統(tǒng)風(fēng)控局限,全方位優(yōu)化內(nèi)容治理效果:
精準(zhǔn)性:AI 機(jī)器審核實(shí)現(xiàn)文本、圖片、音頻、視頻多模態(tài)內(nèi)容快速篩查,大模型審核 Agent 通過上下文理解與邏輯推理,識別 “小說劇情偽裝的犯罪咨詢”“圖片 + 文本組合的隱晦暴力” 等復(fù)雜風(fēng)險,減少傳統(tǒng)風(fēng)控 “漏判”“誤判” 問題;
高效性:自動化審核占比提升,大幅縮短內(nèi)容處理周期,支持 AIGC 應(yīng)用高并發(fā)場景下的實(shí)時合規(guī)校驗(yàn);
優(yōu)體驗(yàn):通過精細(xì)化風(fēng)險標(biāo)簽與場景適配(如未成年人場景屏蔽 “霸凌描述”、出海場景規(guī)避 “宗教禁忌內(nèi)容”),減少對正常內(nèi)容的誤攔截,提升用戶使用流暢度;
低成本:自動化流程降低人工審核依賴,同時通過 “機(jī)器初篩 + 人工復(fù)核” 的分層模式,將人力聚焦于高復(fù)雜風(fēng)險案例,優(yōu)化運(yùn)營成本。
此外,該范式還配套 “四級風(fēng)險標(biāo)簽體系”:一級標(biāo)簽明確違規(guī)大類(如色情、暴恐),四級標(biāo)簽深入解析內(nèi)容意圖(如 “霸凌意圖 - 慫恿他人霸凌”),適配不同行業(yè)的內(nèi)容治理需求,助力 AIGC 應(yīng)用在合規(guī)前提下實(shí)現(xiàn)用戶留存與增長。
4 強(qiáng)化運(yùn)營保障:全周期輿情應(yīng)對 + 動態(tài)迭代體系
AIGC 內(nèi)容傳播快、影響廣,突發(fā)輿情若應(yīng)對不當(dāng),易引發(fā)用戶信任危機(jī)。《白皮書》提出 “監(jiān)測預(yù)警 - 研判分析 - 布控處置 - 效果復(fù)盤” 的全周期輿情解決方案:覆蓋境內(nèi)外主流平臺與小眾社群,實(shí)現(xiàn) 7×24 小時極速響應(yīng),突發(fā)輿情 10 分鐘內(nèi)啟動流程,2 小時內(nèi)完成全鏈路布控(如敏感詞更新、存量數(shù)據(jù)過濾);同時配備輿情專家團(tuán)隊(duì),結(jié)合政策導(dǎo)向與用戶情緒,解讀 “表面合規(guī)但深層敏感” 的內(nèi)容風(fēng)險,避免次生輿情影響用戶信任。
為應(yīng)對風(fēng)險的動態(tài)變化,《白皮書》還構(gòu)建 “數(shù)據(jù)驅(qū)動的效果迭代體系”:通過產(chǎn)品端 “誤漏殺反饋通道” 收集用戶與企業(yè)的真實(shí)需求,結(jié)合紅藍(lán)對抗模擬黑產(chǎn)最新攻擊邏輯,推動風(fēng)控策略小時級更新;定期開展主動評測,復(fù)現(xiàn) AI 生成虛假判例、數(shù)字人侵權(quán)等行業(yè)風(fēng)險案例,前瞻性暴露漏洞,確保風(fēng)控能力與風(fēng)險變異速度同步,持續(xù)保障用戶體驗(yàn)與平臺安全。
5 全球 TOP 級別 AIGC 應(yīng)用風(fēng)控實(shí)戰(zhàn)案例分享,可遷移借鑒
為讓企業(yè)更易落地風(fēng)控方案,《白皮書》精選 4 個不同領(lǐng)域的標(biāo)桿案例,還原從 “痛點(diǎn)診斷” 到 “效果落地” 的全流程,聚焦可借鑒經(jīng)驗(yàn):
AI 社交領(lǐng)域:面對平臺多語種合規(guī)與 “自由創(chuàng)作” 的平衡難題,通過 “輸入層語義過濾 + 輸出層實(shí)時審核”,精準(zhǔn)過濾風(fēng)險內(nèi)容,獲 2025 非凡獎 ——AI 商業(yè)案例獎;
AI 辦公領(lǐng)域:針對平臺 B/C 端需求差異,為企業(yè)用戶開啟 “強(qiáng)審核模式”、個人用戶采用 “寬松閾值”,多模態(tài)審核準(zhǔn)確率快速提升,兼顧用戶體驗(yàn)與平臺生態(tài)安全,平臺增長質(zhì)效兼得;
AI 視頻領(lǐng)域:應(yīng)對平臺數(shù)字人視頻的多模態(tài)風(fēng)險,搭建 “文本 + 視覺 + 音頻” 審核體系,支持企業(yè)級單日千條視頻生產(chǎn),違規(guī)內(nèi)容識別準(zhǔn)確率達(dá) 99%;
開源大模型領(lǐng)域:通過 “預(yù)注冊攔截 + 登錄追蹤”,破解平臺黑產(chǎn) “接碼注冊 - 賬號倒賣” 鏈條,平臺違規(guī)賬號占比大幅下降,開發(fā)者信任度顯著提升,開源生態(tài)更健康發(fā)展。
誰該關(guān)注這份《白皮書》?
《白皮書》適用于內(nèi)容審核、安全合規(guī)、風(fēng)控策略等從業(yè)者,企業(yè)決策者以及產(chǎn)品規(guī)劃、設(shè)計(jì)、運(yùn)營人員,提供詳盡、可落地的風(fēng)控體系構(gòu)建方案參考。
同樣為 AI 轉(zhuǎn)型中的企業(yè)提供關(guān)鍵指引,如布局 AI 社交、AI 辦公、 AI 營銷應(yīng)用等企業(yè),都能通過白皮書了解 AIGC 技術(shù)落地中的合規(guī)要點(diǎn)與風(fēng)險防控方法,避免因技術(shù)引入不當(dāng)引發(fā)合規(guī)問題,保障 AI 轉(zhuǎn)型平穩(wěn)推進(jìn)。
在 AIGC 駛向千億市場的賽道上,風(fēng)控能力將成為企業(yè)的 “護(hù)城河”。這份《白皮書》,或許正是企業(yè)突破增長瓶頸、實(shí)現(xiàn)安全發(fā)展的關(guān)鍵助力。
掃碼下載《AIGC 全生命周期業(yè)務(wù)風(fēng)控白皮書》
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.