夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)思維鏈如何重塑 AI 與短視頻的未來

0
分享至


作者|文彬 ,快手高級算法專家

策劃|AICon 全球人工智能開發(fā)與應(yīng)用大會

審核 | 羅燕珊

傳統(tǒng)多模態(tài)模型在動態(tài)視頻理解與復(fù)雜推理場景面臨嚴(yán)峻挑戰(zhàn)。快手開源的 Keye-VL 模型在多模態(tài)思維鏈技術(shù)實現(xiàn)突破,具備獨特的 auto-think(自動思考決策)、agentic-think(代理工具思考) 等先進(jìn)能力,在視頻理解領(lǐng)域,尤其是短視頻理解方面,展現(xiàn)出業(yè)界領(lǐng)先的性能。

在 AICon 全球人工智能開發(fā)與應(yīng)用大會·深圳站,快手高級算法專家文彬分享了《Keye-VL 在多模態(tài)思維鏈領(lǐng)域的探索》,從多模態(tài)思維鏈技術(shù)出發(fā),解析 Keye-VL 多模態(tài)大模型的核心技術(shù),并分享 Keye-VL 在快手短視頻社區(qū)的落地應(yīng)用。

12 月 19~20 日的 AICon 北京站 將錨定行業(yè)前沿,聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構(gòu)建起可信賴、可規(guī)?;?、可商業(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長天花板的核心引擎。

詳細(xì)日程見:

https://aicon.infoq.cn/202512/beijing/schedule

以下是演講實錄(經(jīng) InfoQ 進(jìn)行不改變原意的編輯整理)。

今天我的分享將圍繞四個方面展開:多模態(tài)思維鏈的技術(shù)革新、Keye-VL 多模態(tài)思維鏈的探索、多模態(tài)思維鏈在快手社區(qū)的落地應(yīng)用,以及未來的技術(shù)方向。

1 多模態(tài)思維鏈的技術(shù)革新與價值

思維鏈技術(shù)最初被定義為一種 Prompt 策略,用于引導(dǎo)大語言模型逐步分析問題,再給出最終答案。后續(xù)技術(shù)人員發(fā)現(xiàn)這一個技術(shù)方案非常的有效,才慢慢遷移到了大模型語言的迭代中。


圖 1

在多模態(tài)場景下,思維鏈技術(shù)的發(fā)展經(jīng)歷了多個階段。最早期思維鏈仍以文本推理為主。大家可以看到(圖 1)左邊上面的這個流程圖,輸入的部分其實是 Multi medium 的形式,包含了文本、圖片、視頻、語音等等。但是大模型在分析的過程中只會輸出一段文本的 Token 序列,然后再得到最終的答案。傳統(tǒng)的問答系統(tǒng)在解決復(fù)雜數(shù)學(xué)題時,都是用純文本的信息實現(xiàn)逐步推導(dǎo)并求解答案。

隨著技術(shù)的發(fā)展,尤其是在今年 3 月份 OpenAI 發(fā)布 O3 模型之后,多模態(tài)思維鏈進(jìn)入了圖文交錯推理的階段。模型的輸入依然是多模態(tài)信息,但在思考的過程中是可以實現(xiàn)圖文交錯。例如,在(圖 1)左下角的鏈路中,在醫(yī)療影像分析的場景下,當(dāng)輸入 CT 影像和患者病史時,多模態(tài)大模型不僅可以生成分析報告,還能夠精準(zhǔn)標(biāo)注病灶位置,將圖像與文本信息巧妙結(jié)合進(jìn)行推理。

最終我們覺得可以達(dá)到多模態(tài)綜合推理的成熟階段,在那個階段可能我們輸入是多模態(tài),輸出也是文本圖像等多樣的形式,可以把理解、生成這樣的任務(wù)很好地統(tǒng)一起來。

為了幫助大家更直觀地理解思維鏈技術(shù),我準(zhǔn)備了兩個示例。


圖 2

第一個是純文本場景。(圖 2)右上角的例子是數(shù)學(xué)推理問題:給定 A、B、C、D、E 五個碗,需要求出其中哪一個碗的數(shù)字之和最大。純文本思維鏈會逐步分析每個碗的數(shù)字之和,再通過比較得出最終答案 A。這個其實就很符合我們?nèi)祟愃伎嫉逆溌贰?/p>

第二個示例是多模態(tài)的一個思維鏈。提的問題是“鳥巢中有幾顆蛋?”多模態(tài)大模型首先會給出一個目標(biāo)的定位坐標(biāo),然后我們會把坐標(biāo)對應(yīng)的區(qū)域裁剪并放大,再給到多模態(tài)大模型,它會去進(jìn)行一個二次的校驗,當(dāng)它發(fā)現(xiàn)每個區(qū)域都是蛋且屬于不同實例時就會得到最終的答案。

由此可以發(fā)現(xiàn),引入思維鏈技術(shù)后,多模態(tài)大模型與人類的對齊程度顯著提升,推理過程更加具備可解釋性,同時也更為具體。

在介紹了多模態(tài)思維鏈的定義與示例之后,接下來要介紹我們?yōu)槭裁匆剿魉季S鏈?

首先,自去年以來,OpenAI 發(fā)布 O1 模型以及 DeepSeek 發(fā)布 R1 模型后,我們發(fā)現(xiàn)思維鏈技術(shù)真的能夠顯著提升模型的智能上限。像在數(shù)學(xué)和代碼等場景中,這類模型能夠達(dá)到甚至部分超越普通人類的水平。

第二個方面,在復(fù)雜圖表分析和視頻深度理解等多模態(tài)場景中,現(xiàn)有多模態(tài)大模型的精度仍然不足,尚未達(dá)到商用水平。基于上述兩點考慮,若要在未來持續(xù)提升多模態(tài)大模型的性能并推動落地,就必須重點發(fā)展多模態(tài)思維鏈技術(shù)。

關(guān)于多模態(tài)思維鏈的定義,是指模型在處理圖片、聲音、文本等混合信息的問題時,能夠像人類一樣“邊看邊聽,邊想邊說”,可以重新審視,甚至是反復(fù)去定位信息源的重要部分,然后再進(jìn)行一步步思考得出結(jié)論的過程。


圖 3

上圖(圖 3)展示了兩個傳統(tǒng)多模態(tài)大模型表現(xiàn)不佳的案例。左側(cè)這個例子是問 Gemini:2014 年計算與無線兩個領(lǐng)域?qū)Π雽?dǎo)體的需求分別是多少。 Gemini 只能給出大概的估計,無法提供準(zhǔn)確數(shù)值。但如果我們引入多模態(tài)思維鏈后,它就可以先定位到計算和無線這兩個領(lǐng)域分別的需求是多少,然后再求和就行了。

右側(cè)這個例子(圖 3)則是問基督城哪個月的降水量最多。Gemini 直接給了一個錯誤答案,且他給的降水量也是錯誤的。同樣的,如果我們引入了思維鏈的技術(shù),那我們就可以先分析每一個月的降水量是多少,然后再進(jìn)行一個比較,這樣他的思考過程更清晰,答案的話可靠性也會更高一些。

接下來我會給大家介紹多模態(tài)思維鏈的一些發(fā)展歷程。

下圖中(圖 4)左上角展示了多模態(tài)推理的演變過程。 stage 1 是以感知為核心的推理。例如,在 2023 年前后的多模態(tài)大模型,基本就是 stage 1,當(dāng)我們問一個圖里面男孩戴的帽子是什么顏色的時候,多模特大模型不需要推理,只需要關(guān)注視覺信息本身就可以給出一個答案。這種情況下多模態(tài)大模型幾乎可以說沒有推理這個概念。


圖 4

在 stage 2 ,我們是以語言為中心的短推理的過程,就像剛才提到的,當(dāng)我們的多模態(tài)大模型在遇到一個數(shù)學(xué)題的時候,如果你提示它一步一步分析再給出答案。那它也會去分析,但可能整個鏈路會比較短,大概就在幾百個 Token 以內(nèi)。那到了第三個階段,其實主要是得益于大語言模型 O1、R1 的發(fā)布,多模態(tài)領(lǐng)域成功借鑒了他們的經(jīng)驗并迭代了一系列深度思考的多模態(tài)大模型,在這個階段,當(dāng)我們面對一些復(fù)雜的數(shù)學(xué)題的時候,多模態(tài)大模型的思考鏈路可以從幾千到上萬的 Token 不等,相較于 stage 2 的話會有一個大幅提升。

在未來多模態(tài)發(fā)展到 stage 4 的時候,市面上主流的多模態(tài)模型應(yīng)該是原生多模態(tài)的推理模型,輸入可能是視覺、文本、視頻這種多模態(tài)的融合信息,然后在推理的時候它也可以生成圖像、文字以及音頻等不同模態(tài),實現(xiàn)真正的具身智能。

經(jīng)過一兩年的發(fā)展,多模態(tài)思維鏈的訓(xùn)練范式已基本固定,大致分為冷啟動和強化學(xué)習(xí)兩個階段。冷啟動階段主要構(gòu)造領(lǐng)域內(nèi)的長思維鏈?zhǔn)綌?shù)據(jù),引導(dǎo)模型學(xué)習(xí)深度思考的范式,否則模型難以從 0 到 1 直接去激發(fā)它這個能力;強化學(xué)習(xí)階段則引入更加精細(xì)化的獎勵信號,并結(jié)合前沿的強化學(xué)習(xí)算法(如 GRPO、GSPO、DPO 等),大幅提升多模態(tài)大模型的推理質(zhì)量與結(jié)果精度。

圖上右側(cè)(圖 4)是一些純文本思維鏈的落地案例。得益于純文本思維鏈這種簡單的思考形式,多模態(tài)大模型只需要輸出文本序列就能實現(xiàn)高效推理。因此這也是學(xué)術(shù)界和工業(yè)界最先得到驗證和發(fā)展的思維方式。純文本的思維鏈技術(shù)在音頻的 QA、視覺的 QA,圖片定位以及視頻定位等場景都有不錯的學(xué)術(shù)產(chǎn)出。

而多模態(tài)思維鏈,則進(jìn)一步結(jié)合了視覺與文本推理,生成圖文交錯的思維鏈,推動人工智能向更接近人類認(rèn)知水平的方向演進(jìn)。其訓(xùn)練范式與前述冷啟動和強化學(xué)習(xí)一致,但在思維鏈形式上實現(xiàn)了創(chuàng)新,即圖文交錯。


圖 5

例如圖 5 左下角的案例,當(dāng)我們給了一張圖,然后去詢問這個卡車門上的網(wǎng)址是多少的時候,模型會先進(jìn)行一個純文本的分析,然后給出粗略的一個位置,那我們會把這個對應(yīng)的位置裁剪,然后放大,再通過 visual encoder 的方式作為大語言模型思考的上下文,它會逐步地再通過文本思考再定位到一個更精細(xì)化的位置。這樣最后當(dāng)我們把網(wǎng)址所在的區(qū)域丟給模型,它生成答案的置信度就會變得非常高。

可以看到,多模態(tài)思維鏈引入之后,當(dāng)模型面對很復(fù)雜的任務(wù)時,可以一步一步去拆解,最終得到非常置信的答案。

圖 5 的 Image Reasoning 給的是迷宮案例。給定一個物體的起點及其后續(xù)的動作序列,我們需要去預(yù)估它最終會停在什么位置,那引入了多模態(tài)的思維鏈,它完全可以去模擬這個物體下一個動作之后所在的位置,去描繪出它的行為軌跡,最終我們就可以得到一個精確答案。

最后一個案例是視頻推理任務(wù),詢問“這個房間中有多少個沙發(fā)?” 模型會先抽取包含沙發(fā)的這些視頻幀,然后得到視頻幀之后再去定位到視頻幀里面沙發(fā)的位置,它會把對應(yīng)的區(qū)域都裁剪出來,然后再放大,再去判定這些沙發(fā)哪一些其實是同一個物體,做完去重之后就會給到一個精準(zhǔn)的答案。

上述案例表明,在面對復(fù)雜且難以直接求解的問題時,多模態(tài)大模型可以通過多模態(tài)思維鏈的形式來將問題拆解為多個步驟,從而使推理過程更為簡化。

2 Keye-VL 多模態(tài)思維鏈核心技術(shù)解析

接下來介紹我們 Keye-VL 團(tuán)隊在多模態(tài)思維鏈上做了哪些探索?首先帶大家了解下 Auto Think,這是一項創(chuàng)新方案,它能夠使多模態(tài)大模型自主判斷何時需要啟動深度思考

提出這一機制的原因在于,現(xiàn)實場景中相當(dāng)一部分多模態(tài)任務(wù)本身較為簡單,若在此類任務(wù)中普遍啟用深度思考,會造成計算資源的浪費。而在復(fù)雜任務(wù)中啟用深度思考,則既能確保結(jié)果的可靠性,又能使整體效率可控。

為賦予模型 AutoThink 能力,我們引入了兩個不同的階段,分別叫Mix-Mode SFTMix-Mode RL。Mix-Mode SFT 階段的目標(biāo)在于使模型掌握不同的推理模式,所以我們在訓(xùn)練中引入了 /think 模式的長思維鏈數(shù)據(jù)與 instruct 版本的 /no_think 數(shù)據(jù)進(jìn)行混合訓(xùn)練;第二步會根據(jù)題目的難易程度生成相應(yīng)的 auto_think 數(shù)據(jù),在 SFT 階段幫助基座模型更好地掌握 auto think 的格式,題目難度的判斷過程由自研 LLM 生成,并通過特殊的標(biāo)記格式“ XXX ”進(jìn)行區(qū)分。

Mix-Mode RL 階段,我們通過引入混合 reward 機制,在評估最終答案是否準(zhǔn)確的前提下也會校驗?zāi)P蜕傻?CoT 質(zhì)量是否優(yōu)質(zhì),懲罰低質(zhì)思考過程。比如它的思考很冗余,針對某一個問題反復(fù)的去思考,那這種就要扣分。還有它的思考是錯誤的,比如計算步驟有錯誤,那這種也是要扣分。

最后還有邏輯的自洽性,我們會發(fā)現(xiàn)在訓(xùn)練的過程中,有的時候模型的思考過程是錯的,但是答案反而對了,或者思考過程是對的,答案卻錯了。針對這種不一致的情況我們也會做懲罰。

在引入了 Mix-Mode 的強化學(xué)習(xí)之后,我們就發(fā)現(xiàn)基座模型在強化學(xué)習(xí)階段真正掌握何時該啟動深度思考,在效果和效率上達(dá)到平衡。

在引入Mix-Mode的強化學(xué)習(xí)機制后,Keye-VL 基座模型能夠逐漸學(xué)會根據(jù)任務(wù)特征選擇推理模式:在復(fù)雜任務(wù)中啟用深度推理,在簡單任務(wù)中采用簡短推理,從而在效果與效率之間實現(xiàn)平衡。

下圖(圖 6)展示了在 No_Think 模式與 Think 模式下,Keye-VL 是怎么去解決問題的。


圖 6

左側(cè)示例展示了一個引用勾股定理計算直角邊長度的問題。模型在 Analysis 階段就會分析說這個問題只需應(yīng)用勾股定理就可以求得 x,所以它就直接用了一個很短的 Token 序列就把答案給求到了。

那右邊這個問題就相對復(fù)雜一些,給到了兩個半圓,然后要求對應(yīng)的陰影部分的面積,這里面其實需要模型掌握特定的幾何性質(zhì),以及半圓和弦之間的關(guān)系,它是需要很多個計算步驟才能得到答案的,所以模型就采用了 think 的模式。

接下來我們從評測數(shù)據(jù)來看,引入 Mix-Mode 后對機制的提升有多大。通過在自建的多模態(tài)內(nèi)容理解任務(wù)以及開源基準(zhǔn) OpenCompass 等評測集上進(jìn)行測試,我們發(fā)現(xiàn)基座模型在 no_think 模式下的性能得到了顯著提升。

接下來,我們深入挖掘一下 AutoThink 模型在不同任務(wù)中智能觸發(fā)深度思考的決策表現(xiàn)。


圖 7

從圖 7 表格中可以清晰地看到,模型是如何根據(jù)任務(wù)的復(fù)雜度來判定是否啟用深度思考的。在 MathVista 和 MMStar 這類偏向多模態(tài)推理的 Benchmark 上,模型啟用深度思考的比例約為 35%。而在幻覺和 OCR 等偏向感知類的任務(wù)中,模型更傾向于直接采用 no_think 模式。

接下來,我將介紹另外一項技術(shù)Agentic Think,這項技術(shù)的核心目標(biāo)是使模型具備自主編寫代碼以處理圖像的能力。其整體流程共分為五個環(huán)節(jié):

  • 用戶輸入:用戶提供原始輸入,可能是圖片或涉及計算的請求。

  • 核心處理模塊:模型根據(jù)輸入內(nèi)容進(jìn)行理解和判斷是否需要生成代碼。

  • 代碼生成與執(zhí)行:模型輸出對應(yīng)的代碼提交至安全沙盒環(huán)境,包括圖像旋轉(zhuǎn)、裁剪、縮放、對比度增強以及數(shù)學(xué)計算等操作。

  • 沙盒處理

    • 沙盒負(fù)責(zé)代碼的格式修正及輸入輸出錯誤的檢測和處理,確保代碼的安全和正確執(zhí)行;

    • 在嚴(yán)格時間限制內(nèi)運行代碼,執(zhí)行圖像操作或計算任務(wù);

    • 運行結(jié)果(處理后的圖像或計算輸出)反饋給模型。

  • 輸出結(jié)果

    • 模型根據(jù)沙盒反饋,輸出最終的推理結(jié)果或圖像。

Agentic Think 的技術(shù)路線主要分為三個部分:

  • 構(gòu)建多樣化監(jiān)督微調(diào)數(shù)據(jù)集:覆蓋無代碼圖像操作、高復(fù)雜度裁剪、旋轉(zhuǎn)校正、對比度增強、復(fù)雜代碼計算及多輪交互場景,助力模型全面掌握多模態(tài)任務(wù)

  • 引入混合強化學(xué)習(xí)數(shù)據(jù)與優(yōu)化算法。標(biāo)注了一批高難度的感知數(shù)據(jù)用于強化學(xué)習(xí)訓(xùn)練,同時提除了自動溫度設(shè)置的采樣策略,在 code 生成結(jié)果設(shè)置 temperature 為 0,在文本生成階段恢復(fù)為默認(rèn)值。同時對獎勵機制進(jìn)行相應(yīng)的優(yōu)化。

  • 搭建高質(zhì)量且安全的代碼執(zhí)行沙盒:自動管理代碼細(xì)節(jié)和圖像邊界,保障模型生成代碼高效穩(wěn)定執(zhí)行,減輕編碼負(fù)擔(dān)。

在此我們也非常高興地宣布,Agentic Think 技術(shù)迎來了一個重要的里程碑——Thyme 模型開源了。在這里我們?yōu)榇蠹姨峁┝?Thyme 模型相關(guān)的資源的完整路徑。開源 Thyme 模型,也標(biāo)志著我們讓模型學(xué)會自己寫代碼處理圖像的技術(shù)正式向社區(qū)開放,然后也期待與大家一起推動這一領(lǐng)域的發(fā)展。

接下來介紹一下我們在強化學(xué)習(xí)方面的探索,主要是如何通過精心設(shè)計的獎勵函數(shù)來提升模型的推理上限。

其實只要做過強化學(xué)習(xí),大家可能都知道最核心的可能就兩點,第一點是怎么保證獎勵信號是精準(zhǔn)的、是完備的。第二個點是強化算法到底是不是最先進(jìn)的。


圖 8

那我們主要的工作就是構(gòu)建完備的獎勵機制并將 reward 的信號大致分為了兩大類。

第一類是硬約束,比如「輸出格式的校驗」、「輸出長度的約束」以及「IoU 計算」等約束,完全可以通過代碼去計算并評定對錯,無需大語言模型去判斷。

第二類是軟約束,比如語言風(fēng)格的判定(例如古詩或文言文風(fēng)格)、生成內(nèi)容的流暢度,以及生成的思維鏈與最終答案之間的一致性。這類指標(biāo)無法通過代碼直接度量,因此需依賴大語言模型進(jìn)行評估。

圖 8 右側(cè)是一個復(fù)雜指令遵循的例子。當(dāng)收到一個復(fù)雜的 prompt 時, policy model 就會生成一段回復(fù),Reward System 按照硬約束和軟約束進(jìn)行分流。硬約束的部分比如像長度的判定、關(guān)鍵詞判定、段落判定以及輸出格式判定等約束,都可以用代碼校驗。但是類似語言風(fēng)格判定、語義元素判定等約束都只能通過大語言模型判定。最終 Reward System 會把硬約束和軟約束的得分匯總起來再加權(quán) 。

在硬約束方面,驗證相對容易;而在軟約束方面,核心在于建立一個能夠進(jìn)行有效評分的模型。為此,我們探索了全新的獎勵模型,用于對模型輸出結(jié)果進(jìn)行精確打分。在此任務(wù)定義下,模型會對同一問題生成多個候選答案,當(dāng)給定兩個答案時,獎勵模型需判定哪一個更優(yōu)。其判定邏輯包括依次確認(rèn)兩個答案是否正確,若均正確,則進(jìn)一步比較哪個思考過程更加簡潔、合理。

在探索過程中,我們還觀察到獎勵模型在引入強化學(xué)習(xí)算法優(yōu)化后還涌現(xiàn)出了一定的反思能力。例如,它在初步分析時可能錯誤地判定了優(yōu)劣,但在后續(xù)分析中能夠糾正先前的判斷。

基于上述技術(shù)探索,Keye-VL 模型在推理能力方面取得了顯著提升。不僅在開源的多模態(tài)推理 benchmark 上取得了顯著提升;而且在通用圖文與視頻理解任務(wù)上,相較于僅經(jīng) SFT 訓(xùn)練的模型,也展現(xiàn)出可量化的性能改進(jìn)。

3 多模態(tài)思維鏈在快手社區(qū)的落地

當(dāng)前,短視頻社區(qū)的審核主要面臨以下幾方面挑戰(zhàn):

第一,缺乏有效的評測基準(zhǔn)。這使得審核效果難以科學(xué)衡量。相比之下,大語言模型(如 R1、O1)能夠快速發(fā)展,很大程度上得益于數(shù)學(xué)和代碼領(lǐng)域存在豐富的評測基準(zhǔn),使研發(fā)人員能夠基于這些標(biāo)準(zhǔn)進(jìn)行高效迭代;

第二,數(shù)據(jù)質(zhì)量與成本問題。大語言模型的進(jìn)步同樣得益于數(shù)學(xué)與代碼領(lǐng)域擁有大量高質(zhì)量數(shù)據(jù)來源。數(shù)學(xué)方面可依賴豐富的教育資源,代碼方面則可借助開源社區(qū)(如 GitHub、Hugging Face)提供的大規(guī)模優(yōu)質(zhì)數(shù)據(jù)。然而,在短視頻審核場景中,優(yōu)質(zhì)數(shù)據(jù)稀缺,如果依賴人工標(biāo)注,成本將十分高昂。此外,不同標(biāo)注人員的尺度存在差異,導(dǎo)致一致性難以保證。相比之下,若引入多模態(tài)大模型進(jìn)行審核,則能夠在不同樣本間保持一致的判定尺度,結(jié)果更具可控性;

第三,違規(guī)內(nèi)容快速迭代。在快手平臺,每日新增短視頻數(shù)量達(dá)到數(shù)千萬甚至上億,完全依賴人工審核并不可行。同時,違規(guī)內(nèi)容的形式與手段不斷變化,傳統(tǒng)分類模型難以及時應(yīng)對新的違規(guī)類型;

針對上述挑戰(zhàn),我們分析了現(xiàn)有解決方案的局限性,并提出了KuaiMod方案,這個工作也榮獲KDD 2025 最佳論文提名。核心理念是讓多模態(tài)大模型成為審核策略的核心決策者,從而重塑內(nèi)容審核體系。方案的創(chuàng)新點主要體現(xiàn)在以下三個方面:

第一,構(gòu)建并開源劣質(zhì)內(nèi)容基準(zhǔn)評測體系。我們建立了快手專屬的分類體系,涵蓋 4 大類與 15 個細(xì)粒度類別,包括低俗、暴力等常見劣質(zhì)內(nèi)容。同時發(fā)布了包含 1000 條樣本的高質(zhì)量測試集,該數(shù)據(jù)集經(jīng)過 4–5 輪人工標(biāo)注驗證,確保高置信度,并為行業(yè)提供了可復(fù)用的評估標(biāo)準(zhǔn)。

第二,提出自動化內(nèi)容判別方案。在自動化內(nèi)容判別方面,我們基于思維鏈構(gòu)造了審核場景下的深度思考數(shù)據(jù)集,并結(jié)合冷啟動和強化學(xué)習(xí)方法進(jìn)行訓(xùn)練。經(jīng)過部署后,模型可處理快手社區(qū)中分發(fā)量較高的頭部視頻,線上測試結(jié)果顯示其審核準(zhǔn)確率已可媲美人工,且社區(qū)整體用戶舉報率下降了 20%,所有正向指標(biāo)均未受到影響。

第三,動態(tài)熱點實時適配機制。在動態(tài)熱點適配方面,我們針對違規(guī)形式不斷演變的特點,引入基于用戶反饋的強化學(xué)習(xí)機制。系統(tǒng)每日收集用戶反饋數(shù)據(jù),并結(jié)合模型判定識別難例樣本,構(gòu)建高質(zhì)量的偏好配對數(shù)據(jù)。通過 DPO 進(jìn)行日級別迭代,實現(xiàn)模型的實時更新,對動態(tài)違規(guī)內(nèi)容的打擊效果較傳統(tǒng)模型有顯著提升。

KuaiMod的實現(xiàn)中,我們采用大規(guī)模監(jiān)督微調(diào)與直接偏好對齊。在監(jiān)督微調(diào)階段,模型輸入涵蓋視頻幀、標(biāo)題、ASR/OCR 等內(nèi)容。在推理過程中,引入可控思維鏈機制,通過狀態(tài)轉(zhuǎn)換生成對應(yīng)的推理步驟與判定結(jié)果。

接下來介紹我們在短視頻內(nèi)容體系建設(shè)方面的另一項重要成果,即KC-MMbench 的開源。這個 Benchmark 的核心價值在于覆蓋了短視頻場景中的多個核心任務(wù)。剛說的KuaiMod主要聚焦于短視頻審核,而 KC-MMBench 則拓展至六大任務(wù),具體包括:


4 Think with Video

最后跟大家介紹一下,我們未來的技術(shù)方向想做“Think with Video”,就是從傳統(tǒng)的多模態(tài)的理解邁向動態(tài)的世界理解,這項技術(shù)的一個核心突破在于它突破了靜態(tài)圖文交互的限制,可以賦予 AI 對動態(tài)視頻的深度理解能力,可以構(gòu)建視頻與文本交錯的立體的思維鏈。

以下是一個具體示例:某視頻展示了克里斯蒂安·貝爾生平作品的合集。針對該視頻,大模型需要回答“貝爾在何種年齡出演過蝙蝠俠系列電影”。該任務(wù)涉及多個推理環(huán)節(jié):首先,模型需要掌握貝爾的出生年份;其次,需要準(zhǔn)確識別合集片段中哪些屬于蝙蝠俠系列;最后,還需識別視頻中細(xì)粒度的 OCR 信息,例如各部蝙蝠俠電影的上映時間。與以往僅對圖像局部區(qū)域進(jìn)行裁剪和分析不同,該過程要求模型直接對長視頻中的特定片段進(jìn)行分析。


在該方向下,存在兩個主要技術(shù)難點:

  • 長上下文理解能力。處理超長視頻時,每幀可能轉(zhuǎn)化為數(shù)千個視覺 Token,若采用密集抽幀,上下文長度將急劇膨脹。然而,現(xiàn)有多模態(tài)大模型的上下文處理能力仍存在限制。

  • 精確定位能力。類似于在文本中“大海撈針”,模型需在冗長的視頻數(shù)據(jù)中準(zhǔn)確定位關(guān)鍵信息,這個任務(wù)難度極高。

若能突破上述難點,模型將能夠準(zhǔn)確定位蝙蝠俠電影上映時間,并據(jù)此推理出貝爾出演時的年齡,從而得到正確答案。可以預(yù)見,未來的推理任務(wù)將更加復(fù)雜,更貼近真實場景。我們也將持續(xù)致力于 Think with Video 的能力迭代,并計劃在未來進(jìn)行開源,與業(yè)界同行展開更深入的交流。

嘉賓介紹

文彬,現(xiàn)任快手高級算法專家,負(fù)責(zé) Keye-VL 多模態(tài)大模型后訓(xùn)練階段的研發(fā)。研究方向涵蓋多模態(tài)大模型監(jiān)督微調(diào) (SFT)、人類偏好對齊 (RLHF)、多模態(tài)思維鏈以及強化學(xué)習(xí)等領(lǐng)域,相關(guān)學(xué)術(shù)成果在 CVPR、ICML、ICLR 以及 NeurIPS 等 CCF-A 類會議上發(fā)表。作為核心貢獻(xiàn)者參與的 Keye-VL-8B-Preview 模型開源項目獲得業(yè)界高度關(guān)注,在 Hugging Face 平臺模型下載量已突破 200,000 次。

AI 重塑組織的浪潮已至,Agentic 企業(yè)時代正式開啟!當(dāng) AI 不再是單純的輔助工具,而是深度融入業(yè)務(wù)核心、驅(qū)動組織形態(tài)與運作邏輯全面革新的核心力量。

把握行業(yè)變革關(guān)鍵節(jié)點,12 月 19 日 - 20 日,AICon 全球人工智能開發(fā)與應(yīng)用大會(北京站) 即將重磅啟幕!本屆大會精準(zhǔn)錨定行業(yè)前沿,聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構(gòu)建起可信賴、可規(guī)模化、可商業(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長天花板的核心引擎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
大反轉(zhuǎn)!陳震賬號解封后又被禁言!

大反轉(zhuǎn)!陳震賬號解封后又被禁言!

鞭牛士
2025-12-22 13:28:30
16GB+1TB!新機官宣:12月26日,全新上市

16GB+1TB!新機官宣:12月26日,全新上市

科技堡壘
2025-12-21 11:37:47
我被辭退,收拾東西時,經(jīng)理問我誰介紹來的,我答:你兒子

我被辭退,收拾東西時,經(jīng)理問我誰介紹來的,我答:你兒子

蘭姐說故事
2025-12-19 20:15:03
213:211,特朗普拿到開火權(quán)?中方通告全球:支持委內(nèi)瑞拉是傳統(tǒng)

213:211,特朗普拿到開火權(quán)?中方通告全球:支持委內(nèi)瑞拉是傳統(tǒng)

書紀(jì)文譚
2025-12-22 18:23:07
賴清德彈劾案最新進(jìn)展:臺立法機構(gòu)將于明日排案 最快周五提案

賴清德彈劾案最新進(jìn)展:臺立法機構(gòu)將于明日排案 最快周五提案

環(huán)球網(wǎng)資訊
2025-12-22 16:35:16
馬云的預(yù)言將成真?2026年手上還握有存款的人,或?qū)⒚媾R三大挑戰(zhàn)

馬云的預(yù)言將成真?2026年手上還握有存款的人,或?qū)⒚媾R三大挑戰(zhàn)

墨蘭史書
2025-12-18 05:10:02
善惡終有報!張本智和傳出新消息,原來樊振東早就猜中了他的結(jié)局

善惡終有報!張本智和傳出新消息,原來樊振東早就猜中了他的結(jié)局

千言娛樂記
2025-12-21 22:13:03
日本網(wǎng)紅夫婦在東京高級桑拿房中被活活蒸死!生前拼命求救卻無一個工作人員響應(yīng)…

日本網(wǎng)紅夫婦在東京高級桑拿房中被活活蒸死!生前拼命求救卻無一個工作人員響應(yīng)…

東京新青年
2025-12-21 18:10:01
79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

79歲李保田現(xiàn)狀:定居山東衰老明顯,兒子李彧長得像父親“翻版”

小熊侃史
2025-12-20 10:56:45
臺灣歌手鄭智化回應(yīng)輿論風(fēng)波:“文明跟野蠻永遠(yuǎn)沒有辦法溝通”

臺灣歌手鄭智化回應(yīng)輿論風(fēng)波:“文明跟野蠻永遠(yuǎn)沒有辦法溝通”

總在茶余后
2025-12-20 00:10:24
施瓦辛格深夜警告:晚上健身,就是自殘!

施瓦辛格深夜警告:晚上健身,就是自殘!

徐德文科學(xué)頻道
2025-12-19 23:27:25
C羅社媒秀身材,世界首富馬斯克評論:看來我得鍛煉一下了

C羅社媒秀身材,世界首富馬斯克評論:看來我得鍛煉一下了

懂球帝
2025-12-20 09:36:02
1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

1991 年,鄧小平特派代表赴美團(tuán)聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

文史明鑒
2025-12-21 17:07:19
東亞錦標(biāo)賽亂了:3-0,倒數(shù)第二掀翻領(lǐng)頭羊,日本丟3球完敗

東亞錦標(biāo)賽亂了:3-0,倒數(shù)第二掀翻領(lǐng)頭羊,日本丟3球完敗

側(cè)身凌空斬
2025-12-22 11:28:31
“東南亞詐騙終點站”被攻陷!園區(qū)墻上五個大字“誠信贏天下”

“東南亞詐騙終點站”被攻陷!園區(qū)墻上五個大字“誠信贏天下”

深度報
2025-12-21 22:42:35
臺灣會被意想不到的人帶回來,現(xiàn)在看來,這個人出現(xiàn)了。

臺灣會被意想不到的人帶回來,現(xiàn)在看來,這個人出現(xiàn)了。

百態(tài)人間
2025-12-22 16:43:45
日元潰敗,西方金融大鱷蠢蠢欲動,高市早苗想中方出手相救不可能

日元潰敗,西方金融大鱷蠢蠢欲動,高市早苗想中方出手相救不可能

百態(tài)人間
2025-12-22 16:51:54
中日全被踢出局,越南玩大了,670億豪賭國運,竟找賣房的修高鐵

中日全被踢出局,越南玩大了,670億豪賭國運,竟找賣房的修高鐵

科普100克克
2025-12-22 17:36:19
方永飛公開批評雷軍:“還要不要一點臉啊,樣樣世界第一”

方永飛公開批評雷軍:“還要不要一點臉啊,樣樣世界第一”

大白聊IT
2025-12-22 10:03:54
世體:赫伊森速度慢球風(fēng)較軟,已引發(fā)皇馬內(nèi)部的諸多質(zhì)疑

世體:赫伊森速度慢球風(fēng)較軟,已引發(fā)皇馬內(nèi)部的諸多質(zhì)疑

懂球帝
2025-12-22 12:35:34
2025-12-22 19:59:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11854文章數(shù) 51642關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機器人技術(shù)大錯

頭條要聞

東部戰(zhàn)區(qū)司令員楊志斌等2人晉升上將

頭條要聞

東部戰(zhàn)區(qū)司令員楊志斌等2人晉升上將

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財經(jīng)要聞

央行信用新政:為失信者提供"糾錯"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

房產(chǎn)
游戲
本地
家居
公開課

房產(chǎn)要聞

封關(guān)之后!第一波先漲起來的,是海南股市!

挖角西山居、硬剛免費浪潮,《大唐豪俠》高開低走,到底誰的錯?

本地新聞

云游安徽|走進(jìn)銅陵,照見三千年不滅的爐火

家居要聞

現(xiàn)代手法 詮釋東方文化

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲爆乳AⅤ无码一区二区麻豆传| 开心色怡人综合网站| 成 人 社区在线视频| 麻豆一精品传媒卡一卡二传媒| 亚洲AV中文AⅤ无码专区久久 | 国产精品国产三级国产av麻豆| 亚洲嫩模喷白浆在线观看| 人丨PORNY| 欧美女人视频操逼| 亚洲国产日韩视频观看| 国产麻豆成人AV色影视| 无码精品久久久久久人妻中字| 久久精品色妇熟妇丰满人妻50| 伊人久久大线影院首页| 成人高清网站| 国产精品亚洲二区在线看| 熟妇人妻无码一区二区三区Av| 国产精品久久久久久婷婷| 牛牛视频一区三区在线观看| 亚洲国产精品久久久久婷蜜芽| 亚洲啊v伊人| 精品无码久久久久久久四虎| 俄罗斯胖妇人BBW| 国产欧美婬乱一区二| 免费不卡毛片| 日韩av无码区| 外国操逼网站| 久久久久亚洲AV色欲av,南城羊肉批发市场 | 99久久精品免费看国产| 国产精品影视在线| 偷拍美女厕所尿尿嘘嘘小便| 亚洲国产精液| 日韩成人福利视频在线观看| 日本一色网站| 99中文字幕精品国产| 亚洲AV无码一区二区一二区蜜芽| 最新国产精品自在线观看| 国产视频福利| 国产伦精品一区二区| 亚洲激情在线播放| 91密桃精品国产91久久|