夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

《現(xiàn)代電影技術(shù)》|劉達(dá)等:從全球人工智能頂會(huì)ICLR 2025看中國電影產(chǎn)業(yè)的智能化演進(jìn)升級(jí)

0
分享至


本文刊發(fā)于《現(xiàn)代電影技術(shù)》2025年第5期

專家點(diǎn)評(píng)

科技是第一生產(chǎn)力,產(chǎn)業(yè)是國民經(jīng)濟(jì)基石。推動(dòng)科技創(chuàng)新和產(chǎn)業(yè)創(chuàng)新深度融合,關(guān)系新質(zhì)生產(chǎn)力發(fā)展,關(guān)系中國式現(xiàn)代化全局。黨的二十屆三中全會(huì)對(duì)“推動(dòng)科技創(chuàng)新和產(chǎn)業(yè)創(chuàng)新融合發(fā)展”作出部署。2025年全國電影工作會(huì)提出要聚焦推動(dòng)電影科技創(chuàng)新,加快培育新質(zhì)生產(chǎn)力,進(jìn)一步賦能產(chǎn)業(yè)迭代升級(jí)。人工智能(AI)作為引領(lǐng)新一輪科技革命和產(chǎn)業(yè)變革的通用技術(shù)引擎,將為電影行業(yè)帶來顛覆性創(chuàng)新和跨領(lǐng)域滲透能力,成為推動(dòng)新質(zhì)生產(chǎn)力加快形成的強(qiáng)大力量。人工智能的發(fā)展目標(biāo)是不斷提升自主學(xué)習(xí)和自主進(jìn)化能力,向人類智能不斷逼近。深度人工神經(jīng)網(wǎng)絡(luò)和AI大模型的架構(gòu)升級(jí)、算法創(chuàng)新、工程優(yōu)化以及開放生態(tài)構(gòu)建完善,持續(xù)推動(dòng)數(shù)字人建模生成渲染、三維數(shù)字內(nèi)容智能生成、多模態(tài)情感識(shí)別與理解、高質(zhì)量成像與圖像重建、場(chǎng)景識(shí)別與跨模態(tài)學(xué)習(xí)等諸多領(lǐng)域取得創(chuàng)新成果,為電影行業(yè)智能體與大模型的自主定制研發(fā)、虛擬現(xiàn)實(shí)電影制作生產(chǎn)、電影數(shù)字資產(chǎn)制作復(fù)用、多元化電影攝制播映、影院智慧運(yùn)營管理等電影全產(chǎn)業(yè)鏈提供了有力支撐?!稄娜蛉斯ぶ悄茼敃?huì)ICLR 2025看中國電影產(chǎn)業(yè)的智能化演進(jìn)升級(jí)》一文,基于AI語言大模型、視覺大模型、多模態(tài)大模型、AIGC、多智能體系統(tǒng)協(xié)同、通用人工智能(AGI)、AI安全與版權(quán)等ICLR 2025國際會(huì)議熱點(diǎn)技術(shù)的最新進(jìn)展,提出“電影行業(yè)應(yīng)積極發(fā)展與應(yīng)用人工智能科學(xué)研究與工程應(yīng)用范式”“在創(chuàng)新升級(jí)AGI技術(shù)路線中積極貢獻(xiàn)中國智慧和中國力量”等前瞻性思考與分析展望,對(duì)于推動(dòng)人工智能加快向通用人工智能發(fā)展演進(jìn),具有較高的指導(dǎo)意義和應(yīng)用價(jià)值。該論文文字精煉嚴(yán)密、視角新穎前沿、見解獨(dú)到深刻,為現(xiàn)代智能科技與文化科技深度融合提供了極具前瞻性的范式指引。當(dāng)前電影科技創(chuàng)新已步入深水區(qū),電影工業(yè)發(fā)展正經(jīng)歷由數(shù)字化向智能化的重要躍遷,電影行業(yè)應(yīng)高度重視AI交叉科學(xué)研究,統(tǒng)籌AI發(fā)展與安全,積極有序推進(jìn)電影全產(chǎn)業(yè)鏈全價(jià)值鏈的創(chuàng)新提質(zhì)和智能升級(jí)。

——龔波

正高級(jí)工程師

中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)

黨委書記、所長(zhǎng)

《現(xiàn)代電影技術(shù)》編委會(huì)主任

作 者 簡(jiǎn) 介

劉 達(dá)

中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)總工程師,主要研究方向:電影科技與產(chǎn)業(yè)智能化升級(jí)。

中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)高新技術(shù)研究處副處長(zhǎng),主要研究方向:數(shù)字電影技術(shù)。

王 萃

?;矍?/strong>

中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)電影技術(shù)信息中心副主任,主要研究方向:數(shù)字電影技術(shù)、電影科技期刊。

中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)助理工程師,主要研究方向:數(shù)字電影技術(shù)。

馬鴻悅

解 沛

中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)工程師,主要研究方向:數(shù)字電影技術(shù)。

中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)工程師,主要研究方向:數(shù)字電影技術(shù)。

蔡國鑫

本文系統(tǒng)闡述了2025年度國際學(xué)習(xí)表征大會(huì)(ICLR 2025)的最新研究成果,涵蓋通用人工智能(AGI)、智能體(Agent)技術(shù)、AI安全和版權(quán)等研究進(jìn)展,并結(jié)合國家戰(zhàn)略和行業(yè)需求,提出中國電影行業(yè)推進(jìn)AI技術(shù)定制研發(fā)和工程化應(yīng)用的技術(shù)路徑與前瞻思考。研究表明,電影行業(yè)需在推進(jìn)產(chǎn)業(yè)智能化演進(jìn)升級(jí)中基于國產(chǎn)AI大模型技術(shù)體系,融入中華優(yōu)秀傳統(tǒng)文化的哲學(xué)思想和先進(jìn)理念,統(tǒng)籌可用性、可控性、安全性、復(fù)雜度,不斷提升AI技術(shù)研發(fā)與定制應(yīng)用的精準(zhǔn)性和契合度,有力支撐服務(wù)電影強(qiáng)國和文化強(qiáng)國建設(shè)。

關(guān)鍵詞

電影科技;智能科技;大模型;智能體;通用人工智能

1引言

2025年4月21日至28日,以總工程師劉達(dá)為團(tuán)長(zhǎng)的中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)代表團(tuán)一行6人,赴香港、新加坡開展業(yè)務(wù)訪問與技術(shù)交流。代表團(tuán)赴香港訪問了香港科技大學(xué)、香港電影資料館和香港太古城電影院,赴新加坡參加了全球人工智能領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議——國際學(xué)習(xí)表征會(huì)議(International Conference on Learning Representations, ICLR)。

代表團(tuán)細(xì)致了解了香港電影產(chǎn)業(yè)的發(fā)展歷史、發(fā)展成就當(dāng)前影院建設(shè)改造情況,針對(duì)人工智能生成內(nèi)容(AIGC)跨模態(tài)生成、3D建模與智能生成、AI大模型(AI Large Models)發(fā)展演進(jìn)及視聽行業(yè)應(yīng)用等內(nèi)容與香港科技大學(xué)科研團(tuán)隊(duì)進(jìn)行了細(xì)致深入的研討與交流。特別是,適應(yīng)電影產(chǎn)業(yè)云化與智能化升級(jí)進(jìn)程不斷提速要求,代表團(tuán)以參加2025年度國際學(xué)習(xí)表征會(huì)議(ICLR)為契機(jī),密切跟蹤和深入了解了現(xiàn)代智能科技發(fā)展與應(yīng)用的新趨勢(shì)新特點(diǎn)新需求,了解了AI領(lǐng)域的最新研究與應(yīng)用成果,并探索在統(tǒng)籌發(fā)展與安全的背景下推進(jìn)生成式AI、多智能體系統(tǒng)(Multi?Agent Systems, MAS)、AI大模型等在電影行業(yè)定制設(shè)計(jì)與落地應(yīng)用。

此次出訪內(nèi)容充實(shí)、系統(tǒng)全面、細(xì)致深入,不僅開展了技術(shù)研討與交流,而且建立了業(yè)務(wù)聯(lián)系和交流機(jī)制,代表團(tuán)收獲顯著,達(dá)到了預(yù)期目標(biāo)。出訪成果對(duì)于推進(jìn)AI大語言模型(Large Language Model, LLM)、視覺大模型(Large Visual Model, LVM)、多模態(tài)大模型(Multi?modal Large Language Models, MLLM)、AIGC、通用人工智能(AGI)發(fā)展演進(jìn),多智能體協(xié)同工作,人工智能安全與版權(quán)等技術(shù)在我國電影行業(yè)的發(fā)展應(yīng)用,推動(dòng)人工智能科學(xué)研究與工程應(yīng)用范式(AI for Science & AI for Engineering)在電影行業(yè)深化應(yīng)用,均具有較好指導(dǎo)意義和應(yīng)用價(jià)值。

2ICLR 2025最新研究成果及參會(huì)主要收獲

2.1 人工智能算法創(chuàng)新、資源優(yōu)化和數(shù)據(jù)集擴(kuò)充優(yōu)化完善等關(guān)鍵領(lǐng)域協(xié)同并進(jìn),全面提升AI大模型多模態(tài)理解和內(nèi)容生成能力,推動(dòng)AI技術(shù)加速向具備強(qiáng)大自主學(xué)習(xí)和推理能力的AGI目標(biāo)發(fā)展演進(jìn)。

2.1.1 AGI總體發(fā)展情況

AGI是指具有高效的學(xué)習(xí)和泛化能力、能夠根據(jù)所處的復(fù)雜動(dòng)態(tài)環(huán)境自主產(chǎn)生并完成任務(wù)的通用人工智能體,具備自主的感知、認(rèn)知、決策、學(xué)習(xí)、執(zhí)行和社會(huì)協(xié)作等能力,且符合人類情感、倫理與道德觀念,是人工智能領(lǐng)域的終極目標(biāo)。

(1)智能技術(shù)發(fā)展演進(jìn)路徑

現(xiàn)代智能科技的發(fā)展與應(yīng)用持續(xù)向廣度和深度統(tǒng)籌推進(jìn),從傳統(tǒng)淺層機(jī)器學(xué)習(xí)演進(jìn)至基于多級(jí)人工神經(jīng)網(wǎng)絡(luò)(ANN)的深度學(xué)習(xí)(Deep Learning),從傳統(tǒng)深度學(xué)習(xí)演進(jìn)至人工智能預(yù)訓(xùn)練大模型(AI Pre?trained Large Model),從判別式(Discriminative)人工智能演進(jìn)至生成式(Generative)人工智能,AI的感知、理解與創(chuàng)造能力不斷提升,適應(yīng)與進(jìn)化能力持續(xù)增強(qiáng)。從傳統(tǒng)機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型到預(yù)訓(xùn)練大模型,參數(shù)量越來越大,計(jì)算結(jié)構(gòu)越來越復(fù)雜,能力呈跨越式增長(zhǎng)。當(dāng)前,AI大模型成為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力,其行業(yè)化、領(lǐng)域化、專業(yè)化、輕量級(jí)的發(fā)展趨勢(shì)愈發(fā)顯著,不斷向AGI逼近。

AI大模型是具有數(shù)百億甚至千億參數(shù)的深度學(xué)習(xí)模型,可采用海量數(shù)據(jù)進(jìn)行大規(guī)模預(yù)訓(xùn)練,并可適應(yīng)廣泛的下游任務(wù),包括大語言模型、視覺大模型、多模態(tài)大模型等。在各類大模型中,大語言模型的發(fā)展最為成熟,成為最接近AGI的技術(shù)載體。其發(fā)展主要得益于Transformer架構(gòu)、自注意力機(jī)制等架構(gòu)革新,人類反饋強(qiáng)化學(xué)習(xí)(RLHF)等訓(xùn)練范式升級(jí),以及千億級(jí)參數(shù)訓(xùn)練帶來的規(guī)模效應(yīng),推動(dòng)以GPT?4為代表的模型實(shí)現(xiàn)了理解與生成能力的質(zhì)的飛躍。為突破復(fù)雜推理瓶頸并提升資源效率,混合專家模型(MoE)等新技術(shù)應(yīng)運(yùn)而生,催生出DeepSeek?R1等高性能、低成本的AI大模型。當(dāng)前大語言模型正朝著構(gòu)建世界模型的方向演進(jìn),通過建立對(duì)物理規(guī)律的隱式表征,逐步實(shí)現(xiàn)跨模態(tài)潛意識(shí)推理、長(zhǎng)周期決策規(guī)劃和環(huán)境實(shí)時(shí)適應(yīng)等能力。

(2)AI大模型通向AGI的發(fā)展瓶頸

過去幾年間,大數(shù)據(jù)、大算力和先進(jìn)算法協(xié)同發(fā)展,顯著提升了大模型性能以及多模態(tài)多場(chǎng)景應(yīng)用能力。然而,目前大模型發(fā)展速度正在放緩,局限性在實(shí)踐中逐漸顯現(xiàn)。

訓(xùn)練數(shù)據(jù)接近耗盡,尺度定律(Scaling Law)面臨失效。以O(shè)rion大模型為例,即便投入更多算力,延長(zhǎng)訓(xùn)練時(shí)間并擴(kuò)大數(shù)據(jù)規(guī)模,其性能提升卻呈現(xiàn)“收益遞減”(Diminishing Return)現(xiàn)象?,F(xiàn)有基于Transformer架構(gòu)的大語言模型,本質(zhì)上是“統(tǒng)計(jì)建?!奔夹g(shù),即通過概率匹配而非邏輯推理生成內(nèi)容,其核心機(jī)制僅是根據(jù)上下文預(yù)測(cè)最可能的下一個(gè)詞,缺乏真正的認(rèn)知理解能力。

更有研究人員認(rèn)為其忽視了真實(shí)智能的本質(zhì)需求。東方哲學(xué)思想認(rèn)為智能產(chǎn)生由內(nèi)在的價(jià)值驅(qū)動(dòng)而非外在的數(shù)據(jù)驅(qū)動(dòng),智能產(chǎn)生于主觀的、內(nèi)生的閉環(huán)系統(tǒng),能通過閉環(huán)糾錯(cuò)實(shí)現(xiàn)自我學(xué)習(xí)與改進(jìn)。而大模型訓(xùn)練流程通常為開環(huán)系統(tǒng),只是實(shí)現(xiàn)了局部記憶功能,在現(xiàn)有資源局限的背景下難以建立起系統(tǒng)完整的人類智能。因此,實(shí)現(xiàn)AGI需要突破對(duì)大模型的單一依賴。

2.1.2 監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)(Supervised Learning)和無監(jiān)督學(xué)習(xí)(Unsupervised Learning)作為人工智能領(lǐng)域的兩種基本方法和核心范式,近年來均取得了突破性進(jìn)展。監(jiān)督學(xué)習(xí)憑借其成熟的算法框架和可預(yù)測(cè)的性能表現(xiàn),在數(shù)據(jù)標(biāo)注完善的應(yīng)用場(chǎng)景中表現(xiàn)卓越,能夠訓(xùn)練AGI完成語言理解以及視覺識(shí)別等任務(wù),應(yīng)用場(chǎng)景廣泛。然而,監(jiān)督學(xué)習(xí)過度依賴于人工標(biāo)注,不僅帶來了高昂成本,更限制了模型在開放環(huán)境中的泛化能力和自主探索能力。相比之下,無監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)(Self?supervised Learning)使用未標(biāo)記的數(shù)據(jù)集進(jìn)行訓(xùn)練,無需數(shù)據(jù)標(biāo)簽,能夠模擬人類自主學(xué)習(xí)過程,在動(dòng)態(tài)環(huán)境中能夠幫助AGI快速適應(yīng)。近年來,隨著生成式AI的爆發(fā)式發(fā)展,無監(jiān)督學(xué)習(xí)技術(shù)在跨模態(tài)理解、數(shù)據(jù)表征學(xué)習(xí)等領(lǐng)域展現(xiàn)出巨大潛力。

(1)無監(jiān)督學(xué)習(xí)與自監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)與自監(jiān)督學(xué)習(xí)適用于數(shù)據(jù)標(biāo)注困難或成本高昂的場(chǎng)景,無論是生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)還是自編碼器(Autoencoder)都有著不俗的表現(xiàn),也更契合人類學(xué)習(xí)的本質(zhì)。在本次ICLR會(huì)議上,無監(jiān)督學(xué)習(xí)與自監(jiān)督學(xué)習(xí)收錄論文共計(jì)70余篇,理論研究占比仍然較大,不過已涌現(xiàn)出數(shù)篇能夠應(yīng)用于實(shí)際場(chǎng)景的算法。在這些論文中,全局—局部交互、多尺度建模以及大語言模型的視覺任務(wù)成為重點(diǎn)。

土耳其科奇大學(xué)人工智能實(shí)驗(yàn)室提出一種名為“SlotAdapt”的無監(jiān)督學(xué)習(xí)方法,該方法通過引入基于槽(Slot)的適配器,在保留預(yù)訓(xùn)練模型生成能力的同時(shí),顯著提升復(fù)雜真實(shí)場(chǎng)景下的目標(biāo)檢測(cè)與圖像生成(例如對(duì)象的替換、刪除與添加)任務(wù)的性能和效率。南加州大學(xué)研究團(tuán)隊(duì)通過探討多模態(tài)大語言模型(Multi?modal Large Language Models,MLLM)在視覺方面的機(jī)制,發(fā)現(xiàn)MLLM性能瓶頸并不是其空間定位能力不足,只是缺乏對(duì)局部細(xì)節(jié)的感知能力。對(duì)此,團(tuán)隊(duì)提出一種無需訓(xùn)練的視覺裁剪方法ViCrop,該方法無需額外訓(xùn)練,也不依賴針對(duì)性的數(shù)據(jù)標(biāo)注,便可顯著提高模型在細(xì)節(jié)敏感性數(shù)據(jù)集上的回答準(zhǔn)確率。美國Meta公司提出一種新型自監(jiān)督視覺特征學(xué)習(xí)方法,成功構(gòu)建了無需微調(diào)即可跨任務(wù)和圖像分布通用的視覺基礎(chǔ)模型。該研究通過結(jié)合大規(guī)模數(shù)據(jù)訓(xùn)練、模型架構(gòu)優(yōu)化及高效蒸餾策略,顯著提升自監(jiān)督學(xué)習(xí)在計(jì)算機(jī)視覺中的性能。

(2)監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)在圖像識(shí)別和自然語言處理(NLP)等領(lǐng)域已實(shí)現(xiàn)廣泛應(yīng)用。該方法憑借標(biāo)注數(shù)據(jù)的明確指導(dǎo),在分類、回歸等任務(wù)目標(biāo)清晰的場(chǎng)景中表現(xiàn)出較高精度。然而,其性能高度依賴于大量高質(zhì)量的標(biāo)注數(shù)據(jù),而數(shù)據(jù)標(biāo)注成本高昂且耗時(shí),尤其在復(fù)雜場(chǎng)景中標(biāo)注難度進(jìn)一步加大。在本次ICLR會(huì)議中,監(jiān)督學(xué)習(xí)論文數(shù)量不多,應(yīng)用方向主要集中于圖像生成、編輯以及多模態(tài)模型等領(lǐng)域。

針對(duì)傳統(tǒng)擴(kuò)散變換器(Diffusion Transformer, DiT)雖然能夠生成高質(zhì)量的圖像內(nèi)容但計(jì)算成本過于高昂的情況,新加坡國立大學(xué)、阿里達(dá)摩院和清華大學(xué)共同研究并提出動(dòng)態(tài)擴(kuò)散變換器(Dynamic Diffusion Transformer, DyDiT)。該模型通過動(dòng)態(tài)調(diào)整計(jì)算資源分配,顯著降低DiT計(jì)算冗余,在視覺生成任務(wù)中減少了51%的推理算力,同時(shí)保持生成質(zhì)量。為保證穩(wěn)定性,在訓(xùn)練初期保留由相同擴(kuò)散目標(biāo)監(jiān)督的完整DiT模型參與訓(xùn)練。目前該代碼已經(jīng)開源,未來可探索其在視頻生成等任務(wù)中的應(yīng)用。由華東師范大學(xué)和小紅書公司聯(lián)合完成的Dynamic?LLaVA方法將監(jiān)督學(xué)習(xí)與多模態(tài)模型結(jié)合,提出了一個(gè)動(dòng)態(tài)視覺—文本上下文稀疏化推理加速框架,實(shí)現(xiàn)多模態(tài)大模型的高效推理。多倫多大學(xué)的向量研究院提出一種能夠處理7種不同圖像編輯任務(wù)且不受比例限制的全能編輯模型,值得注意的是,該團(tuán)隊(duì)利用多個(gè)專有模型的監(jiān)督學(xué)習(xí)最終實(shí)現(xiàn)了通用編輯模型OMNIEDIT。

(3)電影行業(yè)應(yīng)用思考與展望

當(dāng)前,監(jiān)督學(xué)習(xí)在生成模型領(lǐng)域發(fā)展迅速,具有生成質(zhì)量高、算力需求小等特點(diǎn),能夠契合電影產(chǎn)業(yè)高畫質(zhì)要求。無監(jiān)督學(xué)習(xí)更類似于人類自主學(xué)習(xí)的過程,能夠從無標(biāo)記數(shù)據(jù)中挖掘潛在結(jié)構(gòu),在大語言模型驅(qū)動(dòng)的視覺任務(wù)中取得了顯著進(jìn)展。

隨著技術(shù)不斷演進(jìn),監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)正逐漸走向融合發(fā)展,呈現(xiàn)出協(xié)同進(jìn)步的良好態(tài)勢(shì)。監(jiān)督學(xué)習(xí)為AGI提供精準(zhǔn)的任務(wù)先驗(yàn),而無監(jiān)督學(xué)習(xí)賦予其開放世界的泛化能力。通過二者的協(xié)同運(yùn)用,未來將發(fā)展出可解釋性強(qiáng)、藝術(shù)創(chuàng)作力豐富的算法模型,并在電影劇本生成、影像風(fēng)格遷移與模仿、3D數(shù)字資產(chǎn)與場(chǎng)景建模、內(nèi)容剪輯以及后期特效合成等領(lǐng)域有效落地。如果可以進(jìn)一步泛化模型與算法,將有望形成實(shí)用的電影通用人工智能系統(tǒng),進(jìn)而開啟電影發(fā)展新篇章。

2.1.3 合成數(shù)據(jù)

合成數(shù)據(jù)是指通過計(jì)算機(jī)算法和模型生成的數(shù)據(jù),這些數(shù)據(jù)在結(jié)構(gòu)和統(tǒng)計(jì)特性上與真實(shí)數(shù)據(jù)相似,但并非直接從現(xiàn)實(shí)世界中采集。合成數(shù)據(jù)可以是完全由算法生成的,也可以是基于真實(shí)數(shù)據(jù)進(jìn)行修改和擴(kuò)展而來的,對(duì)缺乏真實(shí)數(shù)據(jù)的領(lǐng)域具有重要意義。一般來說,完全使用合成數(shù)據(jù)訓(xùn)練模型可能導(dǎo)致模型偏差和過擬合(Overfitting),但DeepMind研究者在論文中提出結(jié)合少量真實(shí)人類數(shù)據(jù)與大規(guī)模合成數(shù)據(jù),可以提升模型對(duì)人類價(jià)值觀的對(duì)齊能力,緩解合成數(shù)據(jù)偏差,同時(shí)有效降低生成成本。

本次ICLR會(huì)議,美國威斯康星大學(xué)麥迪遜分校與微軟(Microsoft)的研究者提出了一種在合成數(shù)據(jù)集微調(diào)大語言模型的方法,能顯著提升大語言模型對(duì)長(zhǎng)上下文的信息檢索和推理能力;來自新加坡國立大學(xué)的研究者系統(tǒng)評(píng)估了4種基于合成數(shù)據(jù)的機(jī)器學(xué)習(xí)訓(xùn)練方法對(duì)隱私保護(hù)的實(shí)際效果,發(fā)現(xiàn)即使合成圖像數(shù)據(jù)與原始圖像數(shù)據(jù)存在視覺差異,也并不能完全保障隱私安全。

此外,上海人工智能實(shí)驗(yàn)室2025年發(fā)布的生成式世界模型AETHER全部使用合成數(shù)據(jù)訓(xùn)練,在傳統(tǒng)重建與生成任務(wù)中表現(xiàn)領(lǐng)先。目前電影行業(yè)也正在面臨訓(xùn)練數(shù)據(jù)缺乏的挑戰(zhàn),基于少量真實(shí)影片數(shù)據(jù)生成或擴(kuò)展大規(guī)模合成數(shù)據(jù)用于模型訓(xùn)練,有望成為AI技術(shù)應(yīng)用于電影領(lǐng)域的下一個(gè)突破口。

2.2 通用智能體能力持續(xù)提升,多智能體系統(tǒng)從基礎(chǔ)通信協(xié)作優(yōu)化向大規(guī)模協(xié)同與動(dòng)態(tài)優(yōu)化演進(jìn),通過低耦合架構(gòu)設(shè)計(jì)和多智能體協(xié)作框架,為電影創(chuàng)作生產(chǎn)流程的智能化升級(jí)提供可行有效路徑。

代表團(tuán)在此次會(huì)議中針對(duì)智能體系統(tǒng)的構(gòu)建與應(yīng)用技術(shù),參加了多個(gè)相關(guān)主題報(bào)告,涵蓋通用智能體、多智能體協(xié)作等多個(gè)研究領(lǐng)域,現(xiàn)從智能體技術(shù)機(jī)理、智能體研究進(jìn)展、智能體在電影行業(yè)應(yīng)用等方面進(jìn)行說明。

2.2.1 智能體(Agent)技術(shù)機(jī)理

智能體發(fā)展經(jīng)歷了從符號(hào)邏輯到數(shù)據(jù)驅(qū)動(dòng),再向認(rèn)知智能的范式躍遷。早期符號(hào)主義智能體依賴人工編碼規(guī)則與有限知識(shí)庫,雖能完成專業(yè)領(lǐng)域推理,卻因僵化的邏輯鏈難以處理自然語言理解等開放性問題。2012年,依托GPU算力與ImageNet大規(guī)模數(shù)據(jù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet成為智能體發(fā)展的關(guān)鍵轉(zhuǎn)折,其以超越傳統(tǒng)方法10%的圖像識(shí)別準(zhǔn)確率開啟深度學(xué)習(xí)時(shí)代,推動(dòng)智能體進(jìn)入數(shù)據(jù)驅(qū)動(dòng)階段。AlphaGo、BERT等模型通過海量數(shù)據(jù)學(xué)習(xí)實(shí)現(xiàn)圍棋博弈、語義理解等能力跨越,但“黑箱決策”缺陷與物理世界交互的缺失仍限制其應(yīng)用廣度。2017年Transformer架構(gòu)的提出徹底重構(gòu)智能體的認(rèn)知范式。其自注意力機(jī)制使模型能動(dòng)態(tài)捕捉跨模態(tài)關(guān)聯(lián),為智能體賦予接近人類的綜合認(rèn)知框架。

現(xiàn)階段智能體系統(tǒng)不再局限于單一模態(tài),通過結(jié)合多模態(tài)大模型實(shí)現(xiàn)文本、圖像、語音的協(xié)同分析,并利用工具調(diào)用、記憶機(jī)制和強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)閉環(huán)決策,其應(yīng)用場(chǎng)景從早期的問答助手?jǐn)U展到自動(dòng)編程、數(shù)據(jù)分析等復(fù)雜領(lǐng)域。同時(shí),智能體系統(tǒng)也不再僅由單一智能體構(gòu)成,通過多智能體協(xié)作簡(jiǎn)化單個(gè)智能體的工具選擇與上下文構(gòu)成。這種演進(jìn)使得智能體系統(tǒng)在開放動(dòng)態(tài)環(huán)境中具備更強(qiáng)的適應(yīng)性、可擴(kuò)展性和任務(wù)分解能力,逐步逼近AGI的雛形。

2.2.2 智能體(Agent)研究進(jìn)展

當(dāng)前智能體研究以通用智能體系統(tǒng)和多智能體系統(tǒng)為主導(dǎo),前者聚焦個(gè)體智能的深度,后者拓展群體智能的廣度,結(jié)合具身智能(Embodied Intelligence)、因果推理等研究方向,共同推進(jìn)通用人工智能(AGI)向?qū)嵱没~進(jìn)。本次ICLR會(huì)議共收錄智能體相關(guān)論文97篇,涵蓋零樣本規(guī)劃、自動(dòng)化工作流編排、多智能體通信與協(xié)作優(yōu)化等方向。

(1)通用智能體(Generalist Agents)

通用智能體是AI邁向AGI的重要一步,旨在跨多個(gè)領(lǐng)域執(zhí)行多樣化任務(wù),依賴強(qiáng)大的計(jì)算資源和一個(gè)復(fù)雜模型實(shí)現(xiàn)多任務(wù)處理。隨著大模型從單模態(tài)向多模態(tài)轉(zhuǎn)變,通用智能體能處理跨模態(tài)任務(wù)。但通用智能體仍面臨開放環(huán)境下任務(wù)規(guī)劃、動(dòng)態(tài)工作流生成等問題。

本次ICLR會(huì)議的研究方向主要集中在通過優(yōu)化任務(wù)規(guī)劃、工具使用和自我改進(jìn)機(jī)制提升通用智能體能力。麻省理工學(xué)院(MIT)的研究者針對(duì)復(fù)雜、多約束、長(zhǎng)時(shí)序的規(guī)劃問題提出了一種通用規(guī)劃框架,將自然語言描述的規(guī)劃問題轉(zhuǎn)化為優(yōu)化問題,結(jié)合形式化求解器,使大語言模型能夠?yàn)槎嗉s束或長(zhǎng)時(shí)程任務(wù)生成可執(zhí)行計(jì)劃,增強(qiáng)智能體規(guī)劃能力,該框架無需任務(wù)特定示例,顯著提高了零樣本規(guī)劃的成功率;阿聯(lián)酋人工智能大學(xué)研究者提出了一種創(chuàng)新框架ToolGen,將工具調(diào)用能力嵌入LLM參數(shù)中,使其能夠直接生成工具調(diào)用序列,從而統(tǒng)一工具檢索和執(zhí)行,顯著提升智能體在處理大規(guī)模工具集時(shí)的效率和性能;亞馬遜AI實(shí)驗(yàn)室的研究者提出了DoT(Diversity of Thoughts)框架,通過增強(qiáng)大語言模型智能體的思維多樣性和跨任務(wù)知識(shí)遷移能力,解決現(xiàn)有方法在決策空間探索和記憶機(jī)制上的不足。

總體來看,當(dāng)前通用智能體的研究均以大語言模型為核心展開:一方面通過外圍架構(gòu)創(chuàng)新持續(xù)擴(kuò)展大語言模型能力邊界,另一方面將智能體在復(fù)雜環(huán)境中習(xí)得的工具使用能力反哺大模型訓(xùn)練。這種雙向賦能機(jī)制正推動(dòng)通用智能體與大語言模型的技術(shù)融合,二者的界限日益模糊,最終可能演變?yōu)榻y(tǒng)一的智能范式。

(2)多智能體系統(tǒng)

多智能體系統(tǒng)通過多個(gè)自主智能體間的協(xié)同交互實(shí)現(xiàn)復(fù)雜任務(wù)求解,其核心特征在于智能體間的通信機(jī)制與協(xié)作策略的優(yōu)化設(shè)計(jì)。相較于單一智能體系統(tǒng),多智能體系統(tǒng)更強(qiáng)調(diào)分布式?jīng)Q策過程中的信息共享、策略博弈以及動(dòng)態(tài)協(xié)調(diào)能力。本次ICLR會(huì)議研究呈現(xiàn)出從基礎(chǔ)通信協(xié)作優(yōu)化向大規(guī)模協(xié)同與動(dòng)態(tài)優(yōu)化的趨勢(shì)。

同濟(jì)大學(xué)研究學(xué)者首次正式定義了當(dāng)前基于大語言模型的多智能體系統(tǒng)通信冗余問題,并通過實(shí)驗(yàn)驗(yàn)證了通信冗余現(xiàn)象的存在,同時(shí)提出了一個(gè)高效、簡(jiǎn)單且魯棒的多智能體通信框架AgentPrune。該框架能夠無縫集成到主流的多智能體系統(tǒng)中,并修剪通信中的冗余甚至惡意內(nèi)容,在降低token消耗和經(jīng)濟(jì)成本的同時(shí),保持較高的性能;針對(duì)大語言模型在推理過程中由固定思維模式導(dǎo)致的錯(cuò)誤,中國科學(xué)院自動(dòng)化研究所研究團(tuán)隊(duì)提出了多樣化多智能體辯論(Diverse Multi?Agent Debate,DMAD)框架,引導(dǎo)多個(gè)智能體采用不同的推理方法進(jìn)行辯論,使每個(gè)智能體能夠從不同視角獲得洞察,進(jìn)而精煉自身回答,從而打破固定思維模式,提升推理性能。

目前,大部分多智能體系統(tǒng)的研究局限于小規(guī)模系統(tǒng),其智能體數(shù)量通常不超過10個(gè),而來自清華大學(xué)的研究者將智能體的拓?fù)浣Y(jié)構(gòu)構(gòu)建為有向無環(huán)圖(DAG),通過圖結(jié)構(gòu)組織智能體間的協(xié)作交互通信,創(chuàng)新性地提出了支持超千個(gè)智能體協(xié)作的MACNET框架,并揭示了協(xié)作擴(kuò)展定律,即隨著智能體數(shù)量的增加,整體性能呈現(xiàn)出邏輯增長(zhǎng)模式,且協(xié)作涌現(xiàn)現(xiàn)象比傳統(tǒng)神經(jīng)涌現(xiàn)更早發(fā)生。這一現(xiàn)象表明智能體協(xié)作可通過增加智能體數(shù)量來提升性能,而無需依賴大規(guī)模的模型再訓(xùn)練。

此外,上海交通大學(xué)研究團(tuán)隊(duì)借鑒神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的反向傳播(Back Propagation)思想,通過環(huán)境反饋分析每個(gè)智能體對(duì)最終結(jié)果的影響,使多智能體系統(tǒng)能夠在測(cè)試階段根據(jù)任務(wù)實(shí)時(shí)自我進(jìn)化,智能調(diào)整智能體及其協(xié)作關(guān)系;Mila人工智能研究所利用大語言模型和強(qiáng)化學(xué)習(xí)(Reinforcement Learning)將自然語言描述的技能直接轉(zhuǎn)化為可執(zhí)行的策略代碼,使智能體在沒有額外訓(xùn)練的情況下,通過組合已有技能來執(zhí)行新的任務(wù),擴(kuò)展了智能體的適應(yīng)性和通用性。

(3)電影行業(yè)應(yīng)用思考與展望

AI大模型作為智能體的核心組件,其語義理解、內(nèi)容生成與上下文推理能力構(gòu)成了系統(tǒng)功能的基礎(chǔ)支撐。盡管當(dāng)前基座大模型在電影行業(yè)特定任務(wù)上的表現(xiàn)仍有局限,但通過采用低耦合架構(gòu)設(shè)計(jì),智能體系統(tǒng)將任務(wù)分解、記憶管理、工具調(diào)用等關(guān)鍵功能模塊與基座模型解耦。當(dāng)基座模型升級(jí)迭代時(shí),智能體系統(tǒng)可無縫適配新模型,實(shí)現(xiàn)性能躍升,同時(shí)保持系統(tǒng)整體的穩(wěn)定性和可擴(kuò)展性。

電影創(chuàng)作生產(chǎn)作為典型的復(fù)雜創(chuàng)意流程,涵蓋劇本創(chuàng)作、場(chǎng)景設(shè)計(jì)、拍攝執(zhí)行與后期制作等環(huán)節(jié),其復(fù)雜程度遠(yuǎn)超單一智能體的處理能力。對(duì)此,將電影制作流程解構(gòu)為最小任務(wù)單元,為每個(gè)細(xì)分任務(wù)配置具備深度領(lǐng)域知識(shí)與優(yōu)化算法的專用智能體,最后通過構(gòu)建可擴(kuò)展的多智能體協(xié)作框架,實(shí)現(xiàn)各專業(yè)模塊的智能協(xié)同,是實(shí)現(xiàn)電影攝制智能化應(yīng)用的可行路徑。

2.3 人工智能應(yīng)用落地進(jìn)程不斷提速,行業(yè)領(lǐng)域賦能效益逐步顯現(xiàn),電影行業(yè)應(yīng)統(tǒng)籌人工智能發(fā)展與安全,推動(dòng)人工智能科技創(chuàng)新與產(chǎn)業(yè)創(chuàng)新深度融合并進(jìn),開辟安全有效、可信可控的“人工智能+電影”新賽道。

代表團(tuán)在此次ICLR會(huì)議中圍繞AI應(yīng)用落地相關(guān)研究,參加了“學(xué)術(shù)界的語言模型訓(xùn)練”“AI安全與魯棒性”“生成式AI水印”等多個(gè)相關(guān)主題報(bào)告和論壇,與論文作者進(jìn)行了深入交流與探討。現(xiàn)從低成本模型訓(xùn)練、AI安全和AI版權(quán)三個(gè)核心維度展開說明。

2.3.1 低成本模型訓(xùn)練

AI大模型作為人工智能領(lǐng)域的重要突破,具有參數(shù)規(guī)模龐大、訓(xùn)練數(shù)據(jù)需求大、任務(wù)泛化能力強(qiáng)等特點(diǎn)。近年來AI大模型技術(shù)快速迭代升級(jí),但面臨著算力成本激增、優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)稀缺、數(shù)據(jù)獲取合規(guī)性爭(zhēng)議等三重挑戰(zhàn)。隨著相關(guān)研究的不斷深入,學(xué)術(shù)界與產(chǎn)業(yè)界逐漸形成共識(shí):模型規(guī)模的無限制擴(kuò)大并不能保證性能的持續(xù)提升,這使得大模型研究從參數(shù)競(jìng)賽逐漸轉(zhuǎn)向質(zhì)量與資源效能相平衡的發(fā)展方向。

本次ICLR會(huì)議的研究熱點(diǎn)之一是低成本模型訓(xùn)練和部署。陳丹琦教授作為特邀演講嘉賓,深度解析了其團(tuán)隊(duì)研發(fā)的Sheared LLaMA與SimPO等突破性訓(xùn)練方法及通過數(shù)據(jù)整合(Data Curation)實(shí)現(xiàn)高效訓(xùn)練的相關(guān)研究,實(shí)現(xiàn)了僅需8塊GPU即可在百億級(jí)參數(shù)量下達(dá)到與千億參數(shù)開源模型相當(dāng)?shù)男阅苤笜?biāo)。美國東北大學(xué)研究者聚焦視覺基礎(chǔ)模型訓(xùn)練,僅需120萬規(guī)模訓(xùn)練數(shù)據(jù)就可在多項(xiàng)視覺任務(wù)中實(shí)現(xiàn)與基于億級(jí)數(shù)據(jù)訓(xùn)練的模型相當(dāng)?shù)木人?。清華大學(xué)、北京大學(xué)聯(lián)合微軟亞洲研究院提出了一種全新的預(yù)訓(xùn)練數(shù)據(jù)選擇范式,可在不修改訓(xùn)練框架的前提下實(shí)現(xiàn)2倍加速,減少1.8倍數(shù)據(jù)需求,有效提升數(shù)據(jù)利用率。

2.3.2 AI安全

AI安全包括AI可信安全(AI Safety)和AI防御安全(AI Security),是人工智能技術(shù)落地進(jìn)程中面臨的關(guān)鍵性挑戰(zhàn),構(gòu)建兼顧穩(wěn)健性(Safety)與防御能力(Security)的AI系統(tǒng),可確保其潛在效益得以有序?qū)崿F(xiàn),增進(jìn)社會(huì)福祉。因此,AI安全成為本次ICLR會(huì)議的重點(diǎn)關(guān)注方向之一。會(huì)議設(shè)置了2個(gè)AI安全主題特邀演講,并錄用了70余篇相關(guān)領(lǐng)域論文,其中1篇研究成果榮獲杰出論文獎(jiǎng)。會(huì)議展示了AI安全領(lǐng)域的最新研究成果,討論了AI安全研究路線和現(xiàn)階段研究瓶頸,并對(duì)未來科研與政策發(fā)展方向進(jìn)行了展望。

普林斯頓大學(xué)的研究者分析了淺層安全對(duì)齊問題,給出了數(shù)據(jù)增強(qiáng)、約束優(yōu)化兩種改進(jìn)方法;Virtue AI的研究者構(gòu)建了首個(gè)基于政府法規(guī)和公司政策的AI安全基準(zhǔn)測(cè)試,提出了AI安全評(píng)價(jià)工具;特邀嘉賓宋曉冬教授分析了AI安全研究的風(fēng)險(xiǎn)與挑戰(zhàn),指出AI攻擊手段與保護(hù)手段研究的不對(duì)稱性,提出深入了解AI風(fēng)險(xiǎn)、增加AI研究透明度、加強(qiáng)早期風(fēng)險(xiǎn)監(jiān)測(cè)機(jī)制、加強(qiáng)AI保護(hù)手段研究、構(gòu)建可靠AI研究社區(qū)等五點(diǎn)建議。

2.3.3 AI版權(quán)

隨著生成式人工智能(Generative AI)的發(fā)展,AI版權(quán)問題日漸凸顯:一方面生成式人工智能在訓(xùn)練階段內(nèi)化吸收了大量版權(quán)作品,從而導(dǎo)致其很容易在惡意用戶的誘導(dǎo)下生成帶有版權(quán)的內(nèi)容,侵犯他人版權(quán);另一方面,AI生成物的獨(dú)創(chuàng)性難以界定,存在濫用風(fēng)險(xiǎn),從而引發(fā)虛假傳播、詐騙等違法行為。本次ICLR會(huì)議顯著加強(qiáng)了對(duì)AI版權(quán)議題的學(xué)術(shù)關(guān)注,聚焦防止版權(quán)內(nèi)容生成、模型版權(quán)溯源、生成式AI水印三個(gè)研究方向,梳理版權(quán)保護(hù)技術(shù)研究成果,加強(qiáng)相關(guān)領(lǐng)域研究者的討論與合作。值得關(guān)注的是,本次ICLR會(huì)議首次為生成式AI水印設(shè)立了單獨(dú)的專題論壇,錄用了51篇相關(guān)主題論文,并設(shè)置了特邀演講、口頭演講、海報(bào)展示等多個(gè)環(huán)節(jié)。

本次ICLR會(huì)議上,蘇黎世聯(lián)邦理工學(xué)院研究者提出了版權(quán)保護(hù)融合算法,通過模型融合的方式,在不影響生成內(nèi)容質(zhì)量的情況下,減少模型對(duì)版權(quán)內(nèi)容的記憶;中國科技大學(xué)研究團(tuán)隊(duì)針對(duì)大型視覺語言模型,提出了參數(shù)學(xué)習(xí)攻擊方法,通過構(gòu)建對(duì)抗性圖像的方式跟蹤模型版權(quán)。在生成式AI水印專題論壇中,Scott Aaronson教授梳理了中國、歐洲、美國加利福尼亞州等地的生成式AI版權(quán)相關(guān)政策法規(guī),并介紹了他在大語言模型水印的研究成果;Furong Huang教授講解了其團(tuán)隊(duì)構(gòu)建的圖像水印魯棒性評(píng)估的基準(zhǔn)測(cè)試工具WAVES,并對(duì)比分析了傳統(tǒng)數(shù)字水印和生成式AI水印技術(shù)的性能指標(biāo);此外還有來自紐約大學(xué)、華沙理工大學(xué)、香港科技大學(xué)、新加坡國立大學(xué)等高校機(jī)構(gòu)研究者們展示了其在圖片水印、擴(kuò)散模型水印、大語言模型水印、水印攻擊方法等方面的研究成果。

2.3.4 電影行業(yè)應(yīng)用思考與展望

綜上所述,實(shí)現(xiàn)落地應(yīng)用已成為驅(qū)動(dòng)人工智能研究的關(guān)鍵力量,低成本模型訓(xùn)練、安全性、版權(quán)保護(hù)等與人工智能應(yīng)用生態(tài)密切關(guān)聯(lián)的研究方向正加速成為學(xué)術(shù)界與產(chǎn)業(yè)界的關(guān)注焦點(diǎn)。我國電影行業(yè)應(yīng)當(dāng)把握智能化升級(jí)契機(jī),積極響應(yīng)國家“人工智能+”戰(zhàn)略行動(dòng)號(hào)召,強(qiáng)化應(yīng)用牽引機(jī)制,同步構(gòu)建戰(zhàn)略性前瞻性風(fēng)險(xiǎn)研判體系,加快推動(dòng)形成符合國家戰(zhàn)略和行業(yè)需求的產(chǎn)學(xué)研用深度融合的AI技術(shù)創(chuàng)新生態(tài)。

3思考與建議

為全面貫徹習(xí)近平文化思想和黨的二十大及系列全會(huì)精神,進(jìn)一步深化文化體制機(jī)制改革,推動(dòng)文化高質(zhì)量發(fā)展,國務(wù)院辦公廳于2025年1月印發(fā)《關(guān)于推動(dòng)文化高質(zhì)量發(fā)展的若干經(jīng)濟(jì)政策》的通知,提出“建設(shè)文化領(lǐng)域人工智能高質(zhì)量數(shù)據(jù)集,支持文化領(lǐng)域大模型建設(shè)”。電影產(chǎn)業(yè)的智能化升級(jí)和AI工程化應(yīng)用是一項(xiàng)復(fù)雜、龐大的系統(tǒng)工程,必須系統(tǒng)謀劃、整體布局和有序推進(jìn)?;诖舜螛I(yè)務(wù)訪問成果和ICLR參會(huì)收獲,經(jīng)認(rèn)真研究分析,我們提出以下思考與建議:

3.1 適應(yīng)國家戰(zhàn)略與行業(yè)需求,基于國產(chǎn)AI大模型技術(shù)體系,聚焦算力數(shù)據(jù)資源高效優(yōu)化利用,推動(dòng)算法模型技術(shù)創(chuàng)新升級(jí),拓展深化電影行業(yè)應(yīng)用場(chǎng)景,在攝制播映運(yùn)營管理智能化升級(jí)中推進(jìn)精準(zhǔn)化定制設(shè)計(jì)與科學(xué)化落地應(yīng)用,服務(wù)電影產(chǎn)業(yè)提質(zhì)升級(jí)。

當(dāng)前AI大模型訓(xùn)練推理仍面臨技術(shù)瓶頸,應(yīng)面向電影級(jí)技術(shù)品質(zhì)內(nèi)容創(chuàng)作生產(chǎn)播映需求,以構(gòu)建自主安全可控技術(shù)體系為目標(biāo),以國家電影數(shù)字資產(chǎn)平臺(tái)建設(shè)為抓手,以算力、數(shù)據(jù)等資源受限條件下進(jìn)行高效模型訓(xùn)練為攻堅(jiān)方向?;趪a(chǎn)算力和創(chuàng)新算法模型,實(shí)施并行化設(shè)計(jì)和工程化優(yōu)化,突破既有訓(xùn)練推理模式存在的邊界遞減效益與能耗失控風(fēng)險(xiǎn),在深度融合國家戰(zhàn)略導(dǎo)向與垂直行業(yè)場(chǎng)景需求的基礎(chǔ)上,統(tǒng)籌可用性、可控性、安全性、復(fù)雜度,在推進(jìn)電影產(chǎn)業(yè)智能化升級(jí)中不斷提升技術(shù)研發(fā)與定制應(yīng)用的精準(zhǔn)性和契合度,有力支撐服務(wù)電影強(qiáng)國和文化強(qiáng)國建設(shè)。特別是,國產(chǎn)AI大模型DeepSeek的異軍突起對(duì)于AI領(lǐng)域民族工業(yè)發(fā)展具有重要意義,其突破訓(xùn)練成本瓶頸,引發(fā)業(yè)界對(duì)低成本大模型的廣泛關(guān)注,通過算法創(chuàng)新和工程優(yōu)化,顯著降低了訓(xùn)練成本,約為OpenAI GPT?4o的1/20。電影行業(yè)應(yīng)以此為契機(jī),加快開展基于DeepSeek等國產(chǎn)AI大模型的垂直領(lǐng)域研究與落地應(yīng)用工作。

3.2 適應(yīng)電影科技創(chuàng)新進(jìn)入深水區(qū)和AI加快向AGI發(fā)展演進(jìn)要求,我們應(yīng)在科技與文化融合創(chuàng)新中發(fā)揮引領(lǐng)示范作用,將中華優(yōu)秀傳統(tǒng)文化的哲學(xué)思想和先進(jìn)理念融入AGI發(fā)展演進(jìn)中,在創(chuàng)新升級(jí)AGI技術(shù)路線中貢獻(xiàn)中國智慧和中國力量,有力支撐電影科技自立自強(qiáng)和中華文化自信自強(qiáng)。

中國特色社會(huì)主義是馬克思主義中國化、時(shí)代化的產(chǎn)物,是馬克思主義基本原理同中國具體實(shí)際相結(jié)合、同中華優(yōu)秀傳統(tǒng)文化相結(jié)合的偉大成果。電影作為現(xiàn)代視聽傳媒技術(shù)發(fā)展制高點(diǎn)與文化產(chǎn)業(yè)發(fā)展龍頭,在推進(jìn)科技自立自強(qiáng)與文化自信自強(qiáng)中具有示范作用和引領(lǐng)意義。要深刻領(lǐng)會(huì)“兩個(gè)結(jié)合”思想內(nèi)涵,探索AI時(shí)代科技與文化深度融合的創(chuàng)新路線。要聚焦本土化場(chǎng)景需求,植根中國傳統(tǒng)文化中的倫理體系與價(jià)值指引,將AI技術(shù)同中國電影發(fā)展實(shí)踐相結(jié)合、同中華優(yōu)秀傳統(tǒng)文化相結(jié)合,依托數(shù)智化轉(zhuǎn)型、高水平開放、新發(fā)展格局等創(chuàng)新機(jī)遇,借助中國文化深厚底蘊(yùn)突破AI通用大模型的同質(zhì)化競(jìng)爭(zhēng),借鑒中國古代哲學(xué)思想規(guī)范其自主決策倫理標(biāo)準(zhǔn),形成與新時(shí)代相匹配的中國特色電影智能化演進(jìn)技術(shù)路線。未來要獲得可靠、可信、可控的AGI技術(shù),需要從中華優(yōu)秀傳統(tǒng)文化,尤其是倡導(dǎo)“和合共生”的中國思想中獲得營養(yǎng)。運(yùn)用中國思想為人工智能的未來發(fā)展提供哲學(xué)層面的頂層設(shè)計(jì),將中國思想的先進(jìn)性轉(zhuǎn)化成智能時(shí)代的工程代碼與強(qiáng)大生產(chǎn)力。

參考文獻(xiàn)

(向下滑動(dòng)閱讀)

[1] 朱松純.為機(jī)器立心[M].浙江:浙江科學(xué)技術(shù)出版社,2024.

[2] 朱松純.為人文賦理[M].浙江:浙江科學(xué)技術(shù)出版社,2024.

[3] 朱松純.通用人工智能標(biāo)準(zhǔn)、評(píng)級(jí)、測(cè)試與架構(gòu)[M].浙江:浙江科學(xué)技術(shù)出版社,2025.

[4] 澎湃新聞.香港大學(xué)馬毅談智能本質(zhì):現(xiàn)在的大模型只有知識(shí)沒有智能[EB/OL].(2024?12?15)[2025?05?19].https://baijiahao.baidu.com/s?id=183144878313

1471493&wfr=spider&for=pc.

[5] 鳳凰衛(wèi)視.機(jī)器掌握知識(shí)≠智能,人類距離真正的通用AI還有很遠(yuǎn)|專訪馬毅[EB/OL].(2025?05?05)[2025?05?19].https://baijiahao.baidu.com/s?id=1831322524763592627&wfr=spider&for=pc.

[6] AKAN A K, YEMEZ Y. Slot?Guided Adaptation of Pre?trained Diffusion Models for Object?Centric Learning and Compositional Generation[EB/OL].(2025?01?07) [2025?05?19].https://arxiv.org/abs/2501.15878.

[7] ZHANG J, KHAYATKHOEI M, CHHIKARA P, et al. MLLMs Know Where to Look: Training?free Perception of Small Visual Details with Multimodal LLMs [EB/OL].(2025?02?24) [2025?05?19].https://arxiv.org/abs/2502.17422.

[8] OQUAB M, DARCET T, MOUTAKANNI T, et al. DINOv2: Learning Robust Visual Features without Supervision[EB/OL].(2023?08?14) [2025?05?19].https://arxiv.org/abs/2502.17422.

[9] ZHAO W, HAN Y, TANG J, et al. Dynamic Diffusion Transformer[EB/OL].(2024?08?04) [2025?05?19].https://arxiv.org/abs/2410.03456.

[10] HUANG W, ZHAI Z, SHEN Y, et al. Dynamic?LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision?language Context Sparsification[EB/OL].(2024?11?01) [2025?05?19].https://arxiv.org/abs/2412.00876.

[11] WEI C, XIONG Z, REN W, et al. OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision[EB/OL].(2024?11?11) [2025?05?19].https://arxiv.org/abs/2411.07199.

[12] XIA M, GAO T, ZENG Z,et al. Sheared LLaMA: Accelerating Language Model Pre?training via Structured Pruning[EB/OL].(2023?10?10)[2025?05?19]. https://arxiv.org/abs/2310.06694.

[13] MENG Y, XIA M, CHEN D. SimPO: Simple Preference Optimization with a Reference?Free Reward [EB/OL].(2024?05?23)[2025?05?19]. https://arxiv.org/abs/2405.14734.

[14] ZHANG Y, MA X, BAI Y,et al. Accessing Vision Foundation Models via ImageNet?1K [EB/OL].(2024?07?15)[2025?05?19]. https://arxiv.org/abs/2407.10366.

[15] GU Y, DONG L, WANG H, et al. DATA SELECTION VIA OPTIMAL CONTROL FORLANGUAGE MODELS [C]//ICLR 2025,2025.

[16] QI X, PANDA A, LYU K, et al. SAFETY ALIGNMENT SHOULD BE MADE MORE THANJUST A FEW TOKENS DEEP [C]//ICLR 2025,2025.

[17] ZENG Y, YANG Y, ZHOU A, et al. AIR?Bench 2024: A Safety Benchmark Based on Risk Categories from Regulations and Policies [EB/OL].(2024?07?11)[2025?05?19]. https://arxiv.org/abs/2407.17436.

[18] BOMMASANI R, ARORA S, CHOI Y, et al. A Path for Science? and Evidence?based AI Policy [EB/OL]. [2025?05?19].https://understanding-ai-safety.org.

[19] ABAD J, DONHAUSER K, PINTO F, et al. Copyright?Protected Language Generation via Adaptive Model Fusion [EB/OL].(2024?12?09)[2025?05?19]. https://arxiv.org/abs/2412.06619.

[20] WANG Y, TANG J, LIU C, et al. Tracking the Copyright of Large Vision?Language Models through Parameter Learning Adversarial Images[EB/OL].(2025?02?23)[2025?05?19]. https://arxiv.org/abs/2502.16593.

[21] AN B, DING M, RABBANI T, et al. WAVES: Benchmarking the Robustness of Image Watermarks [EB/OL].(2024?01?16)[2025?05?19]. https://arxiv.org/abs/2401.08573.

[22] ARABI K, FEUER B, WITTER R T, et al. HIDDEN IN THE NOISE: TWO?STAGE ROBUST WATERMARKING FOR IMAGES [C]//ICLR 2025,2025.

[23] DUBINSKI J, MEINTZ M, BOENISCH F, et al. ARE WATERMARKS FOR DIFFUSION MODELSRADIOACTIVE? [C]//ICLR 2025,2025.

[24] XU Y, LIU A, HU X, et al. MARK YOUR LLM: DETECTING THE MISUSE OF OPENSOURCE LARGE LANGUAGE MODELS VIA WATERMARKING[C]// ICLR 2025,2025.

[25] CHANG H, HASSANI H, SHOKRI R, et al. WATERMARK SMOOTHING ATTACKS AGAINST LANGUAGE MODELS[C]//ICLR 2025,2025.

[26] HAO Y, ZHANG Y, FAN C. Planning Anything with Rigor: General?Purpose Zero?Shot Planning with LLM?based Formalized Programming [C]//ICLR 2025,2025.

[27] HU Y, CAI Y, DU Y, et al. Self?Evolving Multi?Agent Collaboration Networks for Software Development[C]//ICLR 2025,2025.

[28] KLISSAROV M, MIKAEL H, RAILEANU R, et al. MaestroMotif: Skill Design from Artificial Intelligence Feedback[C]//ICLR 2025,2025.

[29] LINGAM V, TEHRANI B O, SANGHAVI S, et al. Enhancing Language Model Agents using Diversity of Thoughts[C]//ICLR 2025,2025.

[30] LIU R, WEI J, LIU F, et al. Best Practices and Lessons Learned on Synthetic Data[EB/OL].(2024?01?10)[2025?05?19]. https://arxiv.org/abs/2404.07503.

[31] LIU Y, CAO J, LI Z, et al. Breaking Mental Set to Improve Reasoning through Diverse Multi?Agent Debate [C]//ICLR 2025,2025.

[32] QIAN C, XIE Z, WANG Y, et al. Scaling Large Language Model?based Multi?Agent Collaboration [C]//ICLR 2025,2025.

[33] TEAM A, ZHU H, WANG Y, et al. Aether: Geometric?Aware Unified World Modeling[EB/OL].(2025?03?24)[2025?05?19]. http://arxiv.org/abs/2503.18945.

[34] WANG R, HAN X, JI L, et al. ToolGen: Unified Tool Retrieval and Calling via Generation[C]//ICLR 2025,2025.

[35] ZHANG G, YUE Y, LI Z, et al. Cut the Crap: An Economical Communication Pipeline for LLM?based Multi?Agent Systems[C]//ICLR 2025,2025.

【項(xiàng)目信息】中國電影科學(xué)技術(shù)研究所(中央宣傳部電影技術(shù)質(zhì)量檢測(cè)所)基本科研業(yè)務(wù)費(fèi)項(xiàng)目“基于《現(xiàn)代電影技術(shù)》期刊內(nèi)容質(zhì)量及編審能力提升研究”(2024?DKS?11)。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

電影技術(shù)微刊 incentive-icons
電影技術(shù)微刊
電影技術(shù)微刊
609文章數(shù) 209關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版 老妇网性色aV棚户区| a∨变态另类天堂无码专区| 三级中文字幕永久在线视频| 超碰国产精品久久国产精品99 | 五月婷婷色五月| 国产精品一区二区久久不卡| 午夜大乳一区二区三区| 国产真实乱对白精彩久久老熟妇女| 十八禁网站毛片一区二区无码蜜桃| 亚洲色精品aⅴ一区区三区| 男人天堂网2017| 99国精品午夜福利视频不卡99| 国产刺激一区二区三区| 精品一区二区久久久久网站| 欧美一级日韩夫妻| 亚洲熟妇av乱码在线观看| 丝袜人妻一区二区三区四区| 国产精品色情国产三级在| av无码免费看| 久久精品久久久久久久| 综合偷自拍亚洲乱中文字幕| 日韩无码久久综合| 在线精品亚洲区一区二区| 蜜桃AV一区在线| 国产免费网址| 性色无码熟妇WWBAV| 久久国产精品久久精品国产| 免费h动漫无码网站| 少妇无码av无码一区| 福利视频99| 无码AV蜜臀AⅤ色欲在线观看| 亚洲Av综合日韩精品久久久| 成人高清无码| chinese国产AB| 成年av一区| 俄罗斯毛片直播| 国产国拍亚洲精品av在线| 汇聚亚洲欧美动漫另类| 久青草国产在视频在线观看| 成人激情免费av| 国产精品香蕉视频在线|