現(xiàn)在人工智能正朝著 “能像人一樣解決各種復(fù)雜問(wèn)題” 的方向(也就是報(bào)告里說(shuō)的 AGI)快速發(fā)展。2025 年被叫做 “智能體元年”,簡(jiǎn)單說(shuō)就是能自主干活的 AI(AI Agent)開始成為推動(dòng)行業(yè)變革的核心力量,比如它能自己規(guī)劃任務(wù)、做決策還能把事做完,不用人一步一步指揮。同時(shí),AI 硬件也越來(lái)越厲害,像輕便的 AI 眼鏡、小巧的 AI 錄音卡片,用起來(lái)更方便、適配的場(chǎng)景也更多;“多模態(tài)模型” 能同時(shí)處理文字、圖片、聲音這些信息,就像人既會(huì)看又會(huì)聽還會(huì)說(shuō);“世界模型” 更牛,能模擬現(xiàn)實(shí)世界的規(guī)律,提前預(yù)判未來(lái)情況來(lái)幫著做決定。在這樣的背景下,天津市人工智能學(xué)會(huì)、中關(guān)村科學(xué)城公司等多家機(jī)構(gòu)一起出了這份報(bào)告,就是想讓大家清楚 2025 年全球 AI 發(fā)展的情況,以及未來(lái)怎么朝著 AGI 前進(jìn)。
AI 的發(fā)展路徑和產(chǎn)業(yè)概況
AI 分三個(gè)階段:最早是 “弱人工智能”,只能干特定領(lǐng)域的事,比如 1997 年打敗圍棋冠軍的 “深藍(lán)”、2016 年贏了李世石的 AlphaGo,它們只會(huì)下棋,換個(gè)領(lǐng)域就不行了;現(xiàn)在努力的方向是 “通用人工智能(AGI)”,能像人一樣自主學(xué)習(xí)、跨領(lǐng)域解決問(wèn)題,比如 “世界模型” 能理解現(xiàn)實(shí)規(guī)律,“具身智能” 能讓 AI 從處理虛擬信息變成在現(xiàn)實(shí)里做事;未來(lái)可能會(huì)有 “超級(jí)人工智能”,各方面能力都超過(guò)人類,比如靠量子技術(shù)的 “量子神經(jīng)網(wǎng)絡(luò)”、模仿人腦的 “全腦模擬” 等。
不同機(jī)構(gòu)對(duì) AGI 的看法:OpenAI 的 CEO 覺(jué)得 AGI 能像人一樣解決多個(gè)領(lǐng)域的復(fù)雜問(wèn)題;Meta 的科學(xué)家更關(guān)注讓 AI 理解現(xiàn)實(shí)世界、會(huì)規(guī)劃;Anthropic 的 CEO 認(rèn)為 AGI 能自己規(guī)劃長(zhǎng)期任務(wù),還能控制機(jī)器人;Google DeepMind 的聯(lián)合創(chuàng)始人則覺(jué)得 AGI 得做到人類頂尖水平的事。
AGI 什么時(shí)候來(lái):大家預(yù)測(cè)不一樣。xAI 的馬斯克比較樂(lè)觀,說(shuō) 2026 年可能就有雛形;Google 和 Meta 的專家覺(jué)得在 2030 - 2035 年;圖靈獎(jiǎng)得主 Hinton 更保守,認(rèn)為要到 2030 - 2045 年。
2025 年 AI 產(chǎn)業(yè)全景:就像一個(gè)三層的金字塔。最上層是 “應(yīng)用硬件層”,有各種 AI 智能體(比如幫人編程、辦公、做營(yíng)銷的)、AI 硬件(AI 手機(jī)、眼鏡、電腦、汽車)和各種 AI 應(yīng)用(AI 寫作、畫圖、做視頻,還有在醫(yī)療、金融、教育里的應(yīng)用);中間是 “模型層”,有能處理多種信息的 “多模態(tài)基礎(chǔ)模型”,還有專門處理圖像、視頻、語(yǔ)音的模型,以及會(huì)推理、能開源的模型;最底層是 “基礎(chǔ)設(shè)施層”,像 AI 芯片、AI 服務(wù)器、計(jì)算集群這些,是支撐 AI 運(yùn)行的 “硬件底座”。
2024 - 2025 年 AI 發(fā)展時(shí)間線:這兩年 AI 模型更新特別快,比如 2024 年底到 2025 年初,百度、阿里、騰訊這些公司陸續(xù)推出了能處理多模態(tài)、會(huì)推理的模型,還有能在手機(jī)、電腦上直接用的輕量化模型;2025 年中到下半年,又有能生成 3D 場(chǎng)景、支持機(jī)器人的模型出來(lái),而且很多模型都開源了,大家能一起用、一起改進(jìn)。
邁向 AGI 的關(guān)鍵領(lǐng)域
要實(shí)現(xiàn) AGI,主要靠四個(gè)方面推動(dòng):
模型推理能力提升:就像讓 AI 更會(huì) “思考”,比如通過(guò) “思維鏈” 讓 AI 一步一步分析問(wèn)題,還能自己檢查邏輯對(duì)不對(duì);“混合專家架構(gòu)(MoE)” 能讓 AI 里的 “小專家” 分工干活,有的處理文字、有的處理圖片,既提高效率又不浪費(fèi)資源;“模型蒸餾” 能把大模型的能力 “濃縮” 到小模型里,讓小模型也很厲害,還能在手機(jī)、手表這些設(shè)備上用。
強(qiáng)化學(xué)習(xí)迭代:簡(jiǎn)單說(shuō)就是讓 AI 在 “試錯(cuò)” 中進(jìn)步。比如 “RLHF(人類反饋強(qiáng)化學(xué)習(xí))”,人給 AI 的回答打分,AI 根據(jù)分?jǐn)?shù)調(diào)整;“DPO(直接偏好優(yōu)化)” 更簡(jiǎn)單,不用專門訓(xùn)練打分模型,直接根據(jù)人的偏好調(diào)整 AI;還有新的 “GRPO” 算法,能解決以前算法的一些問(wèn)題,讓 AI 學(xué)習(xí)更高效。
算力基建投入:AI 要 “思考” 得有足夠的 “計(jì)算力”。國(guó)外像美國(guó)搞 “星際之門” 計(jì)劃,四年要投 5000 億美元建 AI 基礎(chǔ)設(shè)施;AWS、Google 這些公司 2025 年在 AI 基建上的投入都幾百億美元。國(guó)內(nèi)阿里、騰訊、百度 2024 年在這方面的投入也比以前多很多,而且重點(diǎn)從普通數(shù)據(jù)中心轉(zhuǎn)向?qū)iT供 AI 用的 “智算中心”。硬件方面,國(guó)外 NVIDIA 的新芯片算力超強(qiáng),國(guó)內(nèi)華為、昆侖芯、沐曦這些公司的芯片也在進(jìn)步,能支持大模型訓(xùn)練和推理。
開源生態(tài)發(fā)展:就是把 AI 模型的代碼、技術(shù)公開,大家一起用、一起改進(jìn)。比如 Hugging Face 這個(gè)平臺(tái)有 6000 多個(gè)可部署的開源模型,國(guó)內(nèi)阿里、DeepSeek 這些公司也開源了很多模型。這樣能降低研發(fā)門檻,小企業(yè)也能用上好技術(shù),還能打破技術(shù)壟斷,讓 AGI 發(fā)展更快、更普惠。
智能體技術(shù)及應(yīng)用進(jìn)展
智能體(AI Agent)就是能自己干活的 AI,和以前的 AI 助手不一樣,它更自主。
智能體的特點(diǎn):能自己記東西(短期記憶記當(dāng)下的事,長(zhǎng)期記憶記以前的經(jīng)驗(yàn))、自己規(guī)劃任務(wù)(把復(fù)雜任務(wù)拆成小步驟)、會(huì)用工具(比如用瀏覽器搜信息、用計(jì)算器算數(shù)據(jù))、能自動(dòng)執(zhí)行任務(wù)。比如 AI 助手只能幫你搜個(gè)信息,而智能體能幫你完整規(guī)劃一次旅行,查酒店、訂機(jī)票、安排行程,全程不用你操心。
智能體的技術(shù)架構(gòu):分感知、認(rèn)知、執(zhí)行三個(gè)模塊。感知模塊負(fù)責(zé) “看、聽”,接收用戶指令、外部數(shù)據(jù);認(rèn)知模塊是 “大腦”,包括理解情緒、判斷獎(jiǎng)勵(lì)、記東西、定目標(biāo)、模擬世界規(guī)律;執(zhí)行模塊負(fù)責(zé) “做”,比如寫報(bào)告、控制設(shè)備,還能把結(jié)果反饋到現(xiàn)實(shí)里。
多智能體系統(tǒng):就是多個(gè)智能體一起干活。比如一個(gè) “主導(dǎo)智能體” 帶著幾個(gè) “子智能體”,有的負(fù)責(zé)搜資料、有的負(fù)責(zé)整理文獻(xiàn)、有的負(fù)責(zé)寫報(bào)告,一起完成一個(gè)復(fù)雜的研究任務(wù),效率更高。
智能體的應(yīng)用:
通用智能體:能覆蓋很多場(chǎng)景,比如幫你做投資分析、設(shè)計(jì)課程、寫代碼、規(guī)劃日程,甚至幫你對(duì)比商品、做裝修指南。
行業(yè)智能體:在特定行業(yè)里發(fā)揮作用。比如金融領(lǐng)域的智能體能幫銀行做風(fēng)險(xiǎn)分析、客服;醫(yī)療領(lǐng)域的能幫醫(yī)院整理病歷、提醒患者術(shù)前準(zhǔn)備;工業(yè)領(lǐng)域的能幫工廠優(yōu)化生產(chǎn)流程;教育領(lǐng)域的能給學(xué)生個(gè)性化學(xué)習(xí)建議。
企業(yè)智能體:像企業(yè)的 “數(shù)字員工”,能幫 HR 篩選簡(jiǎn)歷、幫財(cái)務(wù)做報(bào)表、幫銷售分析客戶,還能優(yōu)化生產(chǎn)、供應(yīng)鏈這些流程,幫企業(yè)降本增效。
相關(guān)協(xié)議:為了讓智能體更好地干活,有兩個(gè)重要協(xié)議?!癕CP 協(xié)議” 能讓 AI 模型和各種數(shù)據(jù)源、工具無(wú)縫對(duì)接,比如 AI 能直接調(diào)用數(shù)據(jù)庫(kù)、本地文件;“A2A 協(xié)議” 能讓不同的智能體互相配合,比如一個(gè)辦公智能體能和一個(gè)財(cái)務(wù)智能體一起處理報(bào)銷。
智能硬件及 AI 應(yīng)用進(jìn)展
智能硬件:
AI 眼鏡:Meta、小米、阿里這些公司都出了,能當(dāng) AI 助手、拍照、聽音樂(lè)、翻譯,阿里的夸克 AI 眼鏡還能連支付寶付款、導(dǎo)航,續(xù)航也不一樣,有的能用 4 小時(shí),有的能用到 12 小時(shí)。
AI 手機(jī):蘋果、三星、華為、小米這些主流品牌的新手機(jī)都有 AI 功能,能幫你寫文案、生成圖片、識(shí)別物體,比如蘋果手機(jī)長(zhǎng)按相機(jī)拍的照片,就能用 AI 搜相關(guān)信息;小米手機(jī)能提取消息里的地址,自動(dòng)導(dǎo)航。
AI PC:聯(lián)想、華為這些公司的電腦都有 AI 功能,能在電腦上直接用大模型,處理文檔、做 PPT,還能保護(hù)數(shù)據(jù)隱私。比如聯(lián)想的 AI 電腦有 “法律智能體”,能幫律師處理案件材料、做合同審核。
智能汽車:重點(diǎn)在 “端到端自動(dòng)駕駛”,就是汽車能直接根據(jù)傳感器(攝像頭、雷達(dá))的數(shù)據(jù),自己做駕駛決策。比如 Waymo 的 “EMMA” 模型,能處理文字、圖像、視頻,還能生成駕駛路線,讓汽車更安全地行駛。
Deep Research(深度研究):能讓 AI 從 “搜信息” 變成 “出洞察”。比如你讓 AI 寫一份汽車行業(yè)五年變化的報(bào)告,它會(huì)先拆分成 “找傳統(tǒng)車企數(shù)據(jù)”“找新能源車企數(shù)據(jù)”“做對(duì)比分析” 這些小任務(wù),然后去權(quán)威網(wǎng)站搜資料,分析推理后,最后給你一份格式規(guī)范、有引用來(lái)源的專業(yè)報(bào)告。
AI 編程:以前 AI 只能幫著補(bǔ)代碼,現(xiàn)在能從自然語(yǔ)言直接生成代碼,還能找錯(cuò)、優(yōu)化代碼。國(guó)外 GitHub Copilot、OpenAI 的 Codex 很厲害,國(guó)內(nèi)阿里的通義靈碼、百度的文心快碼也不錯(cuò),能支持多種編程語(yǔ)言,還能適配企業(yè)自己的代碼庫(kù)。
全球 AI 企業(yè)最新布局
NVIDIA:主要做 AI 基礎(chǔ)設(shè)施,比如超強(qiáng)的 AI 芯片,新的 “Blackwell” 芯片比以前的算力提升很多,能支持超大規(guī)模模型訓(xùn)練;還有 “CUDA” 平臺(tái),能讓開發(fā)者用 NVIDIA 的 GPU 做計(jì)算,有很多工具和庫(kù);在智能駕駛和機(jī)器人方面,也有專門的系統(tǒng),能幫汽車生成訓(xùn)練數(shù)據(jù)、幫機(jī)器人學(xué)習(xí)動(dòng)作。
Google:走 “硬件 - 平臺(tái) - 模型 - 應(yīng)用” 全生態(tài)路線。硬件有 Pixel 手機(jī)、TPU 芯片;平臺(tái)有 Google Cloud,能給企業(yè)提供 AI 服務(wù);模型有 Gemini 系列,2.5 版本能處理多模態(tài)、會(huì)深度推理,還能生成高質(zhì)量圖片;應(yīng)用有 Gemini CLI 編程工具、Project Mariner 機(jī)器人項(xiàng)目。
OpenAI:從模型到智能體都有突破,比如 GPT - 5 能處理多模態(tài)、會(huì)協(xié)同工作,有普通版、輕量版、專業(yè)版;ChatGPT Agent 能自己規(guī)劃任務(wù)、調(diào)用工具,幫你訂酒店、做財(cái)務(wù)報(bào)告;還收購(gòu)了 AI 硬件公司,可能要做 AI 硬件。
Anthropic:主打 “混合推理”,旗下 Claude 系列模型,有輕量級(jí)的 Haiku、性價(jià)比高的 Sonnet、旗艦級(jí)的 Opus,能處理長(zhǎng)文檔、復(fù)雜推理,還出了 Claude Code 編程工具,能編輯多文件代碼、提交到 GitHub。
阿里云:全棧布局,從基礎(chǔ)設(shè)施(IaaS)到平臺(tái)服務(wù)(PaaS)再到模型服務(wù)(MaaS)都有。基礎(chǔ)設(shè)施有云服務(wù)器、存儲(chǔ);平臺(tái)有數(shù)據(jù)庫(kù)、容器服務(wù);模型有 Qwen 系列,開源和閉源都有,能支持多模態(tài)、推理,還在金融、醫(yī)療等行業(yè)落地了專門的模型。
DeepSeek:重點(diǎn)在 “混合專家架構(gòu)(MoE)” 和推理模型,模型開源,很多央企都在用它的模型做數(shù)字化轉(zhuǎn)型;還和華為、小米這些公司合作,讓模型能在手機(jī)、電腦、家電、汽車上用。
AGI 未來(lái)發(fā)展路徑
未來(lái) AGI 可能會(huì)朝著這幾個(gè)方向發(fā)展:
世界模型:能更好地理解和預(yù)測(cè)現(xiàn)實(shí)世界,比如 Google 的 Genie 3 能模擬物理世界、支持實(shí)時(shí)交互,阿里的混元 3D 世界模型能生成 3D 場(chǎng)景,在自動(dòng)駕駛、游戲、機(jī)器人領(lǐng)域都能用,比如自動(dòng)駕駛里,世界模型能幫汽車預(yù)判交通情況。
多模態(tài)模型:能更好地整合文字、圖像、視頻等信息,實(shí)現(xiàn)更精準(zhǔn)的協(xié)同推理,比如能根據(jù)文字描述生成更逼真的圖片,還能根據(jù)圖片內(nèi)容回答復(fù)雜問(wèn)題。
持續(xù)強(qiáng)化學(xué)習(xí):讓 AI 在動(dòng)態(tài)環(huán)境里不斷學(xué)習(xí),不忘記以前的知識(shí),還能把學(xué)到的知識(shí)用到新任務(wù)上,比如 AI 在不同的工作場(chǎng)景里,能一直進(jìn)步,還能把在 A 場(chǎng)景學(xué)到的能力用到 B 場(chǎng)景。
非 Transformer 架構(gòu):以前 AI 模型多靠 Transformer 架構(gòu),現(xiàn)在有新的架構(gòu)出來(lái),比如 “Mamba - 2” 訓(xùn)練更快,“RWKV - 7s” 能在端側(cè)設(shè)備上用,“LFM” 內(nèi)存用得少、推理快,這些新架構(gòu)能突破以前的局限,讓 AI 更高效。
具身智能:讓 AI 更好地和現(xiàn)實(shí)世界交互,比如 Figure AI 的 Helix 模型,能控制機(jī)器人上半身做動(dòng)作,一個(gè)系統(tǒng)負(fù)責(zé) “慢思考”(理解指令、規(guī)劃動(dòng)作),一個(gè)系統(tǒng)負(fù)責(zé) “快執(zhí)行”(實(shí)時(shí)控制關(guān)節(jié)、手指);智源的 RoboBrain 2.0 能幫機(jī)器人規(guī)劃長(zhǎng)時(shí)任務(wù)、理解空間和時(shí)間,還能記環(huán)境里的物體位置。
報(bào)告節(jié)選
完整報(bào)告獲取:三個(gè)皮匠報(bào)告
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.