夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

會議軟件Zoom也來搞AI了,稱在AI最難考試上“擊敗”了Gemini 3

0
分享至

最近,視頻會議軟件公司 Zoom 發(fā)布了一條出人意料的消息:他們宣稱在“人類最后的考試”(Humanity s Last Exam,簡稱 HLE)這個號稱當前 AI 領(lǐng)域最具挑戰(zhàn)性的基準測試上,取得了 48.1% 的成績,比此前由 Google Gemini 3 Pro(帶工具)保持的 45.8% 高出 2.3 個百分點。

這是什么概念?一家做視頻會議起家的 SaaS 公司,跑去和 OpenAI、Anthropic、Google 這些 AI 前沿實驗室在同一張考卷上比分數(shù),而且還贏了(至少按他們自己的說法)。

消息一出,許多人的第一反應(yīng)是:“誰,Zoom?”甚至有人好奇:“難道 Zoom 現(xiàn)在也是個前沿 AI 實驗室了?”


圖丨相關(guān)評論(來源:X)

不過且慢,仔細看看,這個“SOTA”(state-of-the-art,最先進水平)的含金量,恐怕需要打個問號。

先說 HLE 這個基準測試到底是什么。它由 Scale AI 與 Center for AI Safety(CAIS,人工智能安全中心)聯(lián)合推出,包含 2,500 道由全球近千位學(xué)科專家貢獻的高難度問題,涵蓋數(shù)學(xué)、物理、生物醫(yī)學(xué)、人文社科、計算機科學(xué)等數(shù)十個領(lǐng)域。

設(shè)計初衷是應(yīng)對“基準飽和”問題:此前流行的 MMLU 等測試,頂級模型早已刷到 90% 以上,區(qū)分度幾乎喪失。HLE 的難度足以讓大多數(shù)當前模型的得分停留在個位數(shù)到兩位數(shù)低端,被稱為“為衡量 AI 進展而設(shè)計的最后一道封閉式學(xué)術(shù)測試”。

那么 Zoom 是怎么做到的?

根據(jù) Zoom 首席技術(shù)官黃學(xué)東在官方博客中的介紹,核心在于他們的“聯(lián)邦 AI 方法”(Federated AI Approach)。這套架構(gòu)的思路說起來并不復(fù)雜:不依賴單一大模型,而是把 Zoom 自研的小型語言模型(SLM,Small Language Model)與 OpenAI、Anthropic、Google 等公司的閉源和開源模型組合起來,通過一套叫做“Z-scorer”的自研評分系統(tǒng)來選擇或精煉不同模型的輸出。

具體到這次 HLE 測試,Zoom 使用了一種名為“探索-驗證-聯(lián)邦”(explore–verify–federate)的智能體工作流:不是讓單一模型生成長鏈推理,而是策略性地識別最有價值的推理路徑,再由多個模型通過“辯證協(xié)作”來生成、挑戰(zhàn)、修正答案,最終整合全部上下文做出判斷。

所以,Zoom 并沒有從頭訓(xùn)練自己的前沿模型,只是在現(xiàn)有模型之上做了聚合和腳手架。這次 48.1% 的成績也并未出現(xiàn)在 HLE 官方排行榜上。Scale AI 維護的 HLE 官方榜單上,列出的是各家廠商提交的單一模型成績,而 Zoom 的“聯(lián)邦 AI 系統(tǒng)”嚴格來說是一個由多模型協(xié)作加自研編排層組成的復(fù)合系統(tǒng)。


圖丨在 HLE 全集基準測試上的表現(xiàn)(來源:Zoom)

有評論者直言,這不過是“把問題分發(fā)給三個頂尖模型,榨出幾個百分點的提升,然后宣稱自己達到 SOTA”的策略,確實是創(chuàng)意,但這跟“Zoom AI”本身有多大關(guān)系呢?

就在 Zoom 發(fā)布公告的同一天,另一家名為 Sup AI 的初創(chuàng)公司宣布以 52.15% 的準確率超越了所有現(xiàn)有系統(tǒng),同樣采用的是多模型編排方案。HLE 官方排行榜還沒來得及更新,這個“SOTA”就已經(jīng)易主了??梢娺@種基于工具調(diào)用和模型聚合的測試成績,也是一個相當卷的競技場。

那么 Zoom 為什么要做這件事?

要回答這個問題,得先理解 Zoom 這幾年的處境。疫情紅利消退后,這家公司一直在尋找新的增長敘事,而 AI 成了最順理成章的選項,為此,Zoom 挖來在微軟工作 30 余年的黃學(xué)東擔任 CTO。


圖丨黃學(xué)東(來源:WikiPedia)

2023 年 9 月,Zoom 推出了 AI Companion 功能,提供會議摘要、待辦事項提取、實時問答等能力,并且對原付費用戶免費開放,無需額外加購。

背后支撐這些功能的,正是 Zoom 所謂的聯(lián)邦 AI 架構(gòu)。簡單說,他們不是一味調(diào)用最貴的模型來處理所有任務(wù),而是建了一套路由機制:簡單任務(wù)交給自研的 20 億參數(shù)小模型,復(fù)雜任務(wù)才調(diào)用外部大模型;同時用 Z-scorer 來判斷初次輸出的質(zhì)量,如果不達標再讓第二個模型來修正。這樣一來,每次 API 調(diào)用的平均成本就被壓下來了。Zoom 自己在 2023 年底宣稱,這套方案能以 GPT-4 約 6% 的推理成本達到接近的輸出質(zhì)量。

2024 年起,Zoom 進一步深化了這個思路。今年 10 月,他們與 NVIDIA 合作,把 Nemotron 推理模型接入了聯(lián)邦架構(gòu),并且自研了一個 490 億參數(shù)的中等規(guī)模 LLM。盡管規(guī)模不大,但足以在其所涉及的企業(yè)協(xié)作場景里把事情干得更穩(wěn)、更快、更便宜。

這其實也是 2024 年以來企業(yè) AI 領(lǐng)域一個越來越清晰的趨勢。對于絕大多數(shù) SaaS 公司來說,從頭訓(xùn)練一個前沿大模型既不現(xiàn)實也沒必要。于是,它們面臨兩條路:要么深度綁定某一家大模型廠商,要么走多模型編排路線,在上層建立自己的調(diào)度和優(yōu)化能力。

Zoom 選擇了后者,而且走得相當激進。它不僅同時接入 OpenAI 和 Anthropic 的模型,還自研了用于特定任務(wù)的小模型,再加上 Perplexity 提供的網(wǎng)絡(luò)搜索能力。這套架構(gòu)的好處是靈活:新模型出來了可以快速接入,不同任務(wù)可以選用最合適的模型,成本也可以通過靈活的策略來控制。

所以,與其說 Zoom“戰(zhàn)勝”了 OpenAI 和 Google,不如說他們驗證了另一條路徑的可行性:不造巨型模型,而是做好模型的調(diào)度和協(xié)同。

誰能把不同模型、工具調(diào)用、企業(yè)數(shù)據(jù)與工作流拼成穩(wěn)定、可控、高質(zhì)量的生產(chǎn)力輸出,誰就能在企業(yè)市場占據(jù)優(yōu)勢。這和微軟 CEO 納德拉提出的“AI 成為業(yè)務(wù)應(yīng)用的邏輯編排層”思路一致,也類似于 Salesforce 試圖通過 Agentforce 把 AI Agent 深度嵌入 CRM 流程的策略。

只不過,微軟背后有 Azure 和 OpenAI,Salesforce 有自己的 Data Cloud 和收購來的技術(shù)資產(chǎn),而 Zoom 的護城河主要在于它龐大的會議用戶基礎(chǔ)和對“會議場景”的深度理解。

這家公司在 2025 年 9 月的 Zoomtopia 大會上正式發(fā)布了 AI Companion 3.0,主打智能體 AI(Agentic AI)能力:不僅能總結(jié)會議、提取待辦事項,還能主動分析日程、自動安排會議、跨平臺(包括 Microsoft Teams 和 Google Meet)抓取信息、與 ServiceNow 等第三方 Agent 協(xié)作。黃學(xué)東將其定位為從“被動助手”到“主動協(xié)作者”的躍遷。

按 Zoom 的說法,這套系統(tǒng)底層依然是聯(lián)邦多模型架構(gòu),前端則通過統(tǒng)一的 AI Companion 入口呈現(xiàn)給用戶。

這意味著什么?意味著 Zoom 正在把 AI 能力從單點功能升級為平臺級服務(wù)。它不再滿足于“幫你總結(jié)會議”,而是試圖成為企業(yè)工作流中的 AI 中樞,一個能夠理解上下文、調(diào)用多種模型和工具、在不同應(yīng)用間穿梭執(zhí)行任務(wù)的智能層。這和微軟、Salesforce、ServiceNow 等巨頭的愿景高度重合,只不過各家的起點和路徑不同。

在大模型能力快速商品化的背景下,差異化競爭的焦點正在向“編排能力”和“場景整合能力”轉(zhuǎn)移。訓(xùn)練一個萬億參數(shù)的基礎(chǔ)模型需要數(shù)億美元和數(shù)萬塊 GPU,這注定是少數(shù)玩家的游戲;但如何把現(xiàn)有模型用好、用對、用便宜,這是每一家企業(yè)軟件公司都可以、也必須認真思考的問題。Zoom 的聯(lián)邦 AI 路線,本質(zhì)上是對后一個問題的回答。

參考資料:

1.https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/?utm_source=social&utm_medium=organic-social

2.https://www.zoom.com/en/blog/federated-ai-approach-best-quality-for-most-popular-features/?utm_source=social&utm_medium=organic-social&DeviceId=92a0a21e-4914-432c-b54c-91f0bcba09eb&SessionId=1765775112166

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
用力過猛!51歲林志玲打扮“日系”現(xiàn)身上海,網(wǎng)友:又老又年輕

用力過猛!51歲林志玲打扮“日系”現(xiàn)身上海,網(wǎng)友:又老又年輕

東方不敗然多多
2025-12-22 01:36:36
南京博物院原院長徐湖平一張居家照,引發(fā)軒然大波。

南京博物院原院長徐湖平一張居家照,引發(fā)軒然大波。

阿鰤科普記錄
2025-12-21 21:08:31
說白了,一開始,全世界都在下注,賭中國會輸。

說白了,一開始,全世界都在下注,賭中國會輸。

忠于法紀
2025-12-20 10:12:27
山東賣糖葫蘆大爺兒子去世留下3幼子,大學(xué)生和市民排長隊支持其生意,有人掃碼不要糖葫蘆

山東賣糖葫蘆大爺兒子去世留下3幼子,大學(xué)生和市民排長隊支持其生意,有人掃碼不要糖葫蘆

大風新聞
2025-12-19 16:58:05
南京博物館事件,我很擔心會走向“彭宇案”的老路

南京博物館事件,我很擔心會走向“彭宇案”的老路

人格志
2025-12-20 23:34:32
臺灣歌手鄭智化回應(yīng)輿論風波:“文明跟野蠻永遠沒有辦法溝通”

臺灣歌手鄭智化回應(yīng)輿論風波:“文明跟野蠻永遠沒有辦法溝通”

總在茶余后
2025-12-20 00:10:24
中國網(wǎng)友紛紛到泰國大使館留言,強烈支持打擊電詐,要求除惡務(wù)盡

中國網(wǎng)友紛紛到泰國大使館留言,強烈支持打擊電詐,要求除惡務(wù)盡

環(huán)球熱點快評
2025-12-21 14:49:00
從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

科普100克克
2025-11-30 21:24:29
石破茂預(yù)言兌現(xiàn),高市早苗目瞪口呆,中方一出手令日企難以為繼

石破茂預(yù)言兌現(xiàn),高市早苗目瞪口呆,中方一出手令日企難以為繼

娛樂的宅急便
2025-12-22 04:32:37
周琦一家近照,大6歲妻子身材好,兒子也愛籃球,29歲身家過億

周琦一家近照,大6歲妻子身材好,兒子也愛籃球,29歲身家過億

籃球看比賽
2025-12-21 13:07:53
向全世界宣布!中國計劃2026年量產(chǎn)光刻機,荷蘭阿斯麥CEO首次表態(tài)

向全世界宣布!中國計劃2026年量產(chǎn)光刻機,荷蘭阿斯麥CEO首次表態(tài)

Thurman在昆明
2025-12-22 01:35:53
日本徹底目瞪口呆,美國也完全難以置信,遼寧已成全球矚目中心

日本徹底目瞪口呆,美國也完全難以置信,遼寧已成全球矚目中心

文雅筆墨
2025-12-20 10:57:51
國外媒體稱:一旦戰(zhàn)火爆發(fā),中國將會到達一個無人知曉的地步

國外媒體稱:一旦戰(zhàn)火爆發(fā),中國將會到達一個無人知曉的地步

奧字侃劇
2025-12-08 18:23:04
高市迎來最強外援,強登釣魚島有保障?中方已警覺,連發(fā)兩個警告

高市迎來最強外援,強登釣魚島有保障?中方已警覺,連發(fā)兩個警告

報君知史
2025-12-22 03:37:35
產(chǎn)檢發(fā)現(xiàn)胎兒沒大腦,出生即死亡。父母卻堅持要生,而理由很偉大

產(chǎn)檢發(fā)現(xiàn)胎兒沒大腦,出生即死亡。父母卻堅持要生,而理由很偉大

英國那些事兒
2025-12-21 23:18:15
股價跌超43%!泡泡瑪特王寧現(xiàn)身遭喊話:回購點吧,跌成狗了

股價跌超43%!泡泡瑪特王寧現(xiàn)身遭喊話:回購點吧,跌成狗了

金石隨筆
2025-12-21 18:12:25
山東人得罪了誰,怎么突然就變壞了?

山東人得罪了誰,怎么突然就變壞了?

小鹿姐姐情感說
2025-12-20 16:35:33
1月1日起,大額取款迎新規(guī)!存款超10萬,這4點一定要注意

1月1日起,大額取款迎新規(guī)!存款超10萬,這4點一定要注意

李博世財經(jīng)
2025-12-21 17:04:12
打虎!尹建業(yè)被查

打虎!尹建業(yè)被查

新京報政事兒
2025-12-21 16:27:03
汪東興的子女現(xiàn)狀如何?兩個兒子都是軍人,女婿的身份不一般

汪東興的子女現(xiàn)狀如何?兩個兒子都是軍人,女婿的身份不一般

秀心文雅
2025-10-28 07:05:03
2025-12-22 05:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16020文章數(shù) 514424關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

頭條要聞

洛熙爸爸看1000遍法醫(yī)視頻找女兒 發(fā)解剖臺畫面被禁播

頭條要聞

洛熙爸爸看1000遍法醫(yī)視頻找女兒 發(fā)解剖臺畫面被禁播

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財經(jīng)要聞

老房子“強制體檢”,政府出手了

汽車要聞

-30℃,標致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

數(shù)碼
家居
房產(chǎn)
旅游
游戲

數(shù)碼要聞

Linux 6.19修復(fù)希捷2TB機械硬盤導(dǎo)致SATA總線掉線問題

家居要聞

高端私宅 理想隱居圣地

房產(chǎn)要聞

中交·藍色港灣一周年暨藍調(diào)生活沙龍圓滿舉行

旅游要聞

萬物皆可愛

誰說游戲里只能打怪?這游戲讓你做鬼差推因果,善惡全由你定

無障礙瀏覽 進入關(guān)懷版 人妻av无码专区不卡| 欧美少妇自慰| 熟女AV无区无区码| 国产成人8X人网站视频| 欧美七区在线| a888av视频| 亚洲色欲色欲高清无码| 夜夜揉揉日日人人青青| 外国色综合区在线| 精品婷婷色一区二区三区| 手机看爱爱喷水视频| 野花日本大全免费观看2019| 国产白丝护士av在线网站| 国产成人欧美日韩在线电影| 国产亚洲精品第一综合另类| 免费中文熟妇在线影片| 国产色婷婷视频在线观看| 中文字幕在线人妻乱| 久久久久国产精品| 国产成人精品三上悠亚| 日韩在线视频观看免费网站| 全部丰满孕妇孕交| 青草伊人久久综在合线亚洲| 91老熟女老人国产老太| 三年片在线视频中国| 黄色毛片视频| 亚洲精品一区二区三区无码a片 | 人妻少妇偷人无码视频| 亚洲国产精品一区二区成人片| 亚洲男同志gay网站| 美女被强奷到抽搐的动态图| 国产成人无码精品久久99| 永久免费在线毛片| 国产精品刺激久久| 91网址在线播放| 久久夜色撩人精品国产av| 久久久精品欧美一区二区免费| AA久久二区三区| 亚洲AV无码专区一级婬片毛片| 93久久精品日日躁夜夜躁欧美| 色婷婷AV影视|