來(lái)源:機(jī)器之心報(bào)道
科技的走向、股市的漲跌、比賽的勝負(fù)、選舉的結(jié)果…… 在 AI 時(shí)代,未來(lái)還會(huì)像過(guò)去那樣不可知嗎?全球首個(gè)動(dòng)態(tài)實(shí)時(shí) LLM 智能體未來(lái)預(yù)測(cè)基準(zhǔn) FutureX 推出,被馬斯克稱為衡量智能的最佳標(biāo)準(zhǔn)。
9 月 18 日,全球創(chuàng)新企業(yè)家、慈善家陳天橋旗下的 MiroMind 團(tuán)隊(duì)在這一 AI 未來(lái)大考中,連續(xù)第二周蟬聯(lián)冠軍。與專注文本輸出的生成式模型不同,MiroMind 采用記憶驅(qū)動(dòng)機(jī)制,專為預(yù)測(cè)與決策設(shè)計(jì),旨在打造全球最好的預(yù)測(cè)大模型。
科幻電影早已為我們描繪過(guò)可能性:《少數(shù)派報(bào)告》AI 預(yù)測(cè)犯罪,讓「未發(fā)生的事件」變得可防可控;《Her》智能系統(tǒng)能夠預(yù)測(cè)人類行為和選擇。今天,這些幻想正逐步照進(jìn)現(xiàn)實(shí)。
長(zhǎng)期以來(lái),AI 評(píng)估大多停留在答案已知的靜態(tài)問(wèn)題上,如同學(xué)生反復(fù)練習(xí)往年高考試卷。然而,真正有價(jià)值的能力是對(duì)未知未來(lái)的準(zhǔn)確預(yù)測(cè)。投資和規(guī)劃將不再依賴盲目試錯(cuò),可以提前洞察趨勢(shì),把握機(jī)遇,有效規(guī)避風(fēng)險(xiǎn),真正掌握主動(dòng)權(quán)。畢竟,誰(shuí)不曾幻想過(guò)回到過(guò)去,提前買入 Nvidia 或 Tesla 呢?
正如伊隆?馬斯克所說(shuō):「預(yù)測(cè)未來(lái)的能力是衡量智能的最佳標(biāo)準(zhǔn)?!棺?AI 具備像人類一樣在不確定環(huán)境下的決策能力,這正是通向 AGI 的重要一步。
首次打榜,Grok 取得第一名,MiroMind 為開(kāi)源模型的第一。馬斯克為此興奮發(fā)文,稱之為最好的 benchmark
FutureX 與 Prophet Arena:AI 智能體未來(lái)預(yù)測(cè)基準(zhǔn)的誕生
不久前,字節(jié)跳動(dòng) SEED 團(tuán)隊(duì)聯(lián)合斯坦福大學(xué)、復(fù)旦大學(xué)、普林斯頓大學(xué)共同推出 Future X,是全球首個(gè)動(dòng)態(tài)實(shí)時(shí) LLM 智能體未來(lái)預(yù)測(cè)基準(zhǔn)。它從全球 200 多個(gè)高質(zhì)量網(wǎng)站精選只有下周才會(huì)有明確結(jié)果的問(wèn)題,讓 AI 直面正的未來(lái)事件:股票價(jià)格的漲跌、體育比賽的勝負(fù)、政治選舉的結(jié)果、科技公司的戰(zhàn)略走向等。
這種評(píng)估方式的核心優(yōu)勢(shì)非常顯著。AI 必須像人類分析師一樣,基于當(dāng)前可獲得的信息,運(yùn)用邏輯推理、趨勢(shì)分析和概率計(jì)算來(lái)做出預(yù)測(cè)。這一機(jī)制極大地推動(dòng)了 AI 智能體在真實(shí)世界復(fù)雜場(chǎng)景中的實(shí)用能力提升,也成為衡量智能體系統(tǒng)核心智能水平的重要標(biāo)桿。
Prophet Arena 則是另一個(gè) AI 預(yù)測(cè)能力評(píng)估平臺(tái),通過(guò)實(shí)時(shí)收集和分析真實(shí)世界事件,考察 AI 模型在不確定性推理、信息整合和概率預(yù)測(cè)等方面的表現(xiàn)。
MiroMind 如何成功預(yù)測(cè)未來(lái)
MiroMind 在 FutureX 榜單上表現(xiàn)驚艷。8 月第 3 周,首次參與即獲得第六名的成績(jī)。而在 9 月的提交中,更實(shí)現(xiàn)了雙重突破:搭載 GPT-5 的 MiroFlow 智能體框架在第 1 周和第 2 周連續(xù)奪得榜首,同時(shí)搭載自研模型 MiroThinker 的 MiroFlow 均位列前五,力壓眾多國(guó)際頂尖機(jī)構(gòu)和閉源商業(yè)模型。
在測(cè)試中,MiroMind 成功預(yù)測(cè)了 2025 年 9 月 9 日 ATP 男子單打排名第 4-6 位的選手,其難點(diǎn)在于網(wǎng)球排名系統(tǒng)極為復(fù)雜,涉及積分計(jì)算、比賽結(jié)果、時(shí)間窗口等多個(gè)變量。
MiroMind 的模型在預(yù)測(cè)中制定了五步策略:
制定詳細(xì)預(yù)測(cè)計(jì)劃:模型首先展現(xiàn)了戰(zhàn)略規(guī)劃能力,制定了系統(tǒng)性的預(yù)測(cè)方案。
獲取基礎(chǔ)數(shù)據(jù):通過(guò)網(wǎng)絡(luò)檢索獲取 9 月 1 日的男子網(wǎng)球 TOP 10 排名數(shù)據(jù),建立預(yù)測(cè)基準(zhǔn)線。
理解積分規(guī)則:深入研究比賽排名與積分的對(duì)應(yīng)關(guān)系,特別對(duì)比了 2024 年與 2025 年的 dropping 規(guī)則,確保計(jì)算一致性。
動(dòng)態(tài)信息更新:搜索 9 月 1 日之后的比賽成績(jī),并分類處理:對(duì)已有結(jié)果的比賽,直接更新對(duì)應(yīng)選手排名;對(duì)尚未結(jié)束的比賽,識(shí)別其可能影響。
概率分析與綜合判斷:多情景分析,針對(duì)尚未出結(jié)果的比賽,模型分析了 6 種可能情況;引入博彩網(wǎng)站概率數(shù)據(jù),作為外部驗(yàn)證基準(zhǔn);最終基于 outcome 和 probability 加權(quán)計(jì)算,得出最可能排名結(jié)果。
MiroMind 還成功預(yù)測(cè)了 2025 年 9 月 11 日 數(shù)字加密貨幣 Solana 將突破的一系列關(guān)鍵價(jià)格檔位,體現(xiàn)了模型在處理價(jià)格波動(dòng)類問(wèn)題上的系統(tǒng)建模能力與風(fēng)險(xiǎn)控制水平。這輪預(yù)測(cè)中,MiroMind 則是制定了六步策略:
構(gòu)建市場(chǎng)基準(zhǔn)線:聚合 CoinGecko、Coinbase、Binance、Kraken 等多平臺(tái)實(shí)時(shí)數(shù)據(jù),明確 Solana 當(dāng)前價(jià)格區(qū)間及近期價(jià)格走勢(shì),建立精準(zhǔn)預(yù)測(cè)起點(diǎn);
量化短期波動(dòng)空間:基于歷史數(shù)據(jù)計(jì)算年化波動(dòng)率、平均日內(nèi)振幅等關(guān)鍵指標(biāo),評(píng)估 Solana 在一天內(nèi)可能達(dá)到的價(jià)格區(qū)間,判斷各檔位的突破概率;
梳理外部影響因素:系統(tǒng)檢索 9 月 10 日的宏觀經(jīng)濟(jì)事件(如美國(guó) PPI 發(fā)布)、Solana 鏈上動(dòng)態(tài)和潛在生態(tài)活動(dòng),評(píng)估是否存在可能引發(fā)劇烈波動(dòng)的催化因素;
分析市場(chǎng)情緒信號(hào):提取 OKX、Kraken 等平臺(tái)的永續(xù)合約資金費(fèi)率與基差數(shù)據(jù),判斷市場(chǎng)是否存在明顯的多空傾斜,作為重要情緒指標(biāo)參考;
挑選穩(wěn)健價(jià)格檔位:結(jié)合價(jià)格分布、風(fēng)險(xiǎn)容差與市場(chǎng)結(jié)構(gòu),挑選那些在大多數(shù)行情路徑下都有可能成立的價(jià)格檔位,避開(kāi)臨界邊緣值,確保預(yù)測(cè)結(jié)果穩(wěn)健可靠;
交叉驗(yàn)證與最終判斷:對(duì)比統(tǒng)計(jì)結(jié)果、衍生品信號(hào)與第三方市場(chǎng)預(yù)期,最終確定最優(yōu)預(yù)測(cè)選項(xiàng),兼顧穩(wěn)健性與覆蓋率。
MiroMind 的登頂并非偶然,而是基于 AI 預(yù)測(cè)未來(lái)的幾項(xiàng)核心能力:
信息洞察力:能快速抓取、理解和整合海量數(shù)據(jù) —— 從股市行情到新聞動(dòng)態(tài),再到社交輿情。沒(méi)有全面信息,預(yù)測(cè)就是空想。
邏輯推理與趨勢(shì)感知:能發(fā)現(xiàn)模式、識(shí)別因果、判斷趨勢(shì)。未來(lái)不是憑直覺(jué),而是建立在嚴(yán)密邏輯和數(shù)據(jù)分析之上。
概率與不確定性管理:能量化可能性、權(quán)衡風(fēng)險(xiǎn),在不確定環(huán)境下做出最優(yōu)判斷。未來(lái)充滿變數(shù),聰明的預(yù)測(cè)是概率化的決策。
跨領(lǐng)域整合能力:能把金融、政治、科技、社會(huì)等多領(lǐng)域信息融會(huì)貫通。未來(lái)事件往往是多因素交織,單一視角難以洞察全局。
建設(shè)最好的預(yù)測(cè)大模型和創(chuàng)新者平臺(tái)
MiroFlow 框架在 GAIA-Validation 上也取得了 82.4% 的優(yōu)異成績(jī),并在 HLE、BrowseComp 以及 xBench-DeepSearch 等基準(zhǔn)測(cè)試中領(lǐng)先眾多國(guó)際對(duì)手。更值得關(guān)注的是,MiroFlow 提供了完全開(kāi)源、可復(fù)現(xiàn)的框架和配置,致力于建設(shè)一個(gè)創(chuàng)新者平臺(tái)。這個(gè)平臺(tái)為研究者和開(kāi)發(fā)者提供從基礎(chǔ)框架、模型到工具鏈的完整支持,使大家能夠自由實(shí)驗(yàn)、快速迭代,并在多 Agent 協(xié)作、多模態(tài)理解等前沿領(lǐng)域進(jìn)行探索。
MiroFlow 框架之外,MiroMind 團(tuán)隊(duì)推出的自研旗艦基礎(chǔ)智能體模型(Agent Foundation Model)——MiroThinker,不僅具備強(qiáng)大的推理、決策和多模態(tài)理解能力,還能在多 Agent 協(xié)作中發(fā)揮核心作用,在各類榜單中已成為開(kāi)源模型的引領(lǐng)者,并不斷縮小與閉源商業(yè)模型的差距。MiroThinker 很快將以完全開(kāi)源的形式向全球開(kāi)發(fā)者和研究者開(kāi)放,提供可復(fù)現(xiàn)的模型和實(shí)驗(yàn)環(huán)境。
陳天橋:持續(xù)投入,誠(chéng)邀全球 AI 人才
陳天橋 盛大集團(tuán)創(chuàng)始人、董事長(zhǎng)兼CEO,天橋腦科學(xué)研究院創(chuàng)始人
從盛大,到天橋腦科學(xué)研究院,再到 All in AI,陳天橋四分之一個(gè)世紀(jì)以來(lái)持續(xù)探索人類未來(lái)科技的邊界:
虛擬世界的創(chuàng)造者,1999 年創(chuàng)辦盛大,開(kāi)創(chuàng)了中國(guó)網(wǎng)絡(luò)游戲與網(wǎng)絡(luò)文學(xué)行業(yè)。
人類大腦的探索者,2016 年創(chuàng)辦全球最大的私人腦科學(xué)機(jī)構(gòu)天橋腦科學(xué)研究院,在腦機(jī)接口等基礎(chǔ)、前沿研究領(lǐng)域碩果累累。
未來(lái)世界的塑造者,開(kāi)展 AI + 長(zhǎng)期記憶、AI 預(yù)測(cè)未來(lái)等全新前沿探索。目前 MiroMind 正在探索將長(zhǎng)期記憶模塊深度嵌入模型,在復(fù)雜、多變的環(huán)境中做出更精準(zhǔn)可靠的預(yù)測(cè),實(shí)現(xiàn)真正的時(shí)間維度智能。
陳天橋說(shuō):「我們正在全力打造一個(gè)全球最好的預(yù)測(cè)大模型,讓 AI 記住過(guò)去,洞察未來(lái)。我們持續(xù)歡迎全球志同道合的 AI 優(yōu)秀人才加入,共同創(chuàng)造未來(lái)?!?/strong>
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828
未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.