AI「亞里士多德」首戰(zhàn)封神！跑分碾壓所有主流大模型，00后輟學(xué)天才創(chuàng)立，打造科學(xué)超級智能！

2025-08-02 18:06:22　來源: 智藥局

四川舉報

分享至

我們正在見證AI加速科學(xué)時代的到來。

7月30日，AI科學(xué)發(fā)現(xiàn)公司Autopoiesis Sciences宣布，其人工智能聯(lián)合科學(xué)家Aristotle X1 Verify在多項基準(zhǔn)測試中取得了顯著成果，性能超越了所有主流AI模型。

據(jù)悉，Aristotle X1 Verify在推理基準(zhǔn)測試GPQA Diamond中達(dá)到了92.4%的準(zhǔn)確率，高于Grok 4 Heavy（88.9%）、Gemini 2.5 Pro（86.4%）、OpenAI o3（83.3%）。

更驚人的是，Aristotle X1 Verify在事實性基準(zhǔn)測試SimpleQA中獲得了96.1%的準(zhǔn)確率，斷層領(lǐng)先Gemini 2.5 Pro（52.9%）、OpenAI o3（49.%）和DeepSeek R1-0528（27.8%）。

同時，公司官宣了由Informed Ventures（金沙江創(chuàng)投在美國的機(jī)構(gòu)）領(lǐng)投的新一輪融資，Mike Mahkow、Cross Atlantic Angels、Tomas Urena Munoz等參投。

成立于2025年的Autopoiesis，致力于構(gòu)建科學(xué)超級智能，以前所未有的方式加速科學(xué)發(fā)現(xiàn)，并幫助治愈此前被認(rèn)為無法治愈的疾病。

公司聯(lián)合創(chuàng)始人、CEOJoseph Reth出生于2002年，14歲進(jìn)入莫德斯托初級學(xué)院，16歲創(chuàng)辦數(shù)字營銷公司RethDigital，客戶包括HBO、Whole Foods、現(xiàn)代汽車等知名公司，他曾就讀于舊金山州立大學(xué)計算機(jī)科學(xué)專業(yè)，之后輟學(xué)創(chuàng)業(yè)。

越來越多的證據(jù)表明，AI的關(guān)注重點正在轉(zhuǎn)向科學(xué)發(fā)現(xiàn)，解決那些能推動科技飛躍的“1%的頂尖問題”。

牛津大學(xué)教授Will MacAskill預(yù)測，AI有望在不到10年的時間里，推動相當(dāng)于過去一個世紀(jì)的技術(shù)進(jìn)步，為延長人類壽命、太空探索、氣候變化和可控核聚變等領(lǐng)域帶來新的突破性進(jìn)展。

最懂科學(xué)的模型，性能逆天

Autopoiesis開發(fā)的Aristotle X1 Verify 在兩項關(guān)鍵的基準(zhǔn)測試中取得了驚艷表現(xiàn)，超越了包括xAI的Grok4、谷歌的Gemini 2.5 Pro、OpenAI o3在內(nèi)的主流AI模型。

這一成就的亮點在于，Aristotle X1 Verify不僅在復(fù)雜推理任務(wù)上表現(xiàn)卓越，更在“科學(xué)思維”方面取得了突破。

在推理基準(zhǔn)測試GPQA Diamond上，Aristotle X1 Verify取得了92.4%的準(zhǔn)確率。

GPQA Diamond包含198 道高難度的STEM領(lǐng)域（如物理、化學(xué)、生物學(xué)和經(jīng)濟(jì)學(xué)）問答題，旨在評估模型在需要深度理解和多步驟推理時的能力。

更值得關(guān)注的是，該系統(tǒng)在SimpleQA 基準(zhǔn)測試中，也達(dá)到了96.1%的高準(zhǔn)確率。

SimpleQA由OpenAI推出，專注于簡短的事實性問題，用以衡量模型是否“知道自己知道什么”，以此解決當(dāng)前AI普遍存在的“幻覺”問題。

在此之前，主流模型在SimpleQA上的表現(xiàn)均不佳，就連Gemini 2.5 Pro這樣的頂級模型的準(zhǔn)確率也僅僅為52.9%，尚不及格。

這暴露了當(dāng)下主流AI的核心問題：它們擅長模仿推理，但缺乏真正的理解。

這些模型常常在缺乏知識的情況下“自信地編造答案”，無法區(qū)分自己真正掌握的知識和僅僅通過模式匹配得出的結(jié)論。

Autopoiesis認(rèn)為，可錯論（fallibilism）——認(rèn)為所有科學(xué)知識都是暫時的，并且會根據(jù)新證據(jù)不斷修正，是推動科學(xué)突破的基本原則。

公司因此構(gòu)建了首個符合該原則的AI，將“自我驗證”機(jī)制系統(tǒng)地融入到推理之中。

當(dāng)證據(jù)不足時，模型會承認(rèn)其局限性；當(dāng)面臨多種理論時，模型會進(jìn)行適當(dāng)權(quán)衡；當(dāng)計算涉及不確定性時，模型會通過推理來傳遞這種不確定性。

如此，AI具備了識別自身局限性的能力，避免自信地給出錯誤答案。

Autopoiesis強(qiáng)調(diào)，這種能力并非可有可無，而是構(gòu)建科學(xué)超級智能（Scientific superintelligence）的根本要求。

公司相信，通過將懷疑嵌入到推理的每一層，可以為AI賦能科學(xué)發(fā)現(xiàn)奠定基礎(chǔ)，使其最終能夠自主操作實驗室，并進(jìn)行超越人類想象的科學(xué)發(fā)現(xiàn)。

目前，該模型已向部分研究人員開放免費提前體驗，名額有限，可以打開下方鏈接進(jìn)行申請。

https://autopoiesis.typeform.com/to/Ub9gjetp?typeform-source=autopoiesis.science

02年少年創(chuàng)業(yè)，8人團(tuán)隊打造強(qiáng)大AI科學(xué)家

Autopoiesis的創(chuàng)始團(tuán)隊，橫跨“老中青”三代。

公司首席執(zhí)行官Joseph Reth，出生于2002年，他的同齡人才剛剛大學(xué)本科畢業(yè)，而他已經(jīng)是一名經(jīng)驗豐富的AI領(lǐng)域創(chuàng)業(yè)者了。

他的人生時鐘，每一步都要比普通人更早。

在美國，社區(qū)大學(xué)的入學(xué)年齡一般為18周歲，個別地區(qū)可以放寬到16周歲。而Joseph Reth在14歲時便進(jìn)入莫德斯托初級學(xué)院（Modesto Junior College），學(xué)習(xí)計算機(jī)。

之后他進(jìn)入舊金山州立大學(xué)，同樣是計算機(jī)科學(xué)專業(yè)，但也許是看到了更好的創(chuàng)業(yè)機(jī)會，他選擇中途輟學(xué)。

16歲，他創(chuàng)辦了數(shù)字營銷公司RethDigital，用AI重構(gòu)品牌廣告代理，投放在TikTok、Instagram和Twitter等平臺。

到2021年，RethDigital的年度經(jīng)常性收入（ARR）已經(jīng)達(dá)到110萬美元，客戶包括知名付費電視網(wǎng)HBO、美國最大的有機(jī)食品超市Whole Foods等知名企業(yè)。

盡管在利用AI進(jìn)行營銷方面做得有聲有色，但他的志向遠(yuǎn)不止于此。

2022年，Joseph Reth創(chuàng)立了Lossless Research，致力于通過創(chuàng)建AI系統(tǒng)來揭開人類意識的奧秘。

他將目光鎖定到了如何創(chuàng)造出擁有類似人類意識的AI，探索實現(xiàn)這一目標(biāo)所需的計算和架構(gòu)要求。

在這一段創(chuàng)業(yè)歷程，他已不再局限于AI應(yīng)用層面，而是深入探索AI的底層機(jī)制，這很可能為日后Autopoiesis 的創(chuàng)立埋下了伏筆。

圖：Joseph Reth（左）、Larry Callahan（中）和Eike Gerhardt（右）

公司首席商務(wù)官Eike Gerhardt，曾長期在德意志銀行任職，并曾擔(dān)任Targobank金融顧問和Schumpeter Ventures投資經(jīng)理，他還是蒂賓根大學(xué)的講師。

公司首席科學(xué)家Larry Callahan，擁有芝加哥大學(xué)化學(xué)博士學(xué)位，在FDA工作超過16年，負(fù)責(zé)全球物質(zhì)注冊系統(tǒng)（Global Substance Registration System）的開發(fā)，還曾擔(dān)任Trials of Life首席科學(xué)家，致力于提高臨床研究的效率和透明度。

目前，Autopoiesis的團(tuán)隊由8位成員組成，公司正在招聘更多研究人員和工程師，加速構(gòu)建AI輔助科學(xué)發(fā)現(xiàn)的基礎(chǔ)，開發(fā)下一代模型。

Informed Ventures的合伙人Sunny Kumar對公司充滿期待，認(rèn)為其解決了科學(xué)家在使用AI時遇到的核心難題：如何可靠地生成準(zhǔn)確結(jié)果并避免“幻覺”。

他表示，“科學(xué)超級智能”將以前所未有的方式加速科學(xué)發(fā)現(xiàn)，科學(xué)家應(yīng)廣泛采用值得信賴的AI助手，從而指數(shù)級推動研究進(jìn)程。

超級人工智能，顛覆科學(xué)發(fā)現(xiàn)

Anthropic 聯(lián)合創(chuàng)始人兼CEODario Amodei曾預(yù)測，強(qiáng)大的AI將極大地加速生物學(xué)和神經(jīng)科學(xué)的發(fā)展，將原本需要50-100年才能實現(xiàn)的突破，壓縮到5-10年內(nèi)完成。

我們正在進(jìn)入一個“壓縮的21世紀(jì)”，AI 不再僅僅是數(shù)據(jù)分析工具，更將成為“虛擬生物學(xué)家”，設(shè)計實驗、指導(dǎo)研究，甚至操作實驗室機(jī)器人，將效率提高數(shù)十倍甚至更多。

這一愿景正逐步變?yōu)楝F(xiàn)實。

今年6月，斯坦福大學(xué)等多個機(jī)構(gòu)聯(lián)合發(fā)表的Biomni智能體，已經(jīng)初步展現(xiàn)了 AI 在生命科學(xué)領(lǐng)域的“通用”能力，能夠像真正的科學(xué)家一樣，調(diào)用專業(yè)軟件、查詢數(shù)據(jù)庫、甚至指導(dǎo)濕實驗，自主執(zhí)行跨越多個領(lǐng)域的復(fù)雜研究任務(wù)。

3月，F(xiàn)lagship Pioneering領(lǐng)投了Lila Sciences的2億美元種子輪融資，展現(xiàn)了頂級機(jī)構(gòu)對這一領(lǐng)域的看好。

成立于2023年的Lila Sciences致力于推出世界上第一個用于生命、化學(xué)和材料科學(xué)的科學(xué)超級智能平臺和自主實驗室，以快速擴(kuò)展人類知識并突破當(dāng)今可能的極限。

在短短幾年的開發(fā)中，Lila Sciences的平臺在醫(yī)療、材料、環(huán)境等領(lǐng)域展示了超越人類的科學(xué)性能，包括：

具有最先進(jìn)推理能力的大語言模型，能對重要科學(xué)問題和科學(xué)情報進(jìn)行搜索推理；
產(chǎn)生優(yōu)于市售療法的最佳基因醫(yī)學(xué)產(chǎn)品；
發(fā)現(xiàn)和驗證數(shù)百種用于廣泛治療靶點的新型抗體、肽和結(jié)合劑；
在綠色氫氣生產(chǎn)中產(chǎn)生獨特的非鉑族金屬作為催化劑，而成本僅為當(dāng)前商業(yè)催化劑的一小部分；
設(shè)計用于工業(yè)規(guī)模碳捕獲的新材料，并且具有更好的容量、熱穩(wěn)定性和動力學(xué)結(jié)合力。

可以預(yù)見，AI的不斷發(fā)展，正推動人類在科學(xué)領(lǐng)域的探索邁入一個全新的時代。

—The End—

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.