我們正在見證AI加速科學(xué)時代的到來。
7月30日,AI科學(xué)發(fā)現(xiàn)公司Autopoiesis Sciences宣布,其人工智能聯(lián)合科學(xué)家Aristotle X1 Verify在多項基準(zhǔn)測試中取得了顯著成果,性能超越了所有主流AI模型。
據(jù)悉,Aristotle X1 Verify在推理基準(zhǔn)測試GPQA Diamond中達(dá)到了92.4%的準(zhǔn)確率,高于Grok 4 Heavy(88.9%)、Gemini 2.5 Pro(86.4%)、OpenAI o3(83.3%)。
更驚人的是,Aristotle X1 Verify在事實性基準(zhǔn)測試SimpleQA中獲得了96.1%的準(zhǔn)確率,斷層領(lǐng)先Gemini 2.5 Pro(52.9%)、OpenAI o3(49.%)和DeepSeek R1-0528(27.8%)。
同時,公司官宣了由Informed Ventures(金沙江創(chuàng)投在美國的機(jī)構(gòu))領(lǐng)投的新一輪融資,Mike Mahkow、Cross Atlantic Angels、Tomas Urena Munoz等參投。
成立于2025年的Autopoiesis,致力于構(gòu)建科學(xué)超級智能,以前所未有的方式加速科學(xué)發(fā)現(xiàn),并幫助治愈此前被認(rèn)為無法治愈的疾病。
公司聯(lián)合創(chuàng)始人、CEOJoseph Reth出生于2002年,14歲進(jìn)入莫德斯托初級學(xué)院,16歲創(chuàng)辦數(shù)字營銷公司RethDigital,客戶包括HBO、Whole Foods、現(xiàn)代汽車等知名公司,他曾就讀于舊金山州立大學(xué)計算機(jī)科學(xué)專業(yè),之后輟學(xué)創(chuàng)業(yè)。
越來越多的證據(jù)表明,AI的關(guān)注重點正在轉(zhuǎn)向科學(xué)發(fā)現(xiàn),解決那些能推動科技飛躍的“1%的頂尖問題”。
牛津大學(xué)教授Will MacAskill預(yù)測,AI有望在不到10年的時間里,推動相當(dāng)于過去一個世紀(jì)的技術(shù)進(jìn)步,為延長人類壽命、太空探索、氣候變化和可控核聚變等領(lǐng)域帶來新的突破性進(jìn)展。
最懂科學(xué)的模型,性能逆天
Autopoiesis開發(fā)的Aristotle X1 Verify 在兩項關(guān)鍵的基準(zhǔn)測試中取得了驚艷表現(xiàn),超越了包括xAI的Grok4、谷歌的Gemini 2.5 Pro、OpenAI o3在內(nèi)的主流AI模型。
這一成就的亮點在于,Aristotle X1 Verify不僅在復(fù)雜推理任務(wù)上表現(xiàn)卓越,更在“科學(xué)思維”方面取得了突破。
在推理基準(zhǔn)測試GPQA Diamond上,Aristotle X1 Verify取得了92.4%的準(zhǔn)確率。
GPQA Diamond包含198 道高難度的STEM領(lǐng)域(如物理、化學(xué)、生物學(xué)和經(jīng)濟(jì)學(xué))問答題,旨在評估模型在需要深度理解和多步驟推理時的能力。
更值得關(guān)注的是,該系統(tǒng)在SimpleQA 基準(zhǔn)測試中,也達(dá)到了96.1%的高準(zhǔn)確率。
SimpleQA由OpenAI推出,專注于簡短的事實性問題,用以衡量模型是否“知道自己知道什么”,以此解決當(dāng)前AI普遍存在的“幻覺”問題。
在此之前,主流模型在SimpleQA上的表現(xiàn)均不佳,就連Gemini 2.5 Pro這樣的頂級模型的準(zhǔn)確率也僅僅為52.9%,尚不及格。
這暴露了當(dāng)下主流AI的核心問題:它們擅長模仿推理,但缺乏真正的理解。
這些模型常常在缺乏知識的情況下“自信地編造答案”,無法區(qū)分自己真正掌握的知識和僅僅通過模式匹配得出的結(jié)論。
Autopoiesis認(rèn)為,可錯論(fallibilism)——認(rèn)為所有科學(xué)知識都是暫時的,并且會根據(jù)新證據(jù)不斷修正,是推動科學(xué)突破的基本原則。
公司因此構(gòu)建了首個符合該原則的AI,將“自我驗證”機(jī)制系統(tǒng)地融入到推理之中。
當(dāng)證據(jù)不足時,模型會承認(rèn)其局限性;當(dāng)面臨多種理論時,模型會進(jìn)行適當(dāng)權(quán)衡;當(dāng)計算涉及不確定性時,模型會通過推理來傳遞這種不確定性。
如此,AI具備了識別自身局限性的能力,避免自信地給出錯誤答案。
Autopoiesis強(qiáng)調(diào),這種能力并非可有可無,而是構(gòu)建科學(xué)超級智能(Scientific superintelligence)的根本要求。
公司相信,通過將懷疑嵌入到推理的每一層,可以為AI賦能科學(xué)發(fā)現(xiàn)奠定基礎(chǔ),使其最終能夠自主操作實驗室,并進(jìn)行超越人類想象的科學(xué)發(fā)現(xiàn)。
目前,該模型已向部分研究人員開放免費提前體驗,名額有限,可以打開下方鏈接進(jìn)行申請。
https://autopoiesis.typeform.com/to/Ub9gjetp?typeform-source=autopoiesis.science
02年少年創(chuàng)業(yè),8人團(tuán)隊打造強(qiáng)大AI科學(xué)家
Autopoiesis的創(chuàng)始團(tuán)隊,橫跨“老中青”三代。
公司首席執(zhí)行官Joseph Reth,出生于2002年,他的同齡人才剛剛大學(xué)本科畢業(yè),而他已經(jīng)是一名經(jīng)驗豐富的AI領(lǐng)域創(chuàng)業(yè)者了。
他的人生時鐘,每一步都要比普通人更早。
在美國,社區(qū)大學(xué)的入學(xué)年齡一般為18周歲,個別地區(qū)可以放寬到16周歲。而Joseph Reth在14歲時便進(jìn)入莫德斯托初級學(xué)院(Modesto Junior College),學(xué)習(xí)計算機(jī)。
之后他進(jìn)入舊金山州立大學(xué),同樣是計算機(jī)科學(xué)專業(yè),但也許是看到了更好的創(chuàng)業(yè)機(jī)會,他選擇中途輟學(xué)。
16歲,他創(chuàng)辦了數(shù)字營銷公司RethDigital,用AI重構(gòu)品牌廣告代理,投放在TikTok、Instagram和Twitter等平臺。
到2021年,RethDigital的年度經(jīng)常性收入(ARR)已經(jīng)達(dá)到110萬美元,客戶包括知名付費電視網(wǎng)HBO、美國最大的有機(jī)食品超市Whole Foods等知名企業(yè)。
盡管在利用AI進(jìn)行營銷方面做得有聲有色,但他的志向遠(yuǎn)不止于此。
2022年,Joseph Reth創(chuàng)立了Lossless Research,致力于通過創(chuàng)建AI系統(tǒng)來揭開人類意識的奧秘。
他將目光鎖定到了如何創(chuàng)造出擁有類似人類意識的AI,探索實現(xiàn)這一目標(biāo)所需的計算和架構(gòu)要求。
在這一段創(chuàng)業(yè)歷程,他已不再局限于AI應(yīng)用層面,而是深入探索AI的底層機(jī)制,這很可能為日后Autopoiesis 的創(chuàng)立埋下了伏筆。
圖:Joseph Reth(左)、Larry Callahan(中)和Eike Gerhardt(右)
公司首席商務(wù)官Eike Gerhardt,曾長期在德意志銀行任職,并曾擔(dān)任Targobank金融顧問和Schumpeter Ventures投資經(jīng)理,他還是蒂賓根大學(xué)的講師。
公司首席科學(xué)家Larry Callahan,擁有芝加哥大學(xué)化學(xué)博士學(xué)位,在FDA工作超過16年,負(fù)責(zé)全球物質(zhì)注冊系統(tǒng)(Global Substance Registration System)的開發(fā),還曾擔(dān)任Trials of Life首席科學(xué)家,致力于提高臨床研究的效率和透明度。
目前,Autopoiesis的團(tuán)隊由8位成員組成,公司正在招聘更多研究人員和工程師,加速構(gòu)建AI輔助科學(xué)發(fā)現(xiàn)的基礎(chǔ),開發(fā)下一代模型。
Informed Ventures的合伙人Sunny Kumar對公司充滿期待,認(rèn)為其解決了科學(xué)家在使用AI時遇到的核心難題:如何可靠地生成準(zhǔn)確結(jié)果并避免“幻覺”。
他表示,“科學(xué)超級智能”將以前所未有的方式加速科學(xué)發(fā)現(xiàn),科學(xué)家應(yīng)廣泛采用值得信賴的AI助手,從而指數(shù)級推動研究進(jìn)程。
超級人工智能,顛覆科學(xué)發(fā)現(xiàn)
Anthropic 聯(lián)合創(chuàng)始人兼CEODario Amodei曾預(yù)測,強(qiáng)大的AI將極大地加速生物學(xué)和神經(jīng)科學(xué)的發(fā)展,將原本需要50-100年才能實現(xiàn)的突破,壓縮到5-10年內(nèi)完成。
我們正在進(jìn)入一個“壓縮的21世紀(jì)”,AI 不再僅僅是數(shù)據(jù)分析工具,更將成為“虛擬生物學(xué)家”,設(shè)計實驗、指導(dǎo)研究,甚至操作實驗室機(jī)器人,將效率提高數(shù)十倍甚至更多。
這一愿景正逐步變?yōu)楝F(xiàn)實。
今年6月,斯坦福大學(xué)等多個機(jī)構(gòu)聯(lián)合發(fā)表的Biomni智能體,已經(jīng)初步展現(xiàn)了 AI 在生命科學(xué)領(lǐng)域的“通用”能力,能夠像真正的科學(xué)家一樣,調(diào)用專業(yè)軟件、查詢數(shù)據(jù)庫、甚至指導(dǎo)濕實驗,自主執(zhí)行跨越多個領(lǐng)域的復(fù)雜研究任務(wù)。
3月,F(xiàn)lagship Pioneering領(lǐng)投了Lila Sciences的2億美元種子輪融資,展現(xiàn)了頂級機(jī)構(gòu)對這一領(lǐng)域的看好。
成立于2023年的Lila Sciences致力于推出世界上第一個用于生命、化學(xué)和材料科學(xué)的科學(xué)超級智能平臺和自主實驗室,以快速擴(kuò)展人類知識并突破當(dāng)今可能的極限。
在短短幾年的開發(fā)中,Lila Sciences的平臺在醫(yī)療、材料、環(huán)境等領(lǐng)域展示了超越人類的科學(xué)性能,包括:
具有最先進(jìn)推理能力的大語言模型,能對重要科學(xué)問題和科學(xué)情報進(jìn)行搜索推理;
產(chǎn)生優(yōu)于市售療法的最佳基因醫(yī)學(xué)產(chǎn)品;
發(fā)現(xiàn)和驗證數(shù)百種用于廣泛治療靶點的新型抗體、肽和結(jié)合劑;
在綠色氫氣生產(chǎn)中產(chǎn)生獨特的非鉑族金屬作為催化劑,而成本僅為當(dāng)前商業(yè)催化劑的一小部分;
設(shè)計用于工業(yè)規(guī)模碳捕獲的新材料,并且具有更好的容量、熱穩(wěn)定性和動力學(xué)結(jié)合力。
可以預(yù)見,AI的不斷發(fā)展,正推動人類在科學(xué)領(lǐng)域的探索邁入一個全新的時代。
—The End—
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.