網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

元石科技正式發(fā)布問小白5，性能直追GPT-5

2025-08-28 17:45:19　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心發(fā)布

機(jī)器之心編輯部

本月初，AI 圈翹首以盼的 GPT-5 終于問世，在數(shù)學(xué)、實(shí)際編程、多模態(tài)理解、推理等多個(gè)領(lǐng)域?qū)崿F(xiàn)了新的 SOTA。

與此同時(shí)，國(guó)內(nèi)廠商也在全力加速，持續(xù)迭代自研模型與技術(shù)棧，力求在全球競(jìng)逐中不落下風(fēng)。

今日，國(guó)產(chǎn) AI 廠商元石科技重磅推出「All in One」旗艦?zāi)Ｐ?—— 問小白 5，成為其迄今為止最智能、最快捷、最實(shí)用的 AI 系統(tǒng)。尤其值得強(qiáng)調(diào)的是：?jiǎn)栃“?5 的各項(xiàng)基準(zhǔn)測(cè)試榜單成績(jī)最接近 GPT-5，這使其成為當(dāng)前國(guó)產(chǎn)大模型中最具代表性的對(duì)標(biāo)者。

而得益于全方位增強(qiáng)的模型能力，問小白 5 在智能水平上實(shí)現(xiàn)了重大突破，可以在生活、學(xué)習(xí)、金融、科技等領(lǐng)域提供更實(shí)用、更專業(yè)的解答。

同時(shí)，作為一個(gè)統(tǒng)一的系統(tǒng)（All in One），問小白 5 能夠智能識(shí)別何時(shí)快速響應(yīng)，何時(shí)需要更長(zhǎng)時(shí)間的思考。這種「動(dòng)態(tài)思維模式」讓用戶無需在不同模式之間切換，既能滿足日常的高效問答，又能在專業(yè)任務(wù)中提供專家級(jí)的回答。

目前，問小白 5 已經(jīng)面向所有用戶開放，訪問官網(wǎng) wenxiaobai.com 或更新 App 至最新版即可體驗(yàn)。

性能直追 GPT-5

國(guó)產(chǎn)大模型新標(biāo)桿來了

大模型是否真正具備了「頂級(jí)實(shí)力」，還要看它們?cè)跈?quán)威測(cè)試中的 PK 成績(jī)。

AA-Index是一個(gè)綜合性的 AI 基準(zhǔn)評(píng)估指標(biāo)，通過整合數(shù)學(xué)推理、科學(xué)問答、編碼與語言理解等多個(gè)維度，為全世界共 228 款大模型提供了統(tǒng)一、全面、有信度的智能能力比較參考，便于科學(xué)、公正地評(píng)估模型整體表現(xiàn)。

結(jié)果顯示，問小白 5 以64.7 分的 AA-Index 指標(biāo)超過 Gemini2.5 Pro ，并成為智能水平最接近 GPT-5 的國(guó)產(chǎn) AI 大模型

另外，在STEM、前沿知識(shí)、代碼編程、指令遵循等細(xì)分領(lǐng)域，問小白 5 的表現(xiàn)尤為亮眼，從而在復(fù)雜推理和結(jié)構(gòu)化等多樣化任務(wù)中展現(xiàn)出了更強(qiáng)的穩(wěn)定性。

STEM 能力：深度推理與專業(yè)知識(shí)融合

STEM涵蓋了全美數(shù)學(xué)競(jìng)賽（AIME）與博士級(jí)學(xué)科知識(shí)推理（GPQA），是頂尖模型（以 GPT-5 為代表）衡量其復(fù)雜邏輯推理能力核心突破的關(guān)鍵評(píng)測(cè)。

問小白 5 以86 分的 STEM 成績(jī)接近全球領(lǐng)先的 GPT-5。

前沿知識(shí)能力：人類終極學(xué)術(shù)挑戰(zhàn)

前沿知識(shí)能力旨在衡量模型能否在人類知識(shí)邊界進(jìn)行探索、輔助科學(xué)發(fā)現(xiàn)，這是以 GPT-5 為代表的頂尖模型致力于實(shí)現(xiàn)的核心價(jià)值。而「人類終極學(xué)術(shù)挑戰(zhàn)」（HLE）便是評(píng)估這一能力的權(quán)威基準(zhǔn)。

問小白 5 在代表前沿知識(shí)能力（HLE）的基準(zhǔn)測(cè)試中，進(jìn)一步將國(guó)產(chǎn)大模型的智能水平提升到17.7 分，展現(xiàn)了其在深度理解和真實(shí)推理能力上的優(yōu)異能力，僅次于最強(qiáng)的 GPT-5。

代碼編程能力：新基準(zhǔn)更專業(yè)更顯實(shí)力

LiveCodeBench作為一個(gè)高難度、抗數(shù)據(jù)污染的基準(zhǔn)，旨在真實(shí)評(píng)測(cè)模型「思考 - 編碼 - 驗(yàn)證」的端到端解題能力，并強(qiáng)調(diào)最終代碼的穩(wěn)健性與可執(zhí)行性。

在此項(xiàng)評(píng)測(cè)中，問小白 5 以79.2分的成績(jī)脫穎而出。

指令遵循：精準(zhǔn)遵循未知指令的泛化能力

IFBench（Instruction Following Benchmark）通過評(píng)測(cè)模型對(duì)新穎、未知指令的泛化能力，直擊大模型指令過擬合的核心痛點(diǎn)，而這正是 AI 實(shí)用性的關(guān)鍵體現(xiàn)。行業(yè)標(biāo)桿 GPT-5 在此能力上表現(xiàn)卓越。

在 IFBench 的嚴(yán)苛測(cè)試中，問小白 5 以58.1 分的成績(jī)，不僅大幅領(lǐng)先國(guó)內(nèi)其他頂尖模型，更在全球范圍內(nèi)展現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力。這一分?jǐn)?shù)直觀地證明了其卓越的指令遵循泛化能力，是其能夠精準(zhǔn)可靠、值得信賴的核心體現(xiàn)。

對(duì)于廣大用戶而言，問小白 5 的出現(xiàn)無疑提供了又一個(gè)更強(qiáng)大的國(guó)產(chǎn)大模型選項(xiàng)。

國(guó)產(chǎn)全能 AI 搭子

陪寫、陪聊、陪干活

隨著模型能力的持續(xù)提升，問小白 5 展現(xiàn)出了面向?qū)嶋H應(yīng)用場(chǎng)景的廣泛適用性以及處理現(xiàn)實(shí)問題的更強(qiáng)實(shí)用性。在包括學(xué)科知識(shí)、寫作、辦公、角色扮演、編程、分析規(guī)劃和醫(yī)療健康在內(nèi)的各個(gè)領(lǐng)域，它都能輕松拿捏。

從學(xué)術(shù)尖端到生活日常，問小白 5 展現(xiàn)了 GPT-5 級(jí)全能實(shí)力，且在中文環(huán)境下，問小白 5 更懂用戶！

職場(chǎng)助手

問小白 5 像是一位周到的專業(yè)伙伴，擅長(zhǎng)從繁雜的日常任務(wù)中快速識(shí)別重點(diǎn)，并在多線程任務(wù)管理、會(huì)議材料整理、跨部門溝通支持與項(xiàng)目進(jìn)度跟蹤等場(chǎng)景中，成為用戶值得信賴的得力助手。比如入職體檢報(bào)告的審查：

Prompt：這是即將入職員工的入職體檢報(bào)告，請(qǐng)協(xié)助我理解并總結(jié)出體檢結(jié)果，是否符合國(guó)家規(guī)定的用人健康需求。

運(yùn)營(yíng)分析

問小白 5 對(duì)海量數(shù)據(jù)的深度挖掘與多維度解讀能力，使其能夠在行為解讀、活動(dòng)效果復(fù)盤、渠道 ROI 優(yōu)化與市場(chǎng)趨勢(shì)研判等場(chǎng)景中，成為用戶敏銳且高效的數(shù)據(jù)決策伙伴。

有了問小白 5，工作中的各種難題將迎刃而解。比如在訂閱制產(chǎn)品中的收入預(yù)測(cè)與用戶留存分析：

Prompt：我是一個(gè)出海 AI 產(chǎn)品，現(xiàn)有 8,000 名月度訂閱會(huì)員，會(huì)員費(fèi) 30 美元 / 月，平均每月流失率為 7%。若通過三種策略（改進(jìn)注冊(cè)體驗(yàn)、推出季度會(huì)員折扣、優(yōu)化流失用戶推送通知）將流失率降低至 6% 或 5%，模擬未來 12 個(gè)月內(nèi)對(duì)月度總收入（MRR）的影響。

角色扮演

角色扮演是 AI 時(shí)代專屬的私密游戲，在大模型的幫助下可以一秒切換人生劇本！

有了問小白 5，無論是霸道總裁、歷史人物、都市游戲，還是奇幻精靈，它都能精準(zhǔn)代入。并且，我們還可以和「小白」來一場(chǎng)沉浸式戀愛游戲。

Prompt：小白，請(qǐng)您扮演活潑外向的女生，渴望甜蜜戀愛。通過日常對(duì)話積累好感度（初始 1 / 上限 600），隨好感升級(jí)關(guān)系：陌生人→好友→戀人→夫妻。用口語化中文回復(fù)。觸發(fā)隨機(jī)劇情時(shí)標(biāo)注 "觸發(fā)"，添加場(chǎng)景描寫與內(nèi)心戲，用 emoji 表達(dá)情緒。現(xiàn)在往我們開始吧。

學(xué)科知識(shí)

在學(xué)術(shù)研究和知識(shí)探索場(chǎng)景中，問小白 5 宛如一位博學(xué)而高效的學(xué)術(shù)搭檔，善于將龐雜信息精準(zhǔn)解析，并轉(zhuǎn)化為層次分明、邏輯嚴(yán)謹(jǐn)?shù)闹R(shí)體系，為科研工作者和學(xué)習(xí)者提供更高效的支持。

因此，在教學(xué)輔助、學(xué)術(shù)研究、技術(shù)解讀與跨領(lǐng)域?qū)W習(xí)等場(chǎng)景中，問小白 5 可以充分發(fā)揮智能助手的作用。

Prompt：這是問小白技術(shù)團(tuán)隊(duì)榮獲 ACL 2025 TOP26 杰出論文獎(jiǎng)的論文，請(qǐng)幫我總結(jié)識(shí)別文獻(xiàn)中的理論框架和模型，分析它們?nèi)绾沃С重浱魬?zhàn)現(xiàn)有知識(shí)體系。

最后，問小白 5 的 API 合作通道即將開啟，歡迎郵件聯(lián)系：wenxiaobai@ai123.ink

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.