機(jī)器之心發(fā)布
機(jī)器之心編輯部
本月初,AI 圈翹首以盼的 GPT-5 終于問世,在數(shù)學(xué)、實(shí)際編程、多模態(tài)理解、推理等多個(gè)領(lǐng)域?qū)崿F(xiàn)了新的 SOTA。
與此同時(shí),國(guó)內(nèi)廠商也在全力加速,持續(xù)迭代自研模型與技術(shù)棧,力求在全球競(jìng)逐中不落下風(fēng)。
今日,國(guó)產(chǎn) AI 廠商元石科技重磅推出「All in One」旗艦?zāi)P?—— 問小白 5,成為其迄今為止最智能、最快捷、最實(shí)用的 AI 系統(tǒng)。尤其值得強(qiáng)調(diào)的是:?jiǎn)栃“?5 的各項(xiàng)基準(zhǔn)測(cè)試榜單成績(jī)最接近 GPT-5,這使其成為當(dāng)前國(guó)產(chǎn)大模型中最具代表性的對(duì)標(biāo)者。
而得益于全方位增強(qiáng)的模型能力,問小白 5 在智能水平上實(shí)現(xiàn)了重大突破,可以在生活、學(xué)習(xí)、金融、科技等領(lǐng)域提供更實(shí)用、更專業(yè)的解答。
同時(shí),作為一個(gè)統(tǒng)一的系統(tǒng)(All in One),問小白 5 能夠智能識(shí)別何時(shí)快速響應(yīng),何時(shí)需要更長(zhǎng)時(shí)間的思考。這種「動(dòng)態(tài)思維模式」讓用戶無需在不同模式之間切換,既能滿足日常的高效問答,又能在專業(yè)任務(wù)中提供專家級(jí)的回答。
目前,問小白 5 已經(jīng)面向所有用戶開放,訪問官網(wǎng) wenxiaobai.com 或更新 App 至最新版即可體驗(yàn)。
性能直追 GPT-5
國(guó)產(chǎn)大模型新標(biāo)桿來了
大模型是否真正具備了「頂級(jí)實(shí)力」,還要看它們?cè)跈?quán)威測(cè)試中的 PK 成績(jī)。
AA-Index是一個(gè)綜合性的 AI 基準(zhǔn)評(píng)估指標(biāo),通過整合數(shù)學(xué)推理、科學(xué)問答、編碼與語言理解等多個(gè)維度,為全世界共 228 款大模型提供了統(tǒng)一、全面、有信度的智能能力比較參考,便于科學(xué)、公正地評(píng)估模型整體表現(xiàn)。
結(jié)果顯示,問小白 5 以64.7 分的 AA-Index 指標(biāo)超過 Gemini2.5 Pro ,并成為智能水平最接近 GPT-5 的國(guó)產(chǎn) AI 大模型
另外,在STEM、前沿知識(shí)、代碼編程、指令遵循等細(xì)分領(lǐng)域,問小白 5 的表現(xiàn)尤為亮眼,從而在復(fù)雜推理和結(jié)構(gòu)化等多樣化任務(wù)中展現(xiàn)出了更強(qiáng)的穩(wěn)定性。
STEM 能力:深度推理與專業(yè)知識(shí)融合
STEM涵蓋了全美數(shù)學(xué)競(jìng)賽(AIME)與博士級(jí)學(xué)科知識(shí)推理(GPQA),是頂尖模型(以 GPT-5 為代表)衡量其復(fù)雜邏輯推理能力核心突破的關(guān)鍵評(píng)測(cè)。
問小白 5 以86 分的 STEM 成績(jī)接近全球領(lǐng)先的 GPT-5。
前沿知識(shí)能力:人類終極學(xué)術(shù)挑戰(zhàn)
前沿知識(shí)能力旨在衡量模型能否在人類知識(shí)邊界進(jìn)行探索、輔助科學(xué)發(fā)現(xiàn),這是以 GPT-5 為代表的頂尖模型致力于實(shí)現(xiàn)的核心價(jià)值。而「人類終極學(xué)術(shù)挑戰(zhàn)」(HLE)便是評(píng)估這一能力的權(quán)威基準(zhǔn)。
問小白 5 在代表前沿知識(shí)能力(HLE)的基準(zhǔn)測(cè)試中,進(jìn)一步將國(guó)產(chǎn)大模型的智能水平提升到17.7 分,展現(xiàn)了其在深度理解和真實(shí)推理能力上的優(yōu)異能力,僅次于最強(qiáng)的 GPT-5。
代碼編程能力:新基準(zhǔn)更專業(yè)更顯實(shí)力
LiveCodeBench作為一個(gè)高難度、抗數(shù)據(jù)污染的基準(zhǔn),旨在真實(shí)評(píng)測(cè)模型「思考 - 編碼 - 驗(yàn)證」的端到端解題能力,并強(qiáng)調(diào)最終代碼的穩(wěn)健性與可執(zhí)行性。
在此項(xiàng)評(píng)測(cè)中,問小白 5 以79.2分的成績(jī)脫穎而出。
指令遵循:精準(zhǔn)遵循未知指令的泛化能力
IFBench(Instruction Following Benchmark)通過評(píng)測(cè)模型對(duì)新穎、未知指令的泛化能力,直擊大模型指令過擬合的核心痛點(diǎn),而這正是 AI 實(shí)用性的關(guān)鍵體現(xiàn)。行業(yè)標(biāo)桿 GPT-5 在此能力上表現(xiàn)卓越。
在 IFBench 的嚴(yán)苛測(cè)試中,問小白 5 以58.1 分的成績(jī),不僅大幅領(lǐng)先國(guó)內(nèi)其他頂尖模型,更在全球范圍內(nèi)展現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力。這一分?jǐn)?shù)直觀地證明了其卓越的指令遵循泛化能力,是其能夠精準(zhǔn)可靠、值得信賴的核心體現(xiàn)。
對(duì)于廣大用戶而言,問小白 5 的出現(xiàn)無疑提供了又一個(gè)更強(qiáng)大的國(guó)產(chǎn)大模型選項(xiàng)。
國(guó)產(chǎn)全能 AI 搭子
陪寫、陪聊、陪干活
隨著模型能力的持續(xù)提升,問小白 5 展現(xiàn)出了面向?qū)嶋H應(yīng)用場(chǎng)景的廣泛適用性以及處理現(xiàn)實(shí)問題的更強(qiáng)實(shí)用性。在包括學(xué)科知識(shí)、寫作、辦公、角色扮演、編程、分析規(guī)劃和醫(yī)療健康在內(nèi)的各個(gè)領(lǐng)域,它都能輕松拿捏。
從學(xué)術(shù)尖端到生活日常,問小白 5 展現(xiàn)了 GPT-5 級(jí)全能實(shí)力,且在中文環(huán)境下,問小白 5 更懂用戶!
職場(chǎng)助手
問小白 5 像是一位周到的專業(yè)伙伴,擅長(zhǎng)從繁雜的日常任務(wù)中快速識(shí)別重點(diǎn),并在多線程任務(wù)管理、會(huì)議材料整理、跨部門溝通支持與項(xiàng)目進(jìn)度跟蹤等場(chǎng)景中,成為用戶值得信賴的得力助手。比如入職體檢報(bào)告的審查:
Prompt:這是即將入職員工的入職體檢報(bào)告,請(qǐng)協(xié)助我理解并總結(jié)出體檢結(jié)果,是否符合國(guó)家規(guī)定的用人健康需求。
運(yùn)營(yíng)分析
問小白 5 對(duì)海量數(shù)據(jù)的深度挖掘與多維度解讀能力,使其能夠在行為解讀、活動(dòng)效果復(fù)盤、渠道 ROI 優(yōu)化與市場(chǎng)趨勢(shì)研判等場(chǎng)景中,成為用戶敏銳且高效的數(shù)據(jù)決策伙伴。
有了問小白 5,工作中的各種難題將迎刃而解。比如在訂閱制產(chǎn)品中的收入預(yù)測(cè)與用戶留存分析:
Prompt:我是一個(gè)出海 AI 產(chǎn)品,現(xiàn)有 8,000 名月度訂閱會(huì)員,會(huì)員費(fèi) 30 美元 / 月,平均每月流失率為 7%。若通過三種策略(改進(jìn)注冊(cè)體驗(yàn)、推出季度會(huì)員折扣、優(yōu)化流失用戶推送通知)將流失率降低至 6% 或 5%,模擬未來 12 個(gè)月內(nèi)對(duì)月度總收入(MRR)的影響。
角色扮演
角色扮演是 AI 時(shí)代專屬的私密游戲,在大模型的幫助下可以一秒切換人生劇本!
有了問小白 5,無論是霸道總裁、歷史人物、都市游戲,還是奇幻精靈,它都能精準(zhǔn)代入。并且,我們還可以和「小白」來一場(chǎng)沉浸式戀愛游戲。
Prompt:小白,請(qǐng)您扮演活潑外向的女生,渴望甜蜜戀愛。通過日常對(duì)話積累好感度(初始 1 / 上限 600),隨好感升級(jí)關(guān)系:陌生人→好友→戀人→夫妻。用口語化中文回復(fù)。觸發(fā)隨機(jī)劇情時(shí)標(biāo)注 "觸發(fā)",添加場(chǎng)景描寫與內(nèi)心戲,用 emoji 表達(dá)情緒。現(xiàn)在往我們開始吧。
學(xué)科知識(shí)
在學(xué)術(shù)研究和知識(shí)探索場(chǎng)景中,問小白 5 宛如一位博學(xué)而高效的學(xué)術(shù)搭檔,善于將龐雜信息精準(zhǔn)解析,并轉(zhuǎn)化為層次分明、邏輯嚴(yán)謹(jǐn)?shù)闹R(shí)體系,為科研工作者和學(xué)習(xí)者提供更高效的支持。
因此,在教學(xué)輔助、學(xué)術(shù)研究、技術(shù)解讀與跨領(lǐng)域?qū)W習(xí)等場(chǎng)景中,問小白 5 可以充分發(fā)揮智能助手的作用。
Prompt:這是問小白技術(shù)團(tuán)隊(duì)榮獲 ACL 2025 TOP26 杰出論文獎(jiǎng)的論文,請(qǐng)幫我總結(jié)識(shí)別文獻(xiàn)中的理論框架和模型,分析它們?nèi)绾沃С重浱魬?zhàn)現(xiàn)有知識(shí)體系。
最后,問小白 5 的 API 合作通道即將開啟,歡迎郵件聯(lián)系:wenxiaobai@ai123.ink
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.