OpenAI備受矚目的新一代模型GPT-5在發(fā)布后遭遇了意想不到的初步反應(yīng),部分早期用戶抱怨其表現(xiàn)“笨拙”,甚至不如前代產(chǎn)品。
許多用戶表示,這款被譽(yù)為能將ChatGPT提升至“博士級(jí)專家”水平的新模型,在實(shí)際使用中卻頻頻在簡(jiǎn)單的數(shù)學(xué)和拼寫問題上出錯(cuò),甚至?xí)幵煨畔ⅰ?/strong>有許多付費(fèi)用戶表達(dá)了失望情緒,甚至呼吁恢復(fù)使用其前代模型GPT-4o。
OpenAI首席執(zhí)行官Sam Altman于周五迅速做出回應(yīng)。他承認(rèn)GPT-5的發(fā)布過程“坎坷”,并將用戶體驗(yàn)不佳歸咎于技術(shù)故障。Altman表示,一個(gè)負(fù)責(zé)根據(jù)用戶提問自動(dòng)選擇不同復(fù)雜程度模型的“自動(dòng)切換器”在發(fā)布當(dāng)天大部分時(shí)間處于失靈狀態(tài),導(dǎo)致系統(tǒng)調(diào)用了較弱的模型,使得GPT-5看起來“笨拙得多”。
對(duì)OpenAI而言,此次發(fā)布的成敗攸關(guān)重大。該公司不僅需要以此證明其在人工智能領(lǐng)域的持續(xù)領(lǐng)先地位,更需要說服企業(yè)和個(gè)人用戶為其高級(jí)服務(wù)付費(fèi)。這些收入對(duì)于抵消其在人才、芯片和數(shù)據(jù)中心等方面的巨額投入至關(guān)重要,而一個(gè)不穩(wěn)定的開局無疑會(huì)為這一商業(yè)目標(biāo)蒙上陰影。
“自動(dòng)切換”機(jī)制引發(fā)困惑
此次用戶負(fù)面反饋的根源,很大程度上指向了GPT-5底層一個(gè)全新的運(yùn)行機(jī)制。與以往版本不同,GPT-5引入了一個(gè)“自動(dòng)切換器”(autoswitcher),系統(tǒng)會(huì)根據(jù)用戶查詢的復(fù)雜程度,自動(dòng)在不同等級(jí)的模型之間進(jìn)行切換。OpenAI希望通過這種方式最大限度地優(yōu)化其寶貴的計(jì)算資源。
然而,這種設(shè)計(jì)也意味著用戶并非總能調(diào)用OpenAI最強(qiáng)大的技術(shù)。當(dāng)該切換機(jī)制未能準(zhǔn)確判斷或出現(xiàn)故障時(shí),用戶的體驗(yàn)便會(huì)大幅下降。
一個(gè)測(cè)試案例生動(dòng)地說明了這一點(diǎn):當(dāng)被問及單詞“blueberry”中有幾個(gè)字母“b”時(shí),GPT-5最初給出了錯(cuò)誤的答案“三個(gè)”。但在被提示“再想一想”之后,系統(tǒng)似乎調(diào)用了更高級(jí)的推理模型,最終給出了正確答案。這一機(jī)制的不透明性是用戶感到困惑和不滿的主要原因之一。
盡管負(fù)面反饋占據(jù)了社交媒體的頭條,但GPT-5的早期評(píng)價(jià)呈現(xiàn)兩極分化。部分專業(yè)人士在試用后給出了積極評(píng)價(jià)。開發(fā)者Simon Willison在一篇博客文章中稱GPT-5是“我最喜歡的新模型”,認(rèn)為它“能勝任工作”且“偶爾表現(xiàn)出色”,但也補(bǔ)充說,“它與我們之前擁有的模型沒有本質(zhì)上的區(qū)別”。
賓夕法尼亞大學(xué)沃頓商學(xué)院教授Ethan Mollick則對(duì)其研究、寫作和簡(jiǎn)化編程的能力感到驚嘆:
“GPT-5 只是自己做一些事情,通常是非凡的事情,有時(shí)是奇怪的事情,有時(shí)是非常人工智能的事情,這就是它如此有趣的原因?!?br/>Altman承認(rèn)首秀失誤并承諾改進(jìn)
面對(duì)洶涌的負(fù)面評(píng)價(jià),OpenAI管理層試圖平息用戶的擔(dān)憂。在周五于Reddit平臺(tái)舉行的“Ask Me Anything”(AMA)活動(dòng)中,Altman坦承了發(fā)布初期的技術(shù)問題。他承諾,“從今天開始,GPT-5會(huì)顯得更智能”。
他表示,OpenAI正在研究允許Plus付費(fèi)用戶繼續(xù)使用GPT-4o的方案,并將為Plus用戶提供雙倍的使用速率限制,以鼓勵(lì)他們更好地適應(yīng)新模型。
“在我們完成推廣后,我們將把 Plus 用戶的速率限制提高一倍?!?br/>
此外,針對(duì)發(fā)布會(huì)上引發(fā)“圖表犯罪”(chart crime)嘲諷的一張嚴(yán)重失準(zhǔn)的圖表,Altman在社交平臺(tái)X上承認(rèn)這是一個(gè)“巨大的圖表失誤”,進(jìn)一步顯示了此次發(fā)布的倉促與混亂。
根據(jù)用戶排名的流行榜單LMArena,GPT-5在周五中午已升至多個(gè)類別的榜首。但另一個(gè)基準(zhǔn)測(cè)試ARC-AGI-2則顯示,GPT-5落后于xAI的最新版Grok模型。
GPT-5的此次發(fā)布正值人工智能領(lǐng)域競(jìng)爭(zhēng)空前激烈的時(shí)刻,這使其表現(xiàn)出的任何不穩(wěn)定性都備受關(guān)注。OpenAI正努力維持其近三年前由ChatGPT引爆的生成式AI熱潮所帶來的領(lǐng)先優(yōu)勢(shì),而包括馬斯克的xAI在內(nèi)的競(jìng)爭(zhēng)對(duì)手正窮追不舍。
對(duì)于每周擁有近7億用戶的ChatGPT而言,一個(gè)平穩(wěn)、可靠的用戶體驗(yàn)是維持其市場(chǎng)地位和證明其商業(yè)價(jià)值的關(guān)鍵。此次發(fā)布的波折,無疑對(duì)投資者和市場(chǎng)信心構(gòu)成了一次考驗(yàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.