來源:IEEE電氣電子工程師協(xié)會(huì)
GPT-5本應(yīng)是那個(gè)證明通用人工智能(AGI)觸手可及的模型。OpenAI首席執(zhí)行官Sam Altman在1月份的個(gè)人博客帖子中也暗示了這一點(diǎn)(https://blog.samaltman.com/reflections)。Altman寫道,他“現(xiàn)在有信心我們知道如何構(gòu)建我們傳統(tǒng)意義上所理解的通用人工智能”,并補(bǔ)充說2025年將是人工智能代理“從根本上改變公司產(chǎn)出”的一年。
但現(xiàn)實(shí)并未達(dá)到Altman的預(yù)期。認(rèn)知科學(xué)家、通用人工智能懷疑論者Gary Marcus在Substack上的一篇帖子中稱GPT-5“被過度炒作且令人失望”(https://garymarcus.substack.com/p/gpt-5-overdue-overhyped-and-underwhelming),大量的負(fù)面反饋?zhàn)罱K促使Altman承認(rèn)OpenAI“完全搞砸了”這次發(fā)布(https://fortune.com/2025/08/18/sam-altman-openai-chatgpt5-launch-data-centers-investments/)。
受到質(zhì)疑的不僅僅是GPT-5。麻省理工學(xué)院最近一份關(guān)于商業(yè)領(lǐng)域人工智能的報(bào)告發(fā)現(xiàn),在商業(yè)環(huán)境中部署的所有生成式人工智能中,有95%“沒有產(chǎn)生任何回報(bào)”(https://www.artificialintelligence-news.com/wp-content/uploads/2025/08/ai_report_2025.pdf)。這份報(bào)告嚴(yán)重動(dòng)搖了人們對(duì)人工智能的信心,以至于引發(fā)了科技股的小幅拋售,不過股價(jià)后來趨于穩(wěn)定。最近Grok和Anthropic發(fā)布的產(chǎn)品也反映平平。
人工智能公司Neurologyca的首席執(zhí)行官Juan Gra?a表示:“我們正處于一個(gè)典型的炒作周期中。人工智能伴隨著強(qiáng)烈的喧囂突然出現(xiàn)在人們的視野中,但現(xiàn)在正滑向高德納公司所說的‘幻滅低谷’,在那里,期望與現(xiàn)實(shí)相遇?!?/p>
人工智能正走向幻滅低谷嗎?
即使你不熟悉“幻滅低谷”這個(gè)術(shù)語,你也很有可能知道它的意思。
這個(gè)短語是1995年由Gartner公司的分析師Jackie Fenn創(chuàng)造的,作為一個(gè)圖表的一部分,用來解釋過高的期望是如何導(dǎo)致一段幻滅期的。它很快就流行起來,并催生了無數(shù)對(duì)原始圖表的(有時(shí)很有趣的)變體。
人工智能咨詢公司Bowtie的聯(lián)合管理合伙人Jason Gabbard表示,在GPT-5以及2025年其他人工智能產(chǎn)品發(fā)布之前,炒作的熱度非常高。Gabbard說:“有太多的權(quán)威人士參與討論,長期以來評(píng)論都是一片炒作之聲,以至于人們的期望變得很高?!彼€補(bǔ)充說,GPT-5未能達(dá)到預(yù)期,小型組織和個(gè)人對(duì)此感受最為深切,他們?cè)鞠M癘penAI的下一個(gè)產(chǎn)品能夠解決他們所有的問題”。
在GPT-5發(fā)布后,用戶發(fā)起的抵制行為也呼應(yīng)了他的這些評(píng)論。
作為新模型發(fā)布的一部分,OpenAI從ChatGPT中移除了早期的GPT-4o模型,顯然是認(rèn)為用戶會(huì)在任何情況下都覺得GPT-5是一個(gè)升級(jí)版本。然而,許多ChatGPT用戶抱怨說,新模型似乎比它的前身更差。這些批評(píng)使得OpenAI改變了做法,在移除GPT-4o模型僅24小時(shí)后就恢復(fù)了用戶對(duì)它的訪問權(quán)限。
這對(duì)OpenAI來說是一個(gè)尷尬的局面。2024年,Altman曾預(yù)測(cè),GPT-5會(huì)讓GPT-4相比之下“略顯尷尬”。但事實(shí)卻相反,用戶對(duì)GPT-5的反饋非常負(fù)面,以至于OpenAI決定恢復(fù)之前的模型(https://the-decoder.com/openai-ceo-sam-altman-promises-ai-models-that-far-surpass-gpt-4/)。
2025年人工智能智能體面臨的挑戰(zhàn)
具有諷刺意味的是,F(xiàn)enn 1995年的原始圖表將智能體置于期望的頂峰 —— 而這正是2025年初人工智能智能體所處的位置??爝M(jìn)到8月,似乎正如芬恩的圖表所預(yù)測(cè)的那樣,智能體正引領(lǐng)著一場(chǎng)暴跌,進(jìn)入幻滅低谷。
GPT-5的智能體模式(以前稱為Operator)的推出,和該模型本身一樣,受到了褒貶不一的評(píng)價(jià)。而且對(duì)智能體人工智能的質(zhì)疑已經(jīng)蔓延到了整個(gè)人工智能行業(yè)。人工智能編程工具Replit在其智能體刪除了一家公司的整個(gè)代碼庫后,于6月份遭到了批評(píng)。安全也是一個(gè)問題。殺毒軟件提供商Malwarebytes最近發(fā)出警告,被托付重要憑證的人工智能智能體可能會(huì)因陷入旨在欺騙人工智能的騙局而讓用戶“身無分文”(https://www.malwarebytes.com/blog/news/2025/08/ai-browsers-could-leave-users-penniless-a-prompt-injection-warning)。
這些令人擔(dān)憂的頭條新聞是極端案例,但與此同時(shí),基準(zhǔn)測(cè)試也顯示出智能體的性能表現(xiàn)平平。
其中一個(gè)這樣的基準(zhǔn)測(cè)試是TheAgentCompany進(jìn)行的,它讓由亞馬遜、Anthropic、谷歌和OpenAI的模型驅(qū)動(dòng)的人工智能智能體承擔(dān)包括編碼、數(shù)據(jù)科學(xué)和人力資源等廣泛職業(yè)路徑的工作。結(jié)果發(fā)現(xiàn),即使是測(cè)試中表現(xiàn)最好的模型,即谷歌的Gemini 2.5 Pro,也只能完成30.3%的任務(wù)。GPT-5的測(cè)試結(jié)果尚未公布。
TheAgentCompany的基準(zhǔn)測(cè)試還發(fā)現(xiàn),人工智能智能體的局限性與預(yù)期不同。
最近的一項(xiàng)研究發(fā)現(xiàn),人工智能對(duì)需要軟技能的工作構(gòu)成了最大威脅(https://arxiv.org/pdf/2507.07935)。這些工作包括客服代表、職員、分析師、公關(guān)專家和管理人員。Anthropic公司的首席執(zhí)行官Dario Amodei表示,人工智能將淘汰多達(dá)一半的白領(lǐng)工作。
然而,TheAgentCompany的基準(zhǔn)測(cè)試發(fā)現(xiàn),當(dāng)被要求完成這些崗位范圍內(nèi)的任務(wù)時(shí),人工智能智能體的表現(xiàn)很差。由于缺乏社交技能和存在自我欺騙的傾向,它們難以完成任務(wù)。當(dāng)被要求處理軟件開發(fā)和項(xiàng)目管理任務(wù)時(shí),智能體的表現(xiàn)最為成功。
TheAgentCompany論文的合著者Frank Xu表示:“編碼對(duì)人類來說看起來很難,但實(shí)際上,對(duì)人工智能模型來說,它比看起來更簡單的文書工作等任務(wù)更容易?!?/p>
數(shù)據(jù)限制影響人工智能性能
造成這種能力差距的一個(gè)可能原因是什么?訓(xùn)練數(shù)據(jù)的缺乏。
Xu表示:“網(wǎng)上有大量的開源代碼可供訓(xùn)練,但你不會(huì)看到公司將他們的電子表格或人力資源工作流程開源。數(shù)據(jù)的缺乏是人工智能智能體難以完成人們期望它們?nèi)〈墓ぷ鞯囊粋€(gè)重要原因?!?/p>
IEEE Spectrum采訪的所有專家都一致認(rèn)為,與特定任務(wù)相關(guān)的數(shù)據(jù)缺乏似乎是人工智能模型的一個(gè)絆腳石。
Neurologyca公司的Gra?a認(rèn)為,”人工智能缺乏數(shù)據(jù),更重要的是,缺乏以情感智能方式行事所需的背景信息”。幫助對(duì)沖基金等金融機(jī)構(gòu)實(shí)施人工智能自動(dòng)化的Bowtie公司的Gabbard表示,通用人工智能智能體難以應(yīng)對(duì)獨(dú)特的業(yè)務(wù)流程,需要定制化解決方案才能成功。而有使用人工智能經(jīng)驗(yàn)的分析師Mark Parfenov發(fā)現(xiàn),智能體“很快就會(huì)在復(fù)雜任務(wù)上失去頭緒”,并且在用于市場(chǎng)分析時(shí)會(huì)忽略重要數(shù)據(jù)。
這些困難使人們對(duì)人工智能行業(yè)通過擴(kuò)大通用大型語言模型來實(shí)現(xiàn)通用人工智能(AGI)的希望產(chǎn)生了懷疑。然而,這并不是說人工智能模型缺乏改進(jìn)的途徑。合成數(shù)據(jù)和改進(jìn)的數(shù)據(jù)標(biāo)注提供了解決缺點(diǎn)的選項(xiàng),盡管它們也可能使人工智能走出幻滅低谷的過程變得艱難而昂貴。
“我認(rèn)為,那些容易實(shí)現(xiàn)的改進(jìn)空間已經(jīng)越來越少了,”Xu表示。他補(bǔ)充說,早期智能體取得的進(jìn)展源于一些簡單的改變,“比如格式錯(cuò)誤問題,或者對(duì)工具的理解不足…… 我認(rèn)為,在找到下一個(gè)重大突破之前,進(jìn)展會(huì)放緩?!?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.