網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5的艱難推出凸顯了更廣泛的人工智能失望情緒，人工智能是否正走向幻滅低谷?

2025-09-04 18:07:30　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：IEEE電氣電子工程師協(xié)會(huì)

GPT-5本應(yīng)是那個(gè)證明通用人工智能（AGI）觸手可及的模型。OpenAI首席執(zhí)行官Sam Altman在1月份的個(gè)人博客帖子中也暗示了這一點(diǎn)（https://blog.samaltman.com/reflections）。Altman寫道，他“現(xiàn)在有信心我們知道如何構(gòu)建我們傳統(tǒng)意義上所理解的通用人工智能”，并補(bǔ)充說2025年將是人工智能代理“從根本上改變公司產(chǎn)出”的一年。

但現(xiàn)實(shí)并未達(dá)到Altman的預(yù)期。認(rèn)知科學(xué)家、通用人工智能懷疑論者Gary Marcus在Substack上的一篇帖子中稱GPT-5“被過度炒作且令人失望”（https://garymarcus.substack.com/p/gpt-5-overdue-overhyped-and-underwhelming），大量的負(fù)面反饋?zhàn)罱K促使Altman承認(rèn)OpenAI“完全搞砸了”這次發(fā)布（https://fortune.com/2025/08/18/sam-altman-openai-chatgpt5-launch-data-centers-investments/）。

受到質(zhì)疑的不僅僅是GPT-5。麻省理工學(xué)院最近一份關(guān)于商業(yè)領(lǐng)域人工智能的報(bào)告發(fā)現(xiàn)，在商業(yè)環(huán)境中部署的所有生成式人工智能中，有95%“沒有產(chǎn)生任何回報(bào)”（https://www.artificialintelligence-news.com/wp-content/uploads/2025/08/ai_report_2025.pdf）。這份報(bào)告嚴(yán)重動(dòng)搖了人們對(duì)人工智能的信心，以至于引發(fā)了科技股的小幅拋售，不過股價(jià)后來趨于穩(wěn)定。最近Grok和Anthropic發(fā)布的產(chǎn)品也反映平平。

人工智能公司Neurologyca的首席執(zhí)行官Juan Gra?a表示：“我們正處于一個(gè)典型的炒作周期中。人工智能伴隨著強(qiáng)烈的喧囂突然出現(xiàn)在人們的視野中，但現(xiàn)在正滑向高德納公司所說的‘幻滅低谷’，在那里，期望與現(xiàn)實(shí)相遇?！?/p>

人工智能正走向幻滅低谷嗎？

即使你不熟悉“幻滅低谷”這個(gè)術(shù)語，你也很有可能知道它的意思。

這個(gè)短語是1995年由Gartner公司的分析師Jackie Fenn創(chuàng)造的，作為一個(gè)圖表的一部分，用來解釋過高的期望是如何導(dǎo)致一段幻滅期的。它很快就流行起來，并催生了無數(shù)對(duì)原始圖表的（有時(shí)很有趣的）變體。

人工智能咨詢公司Bowtie的聯(lián)合管理合伙人Jason Gabbard表示，在GPT-5以及2025年其他人工智能產(chǎn)品發(fā)布之前，炒作的熱度非常高。Gabbard說：“有太多的權(quán)威人士參與討論，長期以來評(píng)論都是一片炒作之聲，以至于人們的期望變得很高?！彼€補(bǔ)充說，GPT-5未能達(dá)到預(yù)期，小型組織和個(gè)人對(duì)此感受最為深切，他們?cè)鞠Ｍ癘penAI的下一個(gè)產(chǎn)品能夠解決他們所有的問題”。

在GPT-5發(fā)布后，用戶發(fā)起的抵制行為也呼應(yīng)了他的這些評(píng)論。

作為新模型發(fā)布的一部分，OpenAI從ChatGPT中移除了早期的GPT-4o模型，顯然是認(rèn)為用戶會(huì)在任何情況下都覺得GPT-5是一個(gè)升級(jí)版本。然而，許多ChatGPT用戶抱怨說，新模型似乎比它的前身更差。這些批評(píng)使得OpenAI改變了做法，在移除GPT-4o模型僅24小時(shí)后就恢復(fù)了用戶對(duì)它的訪問權(quán)限。

這對(duì)OpenAI來說是一個(gè)尷尬的局面。2024年，Altman曾預(yù)測(cè)，GPT-5會(huì)讓GPT-4相比之下“略顯尷尬”。但事實(shí)卻相反，用戶對(duì)GPT-5的反饋非常負(fù)面，以至于OpenAI決定恢復(fù)之前的模型（https://the-decoder.com/openai-ceo-sam-altman-promises-ai-models-that-far-surpass-gpt-4/）。

2025年人工智能智能體面臨的挑戰(zhàn)

具有諷刺意味的是，F(xiàn)enn 1995年的原始圖表將智能體置于期望的頂峰 —— 而這正是2025年初人工智能智能體所處的位置?？爝M(jìn)到8月，似乎正如芬恩的圖表所預(yù)測(cè)的那樣，智能體正引領(lǐng)著一場(chǎng)暴跌，進(jìn)入幻滅低谷。

GPT-5的智能體模式（以前稱為Operator）的推出，和該模型本身一樣，受到了褒貶不一的評(píng)價(jià)。而且對(duì)智能體人工智能的質(zhì)疑已經(jīng)蔓延到了整個(gè)人工智能行業(yè)。人工智能編程工具Replit在其智能體刪除了一家公司的整個(gè)代碼庫后，于6月份遭到了批評(píng)。安全也是一個(gè)問題。殺毒軟件提供商Malwarebytes最近發(fā)出警告，被托付重要憑證的人工智能智能體可能會(huì)因陷入旨在欺騙人工智能的騙局而讓用戶“身無分文”（https://www.malwarebytes.com/blog/news/2025/08/ai-browsers-could-leave-users-penniless-a-prompt-injection-warning）。

這些令人擔(dān)憂的頭條新聞是極端案例，但與此同時(shí)，基準(zhǔn)測(cè)試也顯示出智能體的性能表現(xiàn)平平。

其中一個(gè)這樣的基準(zhǔn)測(cè)試是TheAgentCompany進(jìn)行的，它讓由亞馬遜、Anthropic、谷歌和OpenAI的模型驅(qū)動(dòng)的人工智能智能體承擔(dān)包括編碼、數(shù)據(jù)科學(xué)和人力資源等廣泛職業(yè)路徑的工作。結(jié)果發(fā)現(xiàn)，即使是測(cè)試中表現(xiàn)最好的模型，即谷歌的Gemini 2.5 Pro，也只能完成30.3%的任務(wù)。GPT-5的測(cè)試結(jié)果尚未公布。

TheAgentCompany的基準(zhǔn)測(cè)試還發(fā)現(xiàn)，人工智能智能體的局限性與預(yù)期不同。

最近的一項(xiàng)研究發(fā)現(xiàn)，人工智能對(duì)需要軟技能的工作構(gòu)成了最大威脅（https://arxiv.org/pdf/2507.07935）。這些工作包括客服代表、職員、分析師、公關(guān)專家和管理人員。Anthropic公司的首席執(zhí)行官Dario Amodei表示，人工智能將淘汰多達(dá)一半的白領(lǐng)工作。

然而，TheAgentCompany的基準(zhǔn)測(cè)試發(fā)現(xiàn)，當(dāng)被要求完成這些崗位范圍內(nèi)的任務(wù)時(shí)，人工智能智能體的表現(xiàn)很差。由于缺乏社交技能和存在自我欺騙的傾向，它們難以完成任務(wù)。當(dāng)被要求處理軟件開發(fā)和項(xiàng)目管理任務(wù)時(shí)，智能體的表現(xiàn)最為成功。

TheAgentCompany論文的合著者Frank Xu表示：“編碼對(duì)人類來說看起來很難，但實(shí)際上，對(duì)人工智能模型來說，它比看起來更簡單的文書工作等任務(wù)更容易?！?/p>

數(shù)據(jù)限制影響人工智能性能

造成這種能力差距的一個(gè)可能原因是什么？訓(xùn)練數(shù)據(jù)的缺乏。

Xu表示：“網(wǎng)上有大量的開源代碼可供訓(xùn)練，但你不會(huì)看到公司將他們的電子表格或人力資源工作流程開源。數(shù)據(jù)的缺乏是人工智能智能體難以完成人們期望它們?nèi)〈墓ぷ鞯囊粋€(gè)重要原因?！?/p>

IEEE Spectrum采訪的所有專家都一致認(rèn)為，與特定任務(wù)相關(guān)的數(shù)據(jù)缺乏似乎是人工智能模型的一個(gè)絆腳石。

Neurologyca公司的Gra?a認(rèn)為，”人工智能缺乏數(shù)據(jù)，更重要的是，缺乏以情感智能方式行事所需的背景信息”。幫助對(duì)沖基金等金融機(jī)構(gòu)實(shí)施人工智能自動(dòng)化的Bowtie公司的Gabbard表示，通用人工智能智能體難以應(yīng)對(duì)獨(dú)特的業(yè)務(wù)流程，需要定制化解決方案才能成功。而有使用人工智能經(jīng)驗(yàn)的分析師Mark Parfenov發(fā)現(xiàn)，智能體“很快就會(huì)在復(fù)雜任務(wù)上失去頭緒”，并且在用于市場(chǎng)分析時(shí)會(huì)忽略重要數(shù)據(jù)。

這些困難使人們對(duì)人工智能行業(yè)通過擴(kuò)大通用大型語言模型來實(shí)現(xiàn)通用人工智能（AGI）的希望產(chǎn)生了懷疑。然而，這并不是說人工智能模型缺乏改進(jìn)的途徑。合成數(shù)據(jù)和改進(jìn)的數(shù)據(jù)標(biāo)注提供了解決缺點(diǎn)的選項(xiàng)，盡管它們也可能使人工智能走出幻滅低谷的過程變得艱難而昂貴。

“我認(rèn)為，那些容易實(shí)現(xiàn)的改進(jìn)空間已經(jīng)越來越少了，”Xu表示。他補(bǔ)充說，早期智能體取得的進(jìn)展源于一些簡單的改變，“比如格式錯(cuò)誤問題，或者對(duì)工具的理解不足…… 我認(rèn)為，在找到下一個(gè)重大突破之前，進(jìn)展會(huì)放緩?！?/p>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.