夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LLM把簡單任務復雜化,Karpathy無語:有些任務無需那么多思考

0
分享至



機器之心報道

編輯:冷貓

隨著推理大模型和思維鏈的出現(xiàn)與普及,大模型具備了「深度思考」的能力,不同任務的泛用性得到了很大的提高。

借助思維鏈,大模型能夠?qū)θ蝿者M行深入分析,完成任務規(guī)劃與拆解,從而勝任長周期、復雜度高的工作。同時,我們也能更直觀地了解模型的推理與分析過程,從中發(fā)現(xiàn)執(zhí)行環(huán)節(jié)中的問題,并有針對性地調(diào)整指令,以更高效地完成目標。

可以說,有了「深度思考」的推理模型,才有了現(xiàn)在擁有多種輔助功能與自主能力的 AI 智能體。

但現(xiàn)在的大模型漸漸有些偏科了。為了構(gòu)建應用能力更強的智能體,對長周期的復雜任務能力的追求已經(jīng)影響到了大模型的推理模式。

不知道大家在平常使用 AI 工具的時候有沒有發(fā)現(xiàn),打開了深度思考后,一些簡單的任務也需要很多的思考,展示了非常冗長的思維鏈,而不打開深度思考的時候,又很難準確的得到想要的回復。

這種現(xiàn)象越來越明顯了,尤其是當大模型進入工作流(例如編碼工作)的時候,其負面效應就更加顯著。

這不,AI 領(lǐng)域的大牛 Andrej Karpathy 也感覺到不對勁,發(fā)了長文推來指出這個令人無語的現(xiàn)象。



Karpathy 說,「LLM 在默認狀態(tài)下正變得比我日常使用需求更具『自主代理(Agentic)』傾向,甚至有些超出了我的平均使用場景」。

最明顯的的確是編碼任務,模型現(xiàn)在往往會進行較長時間的推理,傾向于在整個代碼庫中列出并搜索(grep)文件,會反復進行網(wǎng)絡搜索,對一些在開發(fā)中、且明顯并不完整的代碼里極少出現(xiàn)的邊緣情況過度分析、過度思考,甚至在非常簡單的查詢中,也常常需要幾分鐘后才返回結(jié)果。

尤其是在簡單的任務中,比如在運行腳本前快速檢查索引錯誤或其他低級錯誤,根本不需要如此復雜的任務分析和代碼處理。

因此 Karpathy 不得不經(jīng)常打斷 LLM,并用類似這樣的指令限制它:「停,你想得太多了。只看這一份文件。不要用任何工具。不要過度設計。

這帶來了很多麻煩,不僅是在編碼任務,我們發(fā)現(xiàn)日常使用 LLM 工具時候的類似打斷情況也越來越多了。

簡單拿剛發(fā)布幾天的 GPT-5 舉個例子,發(fā)布時 OpenAI 顯然意識到深度思考的問題,所以他們強調(diào) GPT-5 是一個集成模型,也就是說,你用它的時候不需要在不同模型之間切換,它會自己決定何時需要深入思考。

但這個問題顯然沒有這么簡單。記得當時 GPT-4o 模型的圖像編輯生成功能很好用,但在更新到新模型后就不太一樣了。

我們給了 GPT-5 這個指令:「去除圖中文字,把這張圖變得高清一些,機器人的臉看起來更溫和一些」,希望它能夠調(diào)用圖像編輯的功能。

但結(jié)果它就開始進行「深度思考」了:



經(jīng)過了 38 秒的思考,它考慮了很多細節(jié),但仍然未能開始使用圖像生成功能,導致不得不打斷它的任務進程。

或許這也是用戶們無比懷念 GPT-4o 的原因之一。

正如 Karpathy 指出的,隨著默認模式逐漸向這種「超深度思考」的高代理化狀態(tài)靠攏,我們反而更需要一個相反的選項—— 一種更直接有效的方式去表達或傳達我的意圖和任務的緊迫程度,從「快速看一眼」到「花 30 分鐘徹底確認后再回來」都能精確指定。

網(wǎng)友們也苦「過度思考」久矣,甚至為此回到了最樸素的使用方法。





對于這件事,Karpathy覺得罪魁禍首似乎是大模型「在長周期任務上進行了大量基準測試優(yōu)化」,為了在基準測試上得到更好的成績,LLM的思考就更傾向于長周期的復雜任務的實現(xiàn),因此影響了普通任務的響應。



他指出了兩種情境:

1. 我招呼同事過來看我屏幕上打開的一個文件,問他「這樣對嗎?」

2. 我讓某人坐在桌前,他們有 2 個小時來作答。這是一場考試, 風險很高。題目是「這樣對嗎?」

人類協(xié)作者能很自然地區(qū)分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2,而隨著時間推移、基準測試的不斷「極限化」,它會越來越傾向于假設你問的是情境 2。

這指出了大模型過度思考,復雜化任務的可能原因,大模型的發(fā)展不能完全以基準測試分數(shù)作為追求。

關(guān)于大模型的「過度思考」,有相關(guān)經(jīng)歷和想法歡迎在評論區(qū)分享。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國經(jīng)濟全面轉(zhuǎn)型升級,2026年經(jīng)濟形勢解讀

中國經(jīng)濟全面轉(zhuǎn)型升級,2026年經(jīng)濟形勢解讀

楓冷慕詩
2025-12-23 15:46:30
唏噓!阿根廷、巴西的超新星,同時離開歐洲豪門!恐怕踢不出來了

唏噓!阿根廷、巴西的超新星,同時離開歐洲豪門!恐怕踢不出來了

球場沒跑道
2025-12-24 11:32:34
父親頭七剛過,奶奶來電:你爸每月給堂弟6000,他走了你得接著給

父親頭七剛過,奶奶來電:你爸每月給堂弟6000,他走了你得接著給

蘭姐說故事
2025-12-21 10:20:10
南博事件,官方入場:事情很復雜,問題很嚴重

南博事件,官方入場:事情很復雜,問題很嚴重

大道微言
2025-12-23 17:30:00
福原愛首次回應再婚懷孕,現(xiàn)任丈夫正是當年出軌風波中的“橫濱男”

福原愛首次回應再婚懷孕,現(xiàn)任丈夫正是當年出軌風波中的“橫濱男”

新民周刊
2025-12-22 15:22:37
被西方拋棄的香港!

被西方拋棄的香港!

談芯說科技
2025-12-23 18:55:00
蔣萬安突然縮短上海行程,理由奇怪;柯文哲再出庭答辯,失聲痛哭

蔣萬安突然縮短上海行程,理由奇怪;柯文哲再出庭答辯,失聲痛哭

時時有聊
2025-12-23 17:27:08
今年的雞蛋,為啥這么便宜?終于有商販說實話了

今年的雞蛋,為啥這么便宜?終于有商販說實話了

簡食記工作號
2025-12-24 00:11:43
“九三”受閱女民兵李若嘉:用96米丈量榮耀,以128步定義人生|拓維·2025

“九三”受閱女民兵李若嘉:用96米丈量榮耀,以128步定義人生|拓維·2025

封面新聞
2025-12-24 07:49:04
銀河通用機器人牽手百達精工,計劃部署超1000臺具身智能機器人

銀河通用機器人牽手百達精工,計劃部署超1000臺具身智能機器人

澎湃新聞
2025-12-23 11:27:03
第3秒變第8!火箭進攻只是虛假繁榮,杜蘭特申京二人轉(zhuǎn)已被摸透

第3秒變第8!火箭進攻只是虛假繁榮,杜蘭特申京二人轉(zhuǎn)已被摸透

奕辰說球
2025-12-24 10:57:02
媒體人:李凱爾的國籍信息還是以FIBA為準,未來他大概率來CBA打球

媒體人:李凱爾的國籍信息還是以FIBA為準,未來他大概率來CBA打球

懂球帝
2025-12-24 11:25:03
第2輛中國造VT-4坦克“又炸膛”?炮管炸得剩一半,是怎么炸斷的

第2輛中國造VT-4坦克“又炸膛”?炮管炸得剩一半,是怎么炸斷的

藍星雜談
2025-12-22 22:17:22
丁元英:永遠要記住,和周圍人搞好關(guān)系的秘訣,就是這4“不”

丁元英:永遠要記住,和周圍人搞好關(guān)系的秘訣,就是這4“不”

富書
2025-12-24 06:50:03
香港寶蓮寺方丈、南京大學教授凈因法師逝世,享年62歲

香港寶蓮寺方丈、南京大學教授凈因法師逝世,享年62歲

澎湃新聞
2025-12-23 21:04:26
政權(quán)倒臺一年后,阿薩德家族被曝在俄羅斯過著“奢華生活”

政權(quán)倒臺一年后,阿薩德家族被曝在俄羅斯過著“奢華生活”

澎湃新聞
2025-12-23 16:42:30
控糖冠軍被發(fā)現(xiàn),每天吃一點,強胰島,降血糖,遠離小糖人

控糖冠軍被發(fā)現(xiàn),每天吃一點,強胰島,降血糖,遠離小糖人

讀懂世界歷史
2025-12-23 20:55:16
穆勒:若梅西參加明年世界杯,會改變阿根廷的整體實力平衡

穆勒:若梅西參加明年世界杯,會改變阿根廷的整體實力平衡

懂球帝
2025-12-24 07:00:34
“快手擅長識別老鐵不擅長識別老鴇”

“快手擅長識別老鐵不擅長識別老鴇”

阿亮評論
2025-12-24 13:38:25
日本的就業(yè)冰河時期:大學生就業(yè)率驟降,啃老族數(shù)量從8萬激增到40萬

日本的就業(yè)冰河時期:大學生就業(yè)率驟降,啃老族數(shù)量從8萬激增到40萬

我讀我在
2025-12-23 13:02:09
2025-12-24 14:19:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11983文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

馬斯克沒想到的"中國速度"!2026值得期待

頭條要聞

幼兒園園長載著多名幼兒落水致8死 疑用私家車當校車

頭條要聞

幼兒園園長載著多名幼兒落水致8死 疑用私家車當校車

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財經(jīng)要聞

快手到底惹了誰?

汽車要聞

將于明年一季度上市 零跑D19內(nèi)飾官圖發(fā)布

態(tài)度原創(chuàng)

手機
藝術(shù)
旅游
家居
軍事航空

手機要聞

量大管飽!蘋果明年將推出20+新產(chǎn)品,覆蓋手機、可穿戴與AI眼鏡

藝術(shù)要聞

2026第一福!孫曉云親筆“?!弊殖鰻t

旅游要聞

2025上海國際旅游度假區(qū)“夢享券”公告

家居要聞

法式大平層 智能家居添彩

軍事要聞

俄烏沖突關(guān)鍵人物在莫斯科被炸死 烏方尚未公開認領(lǐng)

無障礙瀏覽 進入關(guān)懷版 三上悠亚在线精品二区| 麻豆AV在线播放| 亚洲第一av| 中文字字幕国产精品| 人禽交 欧美 网站| 51午夜福利影视在线观看| 搡老女人老妇女老熟女人| 欧美狂野乱码一二三四区| 好男人视频在线观看免费看片| 亚洲第一综合婷婷成人APP| 国产777777| 国产人妻人伦精品无码麻豆| 色婷婷狠狠18| 国产午夜人做人免费视频中文| 亚洲中国产一区| 亚洲综合在线亚洲优优色| 国产极品av上位疯狂骑乘| 日韩av一区二区中文字幕| 欧洲黄色片一区二区| 亚洲AV无码专区国产不乱码| 做A视频仔细看| 欧洲日韩亚洲无线在码| 99人人妻人人躁人人狠| 国产乱码日韩一区二区三区| 奇米影视四色在线看| 日韩在线一区二区不卡视频| 免费观看的av在线播放| 免费毛片网址| 麻豆国产传媒精品视频| mature垂乳老熟女| 国产一区二区三区不卡在线观看| 中国极品少妇XXXX1314| 色播婷婷影院| 人妻熟女一区二区aⅴ清水理纱| 国产成人综合色就色| 久久久无码一区二区三区| 国产精品xxxxx| Free欧美丰滿| 中国老太婆bbbbbxxxxx| 爆乳熟妇一区二区三区霸乳视频| 国产精品一区二区无码免费看片|