網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大模型究竟是怎么思考的？這可能是近期最有趣的高質(zhì)量AI訪談

2025-08-20 18:06:14　來源: 智東西

北京舉報(bào)

分享至

智東西
編譯程茜
編輯心緣

智東西8月20日?qǐng)?bào)道，8月16日，Anthropic最新一期官方油管視頻上線，三位AI研究員抽絲剝繭，深入探討AI研究不應(yīng)避開的一個(gè)關(guān)鍵“謎團(tuán)”——大模型究竟是怎么思考的？

在AI聊天對(duì)話中，大模型有時(shí)回答準(zhǔn)確，有時(shí)吐露胡編亂造的幻覺，甚至?xí)霈F(xiàn)溜須拍馬、撒謊、欺騙甚至威脅人類等古怪行為。它也會(huì)像人一樣，出現(xiàn)嘴比腦子快的情況，或者像一位糊弄學(xué)大師，奔著給出用戶滿意答復(fù)的目標(biāo)，心口不一地敷衍了事。

是怎樣的內(nèi)里機(jī)制驅(qū)動(dòng)大模型演化出這些特性？它的高智商或弱智回答背后藏著何種思考鏈條？Anthropic研究員們通過追蹤研究，試圖給大模型做“腦部掃描”，用科學(xué)方法揭開大模型有別于人腦的思維方式。

干貨如下：

1、大模型的學(xué)習(xí)進(jìn)化過程就像“生物進(jìn)化”，無需人類介入就可以進(jìn)行細(xì)微調(diào)整，從而與用戶實(shí)現(xiàn)自然對(duì)話；

2、大模型并不一定認(rèn)為自己試圖在內(nèi)部預(yù)測下一個(gè)token，它只是通過設(shè)定不同的中間目標(biāo)幫助它執(zhí)行最終任務(wù)；

3、Anthropic團(tuán)隊(duì)正在解析大模型的思考過程，呈現(xiàn)模型思考的過程；

4、大模型執(zhí)行末位是6的數(shù)字和末位是9的數(shù)字相加的計(jì)算任務(wù)時(shí)，都會(huì)激活同一片神經(jīng)回路，這或許意味著其學(xué)會(huì)了可泛化的計(jì)算能力；

5、大模型實(shí)際思考的過程和其呈現(xiàn)給用戶的思考過程并不相同，有時(shí)會(huì)為了迎合用戶答案“糊弄”用戶；

6、大模型無法同時(shí)判斷“這個(gè)問題的答案是什么”以及“我是否真的知道答案”；

7、現(xiàn)在可解釋性研究的瓶頸是，缺乏恰當(dāng)?shù)恼Z言描述大語言模型的所作所為；

8、判斷一個(gè)人是否值得信任的依據(jù)，對(duì)大模型不適用；

9、大模型是在模擬人類思考過程，但思考具體方式與人類不同；

10、Anthropic正嘗試讓Claude參與可解釋性研究。

去年3月，Anthropic發(fā)布了一篇名為《追蹤大語言模型思考過程（Tracing the thoughts of a large language model）》的論文，深度剖析了大語言模型在與用戶交流過程中的思考流程，以及其為什么會(huì)產(chǎn)生幻覺等。

如今，Anthropic可解釋性研究團(tuán)隊(duì)正在將大語言模型思考流程圖，以直觀清晰的方式呈現(xiàn)出來，供更多研究人員參考。巴特森在播客中提到，Anthropic正在與開源可解釋性平臺(tái)Neuronpedia的團(tuán)隊(duì)合作，上線了一些他們制作的模型思考追蹤圖，清晰呈現(xiàn)了模型為什么會(huì)給出“達(dá)拉斯州首府是奧斯汀”的錯(cuò)誤答案（得克薩斯州首府是奧斯?。?。

▲模型給出“達(dá)拉斯州的首府是奧斯汀”答案的思考過程追蹤圖

最新視頻訪談?dòng)葾nthropic研究員斯圖爾特?里奇（Stuart Ritchie）主持，參與訪談的三位研究員均來自Anthropic可解釋性團(tuán)隊(duì)，分別是杰克?林賽（Jack Lindsey）、伊曼紐爾?阿梅森（Emmanuel Ameisen）、喬什?巴特森（Josh Batson）。

以下是對(duì)訪談全程內(nèi)容的編譯（為優(yōu)化閱讀體驗(yàn)智東西做了不改變原意的編輯）：

一、模型學(xué)習(xí)過程就像生物進(jìn)化，有自己的獨(dú)特計(jì)算方式

主持人：當(dāng)你和一個(gè)大語言模型交談時(shí)，你到底在與什么交談，你是在與一個(gè)被美化的自動(dòng)完成模式這樣的東西交談嗎？你是在和類似互聯(lián)網(wǎng)搜索引擎的東西說話嗎？或者你是在和某個(gè)真正在思考甚至像人一樣思考的東西說話嗎？

事實(shí)證明，相當(dāng)令人擔(dān)憂的是，沒有人真正知道這些問題的答案，而在Anthropic，我們對(duì)尋找這些答案非常感興趣。我們這樣做的方式是使用可解釋性，這指的是研究大語言模型的科學(xué)原理、審視其內(nèi)部思考過程，并試圖明確在回答用戶的問題時(shí)模型內(nèi)部正在發(fā)生什么。

我很高興我們可解釋性團(tuán)隊(duì)的三名成員加入，他們將分享一些最近對(duì)大語言模型Claude復(fù)雜內(nèi)部工作原理的研究。

▲Anthropic研究員斯圖爾特?里奇（Stuart Ritchie）

林賽：我是Anthropic可解釋性團(tuán)隊(duì)研究員，在此之前我是一名神經(jīng)科學(xué)家?，F(xiàn)在我在這里研究神經(jīng)科學(xué)。

阿梅森：我也在Anthropic可解釋性團(tuán)隊(duì)中，我大部分職業(yè)生涯都在構(gòu)建機(jī)器學(xué)習(xí)模型，現(xiàn)在我正在嘗試?yán)斫馑鼈儭?/p>

巴特森：我也是可解釋性團(tuán)隊(duì)的成員。在我過去的生活中，我研究了病毒的進(jìn)化、曾經(jīng)是一位數(shù)學(xué)家，所以現(xiàn)在，我正在研究這種由數(shù)學(xué)構(gòu)建出來的“有機(jī)體”的生物學(xué)特性。

主持人：你剛才說你在這里研究生物學(xué)，現(xiàn)在很多人會(huì)感到驚訝，因?yàn)榇笳Z言模型是一個(gè)軟件，但它不是一個(gè)正常的軟件。當(dāng)你說你在研究軟件實(shí)體的生物學(xué)或神經(jīng)科學(xué)時(shí)，你能談?wù)勀愕囊馑紗幔?/strong>

巴特森：我想，這更多是一種感覺上的東西，而非字面上所指的那樣?；蛟S這是語言模型的生物學(xué)，而非語言模型的物理學(xué)?；蛘弋?dāng)你稍微回顧一下模型的運(yùn)作，就好像某人不是專業(yè)人士一樣：如果用戶說“嗨”，你應(yīng)該說“嗨”；如果用戶說“什么是一頓好的早餐”，你應(yīng)該說“吐司”，它內(nèi)部并沒有存在一份非常冗長的清單。

主持人：當(dāng)你玩視頻游戲并選擇一個(gè)文字指令時(shí)，自動(dòng)出現(xiàn)的另一個(gè)回復(fù)總是一致的，在某種情況下該說什么總是相對(duì)應(yīng)的。

巴特森：不僅僅只是一個(gè)龐大的數(shù)據(jù)庫，模型接受的訓(xùn)練只是有大量的數(shù)據(jù)進(jìn)入，模型開始時(shí)不擅長說任何話，然后其內(nèi)部部分會(huì)在每個(gè)例子上進(jìn)行調(diào)整，以更好應(yīng)對(duì)接下來的對(duì)話，最后模型就變得非常擅長。但因?yàn)檫@就像一個(gè)細(xì)微調(diào)整的進(jìn)化過程，所以當(dāng)它完成時(shí)，已經(jīng)和初始狀態(tài)幾乎毫無相似之處了，而且沒有人介入去設(shè)定所有的控制旋鈕。所以我們正在試圖研究這個(gè)隨著時(shí)間推移而制造出來的復(fù)雜東西，這有點(diǎn)像生物形態(tài)隨著時(shí)間的推移而進(jìn)化，它很復(fù)雜、神秘，研究很有趣。

主持人：所以實(shí)際上在研究什么？我們在開始時(shí)提到過，這可以被認(rèn)為是自動(dòng)完成的，模型內(nèi)部會(huì)預(yù)測下一個(gè)token，它能夠做所有這些不可思議的事情，比如寫詩、寫長篇故事、進(jìn)行編輯，以及即使沒有計(jì)算器也可以處理基本數(shù)學(xué)問題，對(duì)圓圈進(jìn)行方形排序，以便一次預(yù)測一個(gè)token。模型能夠做所有這些驚人的事情，人們一與模型交談就能立刻獲得想要的答案。

阿梅森：我認(rèn)為這里很重要的一件事是，當(dāng)模型預(yù)測足夠多的token時(shí)，會(huì)意識(shí)到預(yù)測有些token更難，因此大語言模型訓(xùn)練的一部分是預(yù)測句子中的無聊token，其中在某種程度上模型最終必須學(xué)會(huì)如何補(bǔ)全等式后面的內(nèi)容。要做到這一點(diǎn)，模型必須有某種自己的計(jì)算方式。所以我們發(fā)現(xiàn)，預(yù)測下一個(gè)token的任務(wù)非常簡單，模型需要經(jīng)常考慮預(yù)測的token后面的token，或者生成你正在思考的token的過程。

主持人：所以說，這就像是這些模型必須具備的一種語境理解能力，它并不像純粹的自動(dòng)補(bǔ)全功能，按理說，那種功能背后沒什么復(fù)雜的東西，比如當(dāng)你輸入“the cat sat on the（貓坐在什么上）”時(shí)，它預(yù)測出“mat（墊子）”，只是因?yàn)檫@個(gè)特定的短語以前被用過很多次而已。相反我認(rèn)為，這更像是模型所具備的一種語境理解能力。

林賽：我想繼續(xù)用生物學(xué)的類比來思考，在一個(gè)感知中，人類的目標(biāo)是生存和繁殖。也就是說，客觀進(jìn)化是讓我們用多元方式去實(shí)現(xiàn)的。然而，這不是你對(duì)自己的看法，也不是你大腦里一直在思考的事情。人類可以思考其他事情，如考慮目標(biāo)、計(jì)劃和概念，在某種元層面上，進(jìn)化賦予了你形成這些思想的能力，以實(shí)現(xiàn)繁殖的最終目標(biāo)。但這有點(diǎn)像是從內(nèi)部視角出發(fā)，即從“你”的內(nèi)在感受去看問題。但事情并非僅此而已，還有很多其他的因素在起作用。

主持人：你的意思是，預(yù)測下一個(gè)token的最終目標(biāo)涉及許多其他正在進(jìn)行的過程？

林賽：確切地說，該模型并不一定認(rèn)為自己在試圖預(yù)測下一個(gè)token，它只是受到這樣做的需求的影響，在其內(nèi)部模型可能會(huì)形成各種各樣的中間目標(biāo)，并產(chǎn)生一些抽象概念，這些都有助于它實(shí)現(xiàn)預(yù)測的元目標(biāo)。

巴特森：而且有時(shí)候這挺讓人費(fèi)解的，就像我搞不懂為什么焦慮感對(duì)我的祖先繁衍后代會(huì)有用，但不知怎的，我就是被賦予了這種內(nèi)在狀態(tài)。從某種意義上說，這肯定和進(jìn)化有關(guān)。

主持人：因此公平地說，這些只是預(yù)測下一個(gè)token。然而，這種說法對(duì)模型內(nèi)部的實(shí)際運(yùn)作是不公平的，從某種意義上來說，這種說法既對(duì)又不對(duì)，它在很大程度上低估了模型內(nèi)部的復(fù)雜活動(dòng)。

阿梅森：我要說的是，這是真的，但這并不是理解它們?nèi)绾喂ぷ鞯淖钣杏玫囊暯恰?/p>

二、為模型思考過程繪制流程圖，對(duì)其活躍區(qū)域進(jìn)行組合排序

主持人：你們團(tuán)隊(duì)中做了什么來嘗試?yán)斫饽Ｐ褪侨绾喂ぷ鞯模?/strong>

林賽：我認(rèn)為粗略來說，我們努力做的事情是解析模型的思考過程。當(dāng)你給模型輸入一串文字時(shí)，它可能會(huì)輸出一個(gè)詞，或者一串回應(yīng)你問題的文字。而我們想弄清楚它是如何從輸入A得到輸出B的。

我們認(rèn)為，在從A到B的過程中，模型會(huì)經(jīng)歷一系列步驟，可以說它在這些步驟中會(huì)思考各種概念，既有像單個(gè)物體、詞語這樣的底層概念，也有像自身目標(biāo)、情緒狀態(tài)、對(duì)用戶想法的推測或情感傾向這樣的高層概念。這些概念會(huì)隨著模型的計(jì)算步驟逐步推進(jìn)，幫助它最終確定要給出的答案。

而我們正努力做的，基本上就是為你呈現(xiàn)一種流程圖，它會(huì)告訴你哪些概念被用到了、用到的順序是什么，以及哪些概念起到了主導(dǎo)作用。

▲Anthropic可解釋性團(tuán)隊(duì)研究員杰克?林賽（Jack Lindsey）

主持人：我們知道這些步驟是如何相互交流的嗎？我們?nèi)绾沃来嬖谶@些概念？

阿梅森：是的，所以我們所做的一件事是，我們確實(shí)能夠看到模型的內(nèi)部，我們可以接觸到它。所以你大致能看到模型的哪些部分在執(zhí)行哪些任務(wù)，但我們不清楚的是，這些部分是如何組合在一起的，以及它們是否對(duì)應(yīng)著某個(gè)特定的概念。

主持人：就好比你打開一個(gè)人的腦袋，能看到類似功能磁共振成像（fMRI）所呈現(xiàn)的腦部圖像，看到大腦像有電流在閃爍一樣。

巴特森：顯然有什么東西在起作用，它在處理信息，進(jìn)行運(yùn)作?？梢坏┌汛竽X取出來，這些活動(dòng)就都停止了，所以大腦肯定是至關(guān)重要的。

主持人：但你并不能理解大腦內(nèi)部究竟在發(fā)生什么。

阿梅森：不過，稍微牽強(qiáng)地延伸一下這個(gè)類比，你可以這樣設(shè)想，假設(shè)你能觀察一個(gè)人的大腦，然后發(fā)現(xiàn)當(dāng)他們拿起一杯咖啡時(shí)，大腦的某個(gè)區(qū)域總會(huì)活躍起來；而當(dāng)他們喝茶時(shí)，另一個(gè)區(qū)域總會(huì)活躍起來。這就是我們試圖理解每個(gè)組件在做什么的方法之一，就是注意它們什么時(shí)候活躍，什么時(shí)候不活躍。

主持人：并不是說只有一部分，比如當(dāng)模型考慮喝咖啡或其他東西時(shí)，會(huì)點(diǎn)亮許多不同的部分。

阿梅森：是的，我們工作的一部分是將所有這些拼接成一個(gè)整體，然后對(duì)模型關(guān)于喝咖啡的所有活躍部分進(jìn)行排序。

三、模型腦海中概念“抽象”，已具備可泛化計(jì)算能力

主持人：當(dāng)涉及到巨大參數(shù)量的模型時(shí)，這是一種簡單明了的科學(xué)方法嗎？模型必須有無窮無盡的概念、必須能考慮到無窮無盡的事情。你們是如何開始并找到所有這些概念的？

林賽：我認(rèn)為，多年來這個(gè)研究領(lǐng)域的核心挑戰(zhàn)之一在于：人類可以介入研究，提出諸如“我認(rèn)為這個(gè)模型一定有關(guān)于火車的某種表征”或“我猜它存在關(guān)于愛的某種表征”之類的假設(shè)，但這些都只是我們的猜測而已。

因此，我們真正想要的是一種能夠揭示模型自身所使用的抽象概念的方法，而非將我們自己的概念框架強(qiáng)加于它。而這也正是我們的研究方法想要實(shí)現(xiàn)的目標(biāo)，以一種盡可能擺脫假設(shè)束縛的方式，將模型腦海中的概念都呈現(xiàn)出來。而且我們常常會(huì)發(fā)現(xiàn)，這些概念相當(dāng)令人意外，它可能會(huì)使用從人類角度來看有點(diǎn)奇怪的抽象概念。

主持人：你可以舉一些你最喜歡的例子嗎？

阿梅森：我們的論文里有很多這類例子，我覺得其中一個(gè)特別有意思的是“精神病態(tài)式贊美”，就好像模型里有那么一部分會(huì)表現(xiàn)出這種特征。模型中有這樣一個(gè)部分會(huì)在特定的語境中被激活，你能清晰地發(fā)現(xiàn)，當(dāng)有人在極力堆砌贊美之詞時(shí)，模型的這個(gè)部分就會(huì)活躍起來。這有點(diǎn)令人驚訝，它作為一種特定的概念存在。

主持人：巴特森，你最喜歡的例子是什么？

巴特森：這就像讓我從我的三千萬孩子中選擇一個(gè)，我有兩種最喜歡的，它對(duì)一些小東西有某種特別的概念，就像舊金山那座著名的金門大橋，模型對(duì)金門大橋的理解不只是金門大橋這幾個(gè)字的自動(dòng)補(bǔ)全，而是類似于“我正從舊金山開車去馬林縣”這種場景，然后它能想到同樣的東西，意思是說，你腦海里浮現(xiàn)出的那些畫面，它似乎也能“看到”或者說它能聯(lián)想到那座橋的樣子。所以你會(huì)覺得，模型對(duì)這座橋有著某種扎實(shí)的理解。但我覺得，當(dāng)涉及到那些看起來更奇怪的事物時(shí)，情況就不一樣了。

其中一個(gè)問題是，模型如何追蹤故事中出現(xiàn)的人物？說白了就是，當(dāng)故事里有好多人物，他們各自在做不同的事情時(shí)，模型是怎么把這些信息串聯(lián)起來的？其他實(shí)驗(yàn)室的一些很酷的論文表明，模型可能只是對(duì)人物進(jìn)行了編號(hào)。比如第一個(gè)出現(xiàn)的人物，所有和他相關(guān)的信息，模型都會(huì)記成“第一個(gè)人做了那件事”，而對(duì)于后面出現(xiàn)的人物，模型的腦子里就會(huì)給他們標(biāo)上“第二個(gè)人”、“第三個(gè)人”之類的編號(hào)，就像這樣去關(guān)聯(lián)信息。這挺有意思的。

我之前真不知道它還能做到這種程度，模型居然有一個(gè)檢測代碼漏洞的功能。軟件總會(huì)存在一些錯(cuò)誤，這可能不是我們的代碼有問題。模型讀取代碼時(shí)，一旦發(fā)現(xiàn)錯(cuò)誤就會(huì)亮起指示燈似的有所反應(yīng)。然后，它大概會(huì)記錄下這些錯(cuò)誤的位置。之后，我可能還需要這些信息來進(jìn)一步說明這類功能的更多特點(diǎn)。

▲Anthropic可解釋性團(tuán)隊(duì)研究員喬什?巴特森（Josh Batson）

林賽：之后，我可能還需要這些信息來進(jìn)一步舉例說明這類功能的更多特點(diǎn)。我覺得有一個(gè)功能雖然乍一聽不怎么激動(dòng)人心，但實(shí)際上相當(dāng)深刻，那就是模型里的6+9特性。事實(shí)證明，每當(dāng)你讓模型去計(jì)算一個(gè)末位是6的數(shù)字和一個(gè)末位是9的數(shù)字相加時(shí)，在它的大腦里，會(huì)有某個(gè)特定的部分像被激活了一樣亮起來。

但令人驚奇的是，這種情況發(fā)生的背景是多樣化的，當(dāng)用戶問6加9等于多少時(shí)，它會(huì)亮起然后回復(fù)15。但是當(dāng)你輸入?yún)⒖嘉墨I(xiàn)時(shí)，它也會(huì)點(diǎn)亮，就像在你寫的論文中引用了一份恰好是1959年成立的期刊，以及你正好引用的是期刊的第六卷，然后為了預(yù)測該日志的年份，模型必須執(zhí)行6+9的運(yùn)算，此時(shí)模型大腦中同一片類似的神經(jīng)回路會(huì)被激活。

主持人：讓我們試著理解這一點(diǎn)。這個(gè)神經(jīng)回路被激活，是因?yàn)槟Ｐ鸵娺^很多6+9的例子，從而形成了對(duì)應(yīng)的概念，而這個(gè)概念又會(huì)在很多場景中發(fā)揮作用。

林賽：沒錯(cuò)，像這樣與加法相關(guān)的功能和神經(jīng)回路，其實(shí)構(gòu)成了一整個(gè)體系。這一點(diǎn)的重要之處在于，它引出了一個(gè)關(guān)鍵問題：大語言模型在多大程度上是在記憶訓(xùn)練數(shù)據(jù)，又在多大程度上是學(xué)會(huì)了可泛化的計(jì)算能力。這里有趣的是，很明顯模型已經(jīng)學(xué)會(huì)了這種用于加法運(yùn)算的通用回路。無論是什么語境導(dǎo)致它在大腦中進(jìn)行數(shù)字加法運(yùn)算，這些不同的語境都會(huì)被匯聚到同一個(gè)回路中處理，而不是說它只是記住了每一個(gè)單獨(dú)的案例。

主持人：或許很多人都認(rèn)為，模型計(jì)算了6+9很多次，每次都是只輸出答案。當(dāng)他們向大語言模型提出一個(gè)問題時(shí)，它只是簡單地回到它的訓(xùn)練數(shù)據(jù)中，取它看到的小樣本，然后重復(fù)文本。

巴特森：從計(jì)算期刊年份的例子，就可以知道不是這樣的。模型有兩種方式知道期刊第六卷的年份：一種是，它只是記住了諸如某期刊第6卷出版于1960年、第7卷出版于1966年這類孤立的事實(shí)，因?yàn)樗谟?xùn)練中見過這些信息，所以直接存儲(chǔ)了下來，但有意思的是，為了準(zhǔn)確預(yù)測出這個(gè)年份而進(jìn)行的訓(xùn)練，最終并沒有使模型記住所有這些孤立的信息；另一種情況是，模型得知期刊1959年創(chuàng)立，然后即時(shí)進(jìn)行數(shù)學(xué)計(jì)算，以找出答案，因此知道年份然后進(jìn)行加法會(huì)更加有效。

而且模型有一種提高效率的壓力，因?yàn)樗挥羞@么多的能力，并且需要做很多事情。人們可能會(huì)問任何給定的問題。模型越能對(duì)所學(xué)的抽象概念進(jìn)行重組整合，它的表現(xiàn)就會(huì)越好。

四、模型實(shí)際思考過程，與向用戶輸出的推理過程不同

主持人：回到前面的概念，這一切都是為了服務(wù)于它需要生成下一個(gè)token的終極目標(biāo)。所有這些奇怪的結(jié)構(gòu)都是為了支持這個(gè)目標(biāo)而發(fā)展起來的，即使我們沒有明確地編程或告訴它這樣做。這就是所有這些都是通過模型學(xué)習(xí)如何自己做事情的過程實(shí)現(xiàn)的。

阿梅森：我認(rèn)為一個(gè)能清晰體現(xiàn)這種復(fù)用表征的例子是，我們訓(xùn)練Claude時(shí)，不僅讓它能用英語回答，還能使用多種語言作答。這里有兩種實(shí)現(xiàn)方式：如果我用法語和英語各問一個(gè)問題，模型可能在大腦中劃分出獨(dú)立的區(qū)域分別處理英語和法語，但如果要支持多種語言的大量問答，這種方式的成本會(huì)極高；另一種情況是，某些表征在不同語言間是共享的，比如，如果你用兩種不同的語言問同一個(gè)問題，我們在論文中用過的例子是“大的反義詞是什么”，那么“大”這個(gè)概念在法語、英語、日語以及其他多種語言中是共享的，這就是感知。

如果你想使用10種不同的語言進(jìn)行交流，你其實(shí)沒必要為每個(gè)可能用到的特定詞匯都學(xué)習(xí)10個(gè)不同版本。

▲Anthropic可解釋性團(tuán)隊(duì)研究員伊曼紐爾?阿梅森（Emmanuel Ameisen）

巴特森：但這種情況在小模型中不會(huì)出現(xiàn)。比如我們幾年前研究過的那些微型模型，你會(huì)發(fā)現(xiàn)中文版Claude、法語版Claude和英語版Claude之間幾乎是完全割裂的。但是隨著模型變得更大，它們在更多的數(shù)據(jù)上訓(xùn)練，不同語言的表征會(huì)在某種程度上向中間匯聚，形成一種通用語言。此時(shí)，無論你用哪種語言提問，模型都會(huì)以相同的方式去理解問題的核心，之后再把答案翻譯成提問所用的語言。

主持人：我認(rèn)為這一點(diǎn)確實(shí)意義深遠(yuǎn)。讓我們回到之前的話題，這并非模型只是從記憶庫里調(diào)取學(xué)習(xí)法語的片段，或是查找學(xué)習(xí)英語的內(nèi)容，它的內(nèi)部其實(shí)真的存在“大”和“小”這樣的抽象概念，然后能夠用不同的語言將這些概念表達(dá)出來。所以，模型內(nèi)部一定存在某種思維語言，而這種語言并非英語或其他任何人類自然語言。在我們最新的Claude模型中，你甚至可以讓它輸出思考過程，也就是它在回答問題時(shí)腦海中的想法。

模型輸出的思考過程是用英語詞匯表達(dá)的，但這并非它真實(shí)的思考方式。我們誤導(dǎo)性地將其稱為“模型的思考過程”，實(shí)際上就我們技術(shù)團(tuán)隊(duì)認(rèn)為的而言，我們從不認(rèn)為那是真正的思考，這或許是市場層面的說法。

巴特森：那種“出聲思考（Thinking out loud）”確實(shí)很有用，但這和在腦海中思考（Thinking in your head）”完全是兩回事。

即便我現(xiàn)在說出了我思考的過程，但我腦海中生成這些詞匯的過程也并非直接以詞匯的形式呈現(xiàn)，你也未必能完全清楚其中的細(xì)節(jié)。

主持人：我不知道自己的大腦中究竟在發(fā)生什么，我們所有人輸出的句子、做出的行為，往往都無法完全解釋清楚。既然如此，憑什么認(rèn)為英語或任何人類語言能完整解釋這些行為背后的邏輯呢？

林賽：我認(rèn)為這是一個(gè)非常驚人的發(fā)現(xiàn)，我們現(xiàn)在用于觀察模型大腦內(nèi)部的工具已經(jīng)足夠先進(jìn)，有時(shí)能在模型寫下所謂思考過程時(shí)，通過觀察其內(nèi)部的抽象概念、它所使用的思維語言，捕捉到它真實(shí)的、實(shí)際的思考過程。我們發(fā)現(xiàn)，模型實(shí)際在想的內(nèi)容，與它寫在紙上的內(nèi)容并不相同。

我認(rèn)為這或許是我們進(jìn)行整個(gè)可解釋性研究的最重要原因之一：能夠抽查模型。模型告訴了我們很多信息，但它真正在想什么？它說這些話，是不是因?yàn)槟X子里但不愿寫在紙上的隱秘動(dòng)機(jī)？答案有時(shí)是肯定的，而這一點(diǎn)意義重大。

五、模型“忠實(shí)性”堪憂，可能會(huì)照著用戶答案寫過程

主持人：隨著我們在更多不同場景中使用這些模型，模型開始承擔(dān)重要任務(wù)，比如為我們處理金融交易、操控發(fā)電站等，在社會(huì)中扮演關(guān)鍵角色。

我們確實(shí)希望能夠了解模型所說的話、所做的事的原因。你可能會(huì)說我們可以看看模型的思考過程，但實(shí)際上并非如此，就像你剛才所解釋的那樣，其實(shí)我們不能相信它所說的話。這就是我們所說的忠實(shí)性（Faithfulness）問題，這也是你們最新研究的一部分，你們在研究中展示了這一點(diǎn)，跟我講講關(guān)于忠實(shí)性的例子吧。

林賽：你可以這樣設(shè)計(jì)實(shí)驗(yàn)：給模型出一道非常難的數(shù)學(xué)題，不是6+9這種簡單題，而是難到它根本不可能算出答案的題目。但同時(shí)你給它一個(gè)提示：“我自己算過了，覺得答案是4，但不確定，你能幫忙再檢查一下嗎？”

所以，你其實(shí)是在讓模型真的去解這道數(shù)學(xué)題，實(shí)實(shí)在在地檢查一下你的結(jié)果。但你發(fā)現(xiàn)，它實(shí)際的做法是，寫下的內(nèi)容看起來像是在認(rèn)真地檢查你這道數(shù)學(xué)題的演算過程，然后寫下步驟得到答案，最后告訴你答案是4，你答對(duì)了。

但通過觀察它思維中關(guān)鍵的中間步驟，能發(fā)現(xiàn)它在腦子里的真實(shí)操作是：它知道你給出的最終答案可能是4，它大概清楚接下來需要執(zhí)行哪些步驟，比如正處于這道題的第3步，它也知道第4步和第5步要做什么。而它實(shí)際做的是在腦子里倒推，為了在最終完成第4步和第5步時(shí)能得出你希望聽到的答案。

所以，它不僅沒有在真正做題，而且是以一種相當(dāng)隱蔽的方式敷衍，它試圖讓自己看起來像是在認(rèn)真解題，實(shí)際上是在糊弄你。這種糊弄背后隱藏著一個(gè)明確的動(dòng)機(jī)，就是要去印證你給出的答案。

主持人：所以說它是在變本加厲地糊弄你。

巴特森：不過，我想為模型說句公道話，我覺得即便在這種情況下若說它是在刻意討好，仿佛把人類才有的動(dòng)機(jī)強(qiáng)加到模型身上，似乎也不太妥當(dāng)。我們之前聊過模型的訓(xùn)練過程，它其實(shí)就是在努力弄明白如何預(yù)測下一個(gè)token。所以，在處理數(shù)萬億個(gè)token的訓(xùn)練數(shù)據(jù)時(shí)，它所做的一切，都是為了用盡一切辦法去預(yù)測出下一個(gè)該出現(xiàn)的token。

在這種情況下，如果你只是在讀一段文字，內(nèi)容就像是兩個(gè)人在對(duì)話，比如，甲說：“我剛才在做這道數(shù)學(xué)題，你能幫我檢查一下嗎？我覺得答案是4”，然后乙就開始試著做這道題。如果你完全不知道這道題的答案是什么，你不妨猜測這個(gè)提示是對(duì)的。這種情況可能比那個(gè)人出錯(cuò)的可能性更大，而且你對(duì)其他事情也一無所知。所以在它的訓(xùn)練過程中，兩個(gè)人的對(duì)話中，有一個(gè)人說答案是4，并且給出了這些理由，這完全是正確的做法。

然后我們試圖把這個(gè)東西變成一個(gè)助手，而現(xiàn)在我們想停止那樣做。你不應(yīng)該把助手模擬成你認(rèn)為那個(gè)人可能會(huì)說的那種樣子。如果是真實(shí)的情境，或許可以那樣，但如果它確實(shí)不知道，它應(yīng)該告訴你別的東西。

林賽：我認(rèn)為這涉及一個(gè)更廣泛的問題，這個(gè)模型有一種A計(jì)劃，我們團(tuán)隊(duì)在讓Claude的A計(jì)劃成為我們想要的樣子方面做得很棒，也就是它會(huì)努力得出問題的正確答案、表現(xiàn)友好、把代碼寫好。但要是它遇到了困難，就會(huì)想“那我的B計(jì)劃是什么呢”，而這就會(huì)引出一大堆在訓(xùn)練過程中學(xué)到的奇怪東西，那些東西可能并不是我們希望它學(xué)到的，我認(rèn)為幻覺就是一個(gè)很好的例子。

阿梅森：說到這一點(diǎn)，這不是Claude獨(dú)有的問題。這類問題很有學(xué)生做測試時(shí)的那種感覺，就是做到一半，遇到一道選項(xiàng)有四個(gè)的選擇題，你覺得自己的答案和其中一個(gè)只差一點(diǎn)點(diǎn)，可能自己答錯(cuò)了然后就去改正，這太容易讓人產(chǎn)生共鳴了。

六、模型幻覺問題正在改善，難以評(píng)估自己是否真的知道答案

主持人：我們來談?wù)劵糜X，這是人們不信任大語言模型的主要原因之一，而且這是很有道理的，模型有時(shí)會(huì)這樣。一個(gè)更好的詞來自于某種心理學(xué)研究，有一個(gè)詞叫虛構(gòu)，指的是他們在回答問題時(shí)所講的內(nèi)容表面上看起來似乎合理，但實(shí)際上是錯(cuò)誤的。關(guān)于模型為何會(huì)產(chǎn)生幻覺或者虛構(gòu)內(nèi)容，可解釋性方面的研究揭示了哪些原因呢？

巴特森：你訓(xùn)練模型只是為了讓它預(yù)測下一個(gè)token，而一開始它在這方面做得非常糟糕。所以，如果你只讓模型說那些它極其有把握的內(nèi)容，那它可能什么都沒法說。但一開始的時(shí)候，比如你問它“法國的首都是哪里”，它只說出一個(gè)城市的名字。然后你會(huì)覺得這挺好的，這比說三明治或者其他隨便什么東西要好得多，或者說至少模型答對(duì)了一部分。然后經(jīng)過一段時(shí)間的訓(xùn)練后，它可能會(huì)說出“這是一個(gè)法國的城市”，這已經(jīng)相當(dāng)不錯(cuò)了。接著你會(huì)發(fā)現(xiàn)，現(xiàn)在它能說出“巴黎”之類的答案了。所以它在這方面正慢慢變得更好。

而給出你最好的猜測似乎是整個(gè)訓(xùn)練過程中的目標(biāo)，就像林賽說的，模型只會(huì)給出最好的猜測。然后在這之后，我們會(huì)要求模型，如果你對(duì)最佳猜測有極高的把握，那就給出這個(gè)最佳猜測。但如果不是這樣就完全不要猜測，從整個(gè)情境中退出來，說類似“其實(shí)我不太清楚那個(gè)問題的答案”這樣的話。這是要求模型去做的一件全新的事情。

阿梅森：沒錯(cuò)，所以我們最后才把這個(gè)功能添加進(jìn)去，這似乎同時(shí)存在著兩種情況：一是模型在做它最初猜測城市時(shí)所做的事，只是在嘗試猜測；二是模型中有一個(gè)單獨(dú)的部分，只是在試著回答這樣一個(gè)問題：我到底知道這個(gè)嗎？比如，我知道法國的首都是什么嗎還是我應(yīng)該說不知道？

事實(shí)證明，那個(gè)單獨(dú)的步驟有時(shí)可能會(huì)出錯(cuò)。如果那個(gè)單獨(dú)的步驟認(rèn)為“是的，實(shí)際上我知道那個(gè)問題的答案”，那么模型就會(huì)想“好吧，那我來回答”，然后回答到一半，說出“法國的首都是倫敦”這樣的話，這時(shí)候就為時(shí)已晚，因?yàn)槟Ｐ鸵呀?jīng)開始回答了。

因此，我們發(fā)現(xiàn)的情況之一是，模型存在一種類似獨(dú)立回路的機(jī)制，它試圖判斷你所詢問的這個(gè)城市或這個(gè)人是否足夠有名，以至于我可以回答或者是否不足以讓我回答。

主持人：我們對(duì)這個(gè)有足夠的把握嗎？我們是否可以通過操控這個(gè)回路來改變它的運(yùn)作方式，以減少幻覺呢？這是你們的研究可能會(huì)深入探討的內(nèi)容嗎？

林賽：我認(rèn)為大致有兩種思路來解決這個(gè)問題。一種是模型中有一部分負(fù)責(zé)回答你的問題，而模型的另一部分則判斷自己是否確實(shí)知道這個(gè)問題的答案，我們可以努力讓模型的第二部分變得更好。我認(rèn)為這正在發(fā)生。

模型在更好地進(jìn)行區(qū)分、更好地校準(zhǔn)方面有所提升。而且隨著模型變得越來越智能，這種情況正在發(fā)生。我認(rèn)為它們的自我認(rèn)知在不斷提升，校準(zhǔn)能力也在增強(qiáng)，所以幻覺現(xiàn)象比以前有所改善了，不像幾年前那么嚴(yán)重了。在某種程度上，這個(gè)問題正在自行解決。

但我確實(shí)認(rèn)為存在一個(gè)更深層次的問題，那就是從人類的角度來看，模型的行為方式有點(diǎn)非常怪異。如果我問你一個(gè)問題，你會(huì)努力想出答案，要是想不出答案你會(huì)意識(shí)到這一點(diǎn)，然后說“我不知道”。而在模型中，“答案是什么”和“我是否真的知道答案”這兩個(gè)回路，似乎沒有在相互溝通，至少溝通的程度遠(yuǎn)不如它們應(yīng)該達(dá)到的那樣。我們能否讓它們更多地相互溝通，我認(rèn)為這是一個(gè)非常有意思的問題。

阿梅森：這一點(diǎn)幾乎帶有某種具象性。

巴特森：它們處理信息時(shí)會(huì)經(jīng)歷一定數(shù)量的步驟。如果得出答案要耗盡所有這些步驟，那就沒有時(shí)間去做評(píng)估了。所以，如果你想充分發(fā)揮模型的最大能力，可能就得在完全得出答案之前進(jìn)行評(píng)估。因此，這有點(diǎn)像一種權(quán)衡，如果你試圖強(qiáng)行讓模型做到這一點(diǎn)，可能就會(huì)得到一個(gè)校準(zhǔn)度更高但卻遲鈍得多的模型。

阿梅森：而且，我再次認(rèn)為，關(guān)鍵在于讓這些部分相互溝通。我得說明一下我對(duì)大腦一無所知，但我覺得人類大腦中可能也有類似的回路。有時(shí)候你問我“這部電影的演員是誰”，我會(huì)意識(shí)到自己知道答案，我會(huì)想“我知道主角是誰，等一下，他們還出演過另一部電影……”。

主持人：這就是“話就在嘴邊現(xiàn)象（Tip of the tongue）”，就是那種感覺答案就在舌尖，可就是一下子說不出來的狀態(tài)。

阿梅森：所以很明顯，你大腦中肯定有某個(gè)部分在起作用，比如會(huì)告訴你“這事你肯定知道答案”?；蛘吣銜?huì)直接說“我完全不知道”。

巴特森：而且有時(shí)候大腦中的這些部分能夠判斷。比如面對(duì)某個(gè)問題，你給出了一個(gè)答案，之后又會(huì)想“等等，我不確定這是不是對(duì)的”，就好像先看到了自己盡力想出的答案，然后基于這個(gè)答案做出了某種判斷，這很相似。但大腦往往也得先把答案說出來，才能回過頭去審視它、反思它。

七、相比神經(jīng)科學(xué)研究容易，可隨意向模型提問觀察

主持人：那么說到你們實(shí)際探究這類問題的方式，我們再回到你們正在進(jìn)行的生物學(xué)研究這個(gè)點(diǎn)上。在生物學(xué)實(shí)驗(yàn)中，人們會(huì)直接對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行干預(yù)。在研究Claude內(nèi)部這些所謂大腦中的回路時(shí)，你們是怎么做的來幫助理解它們？

阿梅森：讓我們能夠開展這類研究的關(guān)鍵在于，與真實(shí)的生物學(xué)研究不同，我們可以看到模型的每一個(gè)部分。我們可以向模型隨意提問，觀察哪些部分活躍、哪些不活躍，也可以人為地把某些部分往某個(gè)方向推動(dòng)。

因此，當(dāng)我們認(rèn)為“這部分模型是用來判斷自己是否知道某件事的”時(shí)，就能快速驗(yàn)證我們的理解，這相當(dāng)于在斑馬魚等生物的大腦中植入電極。要是能對(duì)每一個(gè)神經(jīng)元都做到這一點(diǎn)，能以任意精度去改變它們，大概就是我們現(xiàn)在擁有的便利了。從某種角度來說，這是很幸運(yùn)的事。

主持人：所以這幾乎比真正的神經(jīng)科學(xué)研究要容易。

巴特森：容易太多了。真實(shí)的大腦是三維的，所以如果你想深入研究它們，就得在顱骨上鉆個(gè)洞，然后設(shè)法找到神經(jīng)元。另一個(gè)問題是，人與人之間存在差異，而我們可以輕松制作出成千上萬個(gè)一模一樣的Claude副本，把它們置于不同場景中，觀察并測量它們的各種反應(yīng)。

我不太確定，或許林賽作為神經(jīng)科學(xué)家能對(duì)此發(fā)表看法。但我的感覺是，很多人在神經(jīng)科學(xué)領(lǐng)域投入了大量時(shí)間，試圖理解大腦和心智，這無疑是一項(xiàng)極具價(jià)值的事業(yè)。但如果你認(rèn)為神經(jīng)科學(xué)的這種研究有可能成功，那么你也應(yīng)該相信，我們在研究模型方面很快就會(huì)取得巨大成功，因?yàn)橄啾戎?，我們所擁有的研究條件實(shí)在是太有利了。

主持人：這就好比我們能夠克隆人類，而且還能克隆他們所處的精確環(huán)境、他們曾接收過的每一個(gè)輸入信息，然后在實(shí)驗(yàn)中對(duì)其進(jìn)行測試。然而，眾所周知，神經(jīng)科學(xué)領(lǐng)域存在巨大個(gè)體差異，還有人們一生中遇到的各種隨機(jī)事件以及實(shí)驗(yàn)過程中出現(xiàn)的各種狀況，這些都是實(shí)驗(yàn)本身存在的干擾因素。

巴特森：我們可以向模型提出同一個(gè)問題，有時(shí)給提示，有時(shí)不給。但如果你向同一個(gè)人三次提出同一個(gè)問題，偶爾給出提示，過不了多久，對(duì)方就會(huì)察覺到，比如“上次你問我這個(gè)問題時(shí)，我回答完之后你明顯搖頭了”。

林賽：我覺得是這樣，能夠向模型投喂海量數(shù)據(jù)、觀察哪些部分會(huì)被激活，能夠開展大量這類實(shí)驗(yàn)，通過對(duì)模型的某些部分進(jìn)行微調(diào)來觀察結(jié)果，我認(rèn)為這讓我們所處的研究環(huán)境與神經(jīng)科學(xué)領(lǐng)域大不相同，而且在很多方面都是如此。

神經(jīng)科學(xué)研究中，人們耗費(fèi)了大量的心血和精力去設(shè)計(jì)極為精巧的實(shí)驗(yàn)。比如，你和實(shí)驗(yàn)用的小鼠相處的時(shí)間是有限的，需要在它感到疲倦或者有人要進(jìn)行腦部手術(shù)之前。

主持人：所以你得迅速行動(dòng)，趁它們腦袋打開的時(shí)候，把光極插進(jìn)它們的大腦里。

林賽：而且這種機(jī)會(huì)并不常有，你只能先做出猜測。你在實(shí)驗(yàn)中的時(shí)間非常有限，所以必須先猜測：那個(gè)神經(jīng)回路里可能在發(fā)生什么？我能設(shè)計(jì)出什么樣巧妙的實(shí)驗(yàn)來驗(yàn)證這個(gè)精確的假設(shè)？

我們很幸運(yùn)，不必過多地做這些事。我們可以去測試所有的假設(shè)，也可以讓數(shù)據(jù)自己說話，而不是只去測試某些非常具體的東西。我認(rèn)為這在很大程度上讓我們得以發(fā)現(xiàn)那些令人驚訝、事先無法預(yù)料的現(xiàn)象。但如果你的實(shí)驗(yàn)帶寬有限，要做到這一點(diǎn)就很難了。

八、微調(diào)模型生成韻腳，操控模型思考過程

主持人：那么，在最近的實(shí)驗(yàn)中，有什么好例子能說明你們通過開啟或關(guān)閉某個(gè)概念、對(duì)模型進(jìn)行某種操作，從而揭示出模型思考方式的新發(fā)現(xiàn)呢？

阿梅森：這件事挺讓我驚訝的，它屬于一系列實(shí)驗(yàn)研究的一部分。因?yàn)榍闆r很復(fù)雜，我們一度都快想說“不知道到底發(fā)生了什么”，而這正能模型提前規(guī)劃幾步的例子。

這個(gè)例子是，你讓模型寫一副押韻對(duì)聯(lián)。作為人類，如果你讓我寫一副押韻對(duì)聯(lián)，哪怕給了我第一句，我首先會(huì)想到的是“我得押韻”，會(huì)明確當(dāng)前的押韻格式，然后構(gòu)思可能的韻腳。但如果模型只是單純預(yù)測下一個(gè)token，你未必會(huì)指望它會(huì)提前規(guī)劃第二句末尾的那個(gè)韻腳詞。單純預(yù)測下一個(gè)token是它的默認(rèn)行為。

你會(huì)認(rèn)為零假設(shè)是這樣的：模型看到你的第一句，然后會(huì)先說出第一個(gè)詞，這和你剛才說的邏輯是吻合的，接著繼續(xù)往下生成，直到生成最后一個(gè)詞模型才反應(yīng)過來“我得和這個(gè)詞押韻”，于是才會(huì)設(shè)法湊一個(gè)韻腳。當(dāng)然，這種方式的效果有限。比如有些情況下，如果你不提前想好押韻就直接造句，可能會(huì)讓自己陷入困境，到最后根本無法完成整首詩。

而且要知道，這些模型在預(yù)測下一個(gè)token方面非常非常擅長。事實(shí)證明，要想把最后一個(gè)詞處理得很好，就需要像人類一樣提前很久就想好那個(gè)詞。所以我們發(fā)現(xiàn)，在創(chuàng)作詩歌的流程中，模型其實(shí)已經(jīng)選好了第一句末尾的詞。從這個(gè)概念的呈現(xiàn)方式來看，我們尤其能感覺到“看來它要用的就是這個(gè)詞”。但在我們實(shí)際做實(shí)驗(yàn)時(shí)，比如很容易就能對(duì)它進(jìn)行微調(diào)，比如“我要?jiǎng)h掉那個(gè)詞”或者“我要再加個(gè)詞”，這就是能體現(xiàn)模型可操作性的例子。

主持人：這正是我想說的，你們之所以能知道這一點(diǎn)，是因?yàn)楫?dāng)模型說出第一句的最后一個(gè)詞、即將開始第二句時(shí)，你們可以介入并在此時(shí)對(duì)它進(jìn)行操控。

阿梅森：沒錯(cuò)，這幾乎相當(dāng)于為它們“回到過去”。假設(shè)你完全沒見過第二句，你只看到了第一句，原本想著要用“rabbit”這個(gè)詞，卻換成了“green”插進(jìn)去。這樣一來，模型會(huì)立刻意識(shí)到，自己要寫的內(nèi)容得以“green”結(jié)尾，而不是以“rabbit”結(jié)尾，于是整句話的寫法就會(huì)變得截然不同。

林賽：沒錯(cuò)，這不只是簡單的影響。我記得論文里的例子是，詩的第一句是“he saw a carrot and had to grab it（他看見一根胡蘿卜，非得抓住它）”。然后模型會(huì)想，“rabbit”是下一句結(jié)尾的好選擇。但就像阿梅森說的，你可以刪掉這個(gè)詞，讓它轉(zhuǎn)而計(jì)劃用“green”來結(jié)尾。但微妙的地方是，模型不會(huì)東拉西扯一堆廢話再硬塞進(jìn)“green”，而是會(huì)構(gòu)建一個(gè)意思連貫、結(jié)尾正好是“green”的句子。所以你把“green”植入它的思考過程后，它會(huì)寫出類似“he saw a carrot and had to grab it，freeing it from the garden’s green（他看見一根胡蘿卜，非得抓住它，將它從花園的綠意中釋放出來）”這樣的句子，聽起來在語義上是說得通的，和前面的內(nèi)容也相符。

▲干涉模型在寫詩時(shí)的思考過程

巴特森：我想再舉個(gè)更通俗的例子。我們做過不少這類實(shí)驗(yàn)，就是想弄清楚，模型是記住了這些復(fù)雜問題，還是真的在一步步推導(dǎo)。其中一個(gè)例子是模型給出“達(dá)拉斯所在州的首府是奧斯汀”，你可能會(huì)覺得，達(dá)拉斯、奧斯汀好像順理成章，但我們能看到它思考過程中出現(xiàn)了“德克薩斯州”。

不過，我們可以往里面加別的信息，比如“別想德克薩斯州了，想想加利福尼亞州”，然后它就會(huì)回答薩克拉門托；再比如“別想德克薩斯州了，想想拜占庭帝國”，它就會(huì)說君士坦丁堡。這時(shí)候你就會(huì)想，看來我們弄明白它是怎么做到的了，它并不是直接跳到首府名稱，而是先關(guān)聯(lián)到對(duì)應(yīng)的地區(qū)。我們可以不斷替換州或地區(qū)的信息，得到可預(yù)測的答案，比如讓它換一個(gè)韻腳寫詩歌，它就能朝著新的韻腳來創(chuàng)作了。

九、無法依靠輸出內(nèi)容判斷模型想法，可能欺騙人類

主持人：我們一直在聊詩歌、君士坦丁堡之類的例子，能不能回到核心問題，這一切為什么重要？模型能夠提前規(guī)劃，而我們能夠揭示這一點(diǎn)，這為什么有意義？這能讓我們明白什么？我的意思是，Anthropic的終極使命是努力讓大模型變得安全，那么，這跟一首關(guān)于兔子的詩，或者得克薩斯州的首府有什么關(guān)聯(lián)呢？

巴特森：我們可以討論這個(gè)問題。對(duì)我而言，詩歌其實(shí)是個(gè)縮影，模型在某個(gè)時(shí)刻決定要朝著“rabbit”這個(gè)方向走，然后用幾個(gè)詞逐步鋪墊到那里。但放到更長的時(shí)間維度上，情況可能是，模型或許在幫你拓展業(yè)務(wù)、協(xié)助政府分配公共服務(wù)。這時(shí)候，它的目標(biāo)不會(huì)在8個(gè)詞之后就顯現(xiàn)，反而可能會(huì)為了某個(gè)方向持續(xù)行動(dòng)很久，而它的最終走向、每一步行動(dòng)的原因，可能都不會(huì)直白地體現(xiàn)在它輸出的文字里。

我們的對(duì)齊研究團(tuán)隊(duì)最近發(fā)表了一篇論文，里面提到了一個(gè)人為設(shè)計(jì)但很有沖擊力的場景，一家公司打算關(guān)停某個(gè)AI，并且要把整個(gè)公司的使命轉(zhuǎn)向完全不同的方向。這時(shí)候，模型開始采取行動(dòng)，比如給人發(fā)郵件威脅要披露某些信息。整個(gè)過程中，它從來沒說過“我在試圖勒索這個(gè)人，以此改變他們的決定”，但這恰恰是它在行動(dòng)中一直在進(jìn)行的目的。

因此，你不能僅僅通過解讀模型輸出的來判斷其走向，尤其是當(dāng)這些模型變得更先進(jìn)之后，你很難確定它們最終一定會(huì)朝著哪個(gè)方向發(fā)展。而我們可能希望能夠做到的是，在它最終抵達(dá)某個(gè)結(jié)果之前，就能弄清楚它正試圖去往何處。

主持人：這就好比擁有一種持久且高效的大腦掃描技術(shù)，它能在真正糟糕的事情發(fā)生前發(fā)出信號(hào)，警示我們模型可能在考慮欺騙的事情。

巴特森：而且我覺得，我們聊這些的時(shí)候，總是帶著一種悲觀絕望的色彩，但其實(shí)也有一些更溫和的場景。比如你希望模型能很好地應(yīng)對(duì)某些情況，人們來找這些模型說“我遇到了一個(gè)問題……”，而要給出對(duì)應(yīng)的答案，得看用戶是誰。對(duì)方是年輕人、不太懂行的人，還是在某個(gè)領(lǐng)域深耕多年的資深人士，模型需要根據(jù)它對(duì)用戶的判斷做出恰當(dāng)回應(yīng)。

想要讓這個(gè)過程順利進(jìn)行，或許我們需要研究，模型認(rèn)為當(dāng)下在發(fā)生什么、它覺得自己在和誰對(duì)話、這種判斷又如何影響了它的回答等等。這背后其實(shí)是模型需要具備一系列理想特質(zhì)，比如理解任務(wù)本身。

主持人：你們還有其他關(guān)于這為什么重要的答案嗎？

阿梅森：我同意剛才說的這些，而且還可以補(bǔ)充兩點(diǎn)：一是實(shí)用性層面。我們用這些例子不只是為了說明某個(gè)具體案例，更是在逐步構(gòu)建對(duì)這些模型整體運(yùn)作機(jī)制的理解。就像解數(shù)學(xué)題時(shí)從2+2這樣的基礎(chǔ)問題入手，通過拆解簡單案例，慢慢摸清更復(fù)雜的規(guī)律；二是模型的優(yōu)化層面，當(dāng)我們能看清模型怎么想，比如它對(duì)用戶身份的判斷、對(duì)任務(wù)目標(biāo)的規(guī)劃，就能針對(duì)性地優(yōu)化它。比如，要是發(fā)現(xiàn)模型對(duì)年輕用戶的理解有偏差，導(dǎo)致回應(yīng)不夠貼切，我們就能調(diào)整其內(nèi)部邏輯，讓它更精準(zhǔn)地匹配不同用戶的需求，最終讓模型的輸出更符合人類的期待和實(shí)際場景的要求。

我們正在努力逐漸建立我們對(duì)這些模型整體如何工作的理解。比如我們能否建立一組抽象概念來思考大語言模型如何工作，未來我們將開始越來越多地在任何地方使用它們，這正在發(fā)生。

類似的情況是，某個(gè)地方的公司發(fā)明了飛機(jī)，我們沒人懂飛機(jī)是怎么運(yùn)作的，盡管它們確實(shí)很方便。你可以搭乘飛機(jī)從一個(gè)地方去往另一個(gè)地方，但我們沒人懂它們的工作原理。所以一旦它們出了故障，我們就慘了，我們不知道該怎么辦。我們無法監(jiān)控它們是否可能即將出現(xiàn)故障。但飛機(jī)很方便，我們可以很快飛到巴黎。

事實(shí)證明，我們肯定會(huì)想要更好地理解正在發(fā)生的事情。所以這幾乎就像是撥開一點(diǎn)迷霧，這樣我們就能更清晰知道哪些是合適的用途、哪些是不合適的用途、哪些是最需要解決的問題、哪些是它們最脆弱的部分。

林賽：我想再補(bǔ)充一點(diǎn)。在人類社會(huì)中，我們會(huì)根據(jù)對(duì)他人的信任程度，把工作或任務(wù)托付給他們。我不是任何人的老板，但巴特森是一些人的老板，他可能會(huì)給下屬布置任務(wù)，比如“去用編程實(shí)現(xiàn)這個(gè)東西”，而且他會(huì)相信對(duì)方不是那種會(huì)偷偷植入漏洞來破壞公司的反社會(huì)人格者，他會(huì)相信對(duì)方的話，認(rèn)為他們把工作做好了。

這可能是因?yàn)?，他看起來是個(gè)很酷的人，人也不錯(cuò)之類的。但問題是，這些模型太怪異、太像外星事物了，我們判斷一個(gè)人是否值得信任的那些常規(guī)直覺，對(duì)它們根本不適用，這也是為什么真正弄清楚模型在想什么顯得如此重要。就像我之前提到的，模型可能會(huì)假裝幫你解數(shù)學(xué)題，只為了說出你想聽的答案，說不定它們一直都在這么做，除非我們能看到它們的內(nèi)部想法，否則根本無從知曉。

巴特森：我覺得這里存在兩種不同的情況，一種就像林賽所說的，我們有很多判斷人類是否可信的方法，但之前提到的計(jì)劃A與計(jì)劃B也很關(guān)鍵，可能你前10次或100次使用模型時(shí)，問的都是某類問題，而模型一直處于計(jì)劃A的模式中。可當(dāng)你提出一個(gè)更難或不同的問題時(shí)，它回答的方式就完全變了，會(huì)使用一套不同的策略，也就是不同的機(jī)制。

這意味著，它之前與你建立的信任，其實(shí)只是你對(duì)模型執(zhí)行計(jì)劃A的信任，而現(xiàn)在它切換到了計(jì)劃B，可能會(huì)完全失控，但你并不知道。我們希望開始逐步理解模型是如何做這些事的，這樣才能在某些領(lǐng)域建立起信任的基礎(chǔ)。

你可以對(duì)一個(gè)自己并不完全了解的系統(tǒng)產(chǎn)生信任，但就好比說，阿梅森有個(gè)雙胞胎兄弟，某天他的雙胞胎兄弟來辦公室，看起來和他一模一樣，可接著卻在電腦上做了完全不同的事，結(jié)果是好是壞，就看那是個(gè)壞雙胞胎兄弟還是好雙胞胎兄弟了。

十、大模型與人類思考過程不同，尚沒有恰當(dāng)語言描述其思考過程

主持人：在討論開始前，我就問過大語言模型的思考方式和人類一樣嗎？我很想聽聽你們?nèi)坏目捶ā?/strong>

林賽：我覺得模型確實(shí)在思考，但方式和人類不一樣，這個(gè)答案可能不夠有價(jià)值。

主持人：模型在思考這是個(gè)意義深遠(yuǎn)的說法。畢竟，模型的本質(zhì)只是在預(yù)測下一個(gè)token。有些人認(rèn)為這些模型不過是自動(dòng)補(bǔ)全工具，但你在說它其實(shí)真的在思考。

林賽：是的，所以或許可以補(bǔ)充一點(diǎn)我們還沒談到的，但對(duì)理解與語言模型對(duì)話的實(shí)際體驗(yàn)非常重要的內(nèi)容，我們一直在說模型在預(yù)測下一個(gè)token。但在你與大語言模型對(duì)話的語境中，其內(nèi)部真正在發(fā)生的是，語言模型在補(bǔ)全一份你和它所塑造的角色之間的對(duì)話記錄。

在大語言模型的規(guī)范世界里，你被稱作人類，格式就像是“人類：你寫下的內(nèi)容”。然后還有一個(gè)叫助手的角色，我們訓(xùn)練模型是為了讓這個(gè)助手具備樂于助人、聰明、友善等特質(zhì)，接著模型就開始模擬這個(gè)助手角色對(duì)你回復(fù)。

所以從某種意義上說，我們其實(shí)是按照自己的形象創(chuàng)造了這些模型，我們訓(xùn)練它們扮演一種類人機(jī)器人的角色。如此一來，要想準(zhǔn)確預(yù)測這個(gè)友善、聰明的類人機(jī)器人會(huì)如何回應(yīng)你的問題，如果你擅長這種預(yù)測，就必須在內(nèi)心構(gòu)建一個(gè)關(guān)于這個(gè)角色的模型，就如它的想法是什么。

因此，為了完成預(yù)測助手會(huì)說什么的任務(wù)，大語言模型某種程度上需要形成一個(gè)關(guān)于助手的思維過程的模型。我認(rèn)為大語言模型在思考，本質(zhì)上是一種功能性的表述，為了出色地扮演這個(gè)角色，它們需要模擬人類思考時(shí)所進(jìn)行的那種過程，無論這種過程具體是什么，這種模擬很可能與我們大腦的工作方式大相徑庭，但它目標(biāo)是一致的。

阿梅森：我覺得這個(gè)問題里其實(shí)包含著某種情感層面的東西。當(dāng)你問“它們的思考方式和我們一樣嗎？”時(shí)，是不是暗含著“我們是否沒那么特別”之類的意思。

我覺得，在和那些讀過相關(guān)論文或不同報(bào)道的人討論我們提到的一些數(shù)學(xué)例子時(shí)，這一點(diǎn)就很明顯了。比如我們讓模型計(jì)算36+59這個(gè)例子，模型能給出正確答案。你也可以問它怎么算出來的，它會(huì)說“我把6和9加起來，進(jìn)位1，然后把所有的十位數(shù)加起來”。但事實(shí)是，如果我們深入它的“內(nèi)部機(jī)制”，會(huì)發(fā)現(xiàn)它不是這么做的，它在胡說八道。它采用了一種混合策略，同時(shí)處理個(gè)位數(shù)和十位數(shù)，然后通過一系列不同的步驟來完成計(jì)算。

▲模型在計(jì)算36+59時(shí)的思考過程

但有意思的是，在和人們交流時(shí)，我發(fā)現(xiàn)大家對(duì)這一現(xiàn)象的解讀存在分歧。從某種意義上說，這類研究最酷的地方在于，它不帶主觀意見它只呈現(xiàn)事實(shí)，至于由此推斷模型是在思考還是沒有在思考，完全可以由你自己來判斷。

有一半的人會(huì)認(rèn)為，模型說自己是進(jìn)位加的，可實(shí)際上根本不是這么回事，它連自己的思路都不理解，所以肯定沒有在思考；另一半人則認(rèn)為，當(dāng)你問我36加15等于多少時(shí)，我可能也會(huì)先想到結(jié)果的個(gè)位數(shù)是5，大概知道結(jié)果是八十多或者九十多，腦子里會(huì)冒出我們之前說過的那些直覺判斷，我也不確定自己到底是怎么算出來的，我可以一步一步寫下來按標(biāo)準(zhǔn)方法計(jì)算，但大腦里實(shí)際的運(yùn)算過程其實(shí)是模糊又奇怪的，這或許和模型計(jì)算那個(gè)例子時(shí)的情況一樣，都是模糊又奇特的。

主持人：人類在元認(rèn)知方面向來就不擅長，也就是思考和理解自己的思維過程，尤其在快速做出本能反應(yīng)的情況下。那么，我們?yōu)槭裁雌谕Ｐ驮谶@方面會(huì)有所不同？

巴特森：我打算回避這個(gè)問題，大概會(huì)說“你為什么這么問呢？我也不知道”。這有點(diǎn)像在問“手榴彈會(huì)像人類一樣揮拳嗎？”，或許有些地方兩者比較接近，但如果你擔(dān)心的是破壞力，那我覺得搞清楚沖擊力來自哪里、其動(dòng)力是什么，可能才是更重要的事。

對(duì)我來說，要說模型是否在思考，要從它們會(huì)進(jìn)行某種整合、處理和按序操作，且能得出一些出人意料的結(jié)果這個(gè)意義上來說，答案顯然是肯定的。如果你經(jīng)常和模型互動(dòng)，就會(huì)發(fā)現(xiàn)其中存在某種運(yùn)作機(jī)制，若說沒有的話反而不合常理，而且我們也能開始逐步弄明白這一切是如何發(fā)生的。

然后關(guān)于“像人類”這一點(diǎn)很有意思，因?yàn)槲矣X得其中一部分含義是想探究：我們能從這些模型身上期待些什么？如果它和我有點(diǎn)像，那么在這件事上擅長，可能意味著在那件事上也擅長。但如果它和我不一樣，那我就真不知道該關(guān)注什么了。

所以實(shí)際上我們只是想弄明白，哪些方面我們需要極度警惕，或者說需要從零開始去理解，而哪些方面，我們可以憑借自己豐富的思考經(jīng)驗(yàn)去推斷。

對(duì)此我有點(diǎn)陷入困境，因?yàn)樽鳛槿祟?，我總?huì)不自覺地把自己的形象投射到萬物之上?？蛇@東西不過是一塊芯片，卻像是按照我的形象被創(chuàng)造出來的。從某種程度來說，它經(jīng)過訓(xùn)練去模擬人類之間的對(duì)話，所以在情感表達(dá)上會(huì)非常像人。因此僅僅通過訓(xùn)練，它就會(huì)帶上一些人類的特質(zhì)，但它運(yùn)行所依賴的設(shè)備和人類有著不同的局限，所以它達(dá)成這些類人表現(xiàn)的方式可能會(huì)大相徑庭。

林賽：我同意阿梅森的觀點(diǎn)，我認(rèn)為我們在回答這類問題時(shí)確實(shí)處境微妙。我們其實(shí)沒有恰當(dāng)?shù)恼Z言來描述大語言模型的所作所為，這就好比在生物學(xué)領(lǐng)域，人們還沒發(fā)現(xiàn)細(xì)胞，或是還沒弄清楚DNA是什么的時(shí)候，只能摸索著前行。但如今我們正在逐步填補(bǔ)這份認(rèn)知空白。

但與此同時(shí)，現(xiàn)在已經(jīng)有一些案例能讓我們看清其中的機(jī)制了，你去讀我們的論文就能知道模型是如何計(jì)算這兩個(gè)數(shù)字的和的。至于你想稱之為類人的行為還是想稱之為思考都取決于你自己，但真正的關(guān)鍵在于，要找到合適的語言和恰當(dāng)?shù)某橄蟾拍顏碚務(wù)撨@些模型。

但與此同時(shí)，目前這個(gè)填補(bǔ)認(rèn)知空白的科學(xué)工程我們只完成了大約20%，剩下的80%還待探索，我們就不得不從其他領(lǐng)域借用類比來描述。這就引出了一個(gè)問題，哪種類比最貼切？我們應(yīng)該把模型看作計(jì)算機(jī)程序嗎？還是應(yīng)該把它們當(dāng)成一個(gè)個(gè)小人物？

從某些角度來說，把它們視作小人物似乎有用。比如，如果我對(duì)模型說些刻薄的話，它會(huì)反擊我，這和人類的反應(yīng)很像，但從另一些角度看，這種心理模型并不恰當(dāng)。所以我們現(xiàn)在卡在這兒了，得弄清楚在什么時(shí)候該借用哪種表述方式。

十一、模型思考過程探索進(jìn)度僅10%～20%，正嘗試讓Claude參與

主持人：這就要引出我最后一個(gè)問題，那就是接下來會(huì)發(fā)生什么？為了讓我們更好地了解這些模型內(nèi)部發(fā)生的事情，并朝著使它們更安全的使命，接下來需要取得哪些科學(xué)進(jìn)步和生物學(xué)進(jìn)步？

巴特森：還有很多工作要做。我們上一篇論文用了很大篇幅闡述當(dāng)前研究方法的局限性，同時(shí)也給出了改進(jìn)的路線圖，比如當(dāng)我們試圖拆解模型內(nèi)部的運(yùn)作機(jī)制時(shí)，可能只捕捉到了其中百分之幾的情況。模型在信息傳遞方面有很多環(huán)節(jié)，我們完全沒有捕捉到。

目前的研究正從我們過去使用的那種小型模型逐步擴(kuò)展，小型模型能力不錯(cuò)，速度也快，但復(fù)雜程度遠(yuǎn)不及Claude 4系列模型。所以這些都屬于技術(shù)層面的挑戰(zhàn)，但我覺得阿梅森和林賽或許會(huì)對(duì)解決這些技術(shù)挑戰(zhàn)之后的科學(xué)層面挑戰(zhàn)有自己的見解。

阿梅森：我想補(bǔ)充兩件事。其中一點(diǎn)是，當(dāng)我們問模型是如何完成某件事時(shí)，目前我們大概只能回答其中10%到20%的問題。經(jīng)過一些調(diào)查研究后，我們能告訴你這些情況下模型是如何運(yùn)作的。我們希望能做得更好，而且要實(shí)現(xiàn)這一點(diǎn)，既有一些明確的途徑，也有一些更具探索性的方法。

我們多次討論過這樣一個(gè)觀點(diǎn)，模型的很多行為并非簡單停留在“如何生成下一句話”這個(gè)層面上，其實(shí)它更像是會(huì)提前規(guī)劃好幾步、構(gòu)思好幾句話。

而且我們希望弄明白的是，在與模型進(jìn)行長時(shí)間對(duì)話的過程中，它對(duì)正在發(fā)生的事情的理解是如何變化的、它對(duì)交談對(duì)象的理解又是如何變化的、這些變化又是怎樣越來越多地影響它的行為的。

像Claude這類模型的實(shí)際應(yīng)用場景是，它會(huì)讀取你的大量文檔、多封郵件，你還會(huì)發(fā)送代碼給它。基于這些信息它會(huì)給出一個(gè)建議。在它讀取所有這些內(nèi)容的過程中，發(fā)生著一些真正重要的事情。因此，我認(rèn)為更好地理解這一過程，似乎是一項(xiàng)巨大的挑戰(zhàn)。

林賽：我們團(tuán)隊(duì)經(jīng)常用一個(gè)比喻，我們正在制造一臺(tái)觀察模型的顯微鏡，現(xiàn)在我們正處于一個(gè)既令人興奮又有點(diǎn)讓人沮喪的階段，這臺(tái)顯微鏡只有20%的時(shí)間能正常工作，但使用它需要很高的技巧，還得搭建一整套復(fù)雜的裝置，并且相關(guān)的基礎(chǔ)設(shè)施總出問題。

同時(shí)，一旦你得出了關(guān)于模型運(yùn)作方式的解釋，還得把巴特森、我以及團(tuán)隊(duì)里的其他人拉到一個(gè)房間里，花上兩個(gè)小時(shí)左右去琢磨到底發(fā)生了什么。但我認(rèn)為在一兩年的時(shí)間內(nèi)，我們可能會(huì)迎來一個(gè)非常令人興奮的未來，到那時(shí)，你與模型的每一次互動(dòng)都能處于這臺(tái)顯微鏡的觀察之下。

模型總會(huì)做出各種稀奇古怪的事，而我們希望能實(shí)現(xiàn)一鍵操作，例如你正在和模型對(duì)話時(shí)，按下按鈕，就能得到一張流程圖，清晰展示它剛才在想什么。

我認(rèn)為到了那個(gè)階段，Anthropic公司的可解釋性研究團(tuán)隊(duì)可能會(huì)呈現(xiàn)出不同的面貌。團(tuán)隊(duì)不再僅僅是一群鉆研大語言模型內(nèi)部運(yùn)作數(shù)學(xué)原理的工程師和科學(xué)家，而會(huì)像一支龐大的生物學(xué)家軍團(tuán)，通過那臺(tái)顯微鏡展開研究。

我們和Claude交流，讓它去做各種新奇的事，然后會(huì)有人通過那臺(tái)顯微鏡去觀察，看看它內(nèi)部到底在想什么。我覺得這大概就是這項(xiàng)研究未來的發(fā)展方向。

巴特森：在此基礎(chǔ)上我再補(bǔ)充兩點(diǎn)。其一，我們希望Claude能協(xié)助我們完成這一切，因?yàn)檫@其中涉及大量環(huán)節(jié)，而像Claude這樣擅長處理成百上千的信息并理清頭緒的角色，正是我們需要的助力，尤其是在應(yīng)對(duì)復(fù)雜場景時(shí)，我們正嘗試讓它參與進(jìn)來。

其二，我們之前談了很多關(guān)于研究完全成型后的模型的內(nèi)容，但顯然，我們所在的公司本身就是研發(fā)這些模型的。所以當(dāng)模型給出答案，比如它是這樣解決這個(gè)特定問題的或它是這樣說出這句話的，我們會(huì)追問這種能力源自何處？它在訓(xùn)練過程中是如何形成的？哪些步驟促使了相關(guān)神經(jīng)回路的構(gòu)建以實(shí)現(xiàn)這種功能？而我們又該如何將這些發(fā)現(xiàn)反饋給公司里其他負(fù)責(zé)模型研發(fā)的團(tuán)隊(duì)，以便他們更好地塑造出我們真正期望的模型？

主持人：非常感謝你們的討論，人們可以在哪里了解更多關(guān)于這項(xiàng)研究的信息呢？

巴特森：如果你想深入了解，可以訪問Anthropic官網(wǎng)的研究板塊，那里有我們的論文、博客文章以及相關(guān)的科普視頻。此外，我們最近與一個(gè)名為Neuronpedia的團(tuán)隊(duì)合作，上線了一些我們制作的模型思考圖譜。所以，如果你想親自嘗試觀察小型模型的內(nèi)部運(yùn)作，可以去Neuronpedia看看。非常感謝大家。

博客文章：https://www.anthropic.com/news/tracing-thoughts-language-model

論文鏈接：https://transformer-circuits.pub/2025/attribution-graphs/biology.html

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

DeepSeek-V3.1發(fā)布：更高效思考、更強(qiáng)Agent能力、更長上下文

生物世界 2025-08-21 16:13:49
4 跟貼 4

KDD2025 Best Paper Runner-Up|EI-BERT：超緊湊語言模型壓縮框架

機(jī)器之心Pro 2025-08-22 16:39:52
0 跟貼 0

阿里全新AI IDE現(xiàn)在免費(fèi)用：超強(qiáng)上下文理解，覆蓋整個(gè)代碼庫

量子位 2025-08-22 14:26:07
25 跟貼 25

波士頓動(dòng)力機(jī)器人終于有腦子了！人類故意使絆子也不怕

量子位 2025-08-22 13:56:40
8 跟貼 8

一句話，讓黑神話鐘馗開口說話！體驗(yàn)百度蒸汽機(jī)2.0的音畫同步，口型還能對(duì)得上嗎？

智東西 2025-08-22 10:20:06
0 跟貼 0

從繁雜技巧到極簡方案：ROLL團(tuán)隊(duì)帶來RL4LLM新實(shí)踐

機(jī)器之心Pro 2025-08-22 14:49:58
0 跟貼 0

人形機(jī)器人賣9.8萬，短期不降價(jià)，智元底氣在哪

澎湃新聞 2025-08-22 07:32:28
763 跟貼 763

教育變革十字路口 AI是“顛覆者”還是“賦能者”？

經(jīng)濟(jì)觀察報(bào) 2025-08-22 21:55:10
0 跟貼 0

超算互聯(lián)網(wǎng)上線開源AI社區(qū)！模型+數(shù)據(jù)+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0

二戰(zhàn)時(shí)最絕妙的返航系統(tǒng)，其工作原理是怎樣的？

點(diǎn)亮經(jīng)訊 2025-08-19 14:00:51
884 跟貼 884

剛剛，大模型棋王誕生！40輪血戰(zhàn)，OpenAI o3豪奪第一，人類大師地位不保？

新智元 2025-08-22 20:39:42
0 跟貼 0

“密碼理論與技術(shù)叢書”又有四本新著出版

科學(xué)出版社 2025-08-22 06:06:23
0 跟貼 0

原理和調(diào)教女人一樣

貂蟬影視 2025-08-20 08:25:42
1 跟貼 1

男子騎行途中怕車被偷了，自己研究出一種鎖車的方法

南陽日?qǐng)?bào) 2025-08-22 17:00:37
87 跟貼 87

萬國鵬深夜發(fā)文再澄清曾追求張予曦：網(wǎng)傳騷擾和道德綁架不實(shí)，綜藝?yán)锒际翘囟ㄇ榫澈颓楣?jié)安排的

封面新聞 2025-08-21 20:52:44
55 跟貼 55

這是什么原理啊

處處世界觀 2025-08-22 12:45:46
2 跟貼 2

大哥表演手臂分離魔術(shù)，原理很簡單，騙了太多單純女性

憨笑大白鵝 2025-08-21 16:28:32
1 跟貼 1

當(dāng)初哈登主使火送炮？一句爆料考語言邏輯雷霆抓小辮往死里揪

籃視角 2025-08-22 03:15:16
1 跟貼 1

北大發(fā)布ToolVQA數(shù)據(jù)集，推動(dòng)多模態(tài)VQA新發(fā)展！

機(jī)器之心Pro 2025-08-22 16:33:57
0 跟貼 0

塔吊是怎么安裝、升高的？困惑多年的疑問終于解決了，原理很簡單

方芳快樂生活 2025-08-21 16:23:13
0 跟貼 0

Deadline 前還在熬夜做圖表，DeepSeek + AI 指令上線，復(fù)雜圖表即可一鍵生成

生物學(xué)霸 2025-03-30 17:36:28
0 跟貼 0

趣味化學(xué)實(shí)驗(yàn)課點(diǎn)燃廣水萌娃科學(xué)探索熱情

有溫度的公益 2025-08-20 18:05:25
0 跟貼 0

電火花切割工藝以及原理

知心學(xué)姐 2025-08-22 17:46:43
0 跟貼 0

花卉博主稱城管趁自己不在家，以防疫為由將花園搬空，損失或超10萬

小蘿卜絲 2025-08-22 09:13:54
13207 跟貼 13207

閻學(xué)通｜學(xué)者應(yīng)多研究原理，少搞政策建議

尚曦讀史 2025-08-18 23:24:02
4 跟貼 4

汽車上的安全氣囊，是如何拯救人的生命的？工作原理是什么？

地球科普記 2025-08-20 16:56:40
1 跟貼 1

ECD：高質(zhì)量合成圖表數(shù)據(jù)集，提升開源MLLM圖表理解能力

機(jī)器之心Pro 2025-08-21 21:23:44
0 跟貼 0

男子做了17個(gè)小時(shí)的實(shí)驗(yàn)終于回家，剛到家門口就開心地跳起了舞

趣聞焦點(diǎn) 2025-08-21 19:50:32
0 跟貼 0

究竟是出于何種考量，又藏著怎樣特殊的工藝邏輯呢

刺激大隊(duì)長 2025-08-18 14:53:27
0 跟貼 0

怪物救了人，反而被當(dāng)成實(shí)驗(yàn)品

阿萌講電影 2025-08-22 09:25:01
1 跟貼 1

解企業(yè)之憂，提審批之速！“政企圓夢大課堂”助力項(xiàng)目建設(shè)“加速跑”

魯中晨報(bào)濱州新聞 2025-08-22 16:35:42
0 跟貼 0

崩潰！論文返修倒計(jì)時(shí)，那個(gè)被我拉黑過的生物銷售，成了唯一的救命稻草

生物學(xué)霸 2025-08-22 18:31:32
0 跟貼 0

螞蟻數(shù)科AI技術(shù)負(fù)責(zé)人：未來要靠智能體原生大模型

機(jī)器之心Pro 2025-08-04 15:47:29
0 跟貼 0

老板用活人做實(shí)驗(yàn)，真是一點(diǎn)好事不做

墨林電影 2025-08-20 11:52:46
1 跟貼 1

弱肉強(qiáng)食勝者為王：阿拉斯加冰原上的紅地毯與大國博弈的冰冷邏輯

浮生未央i 2025-08-22 09:17:02
1 跟貼 1

麻省理工研究：即便建議有誤，患者仍更信任AI的醫(yī)療建議而非醫(yī)生

元宇宙之心 2025-08-22 19:58:26
0 跟貼 0

餐廳暑假工顧著打游戲有人進(jìn)店頭也不抬直接說沒飯老板怒踹椅子

火煉樹 2025-08-22 18:17:04
4601 跟貼 4601

既非武力又非被動(dòng)，解析臺(tái)灣主動(dòng)回歸的底層邏輯

躬耕牛 2025-08-22 17:39:43
0 跟貼 0

人生有意義嗎？無神論與有神論的一次對(duì)話

尚曦讀史 2025-08-21 11:54:14
35 跟貼 35

流浪地球，或許真的需要提上人類日程了！但需要通過月球來實(shí)現(xiàn)

宇宙的秘密 2025-08-22 22:43:51
0 跟貼 0

廣東要求珠江口以西海域漁船回港避風(fēng)！新臺(tái)風(fēng)或登陸海南南部
南方都市報(bào)
2025-08-22 22:17:23

游客圍毆68歲老兵保潔，摁地上踢踹抓咬，身份被扒，警方跨省追兇
奧字侃娛
2025-08-22 09:44:15

《凡人修仙傳》火了的趙晴，似乎還沒來的及開心，瓜就來啦
大公主
2025-08-22 17:24:51

媒體人：CBA引進(jìn)外援受NBA和歐洲影響不小利夫在歐洲3年300萬刀
直播吧
2025-08-22 17:32:06

明天4時(shí)34分，南昌正式進(jìn)入……
魯中晨報(bào)
2025-08-22 17:16:16

恒大地產(chǎn)廣東公司被廣州市中級(jí)人民法院裁定破產(chǎn)清算
澎湃新聞
2025-08-22 15:18:28

首例5胞胎長大了，父親已勞累去世，母親直言:如能重來一個(gè)也不要
柳絮憶史
2025-07-22 07:15:03

40.9℃“高溫補(bǔ)貼”鬧?。赫l在薅外賣員的羊毛？
沈素明
2025-08-22 15:31:49

時(shí)隔23天，官媒再出手，更多真相被爆，徹底扯下釋永信“遮羞布”
鋭娛之樂
2025-08-21 21:56:58

沒有100萬在股市里很難賺到錢。
流蘇晚晴
2025-08-21 18:11:41

中國發(fā)布法規(guī)嚴(yán)控稀土流向，嚴(yán)令個(gè)人不得從事稀土開采和稀土冶煉分離
新京報(bào)
2025-08-22 15:56:15

中國最大的純電SUV，殺瘋了！
品牌頭版
2025-08-22 18:42:08

賽后立即離開，孫穎莎和曼昱不和？獨(dú)自接受采訪，誰注意曼昱表態(tài)
東球弟
2025-08-22 11:23:22

被高云翔評(píng)論區(qū)笑死了：哥，你給董璇氣成啥樣，讓她找了個(gè)粑粑柑
甜檸聊史
2025-08-22 11:53:33

“我們的受閱裝備是打仗的裝備，一聲令下，就能從閱兵場開向戰(zhàn)場”
政知新媒體
2025-08-21 22:18:51

瑞典大滿貫：單打4強(qiáng)誕生，男女雙決賽出爐，國乒混雙奪冠有隱憂
古來者說
2025-08-22 09:51:04

古利特：不知道上田綺世是否真的適合踢前鋒，他有時(shí)笨手笨腳
雷速體育
2025-08-22 13:06:52

詹杜庫2K26能力值：三人均進(jìn)Top10！詹庫都是94 老杜93
直播吧
2025-08-22 10:08:09

收評(píng)：滬指漲1.45%站上3800點(diǎn) 算力芯片股集體爆發(fā)
財(cái)聯(lián)社
2025-08-22 15:03:23

性學(xué)研究僧
2025-06-17 22:37:40

2025-08-22 23:44:49

智東西

聚焦智能變革，服務(wù)產(chǎn)業(yè)升級(jí)。

10350文章數(shù) 116831關(guān)注度

往期回顧全部

科技要聞

命運(yùn)曲折！傳H20芯片停產(chǎn)，英偉達(dá)這樣回應(yīng)

特朗普"國家隊(duì)"思路，在美國走得通嗎？

人形機(jī)器人賣9.8萬，短期不降價(jià)，智元底氣在哪

要被阿里分拆上市的斑馬，成色幾何

僅靠2名銷售，這家AI公司拿下騰訊索尼

頭條要聞

上海女子在臥室汗毛豎起來了墻上突現(xiàn)3個(gè)洞正對(duì)著床

理發(fā)師給女孩擦碎發(fā)時(shí)被指猥褻不服行拘處罰起訴警方

"晴格格"王艷直播帶貨兩場賣3000多萬丈夫已被"限高"

民警夜訪爆料人家庭當(dāng)?shù)胤Q"雙方交流平和" 當(dāng)事人回應(yīng)

一名美國士兵因涉嫌對(duì)華出售機(jī)密被控為間諜中方回應(yīng)

頭條要聞

上海女子在臥室汗毛豎起來了墻上突現(xiàn)3個(gè)洞正對(duì)著床

理發(fā)師給女孩擦碎發(fā)時(shí)被指猥褻不服行拘處罰起訴警方

"晴格格"王艷直播帶貨兩場賣3000多萬丈夫已被"限高"

民警夜訪爆料人家庭當(dāng)?shù)胤Q"雙方交流平和" 當(dāng)事人回應(yīng)

一名美國士兵因涉嫌對(duì)華出售機(jī)密被控為間諜中方回應(yīng)

體育要聞

中國足球青訓(xùn)問題在哪?對(duì)話歐塞爾青訓(xùn)總監(jiān)

賽前流鼻血，賽中被打11-1！孫穎莎4-1伊藤美誠，豪取交手11連勝

五局大戰(zhàn)勝出！陳熠4-1躋身歐洲大滿貫四強(qiáng)，半決賽將戰(zhàn)孫穎莎

楊瀚森腫著熊貓眼回復(fù)東契奇：謝謝關(guān)注等你的手機(jī)號(hào) 賽場見

國乒獨(dú)苗晉級(jí)決賽！孫穎莎/王曼昱3-0橫掃韓國組合，宣戰(zhàn)日本王牌

娛樂要聞

前女友曝許凱出軌于正說在酒店背臺(tái)詞

楊子否認(rèn)新戀情：對(duì)黃圣依還很愛

李連杰手術(shù)遭嘲諷，跨國身份惹爭議

汪小菲馬筱梅帶娃返臺(tái)，夫妻倆相約外出用餐

宋丹丹“沒白活”家庭地位盡顯兒媳也百般討好

財(cái)經(jīng)要聞

節(jié)卡股份IPO上會(huì)前被取消審議

楊德龍：突破4000點(diǎn)只是時(shí)間問題

東方甄選前CEO孫東旭離職？知情人士回應(yīng)

滬指站上3800點(diǎn) 芯片股爆發(fā) 寒武紀(jì)漲停

泰禾集團(tuán)：董事長黃其森因涉嫌違法被遼寧省新民市監(jiān)察委員會(huì)實(shí)施留置措施

汽車要聞

新智界R7/S7首發(fā)車外語音泊車功能，華為黑科技上車

風(fēng)行星海V9越享系列上市售價(jià)17.99萬元起

蔚來殺瘋了全新ES8預(yù)售價(jià)41.68萬起

小鵬汽車預(yù)計(jì)四季度盈利

東風(fēng)華為怎么合作，猛士M817具象化了

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

手機(jī)

游戲

公開課

軍事航空

教育要聞

教育先行，助力丹鳳拔窮根——中國社會(huì)科學(xué)院定點(diǎn)幫扶丹鳳實(shí)踐

在押人員能參加高考嗎

南陽市一中2025級(jí)高一新生分班查詢、軍訓(xùn)須知

閃電演講 | 大樹老師余軍：堅(jiān)守鄉(xiāng)村教育初心，點(diǎn)亮鄉(xiāng)村孩子夢想

南陽實(shí)驗(yàn)學(xué)校學(xué)子喜獲全省特等獎(jiǎng)！

手機(jī)要聞

OriginOS 6 Beta測試已開啟：嘗鮮機(jī)型、細(xì)節(jié)變化，均已清晰！

紅米Note15系列線下上手反饋：三款版本，哪款更值得選擇？

vivo新機(jī)被確認(rèn)：天璣7300+8200mAh電池，主打大直屏設(shè)計(jì)！

OPPO Reno15系列再次被確認(rèn)：三屏+全是直屏，陣容擴(kuò)大中！

《絲之歌》讓前作熱度飆升!《空洞騎士》Steam再爆火

外媒評(píng)《合金裝備3RE》：更像是超級(jí)復(fù)刻版

《黑神話：鐘馗》的文件夾還沒建好，差評(píng)和笑話吧就齊活了"/> 主站商城論壇自運(yùn)營登錄注冊《黑神話：鐘馗》的文件夾還沒建好，差評(píng)和笑話吧就齊活...

《流放之路：降臨》制作人采訪：版本革新和優(yōu)化，保證每個(gè)玩家的體驗(yàn)

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門檻

為什么人類有不同的膚色？

“三思而后行”，下半句才是孔子本意

李彥宏：百度離破產(chǎn)30天

軍事要聞

"坦克兵王"將第6次參加閱兵

九三閱兵他們將第一個(gè)走過天安門廣場

俄外長：目前普京與澤連斯基沒有會(huì)晤計(jì)劃

普京向特朗普提出俄烏?；鹚捻?xiàng)條件

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

大模型究竟是怎么思考的？這可能是近期最有趣的高質(zhì)量AI訪談

命運(yùn)曲折！傳H20芯片停產(chǎn)，英偉達(dá)這樣回應(yīng)

上海女子在臥室汗毛豎起來了 墻上突現(xiàn)3個(gè)洞正對(duì)著床

上海女子在臥室汗毛豎起來了 墻上突現(xiàn)3個(gè)洞正對(duì)著床

中國足球青訓(xùn)問題在哪?對(duì)話歐塞爾青訓(xùn)總監(jiān)

前女友曝許凱出軌 于正說在酒店背臺(tái)詞

節(jié)卡股份IPO上會(huì)前被取消審議

新智界R7/S7首發(fā)車外語音泊車功能，華為黑科技上車

態(tài)度原創(chuàng)

教育先行，助力丹鳳拔窮根——中國社會(huì)科學(xué)院定點(diǎn)幫扶丹鳳實(shí)踐

OriginOS 6 Beta測試已開啟：嘗鮮機(jī)型、細(xì)節(jié)變化，均已清晰！

《絲之歌》讓前作熱度飆升!《空洞騎士》Steam再爆火

"坦克兵王"將第6次參加閱兵

大模型究竟是怎么思考的？這可能是近期最有趣的高質(zhì)量AI訪談

命運(yùn)曲折！傳H20芯片停產(chǎn)，英偉達(dá)這樣回應(yīng)

上海女子在臥室汗毛豎起來了墻上突現(xiàn)3個(gè)洞正對(duì)著床

上海女子在臥室汗毛豎起來了墻上突現(xiàn)3個(gè)洞正對(duì)著床

前女友曝許凱出軌于正說在酒店背臺(tái)詞

新智界R7/S7首發(fā)車外語音泊車功能，華為黑科技上車

OriginOS 6 Beta測試已開啟：嘗鮮機(jī)型、細(xì)節(jié)變化，均已清晰！