8月20日,Gemini 產(chǎn)品負責(zé)人 Tulsee Doshi與Google DeepMind 杰出研究員 Madhavi Sewak 共同接受了海外播客 Superhuman AI 主持人 Hassan 的專訪。本次對話探討了Gemini 模型系列的最新進展及其在現(xiàn)實世界中的應(yīng)用,包括 Gemini 2.5 Pro 與 2.5 Flash 在構(gòu)建 AI Agent 時的協(xié)同策略,“提示工程”到“上下文工程”的范式轉(zhuǎn)變,國際數(shù)學(xué)奧林匹克競賽(IMO)的勝利對模型通用推理能力的意義,AI 時代下創(chuàng)造力與“品味”等新必備技能的崛起,以及 Google 內(nèi)部產(chǎn)品與工程團隊的高效協(xié)作模式。
Madhavi Sewak 提出,利用像2.5 Pro這樣強大的模型進行頂層規(guī)劃,再由 2.5 Flash等輕量級模型驅(qū)動的子代理執(zhí)行具體任務(wù),是構(gòu)建高效 AI Agent 的有效方法。雙方一致認為如何讓 AI Agent 有效維持和利用上下文與記憶,是整個行業(yè)面臨的、尚未被攻克的關(guān)鍵難題。隨著百萬級上下文窗口的出現(xiàn),關(guān)鍵技能正從“提示工程”轉(zhuǎn)向“上下文工程”。大語言模型約每三個月就有一次迭代,未來的技術(shù)棧必須具備極高的靈活性,以適應(yīng)這種驚人的發(fā)展速度。Tulsee Doshi認為,現(xiàn)有的 AI 基準測試很快會被模型的能力“刷爆”,行業(yè)需要持續(xù)革新評估方法,轉(zhuǎn)向更能衡量綜合、主觀能力的體系,如模型行為和個性化。
01
Gemini 的開發(fā)者機遇
如果我是一名正在創(chuàng)建 AI Agent 公司的開發(fā)者,關(guān)于 Gemini 和 DeepMind,我應(yīng)該關(guān)注哪些方面?你們是否發(fā)布過相關(guān)的論文或博客,來幫助開發(fā)者學(xué)習(xí)如何為 Gemini 系列模型編寫提示的最佳實踐?
Tulsee Doshi:我先說幾點,然后請 Madhavi 補充。我認為有兩點值得關(guān)注。首先,最核心的亮點是 Gemini 2.5 。我們?yōu)?Gemini 2.5 在構(gòu)建 AI Agent 產(chǎn)品和應(yīng)用場景方面的能力感到非常自豪。這主要體現(xiàn)在幾個關(guān)鍵方面。第一是核心能力。例如,Gemini 在代碼方面的性能,它能夠顯著提升代碼生成的質(zhì)量。我們看到,無論是將模型用于集成開發(fā)環(huán)境,還是用于構(gòu)建端到端的應(yīng)用程序,開發(fā)者們都對此反響熱烈。
我們也看到,大家對使用 2.5 Flash這樣的模型也表現(xiàn)出極大的興趣。這是一款更小、成本更低的輕量級模型,但你可以用它來運行一系列子代理,然后將它們整合起來完成更大規(guī)模的任務(wù)。這種能力很好地平衡了成本與質(zhì)量,從而讓你在保證模型質(zhì)量的同時,能夠?qū)崿F(xiàn)更多的功能。另外一個非常重要的方面是多模態(tài)能力。Gemini 的一個突出優(yōu)勢是其卓越的圖像和視頻理解能力,因此在屏幕理解等任務(wù)上表現(xiàn)非常出色。當(dāng)你構(gòu)想 AI Agent 的未來時,你希望有一個專家能如影隨形,實時看到你所見的,并據(jù)此采取行動。因此,我認為這個發(fā)展方向也極具潛力。
Madhavi Sewak:在 Tulsee 的基礎(chǔ)上補充一點,一個對我們非常有效的方法是:使用像2.5 Pro這樣強大的大語言模型來制定計劃,然后像 Tulsee 剛才提到的,由基于 2.5 Flash或 Pro 的較小規(guī)模的 AI Agent 來執(zhí)行這些計劃。這讓上下文工程變得格外重要。過去大家普遍認為,要獲得出色的 AI Agent 性能,就需要對模型進行微調(diào)。但正如我們在整個行業(yè)中所觀察到的,無論是我們自己還是競爭對手,現(xiàn)在通過提示模型,并在上下文中傳遞正確的信息,無論是瀏覽器控件信息、API 調(diào)用,還是用戶個人信息,只要你清晰地定義了任務(wù)目標,所有這些信息都能幫助你構(gòu)建一個非常出色的 AI Agent。我們合作的許多公司以及我們內(nèi)部團隊都發(fā)現(xiàn),這種方法的表現(xiàn)非常出色。
Tulsee Doshi:順著這一點來說,很有意思的是,你提供的指令確實能帶來天壤之別的結(jié)果。因此,我們自身以及與開發(fā)者的合作中都在不斷學(xué)習(xí):如何更好地向 Gemini 提供指令。這是一項我們和開發(fā)者都需要不斷精進的技能,而且不同模型適用不同指令。所以,這也是我們希望與開發(fā)者社區(qū)繼續(xù)共同探索和合作的領(lǐng)域。
(關(guān)于為 Gemini 編寫提示的最佳實踐)我們確實提供了一些官方文檔,我稍后很樂意分享給你。而且我們認為這是一個需要持續(xù)投入的領(lǐng)域。分享實例也至關(guān)重要。因此,在 GitHub 等平臺上,我們通過像 Gemini cookbook 這樣的項目,努力提供豐富的示例,展示用 Gemini 能做什么、能構(gòu)建什么,以及我們自己構(gòu)建了哪些應(yīng)用。這些都可以成為開發(fā)者們參考和借鑒的指南,我認為這非常有幫助。
02
普通用戶的Gemini 多元玩法
假設(shè)我是一個不訪問 API 的普通用戶,你們觀察到普通用戶利用 Gemini 應(yīng)用解決日常問題有哪些令人驚艷的場景?
Madhavi Sewak:關(guān)于 Gemini 應(yīng)用的用例,在我回答這個問題之前,請允許我先補充一下剛才關(guān)于開發(fā)者的問題。目前有一種非常流行且對 Gemini 系列模型特別有效的方法論,叫做 RASCEF 框架,即:角色 (Role) 、行動 (Action) 、步驟 (Steps) 、上下文 (Context) 、示例 (Examples) 和格式 (Format) 。只要遵循這個框架,Gemini 的性能會得到極大提升。強烈建議大家試試。
至于應(yīng)用場景,坦白說,提示工程本身的方法正在趨于統(tǒng)一,我認為大家應(yīng)該把更多的注意力轉(zhuǎn)移到上下文工程上。這個領(lǐng)域已經(jīng)有一些非常出色的論文發(fā)表了,后續(xù)我可以分享給大家。說到底,這更像一門藝術(shù),需要自己動手去嘗試,才能發(fā)現(xiàn)它的有效之處。
說到 Gemini 應(yīng)用的用例,我個人最喜歡的一個是用圖片生成視頻,做得越搞怪越好玩越好,然后發(fā)給我所有親近的人。
Tulsee Doshi:那個真的很棒。你經(jīng)常會在周日早上突然收到 Madhavi 的消息,她會說:“看我做了個這個?!?/p>
Madhavi Sewak:然后視頻里的 Tulsee 就在跳著全套的寶萊塢舞蹈,中間還換了六套服裝。 我們在角色一致性方面做得越來越好,所以視頻里跳著寶萊塢舞的 Tulsee,看起來真的很像 Tulsee 本人。在我看來,這非常棒。而且這對創(chuàng)作者來說也極其有用,創(chuàng)作者們就喜歡這類應(yīng)用場景。這充滿了創(chuàng)造力。我認為,通過 Veo3 這類技術(shù),我們正在進入一個新階段,在 Gemini 應(yīng)用里進行創(chuàng)意表達正變得前所未有的有趣,這太酷了。
Tulsee Doshi:除此之外,我個人一直非常喜歡的兩個應(yīng)用是“深度研究” 和 “Canvas”。我認為這兩項功能很好地展示了2.5 Pro的強大能力。我一直在用 Canvas 創(chuàng)造各種有趣的實例,甚至包括和朋友們舉辦游戲之夜。我們現(xiàn)在形成了一個慣例:用 Canvas 來創(chuàng)建互動的《Jeopardy》問答游戲板,比如舉辦一場寶萊塢主題或哈利波特主題的知識問答之夜,生成一個互動游戲板,和朋友們一起玩。
這更能說明一點:Gemini 能夠?qū)⒑A康氖澜缰R、強大的推理能力與像 Canvas 或視頻生成這樣的創(chuàng)意功能完美結(jié)合。因此,你現(xiàn)在可以做一些非常有趣的事情,你可以引入任何你擁有的關(guān)于世界的上下文信息,然后通過代碼將其轉(zhuǎn)化為豐富的互動體驗?!吧疃妊芯俊惫δ軇t能讓你在此基礎(chǔ)上更進一步,用于撰寫研究報告和進行更深度的推理分析。
03
IMO 的勝利是模型通用推理能力的強信號
最近 Google 的模型在國際數(shù)學(xué)奧林匹克競賽 (IMO) 中取得了勝利,從開發(fā)者的角度看,我們應(yīng)該在多大程度上關(guān)注這類基準測試的成績,或者說更應(yīng)關(guān)注哪些方面?
Tulsee Doshi:在公司內(nèi)部,我們經(jīng)常討論的一個話題就是:像 IMO 這樣的基準測試成績,如何轉(zhuǎn)化為在現(xiàn)實世界中的實際性能?令我印象非常深刻的一點是,在 IMO 上的卓越表現(xiàn),其實是模型通用推理能力的一個極強信號。而這種推理能力是可以跨領(lǐng)域遷移的。所以,你看到模型在數(shù)學(xué)上表現(xiàn)出色,但實際上,這意味著它在可驗證推理 (verifiable reasoning) 、邏輯、問題解決和證明等多個方面都取得了進步。這些進步可以直接體現(xiàn)在代碼性能和研究性能上。事實上我們發(fā)現(xiàn),獲得 IMO 金牌的模型在其他領(lǐng)域也同樣表現(xiàn)優(yōu)異。因此,推理能力的這種通用性和可遷移性,正是我們對這些勝利感到如此興奮的部分原因。當(dāng)然,還有一個事實是,我們能夠推動這些技術(shù)前沿,也意味著我們可以成為數(shù)學(xué)研究領(lǐng)域更好的合作伙伴,這一點也讓我們非常振奮。
Madhavi Sewak:接著數(shù)學(xué)研究的話題再補充一點,我們目前正在嘗試攻克一個尚未解決的千禧年大獎難題,這完全是純粹的推理能力的體現(xiàn)。另一方面,我們也與云部門的企業(yè)客戶緊密合作。比如,像 AI 摘要或翻譯這類應(yīng)用場景,即便是 2.5 Flash這樣輕量級的模型系列也能完成得非常出色,并且這類應(yīng)用正變得越來越普及。我們會確保從這些企業(yè)客戶那里獲得大量反饋,以便持續(xù)地引導(dǎo)和優(yōu)化模型在這些真實世界場景中的表現(xiàn)。所以我認為,我們的策略是二者的結(jié)合:既要攀登理論研究的高峰,也要立足于實際應(yīng)用。
04
一年內(nèi)模型將擁有巨大的上下文窗口
當(dāng)模型被用于 AI Agent 產(chǎn)品時,如何評估、理解并控制其行為軌跡至關(guān)重要。Google 和 DeepMind 是否正在為開發(fā)者簡化這方面的工作?未來幾個月上下文窗口會達到 200 萬 Token 嗎?
Madhavi Sewak:是的。首先,簡短的回答是肯定的。我們希望提供工具來簡化這個過程嗎?是的。我們希望將我們所有的評估體系都轉(zhuǎn)向以 AI Agent 為核心嗎?并且開始衡量由不同大小的模型進行規(guī)劃和執(zhí)行所構(gòu)成的整個系統(tǒng)的真實世界性能嗎?是的。同時我們也要研究,例如,哪些信息會污染上下文,哪些不會。舉個例子,我們有時發(fā)現(xiàn),瀏覽器控件會產(chǎn)生大量雜亂的日志,這會嚴重干擾 AI Agent 的判斷。在這種情況下,你可以讓一個子代理去處理。但反過來,當(dāng)用戶與你對話時,如果將這些對話上下文直接提供給 AI Agent,模型的表現(xiàn)就會非常好,因為這對模型來說是極有價值的信息。
而且,隨著 Gemini 2.5 超長上下文窗口的出現(xiàn),我們支持一百萬Token。但我們已經(jīng)具備了這個能力,并且未來某個時候也會支持兩百萬 Token。有了這個能力,上下文處理會變得越來越簡單。所以讓我們展望一下六個月甚至一年后的世界,屆時我們將擁有巨大的上下文窗口,所有這些上下文工程都會變得越來越容易。但我認為,對開發(fā)者來說,最重要的事情就是,要為未來的模型而構(gòu)建。因為如果你今天開始開發(fā),三個月后產(chǎn)品進入市場時,你面對的將是完全不同的一套模型能力。如果你的架構(gòu)不夠靈活,你就已經(jīng)落后了。想到軟件工程已經(jīng)發(fā)展到這個地地步,感覺有些不可思議。但總而言之,我們正在解決這個問題,并且會提供相應(yīng)的工具。在 Google,我們承認我們應(yīng)該在這個領(lǐng)域提供更好的解決方案,并且我們正在為此努力。
Tulsee Doshi:長上下文真正激動人心的一點在于,即便只看我們現(xiàn)有的能力,我們也能幫助模型學(xué)到更多,并讓其在執(zhí)行任務(wù)路徑時變得更加動態(tài)。這是我們希望繼續(xù)深入探索的領(lǐng)域。
另外,正如你剛才提到的,未來的應(yīng)用場景本身也在日新月異——我所說的“未來”,甚至可能就是指一個月之后。因此,我們一直在做的一件事,就是不斷調(diào)整我們的評估體系來跟上這種變化,去測試新的用戶旅程和新的實現(xiàn)方法。這其中也包括打造一些原型產(chǎn)品,以便我們進行測試和學(xué)習(xí)。所以,大家看到的 Mariner、Astra 等項目,其實也是我們在嘗試和測試不同類型的 AI Agent 工作流,從而了解用戶真正在哪些方面感受到了價值,并通過這些學(xué)習(xí)反過來讓模型變得更強。
(關(guān)于 200 萬 Token 上下文窗口)我認為這個問題亟待解決,事實上,我們之前就已經(jīng)發(fā)布了 200 萬 Token 的上下文窗口。我們不僅有支持該功能的模型,也已經(jīng)有客戶在實際案例中利用它了。我認為,我們當(dāng)前工作的重點是要權(quán)衡并理解這 200 萬 Token 上下文窗口的價值,明確哪些用戶需要它,以及如何以規(guī)?;姆绞竭M行發(fā)布。這正是我們目前在做的工作。
Madhavi Sewak:這個領(lǐng)域也有相關(guān)的外部論文。其中一篇提到了一種叫做“反思式提示進化”的方法。這是一種遺傳式的提示進化方法,本質(zhì)上完全通過提示工程實現(xiàn),并且在某些場景下,其性能甚至超越了強化學(xué)習(xí)。具體來說,這個 GPA 系統(tǒng)會利用推理、工具調(diào)用和工具輸出的結(jié)果,以自然語言的方式反思哪些環(huán)節(jié)成功、哪些失敗,從而診斷問題。然后,它會采用多個提示作為“父代”,通過結(jié)合它們的優(yōu)點,衍生出新的“子代”提示。經(jīng)過大約 25 輪迭代后,這些新一代提示的性能甚至?xí)?yōu)于強化學(xué)習(xí)。所有這些都可以在上下文工程的范疇內(nèi)完成,你完全不需要對模型進行任何微調(diào)。你現(xiàn)在就可以用2.5 Pro模型,通過這種方法獲得非常出色的性能。因此,如果你想利用當(dāng)今的模型來開發(fā)非常先進的 AI Agent 系統(tǒng),我強烈推薦你嘗試一下。
05
AI 時代的新必備技能
當(dāng) AI 越來越多地承擔(dān)技術(shù)執(zhí)行層面的工作時,在你們看來,什么才是新的必備技能?
Madhavi Sewak:我認為創(chuàng)造力將是未來的關(guān)鍵技能之一。過去,你可能有很多絕妙的想法,但苦于無法實現(xiàn)。而現(xiàn)在,當(dāng)技術(shù)實現(xiàn)變得越來越容易時,我非常期待看到人類能迸發(fā)出怎樣的創(chuàng)造力,來全面地改善我們的生活。
Tulsee Doshi:Madhavi 和我經(jīng)常討論一個詞——“品味”。在當(dāng)下的新環(huán)境中,這是一個非常有趣的詞。尤其從產(chǎn)品經(jīng)理的角度來看,過去產(chǎn)品經(jīng)理的角色很大程度上是撰寫產(chǎn)品需求文檔 (PRD),用長篇大論的文字來描述你想要構(gòu)建的產(chǎn)品。但現(xiàn)在,產(chǎn)品經(jīng)理可以非常迅速地構(gòu)建出產(chǎn)品原型。因此,對于“什么是好的 PRD”的定義也發(fā)生了變化。在某種程度上,現(xiàn)在評估指標就是新的 PRD,產(chǎn)品原型就是新的 PRD。能夠清晰有效地傳達你的愿景,成了一項新技能。所以,我認為這不僅關(guān)乎創(chuàng)造力,更關(guān)乎如何將創(chuàng)造力有效地傳達出去。
所以,我認為這可以歸結(jié)為三項核心技能。首先是創(chuàng)造力,其次是溝通能力。最后,就是戰(zhàn)略能力。我們需要工程領(lǐng)域的領(lǐng)導(dǎo)者來幫助我們設(shè)計整體架構(gòu),并將所有部分整合起來;同時,他們還需要從戰(zhàn)略高度判斷何時以及如何有效地利用 AI。因此,這種綜合知識將持續(xù)保持其重要性。我們希望 AI 系統(tǒng)能成為工程師的得力伙伴,這就需要我們的工程師們深入理解并精準把握何時應(yīng)該有效利用 AI、何時需要對 AI 的結(jié)果進行有效驗證,具備這種判斷力和細致的洞察力將至關(guān)重要。
Madhavi Sewak:正如 Tulsee 所說,那些公司傳統(tǒng)上雇傭的首席架構(gòu)師等高級技術(shù)人員,確實需要更新他們對技術(shù)架構(gòu)的理解,轉(zhuǎn)向以大語言模型為中心。大語言模型正在改變整個技術(shù)棧,從模型服務(wù)、用戶上下文的傳遞方式,到如何在技術(shù)棧上實現(xiàn)快速迭代,無一例外。過去那些龐大的單體系統(tǒng),可能只有少數(shù)行業(yè)頂尖專家才能完全掌握,但很快,人人都能理解它們。因此,你如何能讓自己的技術(shù)棧變得極其靈活,并能跟上新模型每三個月就更新一次的迭代速度?所以,我非常贊同 Tulsee 的觀點:確保技術(shù)架構(gòu)和公司戰(zhàn)略能夠跟上大語言模型本身及其驚人的發(fā)展速度,這一點至關(guān)重要。
06
產(chǎn)品與工程的協(xié)作之道
一位產(chǎn)品負責(zé)人和一位工程負責(zé)人是如何協(xié)作的?你們?nèi)绾螀f(xié)調(diào)優(yōu)先級,尤其是在推動前沿研究突破和滿足當(dāng)前產(chǎn)品需求之間?
Tulsee Doshi:首先,持續(xù)的溝通是我們當(dāng)前運作模式的基礎(chǔ)。但回到你關(guān)于如何確定優(yōu)先級的問題,我認為一個良好的產(chǎn)品與工程合作關(guān)系的關(guān)鍵在于,你們必須真正地像一個伙伴團隊一樣去工作。如果你們的工作模式是“產(chǎn)品團隊去制定一份路線圖,然后拿回來給工程團隊執(zhí)行”,那幾乎必然會導(dǎo)致雙方的脫節(jié)。因為優(yōu)秀的工程和研究負責(zé)人同樣具備出色的產(chǎn)品嗅覺,而優(yōu)秀的產(chǎn)品負責(zé)人也深諳技術(shù)。所以,雙方必須真正理解彼此的限制條件,才能共同規(guī)劃前進的方向。以 Gemini 為例,我們制定優(yōu)先級時,通常會結(jié)合兩個方面的信息。一方面是響應(yīng)用戶需求,我們會進行用戶研究,了解橫跨我們各項產(chǎn)品的用戶需求,并分析開發(fā)者和核心客戶的反饋,找出他們遇到的問題。通過這個過程,我們會明確當(dāng)前在代碼能力、工具使用等方面最大的短板,或是導(dǎo)致用戶轉(zhuǎn)向競爭對手的關(guān)鍵差距。這是第一部分。但另一方面,我們也要驅(qū)動創(chuàng)新。我們不能僅僅跟隨用戶的反饋,更要向前看,去思考“三年后的世界會是怎樣?我們現(xiàn)在需要投資哪些關(guān)鍵領(lǐng)域?”這可能意味著投資長上下文技術(shù)、更好的音頻理解能力,或是卓越的視頻生成技術(shù),這些我們認為能夠真正推動技術(shù)前沿的領(lǐng)域。通常來說,如果我們做得正確,我們的最終優(yōu)先級應(yīng)該是一個由這兩種思路構(gòu)成的、平衡的投資組合。
07
DeepMind 的研究成果如何體現(xiàn)在產(chǎn)品應(yīng)用上
DeepMind 在進行前沿 AI 研究,這種協(xié)作是如何進行的?DeepMind 的研究成果,是如何最終體現(xiàn)在全球數(shù)十億人使用的產(chǎn)品和應(yīng)用中的?
Tulsee Doshi:我們的定位是讓 Google DeepMind,特別是 Gemini,成為驅(qū)動整個 Google 的“引擎室”。如果我們成功,Gemini 就能像一顆種子,在公司內(nèi)部催生出各種令人驚嘆的創(chuàng)新體驗。這一點已經(jīng)開始在我們發(fā)布的產(chǎn)品中顯現(xiàn)。以搜索中的“AI 概覽”為例,就每日使用它來獲取有效信息和答案的用戶數(shù)量而言,它即便不是全球范圍內(nèi),也是規(guī)模最大的生成式 AI 應(yīng)用之一。我們看到 Gemini 在不同的產(chǎn)品形態(tài)中發(fā)揮著作用,無論是在搜索場景里,還是在獨立的 Gemini App 中,亦或是在 Google Photos 里用 AI 來查詢照片內(nèi)容。我們希望 Gemini 能成為這個引擎的核心,并在此基礎(chǔ)上構(gòu)建能夠服務(wù)于所有產(chǎn)品的通用能力。因此,我們工作的核心就是,如何將從各個產(chǎn)品團隊收集到的紛繁多樣的用例需求,提煉成 Gemini 必須精通的核心基礎(chǔ)能力,從而有能力去驅(qū)動如此多樣化的用戶體驗。
Madhavi Sewak:我們與 Google DeepMind 的 CTO Koray 緊密合作,他最近也被任命為 Google 的首席 AI 架構(gòu)師。他的核心任務(wù)就是推動 AI 技術(shù)在 Google 各產(chǎn)品線中的落地和普及,尤其是從那些擁有數(shù)十億用戶的旗艦產(chǎn)品開始。這也是我目前工作的重點。在過去幾個月里,我參與的一個重要項目就是 AI mode。我們致力于將 Gemini 最精華的能力注入 AI mode,并快速交付給用戶,以滿足他們對信息的探索需求。這種探索體驗?zāi)軌蜃層脩簟吧钊胪米佣础?,進行層層遞進的挖掘式搜索。無論是通過常規(guī)的 AI mode,還是“深度研究”模式,它最終都能為你呈現(xiàn)一個關(guān)于某個主題的、非常全面有效的認知圖景。
我給你舉個例子。我最近在布置新家,需要買一大堆東西,但完全沒有時間。最后,我干脆直接問 AI mode,讓它幫我了解各種商品的特點,我把所有想問的問題都拋給了它,最后,我只需點擊 AI mode在回答中提供的內(nèi)聯(lián)鏈接,就直接跳轉(zhuǎn)過去完成了購買。這一次,我真的完全沒有上任何購物網(wǎng)站去做信息搜集。作為 AI mode的用戶,我感到非常滿意,因為它讓我能夠為這些日常家居用品的采購,做出非常明智的決策。
Tulsee Doshi:這其實也呼應(yīng)了 Google 搜索的使命——讓全世界的信息都觸手可及。Gemini 的角色,正是讓這一使命變得空前強大的新引擎。我們并不是在設(shè)定一個新目標,而是在延續(xù)我們一直以來的追求,那就是以最便捷、最有效、信息最豐富的方式,讓用戶獲取他們需要的信息。而 Gemini,正是在各個方面讓這一過程變得更加高效。
08
讓所有產(chǎn)品為用戶提供端到端的支持
未來,我們是否會看到 Google 的搜索產(chǎn)品演化出真正的 AI Agent 能力,從而完全自主地執(zhí)行端到端任務(wù)?未來會是一個具備 AI Agent 能力的 Chrome 瀏覽器,還是會更像 Gemini 這樣的獨立應(yīng)用?
Tulsee Doshi:我們的愿景是,讓所有產(chǎn)品最終都能為用戶提供端到端的支持,這無疑是我們前進的方向。至于關(guān)鍵在于要明確哪些端到端任務(wù)最值得我們?nèi)ブС?,以及如何最高效地實現(xiàn)它們。這需要我們和用戶共同進行實驗,深入到 Chrome、搜索和 App 等不同產(chǎn)品的實際場景中,與用戶合作來打造新體驗、收集反饋,并在此基礎(chǔ)上持續(xù)迭代優(yōu)化。我們需要厘清,例如,用戶在何種場景下獲取信息最便捷?哪些任務(wù)他們樂于委托給 AI,哪些又傾向于親力親為?在哪些環(huán)節(jié)他們需要人工驗證,哪些又可以完全信任地交由 AI 處理?我們對這些問題有一些初步假設(shè),正在測試驗證,并將在未來幾個月持續(xù)迭代探索。
Madhavi Sewak:無論在 AI mode還是其他系統(tǒng)中,我們都與出版商生態(tài)系統(tǒng)緊密合作,他們是我們多年的合作伙伴。我們希望攜手他們共同發(fā)展,因為他們才是服務(wù)的最終提供方、購物網(wǎng)站的運營者以及數(shù)據(jù)的來源方。我們致力于確保用戶能通過我們找到最合適的網(wǎng)站,獲取所需信息,最終促進整個生態(tài)系統(tǒng)以這種方式良性運轉(zhuǎn)。
09
保持模型能力的通用性,同時打造整合的編程產(chǎn)品
編程是你們的戰(zhàn)略重點,你們是否考慮過推出一款專門為編程優(yōu)化的獨立模型,或者Google 是否會推出一個圍繞編程的整合性產(chǎn)品?
Madhavi Sewak:在模型層面,我們的理念是采取最合理的策略。只要一個通用模型的能力可以很好地泛化和遷移,并且在編程任務(wù)上依然表現(xiàn)卓越,我們就會持續(xù)投入。如果在某個階段,研究表明專用編程模型的性能遠超通用模型,我們必將考慮推出專門的編程模型。但到目前為止,我們在 DeepMind 的理念一直行之有效,那就是保持能力的通用性。模型的能力遠未飽和,其通用能力完全可以有效遷移。所以,目前我們依然堅持這一理念。
Tulsee Doshi:我認為這也能銜接上我們之前關(guān)于 IMO 模型和數(shù)學(xué)推理的討論。我們還有另一個假設(shè):當(dāng)模型編程能力增強時,其推理能力也能遷移到其他領(lǐng)域;反之亦然,其他領(lǐng)域的推理和世界理解能力,同樣能遷移到編程上。因此,這兩者實際上相輔相成,有望共同打造出更優(yōu)質(zhì)的端到端體驗。這至少是我們目前探索的方向。當(dāng)然,正如 Madhavi 所言,我們在這方面的研究從未間斷,一旦有新跡象指向其他可能性,我們也會重新評估。不過就目前而言,我們對2.5 Pro的編程能力感到非常興奮,目標是繼續(xù)將這項能力推向新的高度。
Madhavi Sewak:Hassan,關(guān)于您問題的第二部分,Google 內(nèi)部也清楚地認識到,目前我們提供的編程類產(chǎn)品還比較零散,正在努力打造一個更整合、更出色的產(chǎn)品。與此同時,Gemini CLI 已經(jīng)非常成功。它在代碼理解、文件操作、命令執(zhí)行和動態(tài)排錯方面表現(xiàn)優(yōu)異,深受用戶喜愛。我們收到了大量積極反饋,它與2.5 Pro及整個 2.5 系列模型的結(jié)合效果也非常好。當(dāng)然,我們最近也迎來了 Codium 團隊的加入。坦白說,這個團隊不僅產(chǎn)品出色,其人才也讓我非常驚喜。我和 Tulsee 都與他們緊密合作,并堅信他們能打造出一套極其強大的工具。我們正在規(guī)劃如何將這些整合并推向市場。總而言之,我對 Google 目前在編程領(lǐng)域,無論從模型還是工具層面取得的進展,都感到非常滿意。
10
DeepMind 在全鏈路創(chuàng)新,從預(yù)訓(xùn)練、后訓(xùn)練到推理階段
DeepMind 最近在進行哪些有趣的研究?有哪些是您覺得特別激動人心、未來可能應(yīng)用于產(chǎn)品,并且現(xiàn)在可以公開分享的?
Tulsee Doshi:我想說,在 DeepMind 工作最棒的一點,就是這里產(chǎn)出的前沿研究。我們有大量的奠基性工作正在進行,涵蓋了從架構(gòu)到各個環(huán)節(jié)。非??岬囊稽c是,我們能在實驗室內(nèi)看到從預(yù)訓(xùn)練、后訓(xùn)練到推理階段的全鏈路創(chuàng)新。我們團隊正在積極測試預(yù)訓(xùn)練階段的 Scaling Law 和強化學(xué)習(xí)領(lǐng)域的 Scaling Law,并在這兩方面都取得了研究創(chuàng)新。IMO 模型就是絕佳的例子,它展示了我們?nèi)绾螖U展強化學(xué)習(xí)的應(yīng)用,以及如何在推理階段突破能力的界限。強化學(xué)習(xí)是我們持續(xù)投入和創(chuàng)新的領(lǐng)域,因為我們堅信其巨大價值。同時,我們也在投資架構(gòu)改進,例如多模態(tài)領(lǐng)域,具體研究如何將不同模態(tài)在一個模型中高效結(jié)合,同時保證模型處理每種單一模態(tài)時依然表現(xiàn)出色。另一個重點是效率。作為 Google DeepMind 的一員,我為我們在研究上對效率的投入感到非常自豪。因為我們的最終目標,不只是提供一個性能強大但成本高昂的模型,而是提供一系列在不同規(guī)模和推理成本下都表現(xiàn)優(yōu)異的模型選項。這一點至關(guān)重要,我們在這方面的許多研究都非常有前景。我想在未來幾個月,大家會陸續(xù)看到這些成果落地。
Madhavi Sewak:補充一下,放眼整個DeepMind 而非僅限于 Gemini,我們在科學(xué)、數(shù)學(xué)乃至 AI Agent 領(lǐng)域的工作都取得了豐碩成果。許多研究都源自這些不同方向,例如我們不久前才獲得了諾貝爾化學(xué)獎。因此,我個人非??春?DeepMind 各個研究方向的前景。我們現(xiàn)在的任務(wù),就是思考如何將這些研究成果,通過 Gemini 系列模型以及 Google 整個產(chǎn)品矩陣,以對用戶最高效的方式融入產(chǎn)品。我對我們正在進行的研究充滿信心。
11
關(guān)注模型“軟”實力,以及更高效的推理范式
在 AI 公開研究領(lǐng)域,最近幾個月有哪些普通人可能不太關(guān)注,但實際上非常重要的進展?
Madhavi Sewak:我可以分享兩個。第一個來自 Anthropic,一個我個人覺得非常有意思的研究方向,叫做 “persona vectors” (人格向量)。它旨在通過編輯模型內(nèi)部的這些人格向量,來監(jiān)控和控制語言模型的性格特征。
Tulsee Doshi:好的。這項研究非常新,我認為它反映了一個趨勢:當(dāng)前各大實驗室和整個行業(yè),都在持續(xù)探討模型行為 (model behavior) 的問題。大家意識到,我們不能只關(guān)注編程這類“硬”實力,也要關(guān)注模型溝通方式等更“軟”的實力,比如語氣、個性和幽默感。Anthropic 研究的“persona vectors”,正是試圖更好地理解和捕捉模型學(xué)習(xí)這類行為的能力。我們自己也在進行相關(guān)研究,比如如何為模型定義一種“個性”,并圍繞該目標進行構(gòu)建和訓(xùn)練。因為歸根結(jié)底,用戶的體驗和主觀感受,與模型的硬核性能同等重要。
Madhavi Sewak:第二個讓我很興奮的研究叫做 “Hierarchical Reasoning Models” (分層推理模型)。目前,全球幾大 AI 實驗室的大部分推理模型,基本上都采用“思維鏈” (chain-of-thought) 的方式。而這個分層推理模型是一個僅有 2700 萬參數(shù)的小模型。它內(nèi)含兩個相互依賴的模塊:一個高層模塊負責(zé)慢速、抽象的規(guī)劃;一個底層模塊處理快速、具體的計算。僅通過一次前向傳播和順序推理,這個小模型就在某些任務(wù)上超越了許多參數(shù)量遠大于它的模型。我認為這個方法非常有趣。我相信在 Gemini 團隊內(nèi)部,肯定已有團隊在探索類似的方法論。但當(dāng)我在外部讀到這項研究時,確實很感興趣,并希望能探索其應(yīng)用。
12
AI 領(lǐng)域尚未被充分認識的問題
目前 AI 領(lǐng)域有哪些尚未被充分認識到的問題?即那些大家可能剛開始關(guān)注,但還未成為主流焦點,而你們認為“如果有人能解決會非常有價值”的問題。
Tulsee Doshi:我覺得有好幾個領(lǐng)域我們正投入越來越多的關(guān)注,它們雖然尚屬小眾,但正處于發(fā)展的早期階段。我想先回到模型行為這個概念,它涉及到個性化、適應(yīng)性和可控性。“可控性”在行業(yè)內(nèi)已討論多時,但究竟什么樣的模型行為才算“好”,這其實是一個非常復(fù)雜的問題,且答案可能因人而異。比如 Hassan 您期望的交互方式,可能就與我所想的不同。因此,我們該如何為這些模型和 AI Agent 定義恰當(dāng)?shù)倪m應(yīng)性與個性化水平?如何在一個既能為個體提供高效個性化體驗,又能保持觀點平衡的系統(tǒng)之間,找到完美的平衡點?這是一個我們剛剛開始探索且充滿趣味的領(lǐng)域。
另一個我想提的是評估。實際上,我們今天剛宣布了一個名為 Gamer Arena 的項目。這是我們與 Kaggle 合作推出的一個趣味性基準測試,在這個平臺上,AI 模型會進行象棋之類的游戲?qū)?zhàn),以此來評估它們的能力。這背后其實是在驗證一個觀點:現(xiàn)有的 AI 基準測試很快就會被模型的能力“刷爆”。它們對于衡量特定任務(wù)依然有效,但對于那些更綜合、更主觀的能力,比如模型行為,我們該如何真正地衡量?當(dāng)模型進步的速度甚至可能超過基準測試本身的發(fā)展速度時,我們又該如何評估它們?因此,持續(xù)革新 AI 評估方法,是我們自身乃至整個行業(yè)都必須大力投入的領(lǐng)域。
Madhavi Sewak:我再補充一個特別感興趣的領(lǐng)域:上下文內(nèi)強化學(xué)習(xí)(in-context reinforcement learning)。傳統(tǒng)的強化學(xué)習(xí)方法需更新模型權(quán)重,這種方式成本高昂,且需要微調(diào)模型,屬于后訓(xùn)練操作。而上下文內(nèi)學(xué)習(xí)發(fā)生在推理階段,不更新模型權(quán)重。如果運用得當(dāng),它對于 AI Agent 的自主行動和決策場景將非常有幫助。設(shè)想一下,當(dāng)您在 AI mode或 Gemini 應(yīng)用里預(yù)訂航班,模型能根據(jù)對話實時推斷出您的偏好,比如您帶著兩個孩子,不想選擇需要長途跋涉才能寄存行李的酒店,因為當(dāng)前您不追求冒險。這種能力不僅僅是擁有個性化的上下文那么簡單,因為同一個人在不同場景下需求不同,
我真正希望的是,未來能為每一個 AI Agent,在用戶與 Google 所有產(chǎn)品交互的每一個瞬間,都能部署這種上下文內(nèi)強化學(xué)習(xí)。然后,系統(tǒng)需要判斷哪些信息是需要跨對話保留的個性化上下文,哪些又僅屬于當(dāng)前對話的臨時信息。我們?nèi)祟悤r刻都在這樣做,就像在此刻的對話里,Hassan,我的大腦會保留很多關(guān)于您的臨時信息,您也是一樣。但對話結(jié)束后,我們并不會真的去“更新權(quán)重”,讓對方成為彼此生活中的重要角色。
13
AI Agent 的核心瓶頸:上下文與記憶
對于 AI Agent 產(chǎn)品而言,維持上下文狀態(tài)在當(dāng)下是一個非常棘手的難題,如果無法維持上下文,就根本無法獲得正確的結(jié)果。Gemini 是否正在解決這個問題?目前在流程級別記憶方面最大的障礙是什么?
Madhavi Sewak:是的,這在整個行業(yè)都是一個非?;钴S的研究領(lǐng)域,我認為還沒有任何一個研究機構(gòu)真正解決了這個問題,而我們也非常希望能率先攻克它。一旦問題解決,依賴 AI Agent 的公司將取得驚人的成就,因為我已經(jīng)看到這項技術(shù)對于產(chǎn)品,尤其是企業(yè)用例,具有不可估量的價值。
(關(guān)于流程級別記憶的障礙)我認為這個問題亟待解決,在我看來,近期許多論文在實現(xiàn)上下文工程時,采用的一種方法是設(shè)立一個獨立的記憶單元 AI Agent。這種方法的效果,似乎遠勝于將大量記憶信息在上下文中直接傳遞。原因在于,整個行業(yè)的模型在面對一次性呈現(xiàn)的所有信息時,仍無法分清主次,弄清楚應(yīng)該保留什么、丟棄什么。目前的做法是通過高帶寬內(nèi)存?zhèn)鬟f信息,并借助檢索增強生成 (RAG) 等技術(shù)來輔助。舉個例子,假如你是 Goldman Sachs,擁有大量內(nèi)部私有文檔并希望模型能參考它們,你肯定不希望模型自行創(chuàng)造觀點。無論你是律師事務(wù)所、保險公司,還是在處理財務(wù)報告,在這些場景下,你都非常希望模型能夠精確引用手頭已有的數(shù)據(jù)。
我認為,在研究層面,我們正努力讓模型理解如何從不同的上下文中甄別和取舍所需信息。具體來說,模型應(yīng)該從當(dāng)前對話中提取什么,從 RAG 中獲取什么,從記憶單元中調(diào)取什么,然后又該如何將這些信息整合起來?除此之外,還要考慮加入個性化的上下文,以及利用上下文學(xué)習(xí)。因此,當(dāng)前的關(guān)鍵研究挑戰(zhàn)在于,如何處理如今所有這些不同來源的數(shù)據(jù)片段。試想一下,還有大量的工具調(diào)用,你有許多不同的工具可用。在某種設(shè)想中,很多事物都遵循一種 MCP 格式,你可以通過這種格式與它們連接和交互。但現(xiàn)在的問題是,假設(shè)針對一個查詢,你獲得了所有這些信息,該如何從中篩選出真正需要的部分,來為用戶構(gòu)建最有效的答案?這正是一個活躍的研究領(lǐng)域。
Tulsee Doshi:我完全同意。正如 Madhavi 所說,這才是真正的突破口。所以問題的一部分在于如何創(chuàng)建正確的上下文和記憶,無論我們怎么稱呼它。但我認為更重要的部分在于,如何訓(xùn)練模型,讓它知道在什么時候該使用什么信息。這關(guān)乎如何讓模型變得更智能。我們正在研究的一個有趣課題,就是如何避免模型過度個性化或過度使用上下文。舉一個負面例子:我們今天進行了這次對話,明天 Hassan 你在進行另一場對話時,今天對話的上下文卻主導(dǎo)了新的對話。我們希望模型能夠精準地權(quán)衡判斷,從而有效利用上下文的特定方面,決定何時調(diào)用某些工具,以及何時依賴其自身領(lǐng)域知識。
這讓我想起大學(xué)時的開卷期末考試。考察的關(guān)鍵能力并非是你記住了所有知識,而是你知道所需信息在你筆記的哪個位置,并且懂得如何從那個特定地方獲取信息,再以正確的方式將其組合起來解決問題。我認為,我們很大程度上就是要賦予模型這樣的能力。
Madhavi Sewak:沒錯,尤其重要的是要學(xué)會忽略什么。比如,如果 Tulsee 正在回答問題,而我沖著她大喊:“2+2=4,2+2=4”,她不應(yīng)該因此改變自己的答案。她必須明白這只是與問題無關(guān)的垃圾信息。我認為目前模型在這方面還做得不夠好,但這正是 Gemini 團隊正在積極研究的領(lǐng)域。
14
Deep Think 的力量在于探索多樣化的問題空間,綜合多種路徑
我們就聊聊 Gemini 2.5 Deep Think 系統(tǒng)吧。與單一模型方法相比,多個 AI Agent 并行工作的方式,從根本上改變了什么,或者說帶來了哪些新的可能性?
Madhavi Sewak:Deep Think 一個非常有趣的特點是它生成的答案具有多樣性,以及它探索問題空間的廣度。舉個例子,我們后來與一位數(shù)學(xué)家合作,他在博士期間解決了一個數(shù)學(xué)猜想,但他發(fā)現(xiàn) Deep Think 模型用四到五種不同的新方法也解決了同一個問題。我認為這是 Deep Think 模型一個特別有意思的地方。同樣,在編程領(lǐng)域,我們用它來解決一些編程競賽平臺 (Codeforces) 上的難題。其中一個問題是“抓鼴鼠”:在一棵樹狀結(jié)構(gòu)中,有一只鼴鼠藏在某個節(jié)點里,你如何用最少的遍歷次數(shù)和最少的步數(shù)找到它?這同樣是 Deep Think 模型極其擅長的,因為它能夠探索廣闊且多樣化的問題空間??偟膩碚f,我認為 Deep Think 模型在數(shù)學(xué)、編程方面能力卓越,甚至還具備超凡的視覺審美和理解力,因此能創(chuàng)造出非常精美的網(wǎng)站和應(yīng)用程序,這些都是它的與眾不同之處。我個人還會用它來做路徑規(guī)劃,因為它在探索問題空間方面表現(xiàn)出色,之后你可以用那些更小、推理成本更低的執(zhí)行模型來完成具體任務(wù)。對我而言,這就是 Deep Think 最吸引人的地方。
Tulsee Doshi:我想特別強調(diào) Madhavi 剛才提到的最后一點,那就是探索多種視角的能力?;氐侥汴P(guān)于“并行思考的真正含義是什么”的問題,我認為對這個詞的字面理解本身就極具力量。這意味著什么呢?想象一下,你可以同時探索多種不同的方法和路徑,審視它們,然后在此基礎(chǔ)上綜合出新的一組潛在路徑,最后再從中提煉出你認為最合理的最終方向。從某種程度上說,這正是我們?nèi)祟惤鉀Q問題的方式。就像 Madhavi 買家具一樣,她實際上在探索多種不同的布置方案,然后決定:“好了,我就選定這個方案了,現(xiàn)在要在這個方向上進行更深層次的規(guī)劃。” 我認為,能夠?qū)⑦@種豐富的思維模式引入到推理任務(wù)中,將使我們能夠解決遠比以往更復(fù)雜的問題。而這,也正是我們在 Deep Think 系統(tǒng)上所看到的成果。
| 文章來源:數(shù)字開物
【AI技術(shù)與應(yīng)用交流群|僅限受邀加入】
AI算力領(lǐng)域TOP級從業(yè)者專屬圈層
√ 與頭部算力企業(yè)深度對話
√ 與AI上下游企業(yè)深度對話
√ 獲取一手全球AI與算力產(chǎn)業(yè)信息
√ 獲取AI熱點及前沿產(chǎn)業(yè)獨家信息
√ 隨時了解全球AI領(lǐng)域高管最新觀點及實錄全文
√ 有機會參與AI主題產(chǎn)業(yè)交流活動
掃碼驗證身份(需備注姓名/公司/職務(wù))
不止有 DeepSeek,更有 AI產(chǎn)業(yè)的未來!
? END?
【專欄】精品再讀
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.