月燒4萬元，兩工程師用Claude Code 跑出15人團隊效率：值不值全網(wǎng)吵翻了！

2025-06-21 10:20:39　來源: InfoQ

北京舉報

分享至

編譯 | 傅宇琪、褚杏娟

策劃 | Tina

近日，初創(chuàng)公司 Every 總經(jīng)理 Kieran Klaassen 在 x 上表示自己用 Claude Code 編程時平均每天花 250 美元，也就是說一個月花費 6000 美元（約合 4.3 萬人民幣）。他還曬出了詳細的花費列表：

帖子發(fā)出后，網(wǎng)友們紛紛對 Klaassen 的花費表示不理解：“你是買了 30 個 Max 套餐賬戶嗎？還是說你用的是 API 付費方式？我不懂?！薄叭绻慊诉@么多錢，還不如直接雇個開發(fā)者呢！”

當然，也有開發(fā)者認為 Klaassen 的做法很有啟發(fā)性，畢竟“6000 美元不算什么，只是高級工程師一周的薪資。”但批評的聲音還是占了大多數(shù)。

隨后，他在 x 上解釋稱，“花了 6000 美金，多個 Agent 并行運行，一天提交了 10 個 PR，還完成重構(gòu)并部署上線了。”他還表示：

我知道這讓你不爽。又一個“看看我 AI 開銷”的爆款帖子，都是炒作，都是噪音。

但你翻白眼時，錯過了關(guān)鍵點：這些智能體徹底改變了我們的構(gòu)建方式，不只是更快——而是完全不同。就像從所有樂器的演奏者變成了交響樂團的指揮。音樂變得更豐富，而你與創(chuàng)作的關(guān)系也完全改變了。

我們只有兩個工程師。服務(wù)數(shù)千用戶。過去需要數(shù)月的功能，現(xiàn)在幾天就能上線。不是因為我們寫代碼更快了，而是因為我學(xué)過音樂，學(xué)會了“指揮” 。只是這次，指揮的是智能體。

沒錯，賬單看起來的確像是在博眼球。但成果呢？那些是實實在在的。當懷疑的人還在爭論這是否可持續(xù)時，我們已經(jīng)在交付成果了。當他們在抱怨炒作時，我們正在培育超越我們自身能力的系統(tǒng)。

軟件開發(fā)變成了一場不同思維方式頭腦之間的協(xié)作藝術(shù)。

你可以繼續(xù)無視這些賬單截圖，把一切都當作炒作。但你每觀望一天，理解它的人和無法理解它的人之間的差距就會更大一些。

在評論區(qū)，他也說明了并非實際花掉了 6000 美元，而是產(chǎn)生了與其價值相當?shù)某杀?。他也認為每個月花 6000 美元有點貴，但每月支付 2000 美元是可以接受的。

Klaassen 推文中提到的成果也很顯著：他和 Nityesh Agarwal 確實在一周內(nèi)交付了六項新功能、五個 Bug 修復(fù)和三次基礎(chǔ)設(shè)施更新。兩人實際上在短短三個月內(nèi)，通過 AI 工具完成了 AI 郵箱管理工具 Cora 的開發(fā)，并在發(fā)布后迅速吸引了超過 10,000 用戶注冊。

近期，Klaassen 和 Agarwa 兩人在 Dan Shipper 的播客節(jié)目上詳細演示了其是如何使用 Anthropic 的 Agentic 編程工具 Claude Code 工作并借此提升工程效率的。InfoQ 對此次訪談進行了翻譯，并在不改變愿意上進行了增刪，希望能給大家?guī)硪恍﹩l(fā)。其中，部分核心觀點如下：

使用 AI 編程，不應(yīng)僅限于寫代碼本身，還應(yīng)用于調(diào)研和工作流程的構(gòu)建，幾乎涉及開發(fā)過程中的每一個環(huán)節(jié)。
該團隊表示已經(jīng)很久沒有使用 Cursor 或者其他 Agent 類編程工具了，因為 Claude Code 的體驗遠勝一籌，幾乎將復(fù)雜度降低了十倍。
Cora 團隊現(xiàn)在的方式是盡量讓 AI 完成實際工作，而人類開發(fā)者專注于管理這些 AI 工具。
一個點子能帶來很多后續(xù)產(chǎn)出，這就是所謂的“復(fù)利效應(yīng)”。團隊有六七個任務(wù)是同時進行的，因為每當有了新想法，就立刻開始執(zhí)行。
務(wù)必記得在“價值最低”的階段對 AI 的輸出進行嚴格審核，確保盡早發(fā)現(xiàn)并修正問題。

放棄 Cursor，選擇Claude Code

主持人：雖然 Cora 團隊只有兩個人，但整個開發(fā)節(jié)奏和產(chǎn)出卻像是一個 15 人的團隊。Kieran，你前幾天說的一句話讓我印象很深刻：你們正在探索所謂“復(fù)利式工程（compounding engineering）”的可能性——每完成一個任務(wù)，都會讓后續(xù)任務(wù)變得更容易。我覺得你們的經(jīng)驗值得被更多人了解，因為我們擁有了新的工具，就需要建立新的原則和工作流。

Kieran：開發(fā) Cora 是一件非常有趣的事情，更有趣的是能在 Enjoy 這樣的環(huán)境中工作，這里不僅有先進的工具，還有豐富的思想資源和全新的工作方式。這讓我們重新思考“如何構(gòu)建產(chǎn)品”本身。我們正在一邊做產(chǎn)品，一邊嘗試新方法，這種探索本身就很吸引人。

我們常常會遇到各種新模型、新研究工具，別人問我們怎么看，我們就在邊用邊學(xué)的過程中不斷嘗試。最近幾周，Nityesh 和我都明顯感受到一種轉(zhuǎn)變正在發(fā)生：一場由新模型、思維方式、MCP 等推動的系統(tǒng)性變革。

主持人：具體改變了什么？你們目前逐步成型的工作流程大致是什么樣的？

Kieran：對我來說，最關(guān)鍵的轉(zhuǎn)變是我意識到“AI 編程”不只是代碼本身的生成。它應(yīng)該貫穿整個流程，從前期的研究到設(shè)計工作流程，再到具體執(zhí)行，每一步都能借助 AI。如今的 Agent 已經(jīng)足夠強大，能勝任幾乎所有環(huán)節(jié)，因此我們需要徹底重新思考整個開發(fā)方式。

以前我們用 Cursor 或 Windsurf 之類的工具，屬于更傳統(tǒng)的“代碼補全”階段。而現(xiàn)在，我們開始直接給 Agent 布置任務(wù)就能完成。盡管最終的產(chǎn)出仍然需要人工協(xié)作與指引，但我們要學(xué)會更深入地擁抱這一方式。

Claude Code 就是一個非常優(yōu)秀的編碼 Agent，能很好地理解和執(zhí)行復(fù)雜指令，尤其在與新模型結(jié)合之后，能力顯著提升。突然之間，我意識到：我們已經(jīng)進入了那個“Agent 時代”。這不再是實驗室里的概念，而是真正能用來構(gòu)建真實產(chǎn)品的技術(shù)。我們就是在用它做應(yīng)用，而且它真的在工作。

主持人：你們怎么使用 Claude Code？

Kieran：Claude Code 是 Anthropic 推出的一款編碼 Agent，底層使用的是 Claude 模型，它以命令行界面（CLI）的形式運行在本地終端中。對于不太懂技術(shù)的人來說，命令行可能看起來有些嚇人，但我已經(jīng)成功說服一些非技術(shù)背景的朋友嘗試使用 Claude Code，他們也覺得很好用。

主持人：打開的終端是那種黑底白字的經(jīng)典界面，看起來像 DOS 系統(tǒng)。Kieran 只輸入了 “Claude”，屏幕上就出現(xiàn)了 “Welcome to Claude Code” 的歡迎信息，并有一個輸入框可以鍵入命令。

Kieran：Claude Code 和普通的 Claude 模型不同，它擁有對本地目錄和計算機的訪問權(quán)限，能瀏覽文件、運行本地命令、截取網(wǎng)頁截圖，甚至進行網(wǎng)頁搜索，內(nèi)置的工具遠比普通 Claude 豐富。這點很關(guān)鍵，因為做工程開發(fā)不僅僅是寫代碼。你需要知道 GitHub 上的需求和任務(wù)狀態(tài)，了解 CI/CD 流程是否正常，測試是否通過等等。而擁有這些功能的編碼 Agent，才真正具備完成一個完整工作流程的能力。

我可以讓它自動執(zhí)行我平常要做的事。這正是“復(fù)利式工程”產(chǎn)生作用的地方——Agent 不僅寫代碼，還參與了整個開發(fā)上下游流程。大多數(shù)工程師的時間并不主要花在編寫代碼上，而是花在搞清楚“下一步要做什么”，如何理解用戶反饋并作出響應(yīng)。這些事情，Claude Code 現(xiàn)在都可以幫上忙。

比如我現(xiàn)在就可以讓它幫我查看我們上周發(fā)布了哪些內(nèi)容，然后整理成清單。這不僅可以用于團隊同步，也可以為產(chǎn)品營銷提供素材。例如它會總結(jié)出我們修復(fù)的 bug、主要新功能，像簡報摘要、聊天面板狀態(tài)、郵箱匯總、XML 標簽、時區(qū)自動識別等等。

主持人：而且這些內(nèi)容的組織方式很清晰，既能讓工程師讀懂，也方便非技術(shù)團隊使用。

Kieran：我們現(xiàn)在幾乎全力在推進“讓 AI 做事、我們來管理 AI”的模式。比如，有人來問我某個功能現(xiàn)在的狀態(tài)或下周發(fā)布什么內(nèi)容，我可以直接讓 Claude 查 pipeline，看即將推出的內(nèi)容。

大家應(yīng)該已經(jīng)能感受到 Claude Code 的邏輯了：一旦你把所有信息系統(tǒng)接入它，使用起來就非常順暢。對我來說，Claude Code 是目前最靈活的工具，不僅能解決編程問題，還能參與整個工程流程。很多編碼 Agent 只聚焦在寫代碼上，但我希望它能成為整個工程工作的輔助系統(tǒng)。

Anthropic 的團隊在設(shè)計這款工具時，顯然考慮到了這一點。它沒有被限定在某個特定用例上，而是保持了高度的通用性，同時又能精準解決問題。它能理解上下文、分析自己哪里做錯了并進行修正。這些能力結(jié)合起來，才真正讓它具備了現(xiàn)在可以投入實際使用的水平。

主持人：傳統(tǒng)的“寫代碼”和現(xiàn)在的“Agent 協(xié)作編程”之間，最本質(zhì)的區(qū)別是什么？

Nityesh：相較于我們熟悉的 Cursor 和 Windsurf 等工具，Agentic Coding 其實提供了類似的能力，但 Claude Code 更進一步，把整件事簡化了一個數(shù)量級。

Kieran：雖然命令行界面對有些人來說可能看起來很復(fù)雜，但其實它比像 Windsurf、Cursor 那樣的圖形界面更簡單。Claude Code 的界面只有一個文本輸入框，沒有快捷鍵、沒有界面按鈕，只有純文本交互。因為底層 Claude 模型能力更強了，它可以持續(xù)工作、調(diào)用更多工具，所以反而變得更強大。雖然它和 Cursor 背后都是 Claude，但 Claude Code 簡潔的界面帶來了更大的靈活性。

我今天早上就用它查了一下數(shù)據(jù)指標。當時我在想：“為什么這份用戶反饋表單完全沒有任何回應(yīng)？”

Nityesh：給大家補充點背景：我們每周會發(fā)一份問卷，問用戶如果不能再用 Cora 會有多失望，用來判斷產(chǎn)品的價值。我們也每周開會看這些指標，但 Kieran 發(fā)現(xiàn)這周根本沒人填寫這份表單。

Kieran：對，我感覺肯定是哪里出問題了，也許表單壓根沒發(fā)出去。我就問 Claude Code：“14 天前是不是出了什么問題？幫我查一下?！?/p>

Claude Code 的反應(yīng)是列出一組待辦事項，比如檢查 controller 的最近代碼改動、搜索代碼庫等。它自動查到了在那個時間點，我們刪掉了負責把用戶加入表單的那段代碼。Claude 還告訴我：“你只需要加回這段代碼就行了。”我就說：“那你幫我加回去，并創(chuàng)建一個 Pull Request?！彼土⒖虉?zhí)行了。我還補了一句：“順便也生成個腳本，把之前漏掉的用戶補回來?！彼沧龅搅恕?/p>

整個過程特別輕松，我?guī)缀鯖]有費什么精力。這就像我在 GitHub 上記一個任務(wù)備忘一樣簡單，只不過這次它直接幫我做完了。

用 Claude Code 研發(fā)的細節(jié)

主持人：如果沒有 AI，這樣的排查和修復(fù)任務(wù)可能要花 30 分鐘到幾小時不等。而且關(guān)鍵不是時間長短，而是你必須停下手頭的事，專心處理它。而現(xiàn)在，你可以把它當作“發(fā)個請求”，然后再發(fā)一個、再發(fā)一個，有多個任務(wù)可以并行進行。具體說說你現(xiàn)在的工作流程是什么樣的？比如你到底在干嘛？你自己還會寫代碼嗎？

Kieran：或許可以先講一下我們最早拿到 Claude Code 的時候做了什么，當時我們都非常興奮。

Nityesh：對，那是在 Claude 發(fā)布直播的前一天。我們當時覺得，從明天起編程方式就會被徹底改變，我們將獲得一個能力更強的模型，就像擁有一個“編程神燈精靈”。

于是我們決定，最有生產(chǎn)力的做法不是繼續(xù)日常工作，而是開一個兩小時的會議，集中列出所有希望新模型能幫我們解決的問題。我們確實做到了，列了大約 20 個 issue，包括 bug 修復(fù)、功能開發(fā)等，還為 Claude Code 的到來提前準備好了系統(tǒng)。

Kieran：當時挺有意思的，Nityesh 還用 ChatGPT 生成了一個 prompt，大概內(nèi)容是：“明天我們就有 AGI（通用人工智能）了，幫我們列出我們需要它完成的一切?！比缓笪覀儼堰@個 prompt 輸入到 Anthropic 的 prompt 優(yōu)化器中，再拿這個優(yōu)化后的 prompt 去生成具體任務(wù)。

主持人：你們當時在 GitHub 中用的是那種類似 Trello 的看板系統(tǒng)嗎？每個 issue 都是一個卡片，不管是新功能還是 Bug，每個卡片都有詳細文檔，包括問題描述、解決方案、技術(shù)要求，甚至還有實現(xiàn)步驟和預(yù)估所需時間。

Kieran：對，比如這張卡片里寫的功能是“生成 AI 合成數(shù)據(jù)”，它的文檔里從問題定義、解決思路、技術(shù)要求，到實施步驟都寫得很清楚。

我們用 Claude Code 配合一個自定義的 prompt（在 Claude Code 中叫 command）來生成這些任務(wù)文檔。哪怕是用 ChatGPT 來生成也挺費勁的，因為你得讀很多代碼，還得思考、整合，這其實是個挺重的腦力活。所以我們做了一個 command，目的是把這個流程自動化。

主持人：你說的 command 是 Claude Code 里的命令，還是 Cursor 里的？

Kieran：我是用 Cursor 編輯代碼，但運行的還是 Claude Code。我還有個命令，就是語音轉(zhuǎn)文字（voice to text）直接啟動。我和 Nityesh 經(jīng)常一起頭腦風暴：“如果我們做這個會怎么樣？聽起來不錯！”然后我就直接語音輸入，它就開始跑。比如我剛剛說：“我想在 Cora 加一個無限滾動功能，當我讀完一個簡報（brief）后，它應(yīng)該自動加載下一個，直到所有未讀的簡報都讀完為止?！?/p>

主持人：我想讓大家了解一件事：Kieran 幾乎從不敲鍵盤。他基本上全程通過語音輸入來操作，比如剛才他是直接用語音在終端中輸入，通過 Claude Code 進行交互。我記得他用的是一個目前還未正式發(fā)布的內(nèi)部孵化項目——叫 Monologue，他是該工具的第四大用戶。雖然這個工具還在保密階段，但我們在這里算是提前預(yù)覽了一下。

從我觀察來看，它的工作方式是這樣的：Kieran 說出任務(wù)內(nèi)容后，這個系統(tǒng)會將語音轉(zhuǎn)錄成文本，并插入到任務(wù)說明中，然后自動執(zhí)行一系列操作。

Kieran：對，Monologue 會把我說的內(nèi)容填入“功能描述”區(qū)域，接著執(zhí)行一整套步驟。首先，它會在代碼庫中查找相關(guān)實現(xiàn)，相當于先了解現(xiàn)有內(nèi)容；然后它會上網(wǎng)搜索最佳實踐，包括開源項目中的常見模式；最后它會生成一個計劃并讓我審核。我很喜歡這個“人類審核環(huán)節(jié)”，雖然偶爾它會搞錯，但大多數(shù)時候都能命中要點。確認后，它就會創(chuàng)建 GitHub issue，并自動分配到正確的工作流中。

主持人：原來你們是在 GitHub 的看板里，把想要實現(xiàn)的功能直接用語音講出來，然后 Claude Code 會自動完成所有調(diào)研，生成完整文檔，最后轉(zhuǎn)成 GitHub issue。

Kieran：對，這是個很關(guān)鍵的環(huán)節(jié)。它和 Cursor 編碼方式很不同。在 Cursor 里你可能會跳過這一步，因為它主要是用來寫代碼的。雖然你也可以在那里面寫 Markdown，但它不是專為任務(wù)管理設(shè)計的。相比之下，Claude Code 的設(shè)計更貼近 issue 跟蹤系統(tǒng)——這本來就是開發(fā)者熟悉的工具，我們可以直接把文檔交給開發(fā)者去實現(xiàn)。

主持人：當我們第一次看到 Claude Opus 4 的時候，我們都震驚了，因為它能一直運行，無需人工干預(yù)，最終還能給出很好的結(jié)果。雖然我們以前也見過一些 Agent 模式，但 Claude 的這種自動化和完成度完全不一樣。它像是在穩(wěn)定、高質(zhì)量地一項項完成清單上的任務(wù)，這是其他 Agent 循環(huán)很難做到的。

Nityesh：我和 Kieran 之間還在玩一個小游戲，看誰能讓 Claude Code 連續(xù)運行更久，Kieran 現(xiàn)在是領(lǐng)先者。

Kieran：我這次運行了 25 分鐘。

Nityesh：我目前只跑了 8 分鐘。

主持人：Kieran，你是怎么做到讓它跑這么久的？

Kieran：我給了一個特別長的計劃，內(nèi)容很復(fù)雜，還包括大量測試任務(wù)。我讓它運行所有測試并修復(fù)全部失敗項，這樣整個過程就會持續(xù)很久。

主持人：你那個能自動生成調(diào)研文檔的 prompt 是怎么寫出來的？你是靠感覺拼的，還是也用了 Claude 的 prompt 改寫器？

Kieran：這就涉及我們所說的“復(fù)利式工程”了。最早是 Nityesh 給我發(fā)了一個 prompt，他寫得很戲劇化：“AGI 已經(jīng)實現(xiàn)了，我們可以開始寫軟件了?！蔽耶敃r覺得這個 prompt 還行，但我也問了一句：“你知道 Anthropic 的 prompt 改寫器嗎？”這個工具非常好用。你只要粘貼一個 prompt，然后點擊“生成”，它會幫你優(yōu)化改寫。看起來簡單，但效果很不錯。你甚至不需要花很多時間驗證它好不好用——有時候試一試，不好就刪掉，成本很低。

那天我們要寫 30 個調(diào)研任務(wù)，所以必須先有一個好用的 prompt。于是我就把剛剛那個 prompt 粘進去，生成一個版本，然后把它當作基礎(chǔ) prompt 用。之后，我們只需更改參數(shù)，就能反復(fù)復(fù)用。

主持人：本質(zhì)上，你們做的第一步是花時間寫了一個 prompt，這個 prompt 的作用是自動生成其他 prompt。而那些調(diào)研文檔，其實本質(zhì)上也是給 Claude Code 的任務(wù)指令。

也就是說，你們不再需要每次都手動寫“先調(diào)研、再拆解需求、再規(guī)劃執(zhí)行細節(jié)”等等，而是只要講出一個簡單的功能需求，Claude 就能自動展開所有細節(jié)，寫出一整份完整計劃。以前每次都要手動說清楚的那些內(nèi)容，現(xiàn)在都可以自動生成了。

而且更有趣的是——它現(xiàn)在就在我們聊天的時候運行著，這完全改變了寫代碼的方式。我們前幾周在通話時測試過這個系統(tǒng)，我當時甚至在通話中就上線了一個功能，這種邊說話邊構(gòu)建功能的“社交式編程”在以前是不可想象的。

Kieran：剛才我們在聊天的時候，其實 Claude 已經(jīng)完成了調(diào)研，并自動生成了一個 issue。而且我們那會兒同時跑了六七個任務(wù)，因為我們當時的狀態(tài)就是“有新想法就立刻執(zhí)行”。我們一邊翻看用戶反饋、讀郵件，把能找到的信息都整理出來，一邊不斷頭腦風暴。

這種狀態(tài)真的很有趣——你只要一有想法就能立刻啟動一個 Agent，然后等一會兒再集中審閱它們的結(jié)果。這也是我非常同意的一點：在語音通話中協(xié)作是一種很棒的體驗，因為這種碰撞中常常會有“魔法時刻”。

當然，目前仍然需要人類來做復(fù)審。我們發(fā)現(xiàn)必須檢查輸出是否合理、是否遺漏了什么，這就需要經(jīng)驗、判斷力和直覺。比如我之前修復(fù)了一個郵件無法發(fā)送的 bug，Nityesh 也用 Claude Code 做了類似的事，但它給出的解決方案卻錯了。我在 prompt 里特別強調(diào)了“查看歷史記錄”，這引導(dǎo) Claude 朝正確方向思考。而 Nityesh 沒有加那句話，它就說“看起來一切正常”。

所以，確實需要人類的判斷。這不是靠“神奇 prompt”一勞永逸的問題，而是你是否知道如何正確地使用它，把它的長處發(fā)揮出來。

“我每天覺得自己什么都不會”

主持人：Nityesh，我很好奇你怎么看待這一切。畢竟 Kieran 是一個非常資深的開發(fā)者，而你在編程上的經(jīng)驗可能還比較早期。你是怎么適應(yīng)這種全新的協(xié)作方式的？

Nityesh：對我來說，這整個過程非常震撼。我真正接觸編程是從 ChatGPT 出現(xiàn)后才開始的，那時候我覺得 AI 出現(xiàn)正好是機會，于是決定自學(xué)編程，構(gòu)建我一直想做的 SaaS 應(yīng)用。后來轉(zhuǎn)到 Cursor，接著又用上 Windsurf。我一直覺得自己已經(jīng)站在最前沿了，我周圍的朋友都沒有這么用 AI 的。但直到我加入了 Every，開始和 Kieran 一起工作，才發(fā)現(xiàn)他完全是另一個層次。他在會議中從不敲代碼，基本上都是對著電腦說話。而 Claude Code 發(fā)布后，Kieran 推動我去用它，現(xiàn)在它已經(jīng)成為我們主要的編程方式了。

過去三周里，我和 Kieran 幾乎都沒再碰 Windsurf 或 Cursor，哪怕用了也只是因為我們沒裝 VS Code。本質(zhì)上，如果只是為了看代碼內(nèi)容，用哪個編輯器都無所謂了，因為所有核心 AI 交互都發(fā)生在 Claude Code 里。而且真的很神奇，整個編程的方式每三個月就會發(fā)生一次巨變，讓你不斷意識到“沒人真的站在最前面”。

主持人：我真的有點羨慕你們這些在 ChatGPT 時代開始學(xué)編程的人，我是二十年前靠看書學(xué)的……

Kieran：《PHP for Dummies》。

主持人：對對，還有什么《24 小時學(xué)會 Basic》那種……你剛才說以為自己已經(jīng)處在 AI 編程的前沿，結(jié)果加入 Every 跟 Kieran 一比就發(fā)現(xiàn)完全不是，這讓我想到《星球大戰(zhàn)前傳》里有一幕。他們在水下被怪物襲擊，看起來要沒命了，結(jié)果突然有個更大的怪物出來把那個怪物吃掉。主角說了一句：“總有更大的魚?！盞ieran 就是那個更大的魚。

Kieran：其實我自己也有同樣的感覺。你剛才說我很厲害，但我每天也覺得自己什么都不會，還在拼命追趕。有太多東西要做，太多想法要實現(xiàn)。這就是當下 AI 編程的真實狀態(tài)：總有更多的東西，但核心還是要練習(xí)。你必須每天都練習(xí)使用 AI，持續(xù)推動自己，否則就會錯過很多令人興奮的東西。

主持人：像你們這種“幾乎不寫代碼、而是在更高抽象層次操作”的方式，會帶來新問題嗎？你們是如何應(yīng)對這些問題的？又發(fā)展出了哪些新的工程實踐，以保證整個過程的高效與穩(wěn)定？

Nityesh：對我來說，一個最重要的認識來自一本老書——《高產(chǎn)出管理》，是 Intel 的 CEO 在五十年前寫的。它在第一章提到一個觀點：所有問題都應(yīng)該在“價值最低的階段”被解決。

今天，AI 尤其是 Claude Code 已經(jīng)能幫我們完成很多任務(wù)，這讓“前期階段”的質(zhì)量變得格外關(guān)鍵。比如，我們會用 AI 生成一份非常詳細的 GitHub issue 文檔，那很容易讓人想直接調(diào)用 Claude Code 去實現(xiàn)它。但如果 issue 本身的方向就偏了，Claude 就會在錯誤的路徑上繼續(xù)推進，結(jié)果只會浪費時間。

所以，我們現(xiàn)在的做法是：必須在人類 review 階段就盡早發(fā)現(xiàn)這些潛在偏差、提前修正，而不是等到 Claude 執(zhí)行完了再回頭返工。

主持人：這讓我想到杠桿原理：你越靠近杠桿末端，力量越大，但方向偏差帶來的后果也越嚴重。哪怕一厘米的偏差，最后結(jié)果也可能相差幾千公里。就像發(fā)射火箭時瞄準月球，初始角度偏一點，最后就完全偏離軌道。我自己其實很容易跳過計劃階段——對著一堆文檔集中精力很困難。你們是怎么處理這個問題的？

Kieran：老實說，大多數(shù)時候讀這些文檔確實挺無聊的。但我們會想辦法讓它“更有趣一點”。比如我會要求 Claude 給出更簡潔的內(nèi)容，但這樣它又容易遺漏關(guān)鍵點。所以我更偏好讓它聚焦在用戶故事或問題清單上，比如：“一個優(yōu)秀的產(chǎn)品經(jīng)理會提出哪些問題？有哪些不同解法？”這種格式會更容易閱讀，也更容易引發(fā)思考。

總的來說，傳統(tǒng)的 PRD（產(chǎn)品需求文檔）太無趣了。但我們可以加入更多例子或反問，把它“變形”為一個信息更豐富、也更易于人理解的材料。這也正是我們?nèi)祟悓彶殡A段要做的事：查找潛在問題、補充缺漏——因為這一步能為后面節(jié)省大量時間。

主持人：這讓我想到我們業(yè)務(wù)中另一個項目。我們在 Spiral 正在開發(fā)一個“寫作 Agent”，有點像 Claude Code，但專為寫作任務(wù)設(shè)計。我們也遇到類似問題：寫作 Agent 如果只是“生成一堆內(nèi)容”，那人類還是得花大量時間去篩選和修改。所以我們現(xiàn)在嘗試讓 Agent 主動“進入訪談模式”，先了解用戶是誰、想要什么，再輸出內(nèi)容，這樣更準確，也省事。聽你們這么說，我感覺 Coding 這邊其實也存在類似問題。也許 Claude Code 未來可以多問一些有啟發(fā)性的問題，幫用戶厘清思路，而不是只吐出一大堆文本。

Kieran：是的，這確實是我們應(yīng)該自動化并持續(xù)優(yōu)化的事情。Claude Code 的強大之處在于它可以訪問你的整個代碼庫，理解你的風格，這非常有用。

除了在一開始就盡量做好問題定義，我認為傳統(tǒng)的測試方式和郵件通知也非常關(guān)鍵。否則你怎么知道自己改的東西真的能用呢？當然你可以打開控制臺手動點擊測試，但完全沒必要。我們可以讓 AI 寫一個測試，比如最基本的 smoke test（冒煙測試），看看功能大致是否正常運行，這樣 Claude 也可以根據(jù)測試結(jié)果自主修復(fù)問題。

我們還在嘗試一項新工作流程。我們會用 Claude Code 實現(xiàn) Figma 設(shè)計，然后截取移動端頁面截圖，與設(shè)計圖進行對比，驗證還原度。雖然我們還沒在生產(chǎn)環(huán)境大量使用，但非常期待它的效果。這種方式本質(zhì)上就是把原本人工執(zhí)行的驗證流程“編進系統(tǒng)里”。不僅僅是代碼測試，對 prompt 也可以做 eval（評估），就像給代碼寫測試一樣，給 prompt 寫評估腳本。

上周我就讓 Claude Code 運行一個郵件發(fā)送流程的 eval，讓它跑 10 次，失敗了 4 次，它告訴我失敗原因是調(diào)用了錯誤的工具。我查看了一下提示詞，不夠具體，于是我讓它繼續(xù)嘗試，不斷優(yōu)化提示詞，直到能每次都通過測試。我中途還下樓喝了杯咖啡，回來一看，已經(jīng)搞定了。

所以說，即便是最傳統(tǒng)的測試流程，對 AI 編程同樣重要——測試能告訴你提示詞是否可靠，就像傳統(tǒng)單元測試告訴你代碼是否工作一樣。乍一看枯燥，但其實非常有效。

給各編碼類 Agent 打多少分？

主持人：我想花五分鐘時間，讓 Kieran 來給各類智能編碼 Agent 做一個從 S 級到 F 級的打分。我來報 Agent 的名字，你來給出評級。先從 Cursor 開始，拿最優(yōu)配置的 Cursor 來看。

Kieran：就算是傳統(tǒng)的、在最好的設(shè)定下的 Cursor，也不是最好的 Agent。我喜歡某些 Agent 的原因就是它們明確告訴你，“這就是我們最好的版本”。而 Cursor 有點讓人困惑。所以我會把它評為 A 級，它確實很不錯，特別是在使用 Claude 的情況下。

主持人：Windsurf？

Kieran：C 級。因為他們還不支持 Claude 4，這讓我很難理解。三周前我還會給它 A 級，但現(xiàn)在不行了。

主持人：Devin？

Kieran：B 級。集成度不高，搭建過程也稍微麻煩一些，代碼質(zhì)量也沒有 Cursor 或 Claude Code 那么全面。我不確定它是不是用 Claude 4，但用起來沒有其他工具順暢。

主持人：Charlie？

Kieran：Charlie 主要用于代碼審查，我們現(xiàn)在基本只在這個場景下用它。作為代碼 Reviewer，我會給它 A，但作為 Agent 我只能給 B。

主持人：Friday？

Kieran：我會把 Friday 排在 Cursor 之上，介于 S 和 A 之間。雖然它現(xiàn)在還沒用 Claude 4，而是用的 3.7，但依然表現(xiàn)非常優(yōu)秀。Friday 的流程非常有主見，能高效地把事情做完。你給它一個 issue，它就能自動生成計劃、等待你確認、然后執(zhí)行、提交 PR。我見過它成功一次性還原 Figma 設(shè)計，也完成過一些 Claude Code 做不到的任務(wù)。讓我真的有種“看見未來”的感覺，而且它背后的團隊規(guī)模很小。

主持人：Codeex？

Kieran：B 級。

主持人：Copilot 呢？

Kieran：我沒怎么用過。三年前用過一次，半年前又試了一次，但不到一分鐘就關(guān)了。如果一定要打分，我只能給 D。它當時還不具備 Agent 能力。當然，我得承認還沒用過它的新版本，所以也許并不完全公平。

主持人：Claude Code？

Kieran：當然是 S 級。

主持人：Factory？

Kieran：Factory 在某些方面其實比其他工具都好。但它不是我的風格，更適合那些偏企業(yè)級的開發(fā)者，尤其是對代碼質(zhì)量要求極高的用戶，比如做多倉庫開發(fā)的。它用起來有些繁瑣，因為是 Web 和本地混合部署。我會給它 B，略低于 Codeex 和 Devin。

主持人：AMP 呢？

Kieran：S 級，僅次于 Claude Code。它非常擅長完成任務(wù)，使用體驗也很好。你能感受到 AMP 背后的團隊是真正熱愛 Agent 工具的開發(fā)者，他們自己也在用。

我更傾向于把智能 Agent 看作招聘開發(fā)者解決特定問題的過程。比如 Friday 非常擅長處理界面工作，遇到這類任務(wù)我會用 Friday；需要做調(diào)研時，我會選擇 Claude；如果是代碼審查，我則用 Charlie。Agent 之間是可以協(xié)同工作的，不必局限于只用一個。

主持人：Charlie 集成在 GitHub 上，你可以直接“@Charlie”，它就會對 Pull Request 進行代碼審查。

Kieran：對，我們用 GitHub、Pull Request 和常規(guī)的開發(fā)流程，這樣人類開發(fā)者也能介入。我們能“聘用”專長于特定任務(wù)的 Agent 來審查代碼，而閉環(huán)代碼工具則執(zhí)行具體工作。這套體系是經(jīng)過我們幾十年經(jīng)驗不斷優(yōu)化的，非常強大。也正因如此，Copilot 也許能適應(yīng)這套流程，因為它本來就集成在 GitHub 里。

主持人：你們最近似乎引入了一位真正的專家，并通過 Agent 化的方式協(xié)作，既達到了預(yù)期，也減輕了對方的負擔。

Kieran：是的。雖然當時還沒有真正的“問題”要解決，但我們希望更清晰地掌握關(guān)鍵任務(wù)的交付進度。鑒于我自己對這方面并不十分擅長，我們就邀請了專家參與。做法是這樣的：我們開了一個兩小時的電話會議，我把整個對話錄了音；會后，我把錄音內(nèi)容輸入到 Claude Code，并要求它根據(jù)對話生成兩個資源 issue。大約十分鐘后，Claude Code 給出了初稿，我再請專家審核。他對結(jié)果非常驚訝——他平時對 AI 生成的方案往往持懷疑態(tài)度，畢竟有些任務(wù) AI 目前還沒那么擅長。但這次他不僅認可了文檔，還提出了非常有價值的改進建議。于是我們又圍繞這些建議快速迭代。第二天，專家完成了人工復(fù)審，我再用 Claude Code 實現(xiàn)了對應(yīng)的代碼，并一起做了 Code Review。整個流程本來可能要兩周時間，現(xiàn)在幾小時就搞定了。

主持人：還有什么想說的嗎？

Kieran：我建議大家都去試試 Claude Code。哪怕你不是技術(shù)出身，也可以訂閱 Max 或 Pro 計劃，每月約 100 美元就能獲得無限使用權(quán)。我一個朋友從 Cursor 轉(zhuǎn)到 Claude Code 后，重做了所有工作流程，都覺得效率大增。大家真的應(yīng)該多嘗試，積極推動工具的使用。

Nityesh：但務(wù)必記得在“價值最低”的階段對 AI 的輸出進行嚴格審核，確保盡早發(fā)現(xiàn)并修正問題。

https://www.youtube.com/watch?v=Lh_X32t9_po

6 月 27～28 日的 AICon 北京站將繼續(xù)聚焦 AI 技術(shù)的前沿突破與產(chǎn)業(yè)落地，圍繞 AI Agent 構(gòu)建、多模態(tài)應(yīng)用、大模型推理性能優(yōu)化、數(shù)據(jù)智能實踐、AI 產(chǎn)品創(chuàng)新等熱門議題，深入探討技術(shù)與應(yīng)用融合的最新趨勢。歡迎持續(xù)關(guān)注，和我們一起探索 AI 應(yīng)用的無限可能！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.