網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

深度評測：PromptPilot，字節(jié)跳動的“提示詞工廠”

2025-08-01 08:20:11　來源: 鈦媒體APP

北京舉報

分享至

文 | 錦緞

下面的情景是不是有些似曾相識？

當滿懷期待地給AI大模型下達指令，比如“幫我分析一下這周的股價走勢”。

等待數(shù)十秒后，得到了一份空洞無物，只有數(shù)據(jù)羅列的通用模板，令人大失所望。

轉念一想，不應該啊，之前看過的短視頻里介紹AI都和點石成金一樣：

有的人能用AI在朋友圈、小紅書和微博上追逐時尚潮流生成爆款文案；

有的人能用AI生成勝過資深程序員編寫的高質量代碼；

有的人能讓AI充當各領域內(nèi)的行業(yè)專家，隨隨便便來一份分析報告都不在話下；

同樣是AI，天差地別的結果。

不同的AI大模型之間能力存在差距，這是事實。

但造成這一差異的更為主要的原因在于，使用AI的方法，也就是提問的方式。

我們注意到，為了降低使用門檻，加速AI大模型應用普及，各大廠也在“提示詞工程”上下大心思。PromptPilot，便是字節(jié)系的大模型提示詞解決方案平臺。

以其為樣本，本文將就“提示詞工程”與字節(jié)系的“提示詞工廠”，一探究竟。

01 提示詞的演進過程

人與AI溝通的媒介，即為提示詞（Prompt）。

有人會問：“寫Prompt不就是打字提問嗎？”

非也，這是一門學問。

這門學問在AI誕生至今的短短幾年內(nèi)，已經(jīng)經(jīng)歷了從“遠古時代”到“現(xiàn)代”的飛速進化。

簡單了解一下提示詞的發(fā)展路徑，或許能夠幫助理解為什么我們需要更“工程化”的思維。

Stage.1 “魔法咒語”時代

這是最早期的階段，但也是大多數(shù)人目前所處的階段。

使用AI大模型和使用搜索引擎的方法并無兩樣，就像最初大家在使用GPT3.5時，只需要隨意拋出問題，就可以把AI當作百科全書使用。

這個階段的提示詞特點也很鮮明，“一問一答，簡單直接”。

當然，使用效果也有些靠運氣。對于一些需要思考、推理或創(chuàng)意的任務，AI的回答時而驚艷，時而平庸。

Stage.2 “啟蒙與引導”時代

此后，AI的發(fā)展速度遠超人們的想象。

研究者和“高級玩家”們發(fā)現(xiàn)，AI就像一個孩子，直接下命令，它有時根本聽不懂。

但如果給AI一些適當?shù)奶崾竞鸵龑?，有助于孩子的成長，最終得到更好的結果。

在這一階段，誕生了兩種里程碑式的AI使用方式：

一是示例學習：在向AI正式發(fā)文之前，先給出范例，讓AI進行模仿；

二是思維鏈路：不是直接生成最終答案，而是像做中學數(shù)學題一樣，必須把過程寫清楚，最后給出解答。思維鏈路的出現(xiàn)，使AI在計算、推理和邏輯類任務中取得了巨大的飛躍。

因此，這時的AI ，雖然本質上只是一段早已編寫好的程序，但它也可以被視為一個可以教導和啟發(fā)的學生。

Stage.3 “系統(tǒng)化工程”時代

這是我們現(xiàn)在所處的時代。AI產(chǎn)品五花八門，其能力已經(jīng)達到“逆天”的水平。

簡單的小技巧已經(jīng)無法有效駕馭AI，是時候設計出一套系統(tǒng)化、規(guī)范化且可復用的方法來更加有效地利用AI了。

因此，不論是LLM應用開發(fā)平臺，還是各家廠商最新版本的AI大模型，如果讓它們自動生成提示詞，都已經(jīng)不再是零散的指令，而是采用一個包含角色、背景、任務、規(guī)則、輸出格式和限制等元素的結構化框架。

其目的也很簡單，讓AI的輸出穩(wěn)定、可控、易于復制。

02 提示詞工程

“提示詞工程”是什么？

AI給出的回答是：“一門設計和優(yōu)化提示詞的科學，旨在更有效地與大型語言模型進行溝通，從而引導它們生成更準確、更相關、更高質量的輸出結果。”

如前文所述，提示詞的重要性源于”Garbage In, Garbage Out”原則，AI模型的輸出質量直接取決于輸入提示詞的質量。

優(yōu)質的提示詞，最重要的功能在于有效減少AI出現(xiàn)“幻覺”的概率，使其回答更加貼近現(xiàn)實和用戶意圖。

同時，提示詞有助于發(fā)掘AI的“潛力”。相比簡單的指令，提示詞工程可以讓AI實現(xiàn)更多功能，比如編寫代碼、市場分析、創(chuàng)意生成等更加復雜、更加抽象的任務。

此外，用戶還可以對AI的回答添加格式、語氣、長度等約束條件，靈活地調(diào)整答案的展現(xiàn)形式，同時節(jié)約調(diào)試時間。

對于編寫提示詞的方法，Gemini 2.5 Pro給出了名為R.O.L.E.S.的法則，這里選擇構建工作流時使用的實例：

R - Role（角色）：你希望AI是誰？

這是AI使用者在編寫提示詞時最容易忽略的一步，因為我們常常上來就直接把問題拋給AI。通過賦予AI一個具體且專業(yè)的角色，能夠激活它在該領域的知識庫，使其回答更具深度和專業(yè)性。

例如：

# 角色

你是一個頂級的金融數(shù)據(jù)分析師，能夠解析用戶的請求，并為后續(xù)的數(shù)據(jù)庫檢索程序準備一份精確的數(shù)據(jù)需求清單。

O - Objective（目標）：你想完成什么核心任務？

用戶需要清楚地告訴AI最終目的是什么。不要擔心語言過于繁瑣，AI“聽不懂”的是短句，而不是長難句。任務越明確，AI的行動路徑就越清晰。

例如：

# 核心任務

你的任務是分析用戶關于“谷歌”（別稱：Google）的指令"{{query}}"。你的最終輸出不是直接回答用戶的問題，而是列出為了回答這個問題，必須從我們的財務知識庫中檢索的**所有基礎數(shù)據(jù)字段**。

L - Limit&Constraint（限制與約束）：有哪些規(guī)則必須遵守？

AI作為一個自由創(chuàng)作的作家，輸出方式向來是不拘一格。要想獲得準確的結果，就必須對其加以限制和約束，包括但不僅限于風格、語氣、字數(shù)、禁止事項等等。

例如：

# 輸出要求

- **嚴格遵循格式**: 嚴格輸出由`鍵:值`對、逗號`,`和分號`;`組成的字符串。

- **純凈輸出**: 不要包含任何前綴、解釋、引號、空格或任何其他多余的文字。

- **空處理**: 如果指令與谷歌的財務或市場數(shù)據(jù)完全無關，輸出NO_QUERY`。

E - Examples（示例）：有沒有可以參考的例子？

如果用戶的要求比較復雜或獨特（比如某一個細分領域），那么提供給AI一個具體的例子會是比較高效的溝通方式，這有助于讓AI迅速理解用戶期望的格式和風格，而不是通過多輪對話讓AI不斷去嘗試。

例如：

# 示例

* *用戶說*: "谷歌的收入和市值是多少？"

* *你的思考*: 用戶直接要“營業(yè)收入”和“市值”。這是基礎指標。

* *最終輸出*: 營業(yè)收入,市值

S - Steps（步驟）：完成任務需要分幾步？

對于較為復雜的任務，就輪到之前提過的“思維鏈路”出場了。一次把任務灌輸給AI通常得不到理想的結果，但如果能引導AI按照步驟思考和執(zhí)行，就可以大幅提升輸出結果的邏輯性和準確性。

例如：

# 步驟

首先判斷用戶指定的財務指標是否能夠從給定的財報中直接獲??；若不能獲取，再根據(jù)計算公式獲取相關指標；最后分析該指標的含義。

對于上面這套法則，還有一些需要注意的細節(jié)：

第一，提示詞的編寫并沒有嚴格的規(guī)定，上面的五個部分可以按需修改；

第二，給出的例子中可能包含{}、**、<>等符號，這些符號也是提示詞工程中的小技巧，每種符號都具有特定的功能，可以把一個純自然語言的段落轉變成一個類似于“程序”的指令集。

03 字節(jié)的“提示詞工廠”

在明確提示詞的編寫流程后，就該思考這套方法的實用性了。

很明顯，如果按部就班地完成每個步驟，工作量已經(jīng)接近于寫一篇作文。

換個角度來看，我們需要使用提示詞讓AI完成任務，而寫提示詞恰好就是一項任務。

因此，我們可以再偷個懶，干脆讓AI把提示詞也幫著寫完得了。

字節(jié)在6月推出了一款名為PromptPilot的產(chǎn)品，是面向大模型應用的全鏈路優(yōu)化平臺。

平臺介紹中提到，該產(chǎn)品不僅可以提供精準、專業(yè)、可持續(xù)迭代的提示詞，還可以覆蓋大模型開發(fā)從構想、開發(fā)部署到迭代優(yōu)化的全過程。

該產(chǎn)品免費試用至2025年9月11日，鏈接：https://promptpilot.volcengine.com/home

眼見為實，下面我們來試用一下看看效果如何。

主界面UI看上去很簡潔，功能主要有三個：Prompt生成、Prompt優(yōu)化和視覺理解Solution。

由于本篇文章主要討論提示詞相關內(nèi)容，因此只介紹前兩個功能。

圖：PromptPilot使用流程圖

對于沒有提示詞編寫經(jīng)驗的用戶，可以直接在平臺上生成結構化的提示詞：

圖：生成提示詞界面

任務描述并不需要太復雜，只要表達清楚就好，也不必擔心描述不夠精細，后面還可以進行調(diào)整。

這是平臺生成的初版提示詞，雖然尚不完備，可能與用戶的詳細需求仍然存在差異，但其效果已經(jīng)遠比使用短句給AI下達命令要好。

接下來，需要驗證這份提示詞的效果究竟如何。點擊“驗證Prompt”進入調(diào)優(yōu)環(huán)節(jié)：

圖：選擇調(diào)優(yōu)模式

PromptPilot提供了兩種調(diào)優(yōu)模式，評分模式類似于“簡答題”，需要用戶填寫分數(shù)、評價意見（可選）和理想回答（可選），GSB比較模式則類似于“選擇題”，需要用戶對答案進行比較，并給出Good、Same和Bad的判斷。

提示詞的重要性我們已經(jīng)提過很多次，因此更推薦選擇評分模式。

圖：調(diào)優(yōu)界面

選擇評分模式進入調(diào)優(yōu)界面后，需要進行幾項設置：

首先，如果用戶覺得提示詞無法滿足需求，可以使用“一鍵改寫Prompt”。

然后，在提示詞中可以看到熟悉的標識{{AI_NEWS}}，表示這里需要填入相關領域的AI新聞。點擊“填寫變量”，將新聞內(nèi)容粘貼進去即可。

PromptPilot還提供了一項很貼心的服務：AI生成變量內(nèi)容。

也就是說，如果我們并沒有足夠的新聞，就可以讓AI現(xiàn)編一條。這個功能在不需要信息真實性的情況下能幫上大忙，快速構造數(shù)據(jù)集就靠它了。

不過，我們需要真實新聞才能發(fā)布文章，而有些聰明的模型可以識別出虛假的新聞，因此這里還是不要使用AI生成變量內(nèi)容。

最后，在模型回答窗口中可以自由選擇大模型版本，其中DeepSeek和豆包的部分版本免費。

這里，考慮嘗試一下豆包的新模型：Doubao-Seed-1.6-Thinking，開啟深度思考功能。

完成上述設置后，點擊“保存并生成模型回答”，平臺會調(diào)用選擇的模型，按照給定的提示詞開始編寫文章。生成文章后，需要點擊“添加至評測集”。

只靠一篇文章是無法衡量提示詞質量的優(yōu)劣的，因此我們需要更多的數(shù)據(jù)來進行評判。

圖：評測數(shù)據(jù)集界面

與前面的操作相同，我們需要把新聞粘貼至評測數(shù)據(jù)集中的AI_NEWS一列。

點擊“生成全部回答”，模型開始編寫對應的文章。

評分同樣可以由AI完成，點擊“智能評分”-“AI評分標準”-“生成評分標準”即可獲得一套較為詳細的評分標準，用戶可以在此基礎上進行修改或是直接使用。

開啟智能評分功能后，AI在文章編寫文章后會自動生成評分及理由。需要注意的是，智能評分功能并不完善，經(jīng)常出現(xiàn)全是滿分的情況，而這樣的評分對于調(diào)優(yōu)Prompt沒有意義。

當然，這個環(huán)節(jié)也可以由我們手動完成，主觀的評閱意見能夠使文章的風格更接近于理想中的狀態(tài)。但新聞數(shù)量較多時，人工評閱的工作量還是有些過大。

這個時候，就又輪到“老朋友”工作流登場了。

既然PromptPilot是火山引擎的工具，而大模型我們又選擇了豆包，因此工作流我們也選擇字節(jié)系的Coze進行開發(fā)。

圖：AI生成文章評分工作流

工作流的結構很簡單，開始節(jié)點接收兩個參數(shù)：news（原始新聞）和article（AI生成的文章）。

大模型節(jié)點用來進行評分，同樣將上面兩個參數(shù)作為輸入，并開始編寫提示詞。

既然研究AI，當然提示詞也要讓AI來生成。需要注意的是，適當提高文章評分的區(qū)分度，有助于提示詞的優(yōu)化。

因此，我讓AI生成了一份評分標準，并告知需要嚴格評判產(chǎn)生區(qū)分度，并生成了對應的結構化提示詞。

圖：AI評分提示詞|

提示詞編寫完成后，大模型節(jié)點的模型同樣選擇豆包·1.6·深度思考·多模態(tài)。

現(xiàn)在，只需要運行工作流，把新聞原文和AI生成的文章粘貼進去就可以得到評分及打分理由，完成后粘貼到PromptPilot中即可。

最終，數(shù)據(jù)集包含36條新聞及對應文章，開始進行提示詞的智能優(yōu)化。

圖：智能優(yōu)化界面

可以看到，平臺推薦的數(shù)據(jù)是50條以上并給出理想回答，但這并非必須。只有評分是必須項。

智能優(yōu)化環(huán)節(jié)花費了約17分鐘，迭代了28次，結果如下：

圖：智能優(yōu)化結果

這樣，我們就得到了一份優(yōu)化后的提示詞，相比上一版提示詞增加了更多任務描述和細節(jié)。

下拉該頁面還可以看到根據(jù)新的提示詞生成的文章，這里就不一一展示了。

但還請不要忘記，提示詞工程并非到此而止，而是可以繼續(xù)通過添加數(shù)據(jù)、評分和理想回答的方法進行下一輪優(yōu)化，直到它能夠完全滿足需求。

至此，我們已經(jīng)掌握了一套標準化的用于優(yōu)化提示詞的方法。

而事實上，這個過程就是我們常常提到的——強化學習。

04 結語

回到最初的問題：為什么同樣的AI，在不同人手中會產(chǎn)生天壤之別？

答案正是提示詞工程——與AI高效寫作的藝術與科學。

它并非計算機行業(yè)的專利，而是未來人們需要具備的基礎素養(yǎng)。

掌握它，意味著駕馭AI，擁有放大自身價值的能力。

然而，知易行難?！爸馈苯Y構化提示詞的重要性，與“做到”在每次向AI提問時熟練運用，中間還存在一道不那么容易跨越的鴻溝。

坦誠地說，字節(jié)跳動當前版本PromptPilot遠非完美，也絕非終點。

請不要指望它能一鍵生成滿足所有精細化需求，同時還擁有絕佳效果的“神級”提示詞。

在面對較為復雜或創(chuàng)新需求的任務時，我們會清楚地感受到它提供的框架仍然有所局限。

同時別忘了，它也有一定的使用門檻，需要我們花時間去學習、去配置、去適應。

但與此同時，這也揭示了PromptPilot的核心價值：它并非“答案機”，而是“思維矯正器”。

在學習和使用PromptPilot的過程中，它強行打破了我們用大白話隨口一問的慣性。

它的結構化編輯器更像是一個“思維腳手架”，也許本身并不美觀，但能保證搭建出的建筑地基穩(wěn)固、結構完整。

而它的存在，能夠幫助那些面對AI聊天框總是無從下手，或是因AI輸出質量不佳而苦惱的用戶，完整從0到1的初次躍遷。

它的目標用戶，并非那些隨手寫出上百字的復雜指令的提示詞工程師，而是每一個希望告別低效提問，著手建立系統(tǒng)化和結構化思維的“學生”。

最終，在熟練掌握思維模式后，我們可能不再使用PromptPilot，但已經(jīng)具備了與AI高效對話的底層能力。

而這，正是AI時代真正的通行證。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

鈦媒體APP

獨立財經(jīng)科技媒體

126004文章數(shù) 861364關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產(chǎn)

教育

家居

數(shù)碼

軍事航空

現(xiàn)代自由功能美學居所

別樣府院暢享詩意生活
年輕態(tài)度功能舒適兼?zhèn)?i class="post_side_icon_photo">
歲月柔情現(xiàn)代品質輕奢

手機 / 數(shù)碼

房產(chǎn) / 家居

深度評測：PromptPilot，字節(jié)跳動的“提示詞工廠”

黃仁勛親赴臺積電“討要更多芯片”

河南大哥為救老人失去左腿：一條腿換回一條命 不算啥

河南大哥為救老人失去左腿：一條腿換回一條命 不算啥

他只想默默地拿走最后一億美元

《繁花》事件影響：唐嫣工作被取消

10月CPI同比漲0.2% PPI同比下降2.1%

鈦7月銷破2萬 霜霧灰與青巒翠配色正式開啟交付

態(tài)度原創(chuàng)

封關倒計時！三亞主城 2.3 萬 /㎡+ 即買即住，手慢無！

來上課了——高一下核心詞匯講解（三）第3段

現(xiàn)代自由 功能美學居所

李小龍曬華為路由X3 Pro日照金山開箱：PLC是沒網(wǎng)線的大戶型最佳選擇

俄媒：俄軍即將攻占烏克蘭"第三首都"

深度評測：PromptPilot，字節(jié)跳動的“提示詞工廠”

河南大哥為救老人失去左腿：一條腿換回一條命不算啥

河南大哥為救老人失去左腿：一條腿換回一條命不算啥

鈦7月銷破2萬霜霧灰與青巒翠配色正式開啟交付

封關倒計時！三亞主城 2.3 萬 /㎡+ 即買即住，手慢無！

現(xiàn)代自由功能美學居所