新智元報道
編輯:元宇 桃子
【新智元導讀】剛剛結束的OpenAI黑客松上,全球共有六支團隊沖進榜單。他們探索了GPT-5在營銷活動、時尚AI、電子表格、電腦代理、知識學習、智能電網(wǎng)等場景的應用極限。
OpenAI剛發(fā)布GPT-5,便在舊金山舉辦了GPT-5黑客馬拉松挑戰(zhàn)賽。
這場比賽選擇在周末,從8月9日上午10點開始,到8月9日下午5點結束。
OpenAI邀請了500多位黑客來到舊金山,挑戰(zhàn)GPT-5的極限,共有95支隊伍參賽,角逐5萬美元獎金。
值得一提的是,來自韓國的AI初創(chuàng)公司Gentoo的團隊勇奪大賽第一。
他們開發(fā)的系統(tǒng),通過GPT-5讓商家「預演」營銷活動,不用真金白銀試錯,AI連退貨率都能算準。
除Gentoo外,還有五支團隊入圍黑客松決賽。
那么,他們都用GPT-5做了啥?
AI讓電商人「躺賺」,不再踩坑
創(chuàng)業(yè)公司Gentoo將GPT-5用于營銷活動模擬,幫助電商平臺上的商家把產品創(chuàng)意變成模擬實驗。
簡單來說,商家不用真正砸錢去做,只通過模擬,就可以判斷哪些營銷活動會有效。
借助GPT-5 thinking,Gentoo可以為真實用戶創(chuàng)建真實的「數(shù)字分身」,幫助這些Shopify賣家預測他們的未來。
比如,「參與度分數(shù)」(engagement score)可以評估用戶行為:分數(shù)越高,越可能產生購買、撰寫評價行為,說明用戶會越「投入」。
Gentoo還用GPT-5,在Cursor的CLI和IDE里,從零起步搭建了管理后臺頁面。
用戶只要點擊「如何賣掉那些不是暢銷款的庫存」,GPT-5就會給出策略。
既然是仿真模擬,需要先設定一個「假設」。當選擇想要模擬的假設并點擊運行時,那些基于你的真實用戶構建的AI分身便會「投票」,判斷這個假設是否有效。
更妙的是,如果缺乏足夠的歷史數(shù)據(jù)來驗證某個假設,GPT-5會直接給出「unknown(無法確定)」的結論。
這有助于降低大模型幻覺,無疑是一個飛躍。
另外,Gentoo還做了一個很酷的功能,叫做「Vibe Operations」(氛圍運營/編排),它可以生成直接落地的行動方案。
選擇其中一個方案,并點擊「部署到商店」,它就會一鍵自動部署到你的Shopify商店。
這意味著GPT-5可以接管你店鋪的UI布局,比如一下生成「特價分類」專區(qū)、立刻突出展示「熱銷商品」模塊等。
Gentoo的主產品是AI對話導購,也支持輸入自定義提示詞。
在新提示詞注入后,會實際改變AI禮賓的對話風格與行為。
值得注意的是,這些AI分身都是基于真實用戶構建的,所以每個分身都有檔案信息,還會給出「為什么支持/為什么反對某個假設」的具體理由。
所有這些全由GPT-5驅動,用戶可以清晰看到某個營銷活動是否會在自己的店鋪里奏效。
AI 穿搭「時裝秀」,承包3D分身造型
Fashion AI結合擴散模型與GPT-5,基于AI服裝推薦,為用戶的3D虛擬形象搭配造型。
在比賽現(xiàn)場,F(xiàn)ashion AI展示了過去24小時趕出來的一款「小游戲」,現(xiàn)場觀眾可以在屏幕上選擇不同的角色。
在現(xiàn)場,用GPT-5生成了一大堆穿搭分類,然后再通過一個GPT-5做的轉盤隨機抽取一種風格。
現(xiàn)場抽到的是「混搭風」,并以此為虛擬形象Sarah搭配造型。
確定了著裝風格,智能體就會在GPT-5的驅動下去搜衣服、挑單品、做試穿。
整個操作過程,會實時在界面右側的直播畫面里顯示出來,同步顯示它的決策過程。
找到衣服后,接下來是為Sarah確定最喜歡的搭配。
在左上角,是用搜索功能生成的「衣櫥」,背后是多個大語言模型協(xié)作完成的:它們會分析圖片,然后找出最符合搜索關鍵詞的結果。
確定搭配風格后,會有AI智能體給Sarah做試穿。
然后,由觀眾來決定選哪套。
選定衣服后,是風格化階段,在這個階段可以為Sarah加點造型。
這可以通過提示詞來實現(xiàn),比如什么顏色的帽子,什么款式的手表等。
最后,是生成最終的造型結果,這是GPT-5給Sarah做的風格化效果。
這個系統(tǒng)是參賽團隊用24小時拼出來的,圖像生成全程用的是GPT-5,寫代碼是在Cursor編輯器里配合GPT-5完成的,具體編碼GPT-5也幫了很多忙。
演示者表示,這個項目中,最難的是智能體框架的設計,要把所有模塊串起來。
比如評估的、找衣服的智能體等,找完衣服還要回頭問評估智能體:這個夠好嗎?符合主題嗎?怎么改?
這個流程打通是最難的,而且圖像生成耗時很長,這要求團隊要盡量把用戶體驗做得流暢。
當然,如果沒有GPT-5,這個項目幾乎不可能完成。GPT-5的工具調用又快又準,讓整個體驗不卡頓,讓大家都覺得很好玩。
Excel「活了」,打工人狂喜
電子表格的后臺智能體編排工具(Background Agent Orchestration for spreadsheets),這是一個面向Excel的Codex,它可以并行運行多個后臺任務,自動回答問題并更新電子表格模型。
現(xiàn)場展示的是一個簡單的財務模型,它會根據(jù)2025年損益表前7個月的數(shù)值,預測8月份的數(shù)值。
假如你是一名銷售負責人,現(xiàn)在是8月10日,發(fā)現(xiàn)自己可能達不到預期銷售目標,這時可以向電子表格提問,而它可以「看見」那些數(shù)據(jù)并把它拉進來,然后回答你的問題,或者執(zhí)行更進階的操作。
這些都是后臺Asian編排,類似Codex,我們可以啟動任務、查看它們的當前進度,還能看到我們其他的任務。
它的一大好處,是你不需要一直在電子表格里工作。
如果有問題或者想做修改,你可以把這些任務在后臺發(fā)起,它們會運行,然后再回來審閱結果。
比如,你可以發(fā)起幾個與損益表相關的問題。等這些任務發(fā)起之后,我們可以看到智能體的思考過程,看它在幕后做了什么步驟分解;我們能看到它調用了哪些工具,這讓整個事情變得很簡單。
對我們來說,GPT-5讓我們能做一些過去必須用多個智能體、并且大量提示詞才能「把工具調對」的事情。
它讓模型和工具配合起來很容易,比如它可以和Sharepoint交互,直接和Excel表交互并進行修改。
它可以通過提示詞,來修改模型的假設。
比如通過提示詞,把模型更新為「用戶費用降低10%」的假設。它會通過差異視圖,來展示這個改動如何影響模型,我們可以繼續(xù)提交并保存這些更改。
讓書籍和論文,秒變視頻
BeFreed是一家致力于讓知識變得有趣且簡單的公司。
它們在過去24小時內開發(fā)了一個知識可視化工具,把書籍與論文轉化為引人入勝的教育視頻。
你可以輸入任意文本,它會解析其中的復雜概念,并將其轉化為一個易于理解的解釋視頻。
他們利用GPT-5開發(fā)了一個指揮型智能體(Direct Agent)。
它會首先理解你輸入的概念,并設計出完整的故事板,規(guī)劃需要表達的內容。
同時,它會協(xié)調另外兩個專用智能體,它們各自擅長使用特定工具來生成不同部分的內容,并對生成結果進行評估,確保準確無誤。
也就是說,當你輸入一段內容后,系統(tǒng)會解析文本,生成故事板,然后兩個專用智能體分別生成所需的圖像和動畫,最后由指揮型智能體將所有內容整合、合成語音,并輸出成品視頻。
在用例1中,智能體用視頻為我們解釋了什么是「強化學習」,這適用于解釋行業(yè)術語的場景。
智能體用視頻解釋「強化學習」
在用例2中,智能體根據(jù)《人類簡史》中的一段文字,生成了解釋性視頻。這適用于沉浸式閱讀場景。
因為這個世界上存在很多看似復雜的概念,它們的難點不在內容本身,而在表達形式不當;同時,不少學習者更擅長通過視覺去理解知識,這正是BeFreed開發(fā)Knowledge Visualizer的初衷:讓更多人能更輕松地掌握知識。
GPT-5接管電腦,自主玩游戲
GPT-5「電腦使用」智能體,可在游戲與應用間自動化交互。
Serena Delarry,用GPT-5開發(fā)了一個「計算機使用模型」(computer use model)。
因為「計算機使用」涉及很多截圖和高強度的交互操作,所以Serena Delarry錄了一個簡單的演示視頻。
視頻里他在玩GeoGuessr游戲,模型會觀察地圖、點擊畫面,試圖猜出我們位于哪個地方。
接下來是另一個游戲,畫面里有一只浣熊在撿蔬菜。
這個模型的流程是:先截圖,然后借助GPT-5規(guī)劃下一步操作,使用鍵盤和鼠標來執(zhí)行計劃,再不斷調整。
還有一個游戲是經(jīng)營檸檬水攤。它會理解屏幕內容,點擊操作,嘗試分析這個游戲并一步步推進。
在屏幕底部顯示了一個提示詞(prompt),整場操作就是由它驅動的,模型會邊看邊學,自己決定下一步。
快進到最后,它在這個游戲里獲得了67%的顧客滿意度。
Serena Delarry在回答評委問題時提到,這個智能體支持接管電腦界面。
比如從備忘錄應用中輸入一個提示詞,模型就開始點擊屏幕,嘗試理解游戲內容。每隔幾秒鐘它會截一次圖,然后基于這些截圖來規(guī)劃接下來的操作路徑。
你可以看到它在分析規(guī)劃,并嘗試執(zhí)行操作。
Serena Delarry表示,OpenAI曾經(jīng)發(fā)布過一個計算機使用模型,但那個運行速度非常慢,效果也不太好。這次他開發(fā)的智能體,雖然還不算「非常優(yōu)秀」,但至少已經(jīng)「可用且順暢」。
為了測試模型的性能,Serena Delarry還會發(fā)布一個操作系統(tǒng)層面的性能基準測試(OS-level benchmark)。
智能體「軍團」作戰(zhàn),AI電網(wǎng)超決策
電力公司每天要服務數(shù)百萬用戶,管理數(shù)十億美元的資產,同時,還受到各種約束:監(jiān)管政策、市場機制、電網(wǎng)的物理運行極限等。
這意味著電力公司每分鐘都要處理海量數(shù)據(jù),并基于這些信息快速決策。
打開智能體式電網(wǎng)編排系統(tǒng)首頁,你會看到一個調度員的典型界面:峰值負載、當前負載、電網(wǎng)壓力狀態(tài)、電網(wǎng)拓撲圖等,還有不同數(shù)據(jù)源的詳細信息。
同時你還可以看到哪些輸電線路正在高負載運行、面臨風險。
系統(tǒng)后端有五個獨立智能體,每個都有自己的優(yōu)化目標函數(shù)。同時還有一個主控智能體,負責綜合所有智能體的建議,做出最終決策。
為了模擬真實的電網(wǎng),演示中選擇了加州某個區(qū)域的典型電網(wǎng)結構。系統(tǒng)中包含實際發(fā)電站、住宅區(qū)、商業(yè)負載中心,并且建模了各類故障場景——所以,這是一個實時、動態(tài)的電網(wǎng)仿真平臺。
進入平臺后可以開始模擬運行。過程中會考慮各種系統(tǒng)損耗,比如技術損耗、輸電/配電損耗等。
系統(tǒng)的核心是五個智能體,對應現(xiàn)實中電力公司內部的各類角色:
戰(zhàn)略規(guī)劃智能體:確保在任何時候供需平衡;
戰(zhàn)術調度智能體:以最低成本完成負載分配;
資產管理智能體:如處理樹木倒塌導致電纜故障等突發(fā)情況;
以及其他支持型智能體,它們之間密切協(xié)同,而非各自為政。
每個智能體都有自己的目標函數(shù)和可調用的工具,它們會提前模擬未來10到12個時間步,預測自己的行動對電網(wǎng)系統(tǒng)造成的影響。
由于目前尚未對模型進行深入微調(fine-tuning),所以目前智能體在一些關鍵指標上表現(xiàn)不太理想。
當前一個主要挑戰(zhàn)是:當我們直接使用GPT-5作為智能體核心時,它在每一個時間步往往無法真正實現(xiàn)目標最優(yōu),而是傾向于采取「最安全」的保守路徑。
上圖展示了每個時間點各個智能體的行為:戰(zhàn)略規(guī)劃智能體可能會嘗試切換電容組(capacitor bank),戰(zhàn)術調度智能體則可能會激活電池儲能系統(tǒng)(BESS)進行放電。
演示者表示,針對上述問題的優(yōu)化目標是,依次滿足多層次的目標函數(shù),比如:保證電力供應的可靠性;控制成本、提高運行效率;保證系統(tǒng)持續(xù)在線運行。
參考資料:
https://threadreaderapp.com/user/AlexReibman
http://threadreaderapp.com/
https://threadreaderapp.com/user/AlexReibman
https://x.com/jihyuk_gentoo/status/1954791809382518972
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.