新智元報(bào)道
編輯:元宇 桃子
【新智元導(dǎo)讀】剛剛結(jié)束的OpenAI黑客松上,全球共有六支團(tuán)隊(duì)沖進(jìn)榜單。他們探索了GPT-5在營銷活動(dòng)、時(shí)尚AI、電子表格、電腦代理、知識學(xué)習(xí)、智能電網(wǎng)等場景的應(yīng)用極限。
OpenAI剛發(fā)布GPT-5,便在舊金山舉辦了GPT-5黑客馬拉松挑戰(zhàn)賽。
這場比賽選擇在周末,從8月9日上午10點(diǎn)開始,到8月9日下午5點(diǎn)結(jié)束。
OpenAI邀請了500多位黑客來到舊金山,挑戰(zhàn)GPT-5的極限,共有95支隊(duì)伍參賽,角逐5萬美元獎(jiǎng)金。
值得一提的是,來自韓國的AI初創(chuàng)公司Gentoo的團(tuán)隊(duì)勇奪大賽第一。
他們開發(fā)的系統(tǒng),通過GPT-5讓商家「預(yù)演」?fàn)I銷活動(dòng),不用真金白銀試錯(cuò),AI連退貨率都能算準(zhǔn)。
除Gentoo外,還有五支團(tuán)隊(duì)入圍黑客松決賽。
那么,他們都用GPT-5做了啥?
AI讓電商人「躺賺」,不再踩坑
創(chuàng)業(yè)公司Gentoo將GPT-5用于營銷活動(dòng)模擬,幫助電商平臺上的商家把產(chǎn)品創(chuàng)意變成模擬實(shí)驗(yàn)。
簡單來說,商家不用真正砸錢去做,只通過模擬,就可以判斷哪些營銷活動(dòng)會(huì)有效。
借助GPT-5 thinking,Gentoo可以為真實(shí)用戶創(chuàng)建真實(shí)的「數(shù)字分身」,幫助這些Shopify賣家預(yù)測他們的未來。
比如,「參與度分?jǐn)?shù)」(engagement score)可以評估用戶行為:分?jǐn)?shù)越高,越可能產(chǎn)生購買、撰寫評價(jià)行為,說明用戶會(huì)越「投入」。
Gentoo還用GPT-5,在Cursor的CLI和IDE里,從零起步搭建了管理后臺頁面。
用戶只要點(diǎn)擊「如何賣掉那些不是暢銷款的庫存」,GPT-5就會(huì)給出策略。
既然是仿真模擬,需要先設(shè)定一個(gè)「假設(shè)」。當(dāng)選擇想要模擬的假設(shè)并點(diǎn)擊運(yùn)行時(shí),那些基于你的真實(shí)用戶構(gòu)建的AI分身便會(huì)「投票」,判斷這個(gè)假設(shè)是否有效。
更妙的是,如果缺乏足夠的歷史數(shù)據(jù)來驗(yàn)證某個(gè)假設(shè),GPT-5會(huì)直接給出「unknown(無法確定)」的結(jié)論。
這有助于降低大模型幻覺,無疑是一個(gè)飛躍。
另外,Gentoo還做了一個(gè)很酷的功能,叫做「Vibe Operations」(氛圍運(yùn)營/編排),它可以生成直接落地的行動(dòng)方案。
選擇其中一個(gè)方案,并點(diǎn)擊「部署到商店」,它就會(huì)一鍵自動(dòng)部署到你的Shopify商店。
這意味著GPT-5可以接管你店鋪的UI布局,比如一下生成「特價(jià)分類」專區(qū)、立刻突出展示「熱銷商品」模塊等。
Gentoo的主產(chǎn)品是AI對話導(dǎo)購,也支持輸入自定義提示詞。
在新提示詞注入后,會(huì)實(shí)際改變AI禮賓的對話風(fēng)格與行為。
值得注意的是,這些AI分身都是基于真實(shí)用戶構(gòu)建的,所以每個(gè)分身都有檔案信息,還會(huì)給出「為什么支持/為什么反對某個(gè)假設(shè)」的具體理由。
所有這些全由GPT-5驅(qū)動(dòng),用戶可以清晰看到某個(gè)營銷活動(dòng)是否會(huì)在自己的店鋪里奏效。
AI 穿搭「時(shí)裝秀」,承包3D分身造型
Fashion AI結(jié)合擴(kuò)散模型與GPT-5,基于AI服裝推薦,為用戶的3D虛擬形象搭配造型。
在比賽現(xiàn)場,F(xiàn)ashion AI展示了過去24小時(shí)趕出來的一款「小游戲」,現(xiàn)場觀眾可以在屏幕上選擇不同的角色。
在現(xiàn)場,用GPT-5生成了一大堆穿搭分類,然后再通過一個(gè)GPT-5做的轉(zhuǎn)盤隨機(jī)抽取一種風(fēng)格。
現(xiàn)場抽到的是「混搭風(fēng)」,并以此為虛擬形象Sarah搭配造型。
確定了著裝風(fēng)格,智能體就會(huì)在GPT-5的驅(qū)動(dòng)下去搜衣服、挑單品、做試穿。
整個(gè)操作過程,會(huì)實(shí)時(shí)在界面右側(cè)的直播畫面里顯示出來,同步顯示它的決策過程。
找到衣服后,接下來是為Sarah確定最喜歡的搭配。
在左上角,是用搜索功能生成的「衣櫥」,背后是多個(gè)大語言模型協(xié)作完成的:它們會(huì)分析圖片,然后找出最符合搜索關(guān)鍵詞的結(jié)果。
確定搭配風(fēng)格后,會(huì)有AI智能體給Sarah做試穿。
然后,由觀眾來決定選哪套。
選定衣服后,是風(fēng)格化階段,在這個(gè)階段可以為Sarah加點(diǎn)造型。
這可以通過提示詞來實(shí)現(xiàn),比如什么顏色的帽子,什么款式的手表等。
最后,是生成最終的造型結(jié)果,這是GPT-5給Sarah做的風(fēng)格化效果。
這個(gè)系統(tǒng)是參賽團(tuán)隊(duì)用24小時(shí)拼出來的,圖像生成全程用的是GPT-5,寫代碼是在Cursor編輯器里配合GPT-5完成的,具體編碼GPT-5也幫了很多忙。
演示者表示,這個(gè)項(xiàng)目中,最難的是智能體框架的設(shè)計(jì),要把所有模塊串起來。
比如評估的、找衣服的智能體等,找完衣服還要回頭問評估智能體:這個(gè)夠好嗎?符合主題嗎?怎么改?
這個(gè)流程打通是最難的,而且圖像生成耗時(shí)很長,這要求團(tuán)隊(duì)要盡量把用戶體驗(yàn)做得流暢。
當(dāng)然,如果沒有GPT-5,這個(gè)項(xiàng)目幾乎不可能完成。GPT-5的工具調(diào)用又快又準(zhǔn),讓整個(gè)體驗(yàn)不卡頓,讓大家都覺得很好玩。
Excel「活了」,打工人狂喜
電子表格的后臺智能體編排工具(Background Agent Orchestration for spreadsheets),這是一個(gè)面向Excel的Codex,它可以并行運(yùn)行多個(gè)后臺任務(wù),自動(dòng)回答問題并更新電子表格模型。
現(xiàn)場展示的是一個(gè)簡單的財(cái)務(wù)模型,它會(huì)根據(jù)2025年損益表前7個(gè)月的數(shù)值,預(yù)測8月份的數(shù)值。
假如你是一名銷售負(fù)責(zé)人,現(xiàn)在是8月10日,發(fā)現(xiàn)自己可能達(dá)不到預(yù)期銷售目標(biāo),這時(shí)可以向電子表格提問,而它可以「看見」那些數(shù)據(jù)并把它拉進(jìn)來,然后回答你的問題,或者執(zhí)行更進(jìn)階的操作。
這些都是后臺Asian編排,類似Codex,我們可以啟動(dòng)任務(wù)、查看它們的當(dāng)前進(jìn)度,還能看到我們其他的任務(wù)。
它的一大好處,是你不需要一直在電子表格里工作。
如果有問題或者想做修改,你可以把這些任務(wù)在后臺發(fā)起,它們會(huì)運(yùn)行,然后再回來審閱結(jié)果。
比如,你可以發(fā)起幾個(gè)與損益表相關(guān)的問題。等這些任務(wù)發(fā)起之后,我們可以看到智能體的思考過程,看它在幕后做了什么步驟分解;我們能看到它調(diào)用了哪些工具,這讓整個(gè)事情變得很簡單。
對我們來說,GPT-5讓我們能做一些過去必須用多個(gè)智能體、并且大量提示詞才能「把工具調(diào)對」的事情。
它讓模型和工具配合起來很容易,比如它可以和Sharepoint交互,直接和Excel表交互并進(jìn)行修改。
它可以通過提示詞,來修改模型的假設(shè)。
比如通過提示詞,把模型更新為「用戶費(fèi)用降低10%」的假設(shè)。它會(huì)通過差異視圖,來展示這個(gè)改動(dòng)如何影響模型,我們可以繼續(xù)提交并保存這些更改。
讓書籍和論文,秒變視頻
BeFreed是一家致力于讓知識變得有趣且簡單的公司。
它們在過去24小時(shí)內(nèi)開發(fā)了一個(gè)知識可視化工具,把書籍與論文轉(zhuǎn)化為引人入勝的教育視頻。
你可以輸入任意文本,它會(huì)解析其中的復(fù)雜概念,并將其轉(zhuǎn)化為一個(gè)易于理解的解釋視頻。
他們利用GPT-5開發(fā)了一個(gè)指揮型智能體(Direct Agent)。
它會(huì)首先理解你輸入的概念,并設(shè)計(jì)出完整的故事板,規(guī)劃需要表達(dá)的內(nèi)容。
同時(shí),它會(huì)協(xié)調(diào)另外兩個(gè)專用智能體,它們各自擅長使用特定工具來生成不同部分的內(nèi)容,并對生成結(jié)果進(jìn)行評估,確保準(zhǔn)確無誤。
也就是說,當(dāng)你輸入一段內(nèi)容后,系統(tǒng)會(huì)解析文本,生成故事板,然后兩個(gè)專用智能體分別生成所需的圖像和動(dòng)畫,最后由指揮型智能體將所有內(nèi)容整合、合成語音,并輸出成品視頻。
在用例1中,智能體用視頻為我們解釋了什么是「強(qiáng)化學(xué)習(xí)」,這適用于解釋行業(yè)術(shù)語的場景。
智能體用視頻解釋「強(qiáng)化學(xué)習(xí)」
在用例2中,智能體根據(jù)《人類簡史》中的一段文字,生成了解釋性視頻。這適用于沉浸式閱讀場景。
因?yàn)檫@個(gè)世界上存在很多看似復(fù)雜的概念,它們的難點(diǎn)不在內(nèi)容本身,而在表達(dá)形式不當(dāng);同時(shí),不少學(xué)習(xí)者更擅長通過視覺去理解知識,這正是BeFreed開發(fā)Knowledge Visualizer的初衷:讓更多人能更輕松地掌握知識。
GPT-5接管電腦,自主玩游戲
GPT-5「電腦使用」智能體,可在游戲與應(yīng)用間自動(dòng)化交互。
Serena Delarry,用GPT-5開發(fā)了一個(gè)「計(jì)算機(jī)使用模型」(computer use model)。
因?yàn)椤赣?jì)算機(jī)使用」涉及很多截圖和高強(qiáng)度的交互操作,所以Serena Delarry錄了一個(gè)簡單的演示視頻。
視頻里他在玩GeoGuessr游戲,模型會(huì)觀察地圖、點(diǎn)擊畫面,試圖猜出我們位于哪個(gè)地方。
接下來是另一個(gè)游戲,畫面里有一只浣熊在撿蔬菜。
這個(gè)模型的流程是:先截圖,然后借助GPT-5規(guī)劃下一步操作,使用鍵盤和鼠標(biāo)來執(zhí)行計(jì)劃,再不斷調(diào)整。
還有一個(gè)游戲是經(jīng)營檸檬水?dāng)?。它?huì)理解屏幕內(nèi)容,點(diǎn)擊操作,嘗試分析這個(gè)游戲并一步步推進(jìn)。
在屏幕底部顯示了一個(gè)提示詞(prompt),整場操作就是由它驅(qū)動(dòng)的,模型會(huì)邊看邊學(xué),自己決定下一步。
快進(jìn)到最后,它在這個(gè)游戲里獲得了67%的顧客滿意度。
Serena Delarry在回答評委問題時(shí)提到,這個(gè)智能體支持接管電腦界面。
比如從備忘錄應(yīng)用中輸入一個(gè)提示詞,模型就開始點(diǎn)擊屏幕,嘗試?yán)斫庥螒騼?nèi)容。每隔幾秒鐘它會(huì)截一次圖,然后基于這些截圖來規(guī)劃接下來的操作路徑。
你可以看到它在分析規(guī)劃,并嘗試執(zhí)行操作。
Serena Delarry表示,OpenAI曾經(jīng)發(fā)布過一個(gè)計(jì)算機(jī)使用模型,但那個(gè)運(yùn)行速度非常慢,效果也不太好。這次他開發(fā)的智能體,雖然還不算「非常優(yōu)秀」,但至少已經(jīng)「可用且順暢」。
為了測試模型的性能,Serena Delarry還會(huì)發(fā)布一個(gè)操作系統(tǒng)層面的性能基準(zhǔn)測試(OS-level benchmark)。
智能體「軍團(tuán)」作戰(zhàn),AI電網(wǎng)超決策
電力公司每天要服務(wù)數(shù)百萬用戶,管理數(shù)十億美元的資產(chǎn),同時(shí),還受到各種約束:監(jiān)管政策、市場機(jī)制、電網(wǎng)的物理運(yùn)行極限等。
這意味著電力公司每分鐘都要處理海量數(shù)據(jù),并基于這些信息快速?zèng)Q策。
打開智能體式電網(wǎng)編排系統(tǒng)首頁,你會(huì)看到一個(gè)調(diào)度員的典型界面:峰值負(fù)載、當(dāng)前負(fù)載、電網(wǎng)壓力狀態(tài)、電網(wǎng)拓?fù)鋱D等,還有不同數(shù)據(jù)源的詳細(xì)信息。
同時(shí)你還可以看到哪些輸電線路正在高負(fù)載運(yùn)行、面臨風(fēng)險(xiǎn)。
系統(tǒng)后端有五個(gè)獨(dú)立智能體,每個(gè)都有自己的優(yōu)化目標(biāo)函數(shù)。同時(shí)還有一個(gè)主控智能體,負(fù)責(zé)綜合所有智能體的建議,做出最終決策。
為了模擬真實(shí)的電網(wǎng),演示中選擇了加州某個(gè)區(qū)域的典型電網(wǎng)結(jié)構(gòu)。系統(tǒng)中包含實(shí)際發(fā)電站、住宅區(qū)、商業(yè)負(fù)載中心,并且建模了各類故障場景——所以,這是一個(gè)實(shí)時(shí)、動(dòng)態(tài)的電網(wǎng)仿真平臺。
進(jìn)入平臺后可以開始模擬運(yùn)行。過程中會(huì)考慮各種系統(tǒng)損耗,比如技術(shù)損耗、輸電/配電損耗等。
系統(tǒng)的核心是五個(gè)智能體,對應(yīng)現(xiàn)實(shí)中電力公司內(nèi)部的各類角色:
戰(zhàn)略規(guī)劃智能體:確保在任何時(shí)候供需平衡;
戰(zhàn)術(shù)調(diào)度智能體:以最低成本完成負(fù)載分配;
資產(chǎn)管理智能體:如處理樹木倒塌導(dǎo)致電纜故障等突發(fā)情況;
以及其他支持型智能體,它們之間密切協(xié)同,而非各自為政。
每個(gè)智能體都有自己的目標(biāo)函數(shù)和可調(diào)用的工具,它們會(huì)提前模擬未來10到12個(gè)時(shí)間步,預(yù)測自己的行動(dòng)對電網(wǎng)系統(tǒng)造成的影響。
由于目前尚未對模型進(jìn)行深入微調(diào)(fine-tuning),所以目前智能體在一些關(guān)鍵指標(biāo)上表現(xiàn)不太理想。
當(dāng)前一個(gè)主要挑戰(zhàn)是:當(dāng)我們直接使用GPT-5作為智能體核心時(shí),它在每一個(gè)時(shí)間步往往無法真正實(shí)現(xiàn)目標(biāo)最優(yōu),而是傾向于采取「最安全」的保守路徑。
上圖展示了每個(gè)時(shí)間點(diǎn)各個(gè)智能體的行為:戰(zhàn)略規(guī)劃智能體可能會(huì)嘗試切換電容組(capacitor bank),戰(zhàn)術(shù)調(diào)度智能體則可能會(huì)激活電池儲能系統(tǒng)(BESS)進(jìn)行放電。
演示者表示,針對上述問題的優(yōu)化目標(biāo)是,依次滿足多層次的目標(biāo)函數(shù),比如:保證電力供應(yīng)的可靠性;控制成本、提高運(yùn)行效率;保證系統(tǒng)持續(xù)在線運(yùn)行。
參考資料:
https://threadreaderapp.com/user/AlexReibman
http://threadreaderapp.com/
https://threadreaderapp.com/user/AlexReibman
https://x.com/jihyuk_gentoo/status/1954791809382518972
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.