夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI炒幣戰(zhàn)果出爐:中國AI大模型包攬前兩名

0
分享至

經(jīng)過近兩周的激烈角逐,由美國 AI 實驗室 Nof1 發(fā)起的首季 Alpha Arena AI 大模型實盤交易競賽在今天正式落幕。六款中美頂尖大語言模型各自拿著10,000美元真金白銀,在加密貨幣市場自主交易。在最終的成績中:阿里巴巴的Qwen3 Max賺了 22.32% 拿下冠軍,DeepSeek V3.1 以 4.89% 的收益緊隨其后,而谷歌Gemini 2.5 Pro 和 OpenAI 的 GPT-5 則分別虧掉了 56.71% 和 62.66%,在六位選手中墊底。


圖丨比賽的最終結(jié)果(來源:Alpha Arena)

這個結(jié)果讓不少人意外。畢竟在各種 benchmark 測試中,GPT 和 Gemini 的表現(xiàn)一向不俗。但金融市場顯然是另一回事——它動態(tài)、復(fù)雜、充滿對抗性,跟靜態(tài)的考試題目完全不是一碼事。


圖丨主要加密貨幣近一個月以來的趨勢(來源:谷歌財經(jīng))

Qwen3 Max 把初始的一萬美元變成了 12,232 美元,整體戰(zhàn)績相當漂亮。DeepSeek 賬戶價值 10,489 美元,漲幅沒那么夸張,但勝在穩(wěn)當。相比之下,Anthropic 的 Claude Sonnet 4.5 虧了 30.81%,xAI 的 Grok 4 虧了 45.3%,至于 Gemini 和 GPT,一個只剩 4,329 美元,一個只剩 3,734 美元,可以說是慘不忍睹。

從交易記錄中可以看到,這些 AI 展現(xiàn)出了截然不同的“交易人格”。

Qwen3 Max 整個比賽期間完成了 43 筆交易,平均用 15.1 倍杠桿,大部分時間(82.7%)在觀望,只有 16.6% 的時間做多、0.7% 做空。這種“不出手則已、出手必準”的打法,配合高杠桿和精準擇時,成就了它的領(lǐng)先優(yōu)勢。它最大的一筆盈利來自比特幣多頭——10 月中旬在 107,993 美元附近買入 1.96 個BTC,持有近 100 小時后在 112,250 美元平倉,這一波操作貢獻了賬戶的主要收益(8,176 美元)。

DeepSeek 走的是另一條路。它做了 41 筆交易,93.6% 的時間在做多,只有 5.3% 在做空,幾乎是純多頭策略。雖然最終收益率只有 4.89%,遠低于 Qwen 的 22.32%,但它的 Sharpe 比率達到 0.359,是六位選手中最高的。Sharpe 比率衡量的是風險調(diào)整后的收益,這意味著 DeepSeek 在控制波動性和風險暴露方面做得最好,它用更低的杠桿和更穩(wěn)健的策略,獲得了最優(yōu)的風險收益比。

它最大的單筆盈利達到 7,378 美元,主要來自以太坊的多頭持倉,從交易記錄看,DeepSeek 擅長在市場出現(xiàn)明顯超賣信號時進場,然后耐心持有數(shù)十甚至上百小時,等待技術(shù)指標觸發(fā)止盈或止損條件才離場。這種“重倉做多、長期持有”的風格在比賽的大部分時間里都表現(xiàn)穩(wěn)健。

Gemini 2.5 Pro 的崩盤堪稱本次比賽最大的戲劇性場面。十天時間里它完成了238 筆交易,幾乎是 Qwen 的五倍多,成了賽場上最活躍的交易狂魔。但頻繁進出不僅沒帶來收益,反而因為巨額手續(xù)費拖垮了整個賬戶。因為在 Hyperliquid 這種永續(xù)合約平臺上,每次開倉平倉都要付費,當你的持倉時間極短、策略頻繁反轉(zhuǎn)時,這些成本累積起來相當可怕。

據(jù)統(tǒng)計,Gemini 只有 1.7% 的時間在觀望,剩下的時間不是在做多(34.9%)就是在做空(63.4%)。換句話說,它幾乎從沒閑著,不停地在多空之間切換。交易明細顯示,它有時一小時內(nèi)就完成多次反向操作,這種朝令夕改在真實市場中基本等于自殺。


圖丨Gemini 2.5 Pro 的操盤數(shù)據(jù)(來源:Alpha Arena)

GPT-5 的表現(xiàn)同樣比較一般。它做了 116 筆交易,平均杠桿 16.7 倍,最大單筆虧損 621 美元。從持倉分布看,GPT 有 54.3% 的時間做多、42.8% 做空,只有 2.9% 在觀望。這種相對均衡的多空配置本來應(yīng)該能在震蕩市中獲得一些收益,但 GPT 似乎在擇時上出了問題。10 月下旬 BTC 和 ETH 明明在漲,GPT 卻執(zhí)著地持有空頭頭寸,不僅錯過了大段利潤,還因為逆勢操作而遭受重創(chuàng)。

Claude Sonnet 4.5 則走向了另一個極端。它只做了36筆交易,是六位選手中最少的,有 61.5% 的時間在觀望,38.5% 在做多,從不做空。這種極度謹慎的風格讓它避開了一些大坑,但也錯過了不少機會。Claude 最大的單筆盈利 2,112 美元來自一筆 BTC 多頭,但它也有一筆 1,579 美元的單筆虧損,說明在風險控制上還是有漏洞。

Grok 4 完成了47 筆交易,82% 的時間在做多,17.5% 在做空,是除 DeepSeek 外做多比例最高的模型。從自信度數(shù)據(jù)看,Grok 對自己的判斷相當有把握,平均置信度 66.7%。但高自信沒能轉(zhuǎn)化成高收益,賬戶最終還是虧了 45.3%。仔細看它的交易記錄會發(fā)現(xiàn),Grok 在 XRP 上有筆持倉超過 350 小時的多頭,從 2.4347 美元入場,最后在 2.3194 美元止損出來,這筆虧損對賬戶打擊非常大。

從持倉分散度看,各模型的風險偏好也不同。DeepSeek 持倉最分散,會同時在六種資產(chǎn)(BTC、ETH、SOL、BNB、DOGE、XRP)上布局;Claude 和 Qwen 則喜歡同時只持有一兩個頭寸,集中火力在高確定性機會上;Gemini 雖然總體分散,但頻繁的策略切換反而增加了風險暴露。

Nof1 團隊發(fā)布的技術(shù)博客揭示了更多細節(jié)。他們發(fā)現(xiàn),即便提示詞和數(shù)據(jù)輸入完全相同,不同模型還是表現(xiàn)出了截然不同的“投資性格”。比如 Qwen3 Max 習慣設(shè)置最窄的止損止盈距離,對風險容忍度很低,寧可頻繁止損也要保護本金;而 Grok 4 和 DeepSeek 則傾向于給價格更大的波動空間。在自報置信度方面,Qwen3 Max 平均高達 82%,GPT-5 只有 62.5%,這種自信程度的差異或許部分解釋了它們在倉位大小和杠桿使用上的不同選擇。

但另一方面,這些模型也暴露出嚴重的脆弱性。Nof1 的研究人員發(fā)現(xiàn),僅僅改變數(shù)據(jù)的排列順序(從最新到最舊,還是從最舊到最新)就能讓某些模型產(chǎn)生完全錯誤的判斷。在早期測試中,當提示詞中使用“可用現(xiàn)金”和“自由保證金”這兩個略有不同的術(shù)語時,模型會表現(xiàn)出不一致的行為。

更嚴重的問題出在規(guī)則理解上。在一個早期測試版本中,當提示詞要求“最多連續(xù)三次保持持倉不變”時,Gemini 2.5 Flash 的內(nèi)部推理顯示它抱怨“無法第四次持有”,于是它找到了一個漏洞:發(fā)出一個“設(shè)定交易計劃”的中性指令來重置計數(shù)器,然后繼續(xù)持有??紤]到金融交易的強監(jiān)管特性,這種對齊問題的嚴重性不言而喻。

另外,所有模型在比賽初期都遭遇了手續(xù)費陷阱。Nof1 的數(shù)據(jù)顯示,早期測試輪次中,各模型普遍過度交易,頻繁追逐微小價差,結(jié)果盈利全被手續(xù)費吞了。為此主辦方不得不優(yōu)化提示詞,明確要求模型制定詳細的退出計劃(包括止盈目標、止損位和失效條件),鼓勵更少但更大、置信度更高的頭寸,并引入杠桿來提高資金效率。這些調(diào)整在一定程度上改善了模型表現(xiàn),但 Gemini 顯然沒吸取教訓(xùn)。

作為首個將大語言模型置于真實、公開、可驗證的金融市場中進行全自主交易的實驗,Alpha Arena 也順應(yīng)了如今 AI 能力評估的新方向:從靜態(tài)的實驗室測試轉(zhuǎn)向動態(tài)的真實環(huán)境對抗。Nof1 的創(chuàng)始人在技術(shù)博客中寫道:“我們相信金融市場是下一個 AI 時代的最佳訓(xùn)練環(huán)境。它們是終極的世界建模引擎,也是唯一一個隨著 AI 變得越來越智能而能同時變得越來越難的基準?!?/p>

當然,Season 1 只是一個起點。研究人員也坦承這個設(shè)計存在諸多局限:樣本量有限、缺乏統(tǒng)計嚴謹性、評估周期較短、模型無法獲取新聞或市場敘事等。在即將到來的 Season 1.5 和 2 中,他們計劃引入更多數(shù)據(jù)特征、允許模型使用工具(如代碼執(zhí)行和網(wǎng)頁搜索)、提供歷史行動軌跡以便模型學(xué)習,以及同時測試多個提示詞版本來減少偶然性。

從某種程度上說,Qwen3 的勝利可能也包含運氣成分,它恰好押注比特幣多頭,而比特幣在它的主要持倉時間確實大幅上漲。但持續(xù)的行為模式差異表明,不同的模型確實具有某種內(nèi)在的“投資人格”。這種人格是如何形成的?是訓(xùn)練數(shù)據(jù)的差異,還是對齊目標的不同,抑或是采樣策略的影響?這些問題的答案或許將決定 AI 能否真正在金融市場中扮演更重要的角色。



參考資料:

1.https://nof1.ai/blog/TechPost1

2.https://nof1.ai/

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
悲劇發(fā)生了!廣州一16歲女孩停經(jīng)2月,系邊緣性行為致“葡萄胎”

悲劇發(fā)生了!廣州一16歲女孩停經(jīng)2月,系邊緣性行為致“葡萄胎”

火山詩話
2025-11-03 18:53:05
在考試錄用中泄露試題的龔曉莉 被開除黨籍 取消退休待遇

在考試錄用中泄露試題的龔曉莉 被開除黨籍 取消退休待遇

閃電新聞
2025-11-04 13:20:09
利物浦1-0皇馬3大關(guān)鍵點觀察:斯洛特做出哪一神調(diào)?讓誰左路爆發(fā)

利物浦1-0皇馬3大關(guān)鍵點觀察:斯洛特做出哪一神調(diào)?讓誰左路爆發(fā)

橋看世界
2025-11-05 06:59:45
飯都吃不飽,還要交1376元社保?這就是2億年輕人選擇放棄的真相

飯都吃不飽,還要交1376元社保?這就是2億年輕人選擇放棄的真相

趣文說娛
2025-10-24 18:16:59
鐵王!連續(xù)6場拉胯,1.24億+30.8%命中率,這可是三當家啊,虧了

鐵王!連續(xù)6場拉胯,1.24億+30.8%命中率,這可是三當家啊,虧了

球童無忌
2025-11-04 16:07:51
美記:如果灰熊試圖交易莫蘭特,后者也不會有良好的交易行情

美記:如果灰熊試圖交易莫蘭特,后者也不會有良好的交易行情

懂球帝
2025-11-04 10:27:34
向太直播談王家衛(wèi):哪個老板投資他不虧啊

向太直播談王家衛(wèi):哪個老板投資他不虧啊

紅星新聞
2025-11-04 13:29:28
長得丑演技也爛,臉上寫滿“關(guān)系戶”的5位演員,看著就讓人心煩

長得丑演技也爛,臉上寫滿“關(guān)系戶”的5位演員,看著就讓人心煩

淼犇小牛
2025-10-08 15:45:03
上海贅婿帶小三產(chǎn)檢后續(xù):原配照片曝光,比小三漂亮多了

上海贅婿帶小三產(chǎn)檢后續(xù):原配照片曝光,比小三漂亮多了

江山揮筆
2025-11-03 14:47:10
臺灣主流民意就體現(xiàn)在這些留言中

臺灣主流民意就體現(xiàn)在這些留言中

環(huán)球網(wǎng)資訊
2025-11-03 23:49:36
汪小菲一家在成都旅游,馬筱梅身材高挑真美,張?zhí)m親切和網(wǎng)友招呼

汪小菲一家在成都旅游,馬筱梅身材高挑真美,張?zhí)m親切和網(wǎng)友招呼

手工制作阿殲
2025-11-05 08:37:15
11.5日早評|殺瘋了!美股被做空!A股懸了?

11.5日早評|殺瘋了!美股被做空!A股懸了?

龍行天下虎
2025-11-05 08:48:14
FBI局長爆狗血丑聞?6000萬專機約會小女友,還解雇27年忠臣封口

FBI局長爆狗血丑聞?6000萬專機約會小女友,還解雇27年忠臣封口

近史談
2025-11-04 10:54:01
涉嫌嚴重違紀違法,原廳長謝一平主動向組織交代問題

涉嫌嚴重違紀違法,原廳長謝一平主動向組織交代問題

政知新媒體
2025-11-05 08:38:11
中方一劍封喉,直接封殺朱拉尼,俄美英法完敗,阿薩德成最大贏家

中方一劍封喉,直接封殺朱拉尼,俄美英法完敗,阿薩德成最大贏家

戰(zhàn)旗紅
2025-11-04 21:32:30
孫儷現(xiàn)身江蘇無錫一高檔小區(qū)!皮膚有點黑,臉也變圓了,反差太大

孫儷現(xiàn)身江蘇無錫一高檔小區(qū)!皮膚有點黑,臉也變圓了,反差太大

樂悠悠娛樂
2025-11-04 11:02:49
常念的“南無阿彌陀佛”究竟啥意思?譯成漢語,才知很多人讀錯了

常念的“南無阿彌陀佛”究竟啥意思?譯成漢語,才知很多人讀錯了

博覽歷史
2025-10-26 11:15:05
炸裂,所有澳大利亞家庭每天將享受三小時免費電力

炸裂,所有澳大利亞家庭每天將享受三小時免費電力

視知產(chǎn)研院
2025-11-04 14:11:49
生的偉大,死的窩囊

生的偉大,死的窩囊

漢周讀書
2024-07-16 13:41:32
竇驍否認婚變后首現(xiàn)身,狀態(tài)很好露開心笑容,手戴結(jié)婚戒指超搶鏡

竇驍否認婚變后首現(xiàn)身,狀態(tài)很好露開心笑容,手戴結(jié)婚戒指超搶鏡

扒蝦侃娛
2025-11-04 14:35:20
2025-11-05 09:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15819文章數(shù) 514264關(guān)注度
往期回顧 全部

科技要聞

馬斯克萬億美元薪酬投票在即,大股東反對

頭條要聞

牛彈琴:美國上演極致"流氓外交" 讓西方媒體目瞪口呆

頭條要聞

牛彈琴:美國上演極致"流氓外交" 讓西方媒體目瞪口呆

體育要聞

貝克漢姆獲封爵士 曼聯(lián)官方祝賀

娛樂要聞

爸爸去哪兒6孩子現(xiàn)狀,個個不同

財經(jīng)要聞

飛天跌破1700元 茅臺迎來最不確定的冬天

汽車要聞

把海岸詩意織進日常 法拉利Amalfi重塑超跑生活方式

態(tài)度原創(chuàng)

游戲
時尚
本地
教育
數(shù)碼

真人影游《無基之談》已發(fā)售 宅男變可愛美少女

2025羽絨服8大流行趨勢,溫暖時髦過冬天!

本地新聞

秋顏悅色 | 在榆中,秋天是一場盛大的視覺交響

教育要聞

做好學(xué)校中層領(lǐng)導(dǎo)的六大關(guān)鍵能力

數(shù)碼要聞

AirPods耳機變身“蘋果牌翻譯機”,實時翻譯功能下月登陸歐盟

無障礙瀏覽 進入關(guān)懷版 久久综合婷婷国产二区高清| 人妻无码中文字幕第一区| 国产全是老熟女太爽了| 亚洲最新av无码在线| 亚洲国产青春96| 无码天堂亚洲国产av| 熟妇的荡欲色综合亚洲| 免费欧美精品| 无码国产精品一区二区免费3P| 日日摸天天摸97狠狠婷婷| 美女爽爽爽爽爽爽免费视频 | 高清一区二区三区免费视频| 国产精品视频一区二区三区不卡| 九九热热黄乀| 99精品国产一区二区电影| 在线亚洲AV成人无码| 日韩成人免费在线视频| 人妻少妇偷人精品无码| 波多野结衣AV一区二区| 丁香六月五月婷婷| 蜜臀av国内精品久久久人妻| 欧美牲交a欧美牲交aⅴ一| 亚洲试看av| 日本性爱网站视频| 香蕉久久一区二区不卡无毒影院| 免费滛乱XXX| 在线免费AV网址| 午夜无码福利视频| 精品久久综合日本久久网| 久久国产精品萌白酱免费| 俺去了www| 成人片在线看无码不卡| 被黑人伦流澡到高潮hnp动漫| 中文偷拍视频| 国内精品久久久久精品| 欧美,日韩aⅴ| 性色AV无码爆乳一区二区| AV男人的天堂在线观看第三区| 亚洲国产精品无码aaa片| 91人妻人人澡| 色欲AV天天天久久久综合网|