夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型競技場榜單更新,國產(chǎn)玩家首次進(jìn)入全球總榜前10

0
分享至

中國大模型到底是超過GPT-4還是落后十年?最近這方面聲音特別嘈雜,讓大家無法分辨真?zhèn)巍I(yè)界公認(rèn)最好第三方盲測競技場就是 LMSYS,已經(jīng)成為全球大模型評測金標(biāo)準(zhǔn),被稱作更接近用戶真實體感的投票評測,曾獲 Sam Altman, Jeff Dean等親自引用。

令人欣慰的是,剛官宣一周的 Yi-Large 千億模型登上全球金字塔,世界總榜表現(xiàn)僅次于OpenAI、 Google、Anthropic 3家公司,中文分榜和GPT-4o并列全球第一。

一年前,零一萬物剛剛成立,落后Google、OpenAI (兩家公司投入大模型時間點估算)7年。一年后,我們僅僅落后它們半年左右(這次評測我們超過了所有半年前提交的模型)。這個“超級速度”來自于團(tuán)隊的聰明、勤奮和努力。我們也會再接再厲,給業(yè)界貢獻(xiàn)更多的頂尖大模型,跟同行一起擦亮AI 2.0時代“中國智造”的名片。

以下文章來源自量子位,作者衡宇

龍爭虎斗的大模型競技場,今天突然更新:

國內(nèi)大模型公司零一萬物旗下的Yi-Large千億參數(shù)閉源大模型,躍升總榜第七,也成為榜上國產(chǎn)大模型第一。

可以看到,它的成績幾乎與GPT-4-0125-preview持平。

同時,國內(nèi)清華系大模型公司智譜華章的GLM-4-0116也殺進(jìn)總榜,位居第15位。


這個結(jié)果來自累積超1170萬全球用戶的真實盲測投票數(shù)。

而且大模型競技場最近修改了規(guī)則,只要大模型亮明身份后就不能再繼續(xù)投票,杜絕了刷分的可能性。

再來看Yi-Large排名之前的前6名中,有4個模型來自GPT,另外有1個谷歌的Gemini,1個Anthropic的Claude。

零一萬物創(chuàng)始人兼CEO李開復(fù)博士為此表示,LMSYS提供了一個第三方的、公正的平臺,其他競爭對手也都非常認(rèn)可。

而零一萬物的團(tuán)隊規(guī)模、參數(shù)規(guī)模、GPU算力都比排名更靠前的模型“小”。

零一萬物的GPU可能只有Google、Microsoft的5%,但團(tuán)隊一直在探索,能不能訓(xùn)練跟大廠一樣好的模型。 我們的特點就是以千億模型殺入了萬億模型的范圍。如果我們有10倍的GPU,我們的萬億模型應(yīng)該完全可能達(dá)到第一名。
Yi-Large成排名飛升黑馬

大模型競技場官推還給出了Yi-Large的更多成績:

中文類別中,Yi-Large和GLM-4兩個國產(chǎn)大模型的表現(xiàn)不俗。

其中,Yi-Large成績尤為突出,與GPT-4o并列總榜第一。


模型強度的置信區(qū)間,則如下圖所示:


值得注意的是,為了提高大模型競技場查詢的整體質(zhì)量,LMSYS還實施了重復(fù)數(shù)據(jù)刪除機制,并出具了去除冗余查詢后的榜單。

這個新機制旨在消除過度冗余的用戶提示——如過度重復(fù)的“你好”——這類冗余提示可能會影響排行榜的準(zhǔn)確性。

LMSYS公開表示,去除冗余查詢后的榜單將在后續(xù)成為默認(rèn)總榜。

目前,在去除冗余查詢后的總榜中,Yi-Large的Elo得分更進(jìn)一步,與Claude 3 Opus、GPT-4-0125-preview并列第四。

解釋一下,Elo評分系統(tǒng)基于統(tǒng)計學(xué)原理設(shè)定,是當(dāng)前國際公認(rèn)的競技水平評估標(biāo)準(zhǔn)。在這個評分系統(tǒng)里,每個參賽者都有基準(zhǔn)評分,然后根據(jù)每場比賽調(diào)整評分。一旦低分選手擊敗高分選手,那么低分選手就會獲得較多的分?jǐn)?shù),反之則較少。

LMSYS引入Elo評分系統(tǒng),是為了保證大模型競技場在最大程度上保證排名的客觀公正。


而在分類別的排行榜中,Yi-Large同樣表現(xiàn)亮眼。

編程能力、長提問及最新推出的 “艱難提示詞” 的三個評測是LMSYS所給出的針對性榜單。這三個榜單以專業(yè)性與高難度著稱,可稱為當(dāng)下大模型最燒腦的公開盲測。

編程能力(Coding)排行榜上,Yi-Large 的Elo分?jǐn)?shù)超過Anthropic當(dāng)家旗艦?zāi)P虲laude 3 Opus,僅低于GPT-4o,與GPT-4-Turbo、GPT-4并列第二。


長提問(Longer Query)榜單上,Yi-Large同樣位列全球第二,與GPT-4-Turbo、GPT-4、Claude 3 Opus并列。


艱難提示詞(Hard Prompts)則是LMSYS響應(yīng)社區(qū)要求,在今天的排行榜刷新中新增的類別。

這個類別的提示詞來自大模型競技場用戶提交的prompts,它們經(jīng)過專門設(shè)計,更加復(fù)雜、要求更高且更加嚴(yán)格。

LMSYS增加這一類別榜單的原因,是官方認(rèn)為這類提示能夠測試最新語言模型面臨挑戰(zhàn)性任務(wù)時的性能。

這個榜單上,Yi-Large處理艱難提示的能力與GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。


這次表現(xiàn)亮眼的Yi-Large,是一周前零一萬物剛對外發(fā)布的閉源模型

當(dāng)時官方給出的評測結(jié)果中,推理方面,Yi-Large在HumanEval和MATH都位列第一,超越GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct(都是時下大模型領(lǐng)域的佼佼者)。


據(jù)了解,Yi-Large的下一步是采用MoE架構(gòu)的Yi-XLarge,目前已經(jīng)啟動訓(xùn)練。

大模型競技場

大模型競技場(Chatbot Arena),似乎已經(jīng)成為現(xiàn)在頭部大模型的兵家必爭之地。

此前,國外如谷歌Bard、OpenAI的神秘大模型gpt2-chatbot(不是GPT-2)、Mistral AI的Mistral Large等模型都在上面沖鋒陷陣。

國內(nèi)諸多玩家也都陸陸續(xù)續(xù)把自家孩子放進(jìn)去考驗真功夫。

大神卡帕西去年就夸過大模型競技場很Awesome:


GPT-4o發(fā)布后,OpenAI的CEO奧特曼也轉(zhuǎn)帖引用大模型競技場盲測擂臺的測試結(jié)果,直呼鵝妹子嚶。


發(fā)布它的開放研究組織LMSYS Org(Large Model Systems Organization)發(fā)布,由加州大學(xué)伯克利分校的學(xué)生和教師、加州大學(xué)圣地亞哥分校、卡耐基梅隆大學(xué)合作創(chuàng)立。

雖然背后團(tuán)隊主要來自高校,但LMSYS的研究項目卻相對更貼近產(chǎn)業(yè)。

他們不僅自己開發(fā)大語言模型,還向業(yè)內(nèi)輸出多種數(shù)據(jù)集(其推出的MT-Bench已是指令遵循方向的權(quán)威評測集)、評估工具,此外還開發(fā)分布式系統(tǒng)以加速大模型訓(xùn)練和推理,提供線上live大模型打擂臺測試所需的算力。


在形式上,大模型競技場借鑒了搜索引擎時代的橫向?qū)Ρ仍u測思路。

它首先將所有上傳評測的參賽模型隨機兩兩配對,以匿名模型的形式呈現(xiàn)在用戶面前。

在不知道模型型號名稱的前提下,用戶輸入自己的提示詞,模型A、模型B兩側(cè)分別生成兩PK模型的真實結(jié)果,然后由用戶在結(jié)果下方做出投票四選一:

A模型較佳/B模型較佳/兩者平手/兩者都不好。

提交投票后,可進(jìn)行下一輪PK。


目前,大模型競技場的評測過程涵蓋了從用戶直接參與投票、盲測、大規(guī)模投票和動態(tài)更新評分機制等多個方面,盡可能保證結(jié)果的客觀和專業(yè)。

官方公開數(shù)據(jù)顯示,本次更新的大模型競技場,共有44款模型參賽。

既有開源高手,如Llama3-70B;也有全球各家大廠、創(chuàng)業(yè)公司的閉源模型。

最后,奉上一張勝率熱圖,它涵蓋了目前大模型競技場上的所有大模型:


快來看看你pick的大模型勝率如何吧(手動狗頭)~

大模型競技場盲測平臺:
https://arena.lmsys.org/
大模型競技場評測排行(滾動更新):
https://chat.lmsys.org/?leaderboard

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國專家最新科研成果:馬克思主義源于《易經(jīng)》

中國專家最新科研成果:馬克思主義源于《易經(jīng)》

山間聽雨
2025-10-06 11:46:05
兩大百億影帝也不靈了!張藝謀,這就是為啥我們不愿去影院的答案

兩大百億影帝也不靈了!張藝謀,這就是為啥我們不愿去影院的答案

小丸子的娛樂圈
2025-10-06 09:01:40
央視中秋晚會,44歲謝娜給內(nèi)娛“上了一課”:可以癲,但不能真菜

央視中秋晚會,44歲謝娜給內(nèi)娛“上了一課”:可以癲,但不能真菜

阿廢冷眼觀察所
2025-10-07 03:27:29
對俄羅斯最有效的制裁方式……

對俄羅斯最有效的制裁方式……

山河路口
2025-10-06 19:48:00
大批上海市民收到同一條短信!全市爆火網(wǎng)紅打卡點已被鎖定...有人已被罰款

大批上海市民收到同一條短信!全市爆火網(wǎng)紅打卡點已被鎖定...有人已被罰款

魯中晨報
2025-10-06 11:16:04
高市早苗曾是“精神小妹”,喜歡機車重金屬,仨孩子都是丈夫前妻所生

高市早苗曾是“精神小妹”,喜歡機車重金屬,仨孩子都是丈夫前妻所生

愛史紀(jì)
2025-10-05 00:50:33
王俊凱工作室修圖遺落了個鼻子,網(wǎng)友:把鼻子忘背景上了

王俊凱工作室修圖遺落了個鼻子,網(wǎng)友:把鼻子忘背景上了

韓小娛
2025-10-06 08:36:02
楊蘭蘭多張私人照片曝光,她為何始終不以“真面目”示人?

楊蘭蘭多張私人照片曝光,她為何始終不以“真面目”示人?

李昕言溫度空間
2025-10-06 19:36:28
和對象做過最瘋狂的事是啥?網(wǎng)友:年輕人慎看,好像有點污

和對象做過最瘋狂的事是啥?網(wǎng)友:年輕人慎看,好像有點污

解讀熱點事件
2025-09-30 00:15:03
好尷尬,央視中秋晚會剛開播就罵聲一片,大家吐槽的點五花八門

好尷尬,央視中秋晚會剛開播就罵聲一片,大家吐槽的點五花八門

丁丁鯉史紀(jì)
2025-10-06 23:35:08
武網(wǎng)大爆冷!上屆四強王欣瑜0-2遭日本資格賽選手橫掃 止步首輪

武網(wǎng)大爆冷!上屆四強王欣瑜0-2遭日本資格賽選手橫掃 止步首輪

醉臥浮生
2025-10-06 21:42:15
剛帶領(lǐng)3000多人打破世界紀(jì)錄的美國戰(zhàn)爭部長自曝:特朗普吼了他,因其未完成某項任務(wù)

剛帶領(lǐng)3000多人打破世界紀(jì)錄的美國戰(zhàn)爭部長自曝:特朗普吼了他,因其未完成某項任務(wù)

紅星新聞
2025-10-06 17:47:14
山東男籃功勛去世!52歲英年早逝!是楊瀚森恩師,愛徒發(fā)文很懷念

山東男籃功勛去世!52歲英年早逝!是楊瀚森恩師,愛徒發(fā)文很懷念

老吳說體育
2025-10-07 01:32:07
廣州某市場海參事件,廣東媒體集體失聲?

廣州某市場海參事件,廣東媒體集體失聲?

知肇分子
2025-10-06 21:13:04
5號就開始返程,今年國慶的五個奇怪現(xiàn)象,消費者越來越清醒了

5號就開始返程,今年國慶的五個奇怪現(xiàn)象,消費者越來越清醒了

原廣工業(yè)
2025-10-06 16:49:53
中國男子巴西出差時遭遇持槍蒙面搶劫,下意識跑開時劫匪連開兩槍,所幸包中電腦為他擋下一槍

中國男子巴西出差時遭遇持槍蒙面搶劫,下意識跑開時劫匪連開兩槍,所幸包中電腦為他擋下一槍

大風(fēng)新聞
2025-10-06 16:31:07
“我是毛主席的兒子,我有證據(jù)!”1993年,浙江杭州……

“我是毛主席的兒子,我有證據(jù)!”1993年,浙江杭州……

歲月有情1314
2025-10-06 23:48:45
雞排哥的“黃金周”:每天睡三四個小時,黃牛200元叫賣第一份雞排

雞排哥的“黃金周”:每天睡三四個小時,黃牛200元叫賣第一份雞排

藍(lán)鯨新聞
2025-10-06 12:12:09
不打一仗對得起誰?

不打一仗對得起誰?

求實處
2025-10-06 18:30:03
后續(xù)!女子景區(qū)撿板栗殼,被民宿老板娘誣陷偷盜還賠錢,老板回應(yīng)

后續(xù)!女子景區(qū)撿板栗殼,被民宿老板娘誣陷偷盜還賠錢,老板回應(yīng)

奇思妙想草葉君
2025-10-06 15:54:55
2025-10-07 07:59:00
李開復(fù) incentive-icons
李開復(fù)
李開復(fù)的網(wǎng)易號
422文章數(shù) 2355關(guān)注度
往期回顧 全部

游戲要聞

《穿越火線》溫徹斯特為什么被玩家嫌棄?策劃都沒出過多少皮膚槍

頭條要聞

特朗普:對進(jìn)口中型和重型卡車征收25%關(guān)稅

頭條要聞

特朗普:對進(jìn)口中型和重型卡車征收25%關(guān)稅

體育要聞

5天12場!王楚欽拼到低血糖 央視點贊

娛樂要聞

女星周也翻車!疑向熱巴翻白眼

財經(jīng)要聞

暴漲前夜,大國博弈找到了新戰(zhàn)場!

科技要聞

OpenA野心:把所有App都裝進(jìn)ChatGPT

汽車要聞

奇瑞全新大型SUV亮相!大六座+800V平臺

態(tài)度原創(chuàng)

家居
數(shù)碼
教育
游戲
公開課

家居要聞

外灘壹號 知名導(dǎo)演豪宅

數(shù)碼要聞

米哈游《原神》移除PowerVR GPU支持,谷歌Pixel 10系列運行受限

教育要聞

高中的英語單詞比較多,有哪些方法能夠高效率地記英語單詞?

“真·三國無雙”系列制作人TGS訪談:其實,我真的不想做重制版……"/> 主站 商城 論壇 自運營 登錄 注冊 “真·三國無雙”系列制作人TGS訪談:其...

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 久久久久无码精品国产H动漫猫咪 国产精品久久久久久无码蜜臀漫画 | 国产三级片视频| 少妇人妻系列无码专区系列| 久久久久国产一区二区三区 | 无码视频网站| 国产精品久久久久77777| 久久国产欧美日韩精品| 欧美黑人添添高潮a片www| 精品国产乱码久久久久久1区2区| 国产精品一二三区久久狼 | 新婚不久上司出差被中出| 无码办公室丝袜ol中文字幕 | 俄罗斯少妇黄网站| 午夜婷婷人妻| 99热热色色| 无码av在线播| 亚洲熟妇少妇任你躁在线观看无码| 欧美性最猛性XXXXX黑白配 | 国产一区二区三区内射高清| 中文字幕av无码一二三区电影| 美腿丝袜亚洲综合在线视频| JAPANESE精品中国少妇| 国产精品亚洲第一区在线| 国产精品久久久久精品| 国产亚洲综合欧美视频| 国产人妻精品久久久久野外| 日本吸奶子视频| 日韩午夜无码人妻精品三国| 激情五月天综合| 国产饥渴孕妇在线播放| 国产无遮挡aaa片爽爽| 亚洲中文字幕无码天然素人在线| 色偷偷噜噜噜亚州人| 精品女同同性视频在线网| 亚洲亚洲人成无码网www| 人嬠人人都人嬠人嬠′人人| 日韩精品自拍| freesexvideo| 毛片本日18| 欧美小说 乱小说| 日本人妻久久久加勒比二区三区|