大模型競技場榜單更新，國產(chǎn)玩家首次進(jìn)入全球總榜前10

2024-05-21 18:47:09　來源: 李開復(fù)

北京舉報

分享至

中國大模型到底是超過GPT-4還是落后十年？最近這方面聲音特別嘈雜，讓大家無法分辨真?zhèn)巍I(yè)界公認(rèn)最好第三方盲測競技場就是 LMSYS，已經(jīng)成為全球大模型評測金標(biāo)準(zhǔn)，被稱作更接近用戶真實體感的投票評測，曾獲 Sam Altman, Jeff Dean等親自引用。

令人欣慰的是，剛官宣一周的 Yi-Large 千億模型登上全球金字塔，世界總榜表現(xiàn)僅次于OpenAI、 Google、Anthropic 3家公司，中文分榜和GPT-4o并列全球第一。

一年前，零一萬物剛剛成立，落后Google、OpenAI （兩家公司投入大模型時間點估算）7年。一年后，我們僅僅落后它們半年左右（這次評測我們超過了所有半年前提交的模型）。這個“超級速度”來自于團(tuán)隊的聰明、勤奮和努力。我們也會再接再厲，給業(yè)界貢獻(xiàn)更多的頂尖大模型，跟同行一起擦亮AI 2.0時代“中國智造”的名片。

以下文章來源自量子位，作者衡宇

龍爭虎斗的大模型競技場，今天突然更新：

國內(nèi)大模型公司零一萬物旗下的Yi-Large千億參數(shù)閉源大模型，躍升總榜第七，也成為榜上國產(chǎn)大模型第一。

可以看到，它的成績幾乎與GPT-4-0125-preview持平。

同時，國內(nèi)清華系大模型公司智譜華章的GLM-4-0116也殺進(jìn)總榜，位居第15位。

這個結(jié)果來自累積超1170萬全球用戶的真實盲測投票數(shù)。

而且大模型競技場最近修改了規(guī)則，只要大模型亮明身份后就不能再繼續(xù)投票，杜絕了刷分的可能性。

再來看Yi-Large排名之前的前6名中，有4個模型來自GPT，另外有1個谷歌的Gemini，1個Anthropic的Claude。

零一萬物創(chuàng)始人兼CEO李開復(fù)博士為此表示，LMSYS提供了一個第三方的、公正的平臺，其他競爭對手也都非常認(rèn)可。

而零一萬物的團(tuán)隊規(guī)模、參數(shù)規(guī)模、GPU算力都比排名更靠前的模型“小”。

零一萬物的GPU可能只有Google、Microsoft的5%，但團(tuán)隊一直在探索，能不能訓(xùn)練跟大廠一樣好的模型。我們的特點就是以千億模型殺入了萬億模型的范圍。如果我們有10倍的GPU，我們的萬億模型應(yīng)該完全可能達(dá)到第一名。

Yi-Large成排名飛升黑馬

大模型競技場官推還給出了Yi-Large的更多成績：

在中文類別中，Yi-Large和GLM-4兩個國產(chǎn)大模型的表現(xiàn)不俗。

其中，Yi-Large成績尤為突出，與GPT-4o并列總榜第一。

模型強度的置信區(qū)間，則如下圖所示：

值得注意的是，為了提高大模型競技場查詢的整體質(zhì)量，LMSYS還實施了重復(fù)數(shù)據(jù)刪除機制，并出具了去除冗余查詢后的榜單。

這個新機制旨在消除過度冗余的用戶提示——如過度重復(fù)的“你好”——這類冗余提示可能會影響排行榜的準(zhǔn)確性。

LMSYS公開表示，去除冗余查詢后的榜單將在后續(xù)成為默認(rèn)總榜。

目前，在去除冗余查詢后的總榜中，Yi-Large的Elo得分更進(jìn)一步，與Claude 3 Opus、GPT-4-0125-preview并列第四。

解釋一下，Elo評分系統(tǒng)基于統(tǒng)計學(xué)原理設(shè)定，是當(dāng)前國際公認(rèn)的競技水平評估標(biāo)準(zhǔn)。在這個評分系統(tǒng)里，每個參賽者都有基準(zhǔn)評分，然后根據(jù)每場比賽調(diào)整評分。一旦低分選手擊敗高分選手，那么低分選手就會獲得較多的分?jǐn)?shù)，反之則較少。

LMSYS引入Elo評分系統(tǒng)，是為了保證大模型競技場在最大程度上保證排名的客觀公正。

而在分類別的排行榜中，Yi-Large同樣表現(xiàn)亮眼。

編程能力、長提問及最新推出的 “艱難提示詞” 的三個評測是LMSYS所給出的針對性榜單。這三個榜單以專業(yè)性與高難度著稱，可稱為當(dāng)下大模型最燒腦的公開盲測。

在編程能力（Coding）排行榜上，Yi-Large 的Elo分?jǐn)?shù)超過Anthropic當(dāng)家旗艦?zāi)Ｐ虲laude 3 Opus，僅低于GPT-4o，與GPT-4-Turbo、GPT-4并列第二。

在長提問（Longer Query）榜單上，Yi-Large同樣位列全球第二，與GPT-4-Turbo、GPT-4、Claude 3 Opus并列。

艱難提示詞（Hard Prompts）則是LMSYS響應(yīng)社區(qū)要求，在今天的排行榜刷新中新增的類別。

這個類別的提示詞來自大模型競技場用戶提交的prompts，它們經(jīng)過專門設(shè)計，更加復(fù)雜、要求更高且更加嚴(yán)格。

LMSYS增加這一類別榜單的原因，是官方認(rèn)為這類提示能夠測試最新語言模型面臨挑戰(zhàn)性任務(wù)時的性能。

這個榜單上，Yi-Large處理艱難提示的能力與GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。

這次表現(xiàn)亮眼的Yi-Large，是一周前零一萬物剛對外發(fā)布的閉源模型。

當(dāng)時官方給出的評測結(jié)果中，推理方面，Yi-Large在HumanEval和MATH都位列第一，超越GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct（都是時下大模型領(lǐng)域的佼佼者）。

據(jù)了解，Yi-Large的下一步是采用MoE架構(gòu)的Yi-XLarge，目前已經(jīng)啟動訓(xùn)練。

大模型競技場

大模型競技場（Chatbot Arena），似乎已經(jīng)成為現(xiàn)在頭部大模型的兵家必爭之地。

此前，國外如谷歌Bard、OpenAI的神秘大模型gpt2-chatbot（不是GPT-2）、Mistral AI的Mistral Large等模型都在上面沖鋒陷陣。

國內(nèi)諸多玩家也都陸陸續(xù)續(xù)把自家孩子放進(jìn)去考驗真功夫。

大神卡帕西去年就夸過大模型競技場很Awesome：

GPT-4o發(fā)布后，OpenAI的CEO奧特曼也轉(zhuǎn)帖引用大模型競技場盲測擂臺的測試結(jié)果，直呼鵝妹子嚶。

發(fā)布它的開放研究組織LMSYS Org（Large Model Systems Organization）發(fā)布，由加州大學(xué)伯克利分校的學(xué)生和教師、加州大學(xué)圣地亞哥分校、卡耐基梅隆大學(xué)合作創(chuàng)立。

雖然背后團(tuán)隊主要來自高校，但LMSYS的研究項目卻相對更貼近產(chǎn)業(yè)。

他們不僅自己開發(fā)大語言模型，還向業(yè)內(nèi)輸出多種數(shù)據(jù)集（其推出的MT-Bench已是指令遵循方向的權(quán)威評測集）、評估工具，此外還開發(fā)分布式系統(tǒng)以加速大模型訓(xùn)練和推理，提供線上live大模型打擂臺測試所需的算力。

在形式上，大模型競技場借鑒了搜索引擎時代的橫向?qū)Ρ仍u測思路。

它首先將所有上傳評測的參賽模型隨機兩兩配對，以匿名模型的形式呈現(xiàn)在用戶面前。

在不知道模型型號名稱的前提下，用戶輸入自己的提示詞，模型A、模型B兩側(cè)分別生成兩PK模型的真實結(jié)果，然后由用戶在結(jié)果下方做出投票四選一：

A模型較佳/B模型較佳/兩者平手/兩者都不好。

提交投票后，可進(jìn)行下一輪PK。

目前，大模型競技場的評測過程涵蓋了從用戶直接參與投票、盲測、大規(guī)模投票和動態(tài)更新評分機制等多個方面，盡可能保證結(jié)果的客觀和專業(yè)。

官方公開數(shù)據(jù)顯示，本次更新的大模型競技場，共有44款模型參賽。

既有開源高手，如Llama3-70B；也有全球各家大廠、創(chuàng)業(yè)公司的閉源模型。

最后，奉上一張勝率熱圖，它涵蓋了目前大模型競技場上的所有大模型：

快來看看你pick的大模型勝率如何吧（手動狗頭）～

大模型競技場盲測平臺：
https://arena.lmsys.org/
大模型競技場評測排行（滾動更新）：
https://chat.lmsys.org/?leaderboard

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.