中國大模型到底是超過GPT-4還是落后十年?最近這方面聲音特別嘈雜,讓大家無法分辨真?zhèn)巍I(yè)界公認(rèn)最好第三方盲測競技場就是 LMSYS,已經(jīng)成為全球大模型評測金標(biāo)準(zhǔn),被稱作更接近用戶真實體感的投票評測,曾獲 Sam Altman, Jeff Dean等親自引用。
令人欣慰的是,剛官宣一周的 Yi-Large 千億模型登上全球金字塔,世界總榜表現(xiàn)僅次于OpenAI、 Google、Anthropic 3家公司,中文分榜和GPT-4o并列全球第一。
一年前,零一萬物剛剛成立,落后Google、OpenAI (兩家公司投入大模型時間點估算)7年。一年后,我們僅僅落后它們半年左右(這次評測我們超過了所有半年前提交的模型)。這個“超級速度”來自于團(tuán)隊的聰明、勤奮和努力。我們也會再接再厲,給業(yè)界貢獻(xiàn)更多的頂尖大模型,跟同行一起擦亮AI 2.0時代“中國智造”的名片。
以下文章來源自量子位,作者衡宇
龍爭虎斗的大模型競技場,今天突然更新:
國內(nèi)大模型公司零一萬物旗下的Yi-Large千億參數(shù)閉源大模型,躍升總榜第七,也成為榜上國產(chǎn)大模型第一。
可以看到,它的成績幾乎與GPT-4-0125-preview持平。
同時,國內(nèi)清華系大模型公司智譜華章的GLM-4-0116也殺進(jìn)總榜,位居第15位。
這個結(jié)果來自累積超1170萬全球用戶的真實盲測投票數(shù)。
而且大模型競技場最近修改了規(guī)則,只要大模型亮明身份后就不能再繼續(xù)投票,杜絕了刷分的可能性。
再來看Yi-Large排名之前的前6名中,有4個模型來自GPT,另外有1個谷歌的Gemini,1個Anthropic的Claude。
零一萬物創(chuàng)始人兼CEO李開復(fù)博士為此表示,LMSYS提供了一個第三方的、公正的平臺,其他競爭對手也都非常認(rèn)可。
而零一萬物的團(tuán)隊規(guī)模、參數(shù)規(guī)模、GPU算力都比排名更靠前的模型“小”。
零一萬物的GPU可能只有Google、Microsoft的5%,但團(tuán)隊一直在探索,能不能訓(xùn)練跟大廠一樣好的模型。 我們的特點就是以千億模型殺入了萬億模型的范圍。如果我們有10倍的GPU,我們的萬億模型應(yīng)該完全可能達(dá)到第一名。Yi-Large成排名飛升黑馬
大模型競技場官推還給出了Yi-Large的更多成績:
在中文類別中,Yi-Large和GLM-4兩個國產(chǎn)大模型的表現(xiàn)不俗。
其中,Yi-Large成績尤為突出,與GPT-4o并列總榜第一。
模型強度的置信區(qū)間,則如下圖所示:
值得注意的是,為了提高大模型競技場查詢的整體質(zhì)量,LMSYS還實施了重復(fù)數(shù)據(jù)刪除機制,并出具了去除冗余查詢后的榜單。
這個新機制旨在消除過度冗余的用戶提示——如過度重復(fù)的“你好”——這類冗余提示可能會影響排行榜的準(zhǔn)確性。
LMSYS公開表示,去除冗余查詢后的榜單將在后續(xù)成為默認(rèn)總榜。
目前,在去除冗余查詢后的總榜中,Yi-Large的Elo得分更進(jìn)一步,與Claude 3 Opus、GPT-4-0125-preview并列第四。
解釋一下,Elo評分系統(tǒng)基于統(tǒng)計學(xué)原理設(shè)定,是當(dāng)前國際公認(rèn)的競技水平評估標(biāo)準(zhǔn)。在這個評分系統(tǒng)里,每個參賽者都有基準(zhǔn)評分,然后根據(jù)每場比賽調(diào)整評分。一旦低分選手擊敗高分選手,那么低分選手就會獲得較多的分?jǐn)?shù),反之則較少。
LMSYS引入Elo評分系統(tǒng),是為了保證大模型競技場在最大程度上保證排名的客觀公正。
而在分類別的排行榜中,Yi-Large同樣表現(xiàn)亮眼。
編程能力、長提問及最新推出的 “艱難提示詞” 的三個評測是LMSYS所給出的針對性榜單。這三個榜單以專業(yè)性與高難度著稱,可稱為當(dāng)下大模型最燒腦的公開盲測。
在編程能力(Coding)排行榜上,Yi-Large 的Elo分?jǐn)?shù)超過Anthropic當(dāng)家旗艦?zāi)P虲laude 3 Opus,僅低于GPT-4o,與GPT-4-Turbo、GPT-4并列第二。
在長提問(Longer Query)榜單上,Yi-Large同樣位列全球第二,與GPT-4-Turbo、GPT-4、Claude 3 Opus并列。
艱難提示詞(Hard Prompts)則是LMSYS響應(yīng)社區(qū)要求,在今天的排行榜刷新中新增的類別。
這個類別的提示詞來自大模型競技場用戶提交的prompts,它們經(jīng)過專門設(shè)計,更加復(fù)雜、要求更高且更加嚴(yán)格。
LMSYS增加這一類別榜單的原因,是官方認(rèn)為這類提示能夠測試最新語言模型面臨挑戰(zhàn)性任務(wù)時的性能。
這個榜單上,Yi-Large處理艱難提示的能力與GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。
這次表現(xiàn)亮眼的Yi-Large,是一周前零一萬物剛對外發(fā)布的閉源模型。
當(dāng)時官方給出的評測結(jié)果中,推理方面,Yi-Large在HumanEval和MATH都位列第一,超越GPT-4、Claude3 Sonnet、Gemini 1.5 Pro以及LLaMA3-70B-Instruct(都是時下大模型領(lǐng)域的佼佼者)。
據(jù)了解,Yi-Large的下一步是采用MoE架構(gòu)的Yi-XLarge,目前已經(jīng)啟動訓(xùn)練。
大模型競技場
大模型競技場(Chatbot Arena),似乎已經(jīng)成為現(xiàn)在頭部大模型的兵家必爭之地。
此前,國外如谷歌Bard、OpenAI的神秘大模型gpt2-chatbot(不是GPT-2)、Mistral AI的Mistral Large等模型都在上面沖鋒陷陣。
國內(nèi)諸多玩家也都陸陸續(xù)續(xù)把自家孩子放進(jìn)去考驗真功夫。
大神卡帕西去年就夸過大模型競技場很Awesome:
GPT-4o發(fā)布后,OpenAI的CEO奧特曼也轉(zhuǎn)帖引用大模型競技場盲測擂臺的測試結(jié)果,直呼鵝妹子嚶。
發(fā)布它的開放研究組織LMSYS Org(Large Model Systems Organization)發(fā)布,由加州大學(xué)伯克利分校的學(xué)生和教師、加州大學(xué)圣地亞哥分校、卡耐基梅隆大學(xué)合作創(chuàng)立。
雖然背后團(tuán)隊主要來自高校,但LMSYS的研究項目卻相對更貼近產(chǎn)業(yè)。
他們不僅自己開發(fā)大語言模型,還向業(yè)內(nèi)輸出多種數(shù)據(jù)集(其推出的MT-Bench已是指令遵循方向的權(quán)威評測集)、評估工具,此外還開發(fā)分布式系統(tǒng)以加速大模型訓(xùn)練和推理,提供線上live大模型打擂臺測試所需的算力。
在形式上,大模型競技場借鑒了搜索引擎時代的橫向?qū)Ρ仍u測思路。
它首先將所有上傳評測的參賽模型隨機兩兩配對,以匿名模型的形式呈現(xiàn)在用戶面前。
在不知道模型型號名稱的前提下,用戶輸入自己的提示詞,模型A、模型B兩側(cè)分別生成兩PK模型的真實結(jié)果,然后由用戶在結(jié)果下方做出投票四選一:
A模型較佳/B模型較佳/兩者平手/兩者都不好。
提交投票后,可進(jìn)行下一輪PK。
目前,大模型競技場的評測過程涵蓋了從用戶直接參與投票、盲測、大規(guī)模投票和動態(tài)更新評分機制等多個方面,盡可能保證結(jié)果的客觀和專業(yè)。
官方公開數(shù)據(jù)顯示,本次更新的大模型競技場,共有44款模型參賽。
既有開源高手,如Llama3-70B;也有全球各家大廠、創(chuàng)業(yè)公司的閉源模型。
最后,奉上一張勝率熱圖,它涵蓋了目前大模型競技場上的所有大模型:
快來看看你pick的大模型勝率如何吧(手動狗頭)~
大模型競技場盲測平臺:
https://arena.lmsys.org/
大模型競技場評測排行(滾動更新):
https://chat.lmsys.org/?leaderboard
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.