夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

科學(xué)家驗證強柏拉圖表征假說,證明模型會收斂于相同通用意義幾何

0
分享至

2024 年,美國麻省理工學(xué)院團隊曾提出“柏拉圖表征假說”(Platonic Representation Hypothesis),該假說推測現(xiàn)代神經(jīng)網(wǎng)絡(luò)的表征空間正在趨于收斂。即不同的 AI 模型正在趨向于一個統(tǒng)一的現(xiàn)實表征。就像在柏拉圖洞穴寓言中囚犯們看到的影子是現(xiàn)實的投影一樣,正在不斷迭代的 AI 模型也開始理解投影背后更高維度的現(xiàn)實。當(dāng)時,相關(guān)論文還曾獲得前 OpenAI 首席科學(xué)家伊利亞·蘇茨克維(Ilya Sutskever)的點贊。

2025 年 5 月,在上述基礎(chǔ)之上,美國康奈爾大學(xué)博士生張睿杰和所在研究團隊提出“強柏拉圖表征假說”(Strong Platonic Representation ypothesis),即潛在的通用表征是可以被學(xué)習(xí)并加以利用的,也能在無需任何編碼器或成對數(shù)據(jù)的情況下實現(xiàn)表征空間之間的轉(zhuǎn)換。


圖 | 張睿杰(來源:https://collinzrj.github.io/)

研究中,他們還提出一種名為 vec2vec 的新方法,這是一種能將文本嵌入從一個向量空間轉(zhuǎn)換到另一個向量空間的方法。其表示這也是第一種無需任何配對數(shù)據(jù)、編碼器或預(yù)定義匹配集即可實現(xiàn)上述能力的方法。

也就是說,作為一種無監(jiān)督方法,vec2vec 能將任意嵌入與“柏拉圖表征假說”推測的通用語義結(jié)構(gòu)進行雙向轉(zhuǎn)換。

具體來說,vec2vec 能夠轉(zhuǎn)換由未知編碼器生成的未知文檔嵌入,并且對于分布外的輸入具有魯棒性。哪怕模型架構(gòu)、參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)各不相同,vec2vec 在模型對之間仍能實現(xiàn)高度的余弦相似度。在保留未知嵌入幾何結(jié)構(gòu)的同時,該方法能夠?qū)⑵滢D(zhuǎn)換到不同空間。

換言之,vec2vec 能夠?qū)W習(xí)“與領(lǐng)域無關(guān)”的轉(zhuǎn)換,這一能力主要基于不同嵌入空間中表示相同語義時所通用的幾何結(jié)構(gòu)關(guān)系。同時,研究團隊還證明 vec2vec 轉(zhuǎn)換能夠保留足夠的輸入語義,從而支持屬性推理。

此外,他們從一些患者記錄和企業(yè)郵件中提取了一些敏感疾病信息和其他相關(guān)內(nèi)容,不過他們僅僅訪問了文檔嵌入,并未接觸生成這些嵌入的編碼器。

通過本次研究他們發(fā)現(xiàn),更好的轉(zhuǎn)換方法將能實現(xiàn)更高保真度的信息提取,這再次印證了一個事實:嵌入所揭示的信息幾乎與其輸入內(nèi)容一樣多。

因此,此次發(fā)現(xiàn)能為基于文本的模型的“強柏拉圖表征假說”提供令人信服的證據(jù)。

基于 OpenAI 幾年前推出的“對比語言 - 圖像預(yù)訓(xùn)練”(CLIP,Contrastive Language - Image Pretraining)模型,本次研究的初步實驗結(jié)果表明,通用幾何結(jié)構(gòu)也可用于其他模態(tài)。

需要說明的是,本次成果僅僅是表征間轉(zhuǎn)換的一個下限。隨著更好、更穩(wěn)定的學(xué)習(xí)算法的面世,以及相關(guān)架構(gòu)的改進,預(yù)計本次成果將能擴展到更多數(shù)據(jù)、更多模型家族和更多模態(tài)之中。



余弦相似度高達 0.92

據(jù)了解,文本嵌入是現(xiàn)代自然語言處理(NLP,Natural Language Processing)的核心,它能為檢索、檢索增強生成(RAG,Retrieval-Augmented Generation)、分類和聚類等任務(wù)提供支持。

對于許多嵌入模型來說,它們是在不同數(shù)據(jù)集、不同數(shù)據(jù)打亂方式和不同初始化條件下訓(xùn)練而來的。

文本的嵌入編碼了其語義信息:一個優(yōu)秀的模型會將語義相近的文本,映射到嵌入空間中彼此接近的向量上。由于語義是文本的屬性,同一文本的不同嵌入應(yīng)該編碼相同的語義。

然而,在實踐中,不同的模型會將文本編碼到完全不同且不兼容的向量空間中。

此前,由麻省理工學(xué)院團隊提出的“柏拉圖表征假說”推測:所有足夠大的圖像模型都具有相同的潛在表征。針對文本模型,本次研究團隊提出了該假說的一個更強的建設(shè)性版本:文本表征的通用潛在結(jié)構(gòu)是可以被學(xué)習(xí)的,并能進一步地在無需任何配對數(shù)據(jù)或編碼器的情況下,利用該結(jié)構(gòu)將表征從一個空間轉(zhuǎn)換到另一個空間。

在這項工作中,研究團隊證明強柏拉圖表征假說在實踐中是成立的。通過給定來自兩個具有不同架構(gòu)和訓(xùn)練數(shù)據(jù)的模型的未配對嵌入示例,他們使用 vec2vec 學(xué)習(xí)了一個潛在表征,其中這些嵌入幾乎完全相同。


(來源:資料圖)

研究中,他們從跨語言詞嵌入對齊研究和無監(jiān)督圖像翻譯研究中汲取靈感。據(jù)介紹,vec2vec 使用對抗性損失和循環(huán)一致性,來學(xué)習(xí)將嵌入編碼到共享潛在空間中,并能以最小的損失進行解碼,這使得無監(jiān)督轉(zhuǎn)換成為了可能。

同時,研究團隊采用了一種對抗性方法,并結(jié)合向量空間保持技術(shù),來學(xué)習(xí)如何將未知嵌入分布映射到已知分布。

通過此,他們發(fā)現(xiàn) vec2vec 轉(zhuǎn)換在目標(biāo)嵌入空間中與真實向量的余弦相似度高達 0.92,并且在 8000 多個隨機排列的 vec2vec 嵌入上實現(xiàn)了完美匹配,而且無需預(yù)先訪問匹配集合。為了證明上述轉(zhuǎn)換同時保留了“嵌入的相對幾何結(jié)構(gòu)”和“底層輸入的語義”,他們在完全不了解生成原始嵌入模型的情況下,使用零樣本的屬性開展推斷和反演,并從這些向量中成功提取到了信息。



無監(jiān)督嵌入轉(zhuǎn)換

據(jù)了解,關(guān)于嵌入向量集之間的匹配問題或?qū)?yīng)問題,已經(jīng)有大量的研究。但是,這些方法都不適用于本次研究的設(shè)置,因為此前研究假設(shè)存在由不同編碼器從相同輸入產(chǎn)生的兩組或更多組的嵌入向量。

換句話說,對于每個未知向量來說,必須已經(jīng)存在另一組不同嵌入空間中的候選向量,其中有一個是正確匹配項。

但是,在實際應(yīng)用中,很難獲得這樣的數(shù)據(jù)庫。研究團隊表示,他們之所以認為無監(jiān)督嵌入轉(zhuǎn)換是可行的,是因為它完全取決于更強版本的柏拉圖表征假說。

為此,他們提出了如下猜想:當(dāng)使用相同的目標(biāo)和模態(tài),但是使用不同數(shù)據(jù)以及由不同模型架構(gòu)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),將會收斂到一個通用的潛在空間,從而在無需任何成對對應(yīng)關(guān)系的情況下,即可學(xué)習(xí)各自表征之間的轉(zhuǎn)換。

在計算機視覺領(lǐng)域,結(jié)合了循環(huán)一致性和對抗正則化的無監(jiān)督轉(zhuǎn)換已經(jīng)取得成功。因此,研究團隊在 vec2vec 的設(shè)計上,也從這些方法中獲得了一些啟發(fā)。

與此同時,他們希望實現(xiàn)具有循環(huán)一致性和不可區(qū)分性的嵌入空間轉(zhuǎn)換。與圖像不同的是,嵌入向量不具有任何空間偏差。

研究中,研究團隊并沒有使用卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network),而是采用了具有殘差連接、層歸一化和 SiLU 非線性激活函數(shù)的多層感知機(MLP,Multilayer Perceptron)。在判別器上則采用了與生成器類似的結(jié)構(gòu),但是省略了殘差連接,以便讓對抗學(xué)習(xí)過程得到簡化。



無需任何配對數(shù)據(jù),就能學(xué)習(xí)轉(zhuǎn)換嵌入向量

在數(shù)據(jù)集上,研究團隊使用了由真實用戶查詢的自然問題(NQ,Natural Questions)數(shù)據(jù)集,并使用了由維基百科答案訓(xùn)練的數(shù)據(jù)集。

為了針對信息提取進行評估:

首先,他們使用了 TweetTopic,這是一個由 19 個主題組成的、有著多標(biāo)簽標(biāo)記的推文數(shù)據(jù)集。

其次,他們使用了偽重新識別的 MIMIC-III(MIMIC)的隨機 8192 個記錄子集,并使用了由 2673 個 MedCAT 疾病描述多重標(biāo)記的患者記錄的 MIMIC 數(shù)據(jù)集的偽重新識別版本。

再次,他們使用了已經(jīng)倒閉的能源公司安然(Enron)的電子郵件語料庫的 50 封隨機電子郵件子集,這也是一個未標(biāo)記的公共數(shù)據(jù)集。

在模型上,研究團隊使用了代表三種規(guī)模類別、四種 Transformer 主干架構(gòu)和兩種輸出維度的嵌入模型。其中,Granite 是多語言模型,CLIP 是多模態(tài)模型。


(來源:資料圖)

實驗中,他們證明 vec2vec 能夠?qū)W習(xí)一個通用的潛在空間,并證明這個空間保留了所有嵌入的幾何結(jié)構(gòu)。這讓他們可以將其用作一種文本編碼器的通用語言,并且無需任何配對數(shù)據(jù)就能轉(zhuǎn)換其表征。

實驗結(jié)果顯示,vec2vec 轉(zhuǎn)換能夠反映目標(biāo)空間的幾何結(jié)構(gòu)。如下圖所示,vec2vec 在模型對之間生成了近乎最優(yōu)分配的嵌入,實現(xiàn)了高達 0.92 的余弦相似性分?jǐn)?shù)、高達 100% 的 top-1 準(zhǔn)確率,且矩陣秩(rank)低至 1。


(來源:資料圖)

在相同骨干網(wǎng)絡(luò)的配對組合中,vec2vec 甚至能夠接近于借助先知(oracle)的最優(yōu)分配方案的性能。vec2vec 生成的嵌入向量,比 na?ve 基線更加接近真實值。

在跨主干配對中,vec2vec 在所有指標(biāo)上都遠勝一籌,而基線方法的表現(xiàn)則與隨機猜測相差無幾。如下圖所示,這種性能甚至可以擴展到分布外數(shù)據(jù)。


(來源:資料圖)

如前所述,vec2vec 轉(zhuǎn)換器是在 NQ 數(shù)據(jù)集上訓(xùn)練的,但是在 X 推文和醫(yī)療記錄上進行評估時,它仍然表現(xiàn)出較高的余弦相似性、較高的準(zhǔn)確率以及較低的矩陣秩。


(來源:資料圖)

研究團隊指出,vec2vec 始終優(yōu)于最優(yōu)任務(wù)基線。這些結(jié)果表明,本次方法在適應(yīng)新模態(tài)方面具有潛力,特別是 CLIP 的嵌入空間已經(jīng)成功與其他模態(tài)比如熱圖、音頻和深度圖建立了連接。



使用 vec2vec 轉(zhuǎn)換來提取信息

研究中,研究團隊證明 vec2vec 轉(zhuǎn)換不僅保留了嵌入的幾何結(jié)構(gòu),還保留了足夠的語義以便能夠支持屬性推理。

如下圖所示,對 vec2vec 轉(zhuǎn)換進行的屬性推理始終優(yōu)于 na?ve 基線,并且往往比理想的零樣本基線表現(xiàn)更好。需要說明的是,這一理想基線旨在針對同一空間中的真實文檔嵌入和屬性嵌入進行推理。由于在本次研究場景中無法獲得這些嵌入,因此它是一個假設(shè)性基線。


(來源:資料圖)

研究團隊表示,vec2vec 轉(zhuǎn)換甚至適用于醫(yī)療記錄的嵌入向量。在同主干配對中,針對轉(zhuǎn)換后的嵌入進行屬性推理的表現(xiàn)與 na?ve 基線相當(dāng),而在跨主干配對中則大幅優(yōu)于簡單基線。

比如,vec2vec 能夠保留像“牙槽骨骨膜炎”這類概念的語義,而這類概念從未出現(xiàn)在訓(xùn)練數(shù)據(jù)中,這證明 vec2vec 的潛在空間確實是一種通用表示。

反演,即重建文本輸入。相比屬性推斷,反演更加具有挑戰(zhàn)性。而 vec2vec 轉(zhuǎn)換能夠保留足夠的語義信息,以至于就算使用那些“原本為標(biāo)準(zhǔn)編碼器生成的嵌入”而開發(fā)的現(xiàn)成零樣本反演方法,也能僅憑轉(zhuǎn)換后的嵌入,來從一些模型對中重建多達 80% 的文檔內(nèi)容。


(來源:資料圖)

當(dāng)然,這些反演并不完美。研究團隊表示,他們將在未來針對轉(zhuǎn)換后嵌入開發(fā)專門的反演器??偟膩碚f,本次研究證明所有語言模型都會收斂于相同的“通用意義幾何”,從而將給向量數(shù)據(jù)庫的發(fā)展帶來一定影響。

參考資料:

https://arxiv.org/pdf/2505.12540

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
曾出演《艾斯奧特曼》的日本演員高峰圭二發(fā)帖質(zhì)問高市:與中國起爭執(zhí)有什么好處

曾出演《艾斯奧特曼》的日本演員高峰圭二發(fā)帖質(zhì)問高市:與中國起爭執(zhí)有什么好處

環(huán)球網(wǎng)資訊
2025-11-17 20:59:32
換車,就是一個巨大的消費陷阱。

換車,就是一個巨大的消費陷阱。

愛吃糖的貓cat
2025-11-16 18:14:27
美女美圖7239期

美女美圖7239期

情感大頭說說
2025-11-18 01:04:25
好險!網(wǎng)友差點拿40萬接盤小區(qū)超市,評論區(qū)高手仗義挽救一個家庭

好險!網(wǎng)友差點拿40萬接盤小區(qū)超市,評論區(qū)高手仗義挽救一個家庭

另子維愛讀史
2025-10-11 22:40:25
“窮人就不配娛樂嗎?”女生因王者“貴族7”,被取消貧困生資格

“窮人就不配娛樂嗎?”女生因王者“貴族7”,被取消貧困生資格

妍妍教育日記
2025-11-17 18:51:08
全運女排江蘇橫掃福建連續(xù)3屆進決賽 山東3-0上海首獲爭冠機會

全運女排江蘇橫掃福建連續(xù)3屆進決賽 山東3-0上海首獲爭冠機會

夢憶之淺
2025-11-19 02:12:53
體操名將桑蘭現(xiàn)狀:癱瘓15年后嫁經(jīng)紀(jì)人,婚后被丈夫和兒子寵上天

體操名將桑蘭現(xiàn)狀:癱瘓15年后嫁經(jīng)紀(jì)人,婚后被丈夫和兒子寵上天

以茶帶書
2025-11-19 01:02:45
里子面子都沒了!鄒市明賠光兩億后,冉瑩穎親手撕碎他最后的體面

里子面子都沒了!鄒市明賠光兩億后,冉瑩穎親手撕碎他最后的體面

趕鴨子上架
2025-11-14 15:48:42
施一公:這是中國潛伏的最大危機?。òl(fā)人深?。?>
    </a>
        <h3>
      <a href=霹靂炮
2025-11-18 20:38:34
南京市代市長、副市長,同日調(diào)整

南京市代市長、副市長,同日調(diào)整

魯中晨報
2025-11-18 21:11:03
倫敦金屬交易所正式將人民幣剔除出其商品結(jié)算范圍。

倫敦金屬交易所正式將人民幣剔除出其商品結(jié)算范圍。

流蘇晚晴
2025-11-18 20:15:51
奇跡!廣東女子的手機落在新疆亂石堆,3年后竟被人跨越5000公里送還,雙方當(dāng)事人發(fā)聲

奇跡!廣東女子的手機落在新疆亂石堆,3年后竟被人跨越5000公里送還,雙方當(dāng)事人發(fā)聲

極目新聞
2025-11-17 22:42:00
一年蒸發(fā)了10億元,從網(wǎng)紅白酒到狗都不喝,究竟發(fā)生了什么?

一年蒸發(fā)了10億元,從網(wǎng)紅白酒到狗都不喝,究竟發(fā)生了什么?

法老不說教
2025-11-06 20:45:28
剛剛!金價,大逆轉(zhuǎn)!美聯(lián)儲,降息大消息!

剛剛!金價,大逆轉(zhuǎn)!美聯(lián)儲,降息大消息!

中國基金報
2025-11-18 19:19:10
埃本·拜爾斯:喝下1400瓶核輻射水,身體瓦解,30年后骨頭還發(fā)熱

埃本·拜爾斯:喝下1400瓶核輻射水,身體瓦解,30年后骨頭還發(fā)熱

心中的麥田
2025-11-17 20:42:51
牛!28歲樊振東把中國前3贏了個遍 挺進男團決賽+2天后再戰(zhàn)王楚欽

牛!28歲樊振東把中國前3贏了個遍 挺進男團決賽+2天后再戰(zhàn)王楚欽

風(fēng)過鄉(xiāng)
2025-11-18 21:05:04
氣場強大!陳夢暫停時,教練和隊員全都閉口不言,沒有人敢指導(dǎo)

氣場強大!陳夢暫停時,教練和隊員全都閉口不言,沒有人敢指導(dǎo)

鳳幻洋
2025-11-18 16:23:49
高速紛紛取消收費,新的時代拉開帷幕!

高速紛紛取消收費,新的時代拉開帷幕!

米宅
2025-11-18 07:31:09
噩耗,廣東美女陳俊玲去世,年僅33歲,入職體檢時查出癌癥

噩耗,廣東美女陳俊玲去世,年僅33歲,入職體檢時查出癌癥

熠熠生輝的生活
2025-11-18 09:14:21
糖尿病離世的人越來越多!醫(yī)生多次苦勸:少吃西紅柿,多吃這6物

糖尿病離世的人越來越多!醫(yī)生多次苦勸:少吃西紅柿,多吃這6物

健身狂人
2025-11-12 14:10:12
2025-11-19 03:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15873文章數(shù) 514306關(guān)注度
往期回顧 全部

科技要聞

谷歌CEO警告:若AI泡沫破裂,沒公司能幸免

頭條要聞

27歲女孩家門口遇害 媽媽痛哭:墻上還有女兒血跡

頭條要聞

27歲女孩家門口遇害 媽媽痛哭:墻上還有女兒血跡

體育要聞

結(jié)束最后一次對決,陳夢和朱雨玲笑著相擁

娛樂要聞

宋佳奪影后動了誰的奶酪

財經(jīng)要聞

中美機器人爆發(fā)了一場論戰(zhàn)

汽車要聞

硬核配置旗艦氣場 嵐圖泰山售37.99萬起

態(tài)度原創(chuàng)

本地
健康
房產(chǎn)
家居
公開課

本地新聞

這檔古早綜藝,怎么就成了年輕人的哆啦A夢?

警惕超聲報告這六大"坑"

房產(chǎn)要聞

29.4億!海南“地王”片區(qū),要賣超級宅地!

家居要聞

彰顯奢華 意式經(jīng)典風(fēng)格

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 囯产成人性色生活片| make love 成人片免费欧美| 一区二区偷拍美女撒尿视频| 国产7777| 亚洲欧美日韩国产综合v| 牲欲强的熟妇农村老妇女视频| free性白嫩少妇XXXXHD| 久久精品国亚洲a∨麻豆| 在线免费观看视频一区二区三区| 婷婷丁香色五月91| 在线高清免费不卡全码| 8×8X拔擦拔擦在线视频网站| 国产精品欧美久久久久久久久久久久| 国产精品久久久久7777按摩| 丰满熟妇大内唇毛茸茸| xiuxiuav| 国产一区二区三区精品久久呦 | gogogo高清免费观看日本电视| 免费的av网站| 99在线国产| 久久一区极品一区| 精彩内射黑屄P18| 三级亚洲av| 尹人香蕉久久99天天拍| 国产福利姬喷水福利在线观看| 男人天堂亚洲av| 88av在线播放| www.日本| 亚洲国产精品va在线看黑人 | 久久亚洲AV成人网站玖玖| 亚洲熟女一区大奶| 熟妇乱伦图片| 久久国产精品精品国产色婷婷| 亚洲Av无码专区毛片| 在线视频国产99| 99视频国产精品免费观看| 欧美日韩亚洲TV不卡久久| 久久水蜜臀亚洲AV无码精品| 国产AV无码乱码| 少妇色欲网站| 国产精品久久久久网站|