夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別復(fù)雜提示詞!螞蟻新方式讓AI自動理解你的個性化需求

0
分享至

AntResearchNLP團(tuán)隊 投稿
量子位 | 公眾號 QbitAI

相信大家都有這樣一個體驗。

跟AI無論什么對話,感覺都是說空話套話。





有時候為了讓AI懂自己,許多用戶甚至不得不學(xué)習(xí)復(fù)雜的“提示詞技巧”,手動編寫長長的指令,像是在給AI做“崗前培訓(xùn)”。



那么如何實現(xiàn)高情商AI?螞蟻通用人工智能研究中心自然語言處理實驗室提出了一個叫AlignXplore的方法——

通過強化學(xué)習(xí),AlignXplore能夠通過深度思考從用戶行為中歸納出他/她的偏好,并且這種對人類偏好的洞察可以隨著用戶行為的變化而動態(tài)更新。

更有趣的是,當(dāng)把歸納好的偏好描述遷移到一個下游對齊模型時,能夠讓這個模型的個性化對齊能力得到顯著提升。



如何讓AI真正懂你?

如何讓AI真正“懂”你?我們需要讓AI從一個“規(guī)則執(zhí)行者”進(jìn)化成一個“模式發(fā)現(xiàn)者”。

這意味著,它要掌握一種被認(rèn)為是人類智慧核心的能力——歸納推理(Inductive Reasoning)。


△“千人一面”的對齊方式無法滿足用戶多樣的個性化需求,紅字藍(lán)

事實上,AI早已對演繹推理(Deductive Reasoning)駕輕就熟,具備令人驚嘆的數(shù)學(xué)解題和代碼編寫能力。

你給它一個確定的前提(如“求解二次方程 ax2+bx+c=0”)和一套不變的規(guī)則(求根公式),它就能通過一步步嚴(yán)密的邏輯推演,給出一個唯一、可驗證的正確答案。這是一個典型的“自上而下”(Top-Down)的過程:從普適的公理或規(guī)則出發(fā),推導(dǎo)出一個具體的、必然的結(jié)論。 在這個世界里,沒有模糊地帶,只有對與錯。

而歸納推理則完全相反,它是一個自下而上(Bottom-Up)的過程:它沒有預(yù)設(shè)的“個人說明書”。它的“線索”就是你的每一個行為: 你追問了什么問題,說明你關(guān)心什么;你跳過了哪個回答,說明你不喜歡什么風(fēng)格;你對哪個笑話點了贊,暴露了你的幽默感。它的“任務(wù)”就是從這些海量的、碎片化的行為數(shù)據(jù)中,提煉出專屬于你的互動模式與偏好規(guī)律。通過歸納推理,AI有潛力成為你的“知心姐姐”,主動拼湊出一個完整的你。

舉個例子,讓我們來扮演一次AI知心姐姐,看看它是如何通過兩次看似無關(guān)的對話,就精準(zhǔn)捕捉到你的“潛臺詞”的:

  • 第一次交互:你問“什么是人工智能?它在商業(yè)和生活中是怎么用的?”。AI會立刻開始在幕后推理你的偏好:“你可能對AI技術(shù)有特別的興趣,但似乎更關(guān)心實際應(yīng)用,也許是商業(yè)導(dǎo)向”。
  • 第二次交互:你想學(xué)習(xí)冥想,在兩個候選回答中,你選擇了提供具體步驟的那個,而不是闡述冥想哲學(xué)的回答。AI會立刻更新它對你偏好的理解:“你的偏好是獲取能解決眼前需求的、務(wù)實的指導(dǎo),而不是理論探討。”

這種漸進(jìn)式的學(xué)習(xí)和優(yōu)化,讓AI的“記憶”不再短暫。隨著一次次的交互,它會不斷收集新的線索,驗證并修正之前的假設(shè),對你的“人物畫像”進(jìn)行一次又一次的精修。最終,它不再是被動回答問題的機器,而是在主動地、持續(xù)地學(xué)習(xí)和理解你是誰。

這,就是我們通向真正個性化AI的第一步。

AlignXplore

AlignXplore的訓(xùn)練包括兩個階段。



第一階段:冷啟動訓(xùn)練(Cold-start Training)——拜師學(xué)藝

研究團(tuán)隊首先引入一個更強大的AI作為“導(dǎo)師模型”



。這個導(dǎo)師會生成大量高質(zhì)量的“教學(xué)案例”。對于每個用戶的行為信號集合





會生成多組候選的推理鏈r和相應(yīng)的偏好描述d利用獎勵函數(shù)R(r,d)進(jìn)行篩選來獲取高質(zhì)量數(shù)據(jù)



。通過在



上進(jìn)行SFT,實現(xiàn)偏好歸納模型的冷啟動。



其中



代表可能存在的歷史偏好,而G是為每個實例生成的候選樣本數(shù)量。這里獎勵函數(shù)定義為:



其中,



是下游大語言模型R對回復(fù)的偏好打分函數(shù)。這個通用的獎勵框架可以被實例化為兩種具體的獎勵函數(shù),用于模型的訓(xùn)練與評估:

1、



(基于偏好判斷的獎勵)

R作為一個偏好判斷模型,直接評估在給定推斷出的偏好d后 “





更好”的概率,最大化與用戶真實偏好的一致性:





提供了更穩(wěn)定和有效的訓(xùn)練信號,是AlignXplore在訓(xùn)練和評估中采用的核心獎勵函數(shù)。

2、



(基于生成概率的獎勵)

R作為一個回復(fù)生成模型,衡量在加入偏好描述d前后,模型生成較優(yōu)回復(fù)



與生成較差回復(fù)



間的對數(shù)概率差值是否有提升:



第二階段:強化學(xué)習(xí)(Reinforcement Learning)——實戰(zhàn)修行

在這一階段,采用GRPO算法訓(xùn)練,模型會針對用戶的行為,嘗試生成多種不同的推理路徑和偏好結(jié)論



。隨后,系統(tǒng)會根據(jù)這些結(jié)論的準(zhǔn)確性給予“獎勵”或“懲罰”。通過這種不斷的試錯和優(yōu)化,模型學(xué)會了如何將初步的分析提煉成更精準(zhǔn)、更具指導(dǎo)性的判斷。

優(yōu)化策略定義如下:



流式偏好推斷機制

AlignXplore模型支持流式偏好推斷機制,即不再需要反復(fù)回看用戶冗長的歷史記錄,而是像處理一條源源不斷的數(shù)據(jù)流一樣,實時、增量地更新對用戶的理解——就像它在之前的例子中發(fā)現(xiàn)用戶“務(wù)實導(dǎo)向”的風(fēng)格一樣。

這種“流式”設(shè)計帶來的好處是顯而易見的:

首先,它大大提高了生成效率;

其次,它極為靈活,當(dāng)用戶從休閑模式切換到工作狀態(tài)時,它能迅速迭代出一個新的“工作版”偏好,而不是固執(zhí)地用舊眼光看用戶。這才是真正能跟上用戶節(jié)奏的動態(tài)進(jìn)化系統(tǒng)。

實驗結(jié)果

在域內(nèi)測試集AlignX_test和域外測試集P-Soups上,AlignXplore模型在個性化對齊任務(wù)上取得了顯著的成功,相較于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。


△AlignXplore與各種推理/非推理模型在域內(nèi)外數(shù)據(jù)集上的表現(xiàn)

更重要的是,它展現(xiàn)了強大的綜合能力:

高效性: 即使互動歷史變得非常長,流式推理機制也能保持穩(wěn)定的響應(yīng)速度和準(zhǔn)確率,不會像傳統(tǒng)方法那樣需要每次編碼所有行為信號致使越來越慢。


△隨著互動的進(jìn)行,流式推理機制下的響應(yīng)速度和準(zhǔn)確率都保持穩(wěn)定

泛化能力:它不僅能處理特定的反饋數(shù)據(jù),還能從用戶發(fā)布的帖子user-generated content (UGC)等不同形式的內(nèi)容中學(xué)習(xí),并且其推斷出的偏好也能成功地應(yīng)用于與訓(xùn)練時不同的下游模型,包括QwQ-32B、DeepSeek-R1-671B等。


△泛化性實驗

魯棒性:即使用戶的偏好發(fā)生改變甚至反轉(zhuǎn),AlignXplore也能靈活適應(yīng),不會產(chǎn)生劇烈的效果波動。


△即便反轉(zhuǎn)初始行為信號的偏好,流式推理機制也能讓模型靈活調(diào)整

總結(jié)

該工作第一作者為人大高瓴一年級博士生李嘉楠,目前在螞蟻實習(xí);螞蟻通用人工智能研究中心自然語言處理實驗室關(guān)健、武威為共同第一作者、通訊作者。

AlignXplore是大模型個性化路上的一個全新的嘗試。在SOTA結(jié)果的背后,這項研究其實有很多思考:

  • 在智力上限被一波又一波推高的當(dāng)下,如何規(guī)?;?xùn)練大模型“情商”是一個沒有得到足夠關(guān)注卻又十分重要的問題。畢竟誰會拒絕一個既聰明又有溫度的AI呢?
  • 深度思考下的長思維鏈?zhǔn)谴竽P椭悄苣芰Φ闹饕苿恿ΑI疃人伎急旧硐木薮?,那么如果只用來刷分,是不是有點浪費呢?相比于結(jié)果,推理過程中產(chǎn)生的知識是不是更有價值呢?AlignXplore可以看作是推理知識在用戶理解領(lǐng)域進(jìn)行遷移應(yīng)用的一個嘗試。畢竟相對于艱深的數(shù)學(xué)知識,用戶理解知識更容易被看懂,也更容易落地。
  • 如果客觀問題都很快會被AI解決,那么主觀問題該怎么辦呢?這個世界上到底是客觀問題多還是主觀問題多呢?無論如何,研究團(tuán)隊認(rèn)為個性化是通往主觀世界的一條重要通道,而AlignXplore是在這條通道上的一次大膽嘗試。期待未來有更多相關(guān)研究能夠涌現(xiàn)。

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
全運會游泳第1日綜述:潘展樂汪順接力奪冠,山東絕殺浙江奪2金

全運會游泳第1日綜述:潘展樂汪順接力奪冠,山東絕殺浙江奪2金

燒體壇
2025-11-10 20:49:44
假如日本出兵介入臺海,中國大陸可以攻打日本本土嗎?

假如日本出兵介入臺海,中國大陸可以攻打日本本土嗎?

知鑒明史
2025-10-26 08:30:03
“keep fighting!!!”貝爺點贊張家界荒野求生挑戰(zhàn)賽:喚起了我野外探險的回憶

“keep fighting!!!”貝爺點贊張家界荒野求生挑戰(zhàn)賽:喚起了我野外探險的回憶

極目新聞
2025-11-10 17:56:36
衛(wèi)健委通報醫(yī)院回應(yīng),當(dāng)事人報警,涉事副院長與女醫(yī)生將被問責(zé)

衛(wèi)健委通報醫(yī)院回應(yīng),當(dāng)事人報警,涉事副院長與女醫(yī)生將被問責(zé)

現(xiàn)代小青青慕慕
2025-11-08 05:57:56
突然,漲價50%!芯片,重大突發(fā)!

突然,漲價50%!芯片,重大突發(fā)!

證券時報
2025-11-10 08:11:14
荒野求生挑戰(zhàn)賽僅剩16人,冷美人雨天喬遷新居,有選手搭3層豪宅

荒野求生挑戰(zhàn)賽僅剩16人,冷美人雨天喬遷新居,有選手搭3層豪宅

恪守原則和底線
2025-11-10 06:58:01
河南大學(xué)校長張鎖江當(dāng)選世界科學(xué)院院士!

河南大學(xué)校長張鎖江當(dāng)選世界科學(xué)院院士!

大象新聞
2025-11-10 10:58:08
中央定調(diào)!退休新規(guī)2030年或?qū)⒊蔀榉炙畮X,2030年前退休更有福?

中央定調(diào)!退休新規(guī)2030年或?qū)⒊蔀榉炙畮X,2030年前退休更有福?

有范又有料
2025-11-10 08:07:45
42歲劉翔近況曝光,長期在國外旅游,靠終身合同吸金,遠(yuǎn)離噴子!

42歲劉翔近況曝光,長期在國外旅游,靠終身合同吸金,遠(yuǎn)離噴子!

姩姩有娛
2025-11-10 17:49:18
樂視創(chuàng)始人欠122億巨債跑美七年,400多名老員工讓樂視起死回生。

樂視創(chuàng)始人欠122億巨債跑美七年,400多名老員工讓樂視起死回生。

百態(tài)人間
2025-11-05 05:35:03
李蘭娟院士:患上糖尿病的人,要補充2種維生素,預(yù)防糖尿病腎病

李蘭娟院士:患上糖尿病的人,要補充2種維生素,預(yù)防糖尿病腎病

男女那點事兒兒
2025-11-09 08:00:56
切忌“刻舟求劍”,接受烏克蘭以主權(quán)國家存在,但領(lǐng)土不完整

切忌“刻舟求劍”,接受烏克蘭以主權(quán)國家存在,但領(lǐng)土不完整

山河路口
2025-11-09 19:31:52
記者:梅西到諾坎普后請求工作人員入場許可,巴薩欣然同意

記者:梅西到諾坎普后請求工作人員入場許可,巴薩欣然同意

懂球帝
2025-11-10 20:57:09
廣西男子建房子遭鄰居阻撓,一氣之下挖成魚塘養(yǎng)魚:等他回來求我

廣西男子建房子遭鄰居阻撓,一氣之下挖成魚塘養(yǎng)魚:等他回來求我

唐小糖說情感
2025-10-31 09:04:39
贏麻了!河南女排三連勝,提前晉級八強,朱婷體能迎考驗

贏麻了!河南女排三連勝,提前晉級八強,朱婷體能迎考驗

跑者排球視角
2025-11-10 18:15:36
香港這事搞大了!

香港這事搞大了!

談芯說科技
2025-11-09 13:56:24
李連杰從一身病態(tài)到健步如飛,倪萍也是如此,難道真有醫(yī)學(xué)奇跡?

李連杰從一身病態(tài)到健步如飛,倪萍也是如此,難道真有醫(yī)學(xué)奇跡?

魔都姐姐雜談
2025-11-10 19:27:33
不用換教練!英超黑馬從降級區(qū),到超越曼聯(lián)利物浦,只用一個半月

不用換教練!英超黑馬從降級區(qū),到超越曼聯(lián)利物浦,只用一個半月

嗨皮看球
2025-11-10 20:02:45
潘展樂收獲全運首金!4×100自由泳接力:浙江隊微弱優(yōu)勢奪冠

潘展樂收獲全運首金!4×100自由泳接力:浙江隊微弱優(yōu)勢奪冠

全景體育V
2025-11-10 20:44:59
保密工作究竟能有多嚴(yán)格?網(wǎng)友:有著大好未來,一時炫耀前途盡毀

保密工作究竟能有多嚴(yán)格?網(wǎng)友:有著大好未來,一時炫耀前途盡毀

另子維愛讀史
2025-11-09 21:40:51
2025-11-10 22:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11650文章數(shù) 176329關(guān)注度
往期回顧 全部

科技要聞

荷蘭“玩脫”后,大眾本田終于拿到芯片了

頭條要聞

25歲東北女孩參加海島求生賽35天瘦28斤:吃了50只老鼠

頭條要聞

25歲東北女孩參加海島求生賽35天瘦28斤:吃了50只老鼠

體育要聞

戰(zhàn)績崩盤!東契奇交易余震撕裂獨行俠

娛樂要聞

51歲周迅的現(xiàn)狀 給中年女性提了個醒?

財經(jīng)要聞

北大醫(yī)藥董事長被抓 巨額資金去向不明

汽車要聞

智能又務(wù)實 奇瑞瑞虎9X不只有性價比

態(tài)度原創(chuàng)

手機
健康
家居
藝術(shù)
教育

手機要聞

OPPO Reno15系列發(fā)布會下周見!四款外觀公布

超聲探頭會加重受傷情況嗎?

家居要聞

四方食事 不過人間煙火

藝術(shù)要聞

“隸書之冠”劉炳森:楷書藝術(shù)之美驚艷四座

教育要聞

收藏:山東高三綜評(山東教育云平臺)開始填寫!獲得高賦分,保姆級教程!

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲AV成人无码久久精品在 | 亚洲韩国日本一区二区| 国产AV无码专区亚洲AV紧身裤| 国产9 9在线 | 欧洲| 精品一区二区三区爽爽爽爽| 新狼窝色av性久久久久久| 日韩熟女乱综合一区二区| 亚洲中文字幕无码久久综合网| www.麻豆一区二区| 极品av麻豆国产在线观看| 久久免费不卡AV| 国产精品亚洲А∨怡红院| 国产裸体歌舞一区二区| 欧美老妇配少牲交| 一本一道波多野结衣一区| 人妻少妇中文字幕久久| 人妻双龙无码一区二区| 国产AV淫荡| 久久精品国产一区二区三区| 国产精品熟女视频一区二区| 成人在线精品视频| 无码人妻一区二区三区麻豆| 亚洲综合激情网| AV+高清+无码| 最近高清中文在线字幕观看| 亚洲AV女人的天堂在线观看| 99视频30精品视频在线观看| 高清无码视频直接看| 国产丝袜第一页| 伊人久久大香线蕉亚洲五月天 | 苍井空亚洲精品AA片在线播放| 国产乱人伦偷精品视频下 | 精品久久久久久久换人妻| 中文无码av在线亚洲电影| 国产精品成年人在线观看| 综合AV在线| 午夜福利日本一区二区无码| 国产精品无码素人福利不卡| 小小的日本在线观看中文| 乱人伦中文字幕在线| 在线中文字幕亚洲日韩2020|