夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

這一個(gè)Tab鍵,我愿意單獨(dú)付費(fèi):Cursor在線強(qiáng)化學(xué)習(xí)優(yōu)化代碼建議

0
分享至

機(jī)器之心報(bào)道

編輯:+0

Cursor Tab 是 Cursor 的核心功能之一,它通過分析開發(fā)者的編碼行為,智能預(yù)測并推薦后續(xù)代碼,開發(fā)者僅需按下 Tab 鍵即可采納。



然而,它也面臨著一個(gè) AI 普遍存在的難題:「過度熱情」。有時(shí),它提出的建議不僅毫無用處,甚至?xí)驍嚅_發(fā)者的思路。

問題的關(guān)鍵,不只是讓 AI 寫出更優(yōu)秀的代碼,更是要教會(huì)它「察言觀色」:在最恰當(dāng)?shù)臅r(shí)機(jī)提供幫助,在其他時(shí)候則保持安靜。

基于此,Cursor 采用在線強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練出一個(gè)全新的 Tab 模型。該模型將每一次用戶交互(接受/拒絕建議)都視為一個(gè)強(qiáng)化信號(hào),直接用于模型的在線優(yōu)化。在每天超過 4 億次請求的巨大流量驅(qū)動(dòng)下,模型得以進(jìn)行高頻度的、基于真實(shí)世界反饋的持續(xù)學(xué)習(xí)。



Cursor 已將這個(gè)新的 Tab 模型設(shè)為默認(rèn)版本。與舊模型相比,新模型提供的建議數(shù)量減少了 21%,但所提供建議的接受率卻提升了 28%。此舉旨在提升用戶的編碼體驗(yàn),Cursor 也計(jì)劃在未來繼續(xù)深化這些方法的研究。

Cursor 的策略獨(dú)特且高效:它每天多次向用戶部署新模型(每隔 1.5-2 小時(shí)),利用實(shí)時(shí)數(shù)據(jù)進(jìn)行快速訓(xùn)練和優(yōu)化。

這與主流做法形成了鮮明對(duì)比。多數(shù)廠商仍在靜態(tài)數(shù)據(jù)集上進(jìn)行長周期訓(xùn)練,依賴人工標(biāo)注,數(shù)月才發(fā)布一次新模型。Cursor 的模式則建立了一個(gè)超高頻的實(shí)時(shí)反饋循環(huán),是對(duì)傳統(tǒng)模型開發(fā)流程的徹底顛覆。

這似乎又一次向我們證明了,誰掌握了數(shù)據(jù)入口,誰就掌握了 AI 進(jìn)化的主動(dòng)權(quán)。

該功能在 AI 社區(qū)也得到了非常積極的反饋,有用戶表示這是 Cursor 當(dāng)前「護(hù)城河」,并愿意為 Cursor Tab 單獨(dú)付費(fèi)。



還有開發(fā)者認(rèn)為,它能大幅提升了生產(chǎn)力,不像 agent 那樣只有噱頭,而是「比其他任何功能都更能改善工作流程」。



另外,一條被「強(qiáng)化學(xué)習(xí)之父」Richard Sutton 轉(zhuǎn)發(fā)的評(píng)論表示,Cursor 的這個(gè)做法意義重大,它首次大規(guī)模證明了「實(shí)時(shí)在線學(xué)習(xí)」的巨大威力,并且指明了 AI 未來的一個(gè)重要發(fā)展方向,盡管目前還不夠完美。



Cursor 通過一篇博客介紹了他們?nèi)绾卫眠@些數(shù)據(jù),通過在線強(qiáng)化學(xué)習(xí)技術(shù)來優(yōu)化其 Tab 模型。

  • 博客地址:https://cursor.com/cn/blog/tab-rl

「干擾性建議」的挑戰(zhàn)

要實(shí)現(xiàn)高接受率,不僅需要提升模型本身的智能水平,更關(guān)鍵的是要判斷何時(shí)應(yīng)提供建議,何時(shí)應(yīng)保持靜默。在某些場景下,上下文信息不足以準(zhǔn)確判斷用戶的意圖。即便模型具備完美的知識(shí)和推理能力,也無法預(yù)知用戶的確切操作。在這些情況下,不提供任何建議是更優(yōu)的選擇。

為提升建議的接受率,一種直接的思路是訓(xùn)練一個(gè)獨(dú)立的分類模型來預(yù)測建議是否會(huì)被采納。據(jù) Parth Thakkar 在 2022 年披露,GitHub Copilot 便采用了此種策略。它通過一個(gè)邏輯回歸模型計(jì)算「上下文過濾分?jǐn)?shù)」,該模型接收 11 個(gè)特征作為輸入,涵蓋了編程語言、前次建議的采納情況、光標(biāo)前的字符序列等。盡管該模型的確切預(yù)測目標(biāo)未知,但外界普遍猜測其旨在預(yù)測建議被用戶接受的概率。當(dāng)該分?jǐn)?shù)低于 15% 時(shí),系統(tǒng)便會(huì)跳過此次建議。

該方案雖然可行,但 Cursor 的團(tuán)隊(duì)希望尋求一種更通用的機(jī)制,以便能復(fù)用 Tab 模型自身學(xué)到的強(qiáng)大代碼表征能力。他們希望從根源上讓 Tab 模型避免生成質(zhì)量不高的建議,而非僅僅在事后進(jìn)行過濾。因此,他們最終選擇了策略梯度方法。

策略梯度方法

策略梯度是一種通用的優(yōu)化框架,其目標(biāo)是調(diào)整「策略」(在此即 Tab 模型),以最大化「獎(jiǎng)勵(lì)」(Reward)。獎(jiǎng)勵(lì)是一個(gè)被賦予策略所執(zhí)行的每一個(gè)動(dòng)作的數(shù)值。通過策略梯度算法,可以持續(xù)更新策略,使其在未來能夠獲得更高的平均獎(jiǎng)勵(lì)。

該類算法的核心思想是:允許策略進(jìn)行探索性的隨機(jī)嘗試,觀察不同行為所帶來的獎(jiǎng)勵(lì)高低,然后對(duì)獲得高獎(jiǎng)勵(lì)的行為進(jìn)行正向強(qiáng)化,對(duì)導(dǎo)致低獎(jiǎng)勵(lì)的行為進(jìn)行負(fù)向強(qiáng)化。

為了運(yùn)用策略梯度方法優(yōu)化 Tab,團(tuán)隊(duì)定義了一個(gè)精巧的獎(jiǎng)勵(lì)函數(shù):鼓勵(lì)被采納的建議,同時(shí)懲罰那些被展示但未被采納的建議。

例如,假設(shè)目標(biāo)是當(dāng)建議的接受率不低于 25% 時(shí)才進(jìn)行展示。那么,可以為被采納的建議設(shè)定 0.75 的獎(jiǎng)勵(lì),為被拒絕的建議設(shè)定 -0.25 的獎(jiǎng)勵(lì),而未展示建議的情況獎(jiǎng)勵(lì)為 0。如果一個(gè)建議的真實(shí)接受概率為 p,那么展示該建議的期望獎(jiǎng)勵(lì)就是。該值僅在 p>0.25 時(shí)為正。因此,一個(gè)旨在最大化獎(jiǎng)勵(lì)的策略,將學(xué)會(huì)在其預(yù)估接受率超過 25% 時(shí)才給出建議。



在實(shí)際應(yīng)用中,Cursor 使用的獎(jiǎng)勵(lì)函數(shù)更為復(fù)雜,還考慮了建議的長度、代碼跳轉(zhuǎn)以及展示更多建議的可能性等因素。但其核心理念是一致的:并非直接對(duì)接受率進(jìn)行建模,而是學(xué)習(xí)一個(gè)能夠達(dá)成特定接受率目標(biāo)的策略。

可以推斷,模型在其內(nèi)部表征中自發(fā)學(xué)習(xí)到了對(duì)接受概率的評(píng)估(或至少是評(píng)估其是否超過 25%),而這個(gè)過程完全交由優(yōu)化器自行探索。

同策略(On-Policy)數(shù)據(jù)的重要性



然而,該方法有一個(gè)關(guān)鍵前提:用于計(jì)算梯度的動(dòng)作樣本,必須來自于當(dāng)前正在優(yōu)化的策略。一旦策略被更新,舊的數(shù)據(jù)便不再是「同策略(On-Policy)」數(shù)據(jù)。

為了獲取最新的有效樣本,就必須將新模型部署給用戶并收集其行為數(shù)據(jù)。這意味著需要一套高效的基礎(chǔ)設(shè)施,以快速部署新的模型檢查點(diǎn),并縮短從用戶產(chǎn)生數(shù)據(jù)到數(shù)據(jù)進(jìn)入下一輪訓(xùn)練流程的時(shí)間。

目前,Cursor 推出一個(gè)檢查點(diǎn)并收集所需數(shù)據(jù)需要 1.5 到 2 小時(shí)。盡管這在人工智能行業(yè)已屬高效,但仍有進(jìn)一步優(yōu)化的空間。

Cursor 這次更新讓你心動(dòng)了嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
豆腐西行難:為什么西方國家?guī)缀醵疾辉趺闯远垢坑猩犊茖W(xué)解釋?

豆腐西行難:為什么西方國家?guī)缀醵疾辉趺闯远垢??有啥科學(xué)解釋?

向航說
2025-10-26 00:35:03
安世立下規(guī)矩,日本歐洲全線停產(chǎn),荷蘭承認(rèn)誤判:強(qiáng)搶是無奈之舉

安世立下規(guī)矩,日本歐洲全線停產(chǎn),荷蘭承認(rèn)誤判:強(qiáng)搶是無奈之舉

阿芒娛樂說
2025-11-03 05:28:31
潘氏兩口子的照片砸中糞坑中的恨國黨

潘氏兩口子的照片砸中糞坑中的恨國黨

阿爾法34號(hào)
2025-11-03 07:03:41
菲律賓官員一語驚人:大陸很憤怒,說明我們這次做對(duì)了

菲律賓官員一語驚人:大陸很憤怒,說明我們這次做對(duì)了

云鵬敘事
2025-11-02 12:47:32
秦雯襲警事件升級(jí)!官媒要求盡快調(diào)查,“瑞金二所”評(píng)論區(qū)淪陷

秦雯襲警事件升級(jí)!官媒要求盡快調(diào)查,“瑞金二所”評(píng)論區(qū)淪陷

小海娛計(jì)
2025-11-01 20:17:47
11月3日影響市場大事件

11月3日影響市場大事件

每日經(jīng)濟(jì)新聞
2025-11-02 20:47:50
同房時(shí),男生都有哪些性觀念誤區(qū)?(女生勿入)

同房時(shí),男生都有哪些性觀念誤區(qū)?(女生勿入)

許超醫(yī)生
2025-10-31 10:08:22
媒體人:開拓者和混音共用場地,楊瀚森比之前多一些訓(xùn)練時(shí)間

媒體人:開拓者和混音共用場地,楊瀚森比之前多一些訓(xùn)練時(shí)間

雷速體育
2025-11-02 11:45:20
這個(gè)萬圣節(jié),中國留學(xué)生給老外們整了一波“文化暴力輸出”

這個(gè)萬圣節(jié),中國留學(xué)生給老外們整了一波“文化暴力輸出”

留學(xué)生日報(bào)
2025-11-01 20:40:14
澤塔·瓊斯的兩個(gè)孩子:女兒長得像父親,學(xué)霸兒子的五官很像她

澤塔·瓊斯的兩個(gè)孩子:女兒長得像父親,學(xué)霸兒子的五官很像她

小書生吃瓜
2025-10-04 19:04:08
小莫?jiǎng)?chuàng)歷史首人紀(jì)錄!頒獎(jiǎng)時(shí)親吻獎(jiǎng)杯太喜悅 距張本智和僅差395分

小莫?jiǎng)?chuàng)歷史首人紀(jì)錄!頒獎(jiǎng)時(shí)親吻獎(jiǎng)杯太喜悅 距張本智和僅差395分

顏小白的籃球夢
2025-11-03 05:17:05
“蘇超”奪冠后,泰州市官宣→

“蘇超”奪冠后,泰州市官宣→

極目新聞
2025-11-02 18:48:31
國際刑事法院正在用歐盟自主開發(fā)的辦公軟件套件OpenDesk取代微軟Office

國際刑事法院正在用歐盟自主開發(fā)的辦公軟件套件OpenDesk取代微軟Office

cnBeta.COM
2025-11-01 05:18:07
胡老師:承認(rèn)被反噬,家里堆積如山,真實(shí)情況場面壯觀網(wǎng)友:可怕

胡老師:承認(rèn)被反噬,家里堆積如山,真實(shí)情況場面壯觀網(wǎng)友:可怕

霽寒飄雪
2025-10-29 09:26:58
全紅嬋恩師何威儀揭秘,他跟全紅嬋有很多矛盾,歸根結(jié)底錯(cuò)不在他

全紅嬋恩師何威儀揭秘,他跟全紅嬋有很多矛盾,歸根結(jié)底錯(cuò)不在他

白面書誏
2025-09-25 15:07:53
抵達(dá)臺(tái)灣不久,59歲毛人鳳隨即暴亡,蔣介石:他糊涂,很不懂事!

抵達(dá)臺(tái)灣不久,59歲毛人鳳隨即暴亡,蔣介石:他糊涂,很不懂事!

史筆似塵鉤
2025-10-26 21:28:25
日本AV界的璀璨新星-彩城優(yōu)里菜,身材眉毛集于一身(一個(gè)人在被窩里看)

日本AV界的璀璨新星-彩城優(yōu)里菜,身材眉毛集于一身(一個(gè)人在被窩里看)

素然追光
2025-11-03 03:15:59
好消息!菲律賓宣布:11月1日起,恢復(fù)中國公民電子簽證服務(wù)!

好消息!菲律賓宣布:11月1日起,恢復(fù)中國公民電子簽證服務(wù)!

王爺說圖表
2025-11-01 22:38:46
廣東通報(bào):處長姜波,被查

廣東通報(bào):處長姜波,被查

新京報(bào)政事兒
2025-11-02 00:26:26
預(yù)測60億票房不變,《澎湖海戰(zhàn)》抵制是攔路虎,統(tǒng)一臺(tái)灣勢不可擋

預(yù)測60億票房不變,《澎湖海戰(zhàn)》抵制是攔路虎,統(tǒng)一臺(tái)灣勢不可擋

電影票房預(yù)告片
2025-11-02 13:19:11
2025-11-03 08:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11617文章數(shù) 142497關(guān)注度
往期回顧 全部

科技要聞

誰在爭先恐后喂養(yǎng)OpenAI這只“巨獸”

頭條要聞

馬來西亞首富之子買上海大平層 449平米1.17億元

頭條要聞

馬來西亞首富之子買上海大平層 449平米1.17億元

體育要聞

這個(gè)日本人,憑啥值3.25億美元?

娛樂要聞

陳道明被王家衛(wèi)說他是陰陽同體的極品

財(cái)經(jīng)要聞

段永平捐了1500萬元茅臺(tái)股票!本人回應(yīng)

汽車要聞

神龍汽車推出“發(fā)動(dòng)機(jī)終身質(zhì)?!闭?/h3>

態(tài)度原創(chuàng)

時(shí)尚
游戲
教育
健康
軍事航空

最近很火的發(fā)型,原來這么簡單!

TES給Faker打困了!網(wǎng)友稱第一次見到Faker打哈欠

教育要聞

你敢直說嗎?

核磁VS肌骨超聲,誰更勝一籌?

軍事要聞

美總統(tǒng)威脅對(duì)尼日利亞動(dòng)武 尼方回應(yīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 香蕉视频你懂的| 波多野42部无码喷潮在线| 色婷婷综合久久久中文字幕 | 国产精品成人一区二区三区夜夜夜 | 波多野结衣中文字幕一区二区 | 熟妇与小伙子mature老熟妇 | 久久黄色电影网址| 亚洲色偷无码| 日本一区二三区| 中文文幕AV| 新妺妺窝777777粗玫瑰园| 免费的成人A级毛片| 国产精品无码久久四虎| 狼人影院在线观看| 国产高清精品一区二区三区| 好色妞一区二区三区| 久久久亚洲AV饭冈加奈子| 欧美日逼网站| 日本人妻久久久加勒比二区三区| 起码影视第四色| 无码视频免费一区二三区| 亚洲精品无码鲁网中文电影| 精品少妇一级毛片免费看| 国产天堂亚洲国产碰碰| 欧美人体大胆瓣开下部自慰照| 无码精品人妻一区二区三区拉屎| 亚洲色图国产精品| 成人毛片无码一区二区三区| 蜜桃高清无码在线观看| 久久久久久久久久中文字幕免费| 无码日韩AV一区| 国产一区二区三区无码| 日韩欧激情一区二区三区| 午夜成人欧美一区二区在线观看| 少妇熟女久久综合网色欲| 欧洲精品一区| 激情成人综合网| 午夜精品日B| 超碰国产精品久久国产精品99 | 久久精品免视看国产盗摄| 777米影视|