夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

這一個(gè)Tab鍵,我愿意單獨(dú)付費(fèi):Cursor在線強(qiáng)化學(xué)習(xí)優(yōu)化代碼建議

0
分享至

機(jī)器之心報(bào)道

編輯:+0

Cursor Tab 是 Cursor 的核心功能之一,它通過分析開發(fā)者的編碼行為,智能預(yù)測(cè)并推薦后續(xù)代碼,開發(fā)者僅需按下 Tab 鍵即可采納。



然而,它也面臨著一個(gè) AI 普遍存在的難題:「過度熱情」。有時(shí),它提出的建議不僅毫無用處,甚至?xí)驍嚅_發(fā)者的思路。

問題的關(guān)鍵,不只是讓 AI 寫出更優(yōu)秀的代碼,更是要教會(huì)它「察言觀色」:在最恰當(dāng)?shù)臅r(shí)機(jī)提供幫助,在其他時(shí)候則保持安靜。

基于此,Cursor 采用在線強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練出一個(gè)全新的 Tab 模型。該模型將每一次用戶交互(接受/拒絕建議)都視為一個(gè)強(qiáng)化信號(hào),直接用于模型的在線優(yōu)化。在每天超過 4 億次請(qǐng)求的巨大流量驅(qū)動(dòng)下,模型得以進(jìn)行高頻度的、基于真實(shí)世界反饋的持續(xù)學(xué)習(xí)。



Cursor 已將這個(gè)新的 Tab 模型設(shè)為默認(rèn)版本。與舊模型相比,新模型提供的建議數(shù)量減少了 21%,但所提供建議的接受率卻提升了 28%。此舉旨在提升用戶的編碼體驗(yàn),Cursor 也計(jì)劃在未來繼續(xù)深化這些方法的研究。

Cursor 的策略獨(dú)特且高效:它每天多次向用戶部署新模型(每隔 1.5-2 小時(shí)),利用實(shí)時(shí)數(shù)據(jù)進(jìn)行快速訓(xùn)練和優(yōu)化。

這與主流做法形成了鮮明對(duì)比。多數(shù)廠商仍在靜態(tài)數(shù)據(jù)集上進(jìn)行長周期訓(xùn)練,依賴人工標(biāo)注,數(shù)月才發(fā)布一次新模型。Cursor 的模式則建立了一個(gè)超高頻的實(shí)時(shí)反饋循環(huán),是對(duì)傳統(tǒng)模型開發(fā)流程的徹底顛覆。

這似乎又一次向我們證明了,誰掌握了數(shù)據(jù)入口,誰就掌握了 AI 進(jìn)化的主動(dòng)權(quán)。

該功能在 AI 社區(qū)也得到了非常積極的反饋,有用戶表示這是 Cursor 當(dāng)前「護(hù)城河」,并愿意為 Cursor Tab 單獨(dú)付費(fèi)。



還有開發(fā)者認(rèn)為,它能大幅提升了生產(chǎn)力,不像 agent 那樣只有噱頭,而是「比其他任何功能都更能改善工作流程」。



另外,一條被「強(qiáng)化學(xué)習(xí)之父」Richard Sutton 轉(zhuǎn)發(fā)的評(píng)論表示,Cursor 的這個(gè)做法意義重大,它首次大規(guī)模證明了「實(shí)時(shí)在線學(xué)習(xí)」的巨大威力,并且指明了 AI 未來的一個(gè)重要發(fā)展方向,盡管目前還不夠完美。



Cursor 通過一篇博客介紹了他們?nèi)绾卫眠@些數(shù)據(jù),通過在線強(qiáng)化學(xué)習(xí)技術(shù)來優(yōu)化其 Tab 模型。

  • 博客地址:https://cursor.com/cn/blog/tab-rl

「干擾性建議」的挑戰(zhàn)

要實(shí)現(xiàn)高接受率,不僅需要提升模型本身的智能水平,更關(guān)鍵的是要判斷何時(shí)應(yīng)提供建議,何時(shí)應(yīng)保持靜默。在某些場(chǎng)景下,上下文信息不足以準(zhǔn)確判斷用戶的意圖。即便模型具備完美的知識(shí)和推理能力,也無法預(yù)知用戶的確切操作。在這些情況下,不提供任何建議是更優(yōu)的選擇。

為提升建議的接受率,一種直接的思路是訓(xùn)練一個(gè)獨(dú)立的分類模型來預(yù)測(cè)建議是否會(huì)被采納。據(jù) Parth Thakkar 在 2022 年披露,GitHub Copilot 便采用了此種策略。它通過一個(gè)邏輯回歸模型計(jì)算「上下文過濾分?jǐn)?shù)」,該模型接收 11 個(gè)特征作為輸入,涵蓋了編程語言、前次建議的采納情況、光標(biāo)前的字符序列等。盡管該模型的確切預(yù)測(cè)目標(biāo)未知,但外界普遍猜測(cè)其旨在預(yù)測(cè)建議被用戶接受的概率。當(dāng)該分?jǐn)?shù)低于 15% 時(shí),系統(tǒng)便會(huì)跳過此次建議。

該方案雖然可行,但 Cursor 的團(tuán)隊(duì)希望尋求一種更通用的機(jī)制,以便能復(fù)用 Tab 模型自身學(xué)到的強(qiáng)大代碼表征能力。他們希望從根源上讓 Tab 模型避免生成質(zhì)量不高的建議,而非僅僅在事后進(jìn)行過濾。因此,他們最終選擇了策略梯度方法。

策略梯度方法

策略梯度是一種通用的優(yōu)化框架,其目標(biāo)是調(diào)整「策略」(在此即 Tab 模型),以最大化「獎(jiǎng)勵(lì)」(Reward)。獎(jiǎng)勵(lì)是一個(gè)被賦予策略所執(zhí)行的每一個(gè)動(dòng)作的數(shù)值。通過策略梯度算法,可以持續(xù)更新策略,使其在未來能夠獲得更高的平均獎(jiǎng)勵(lì)。

該類算法的核心思想是:允許策略進(jìn)行探索性的隨機(jī)嘗試,觀察不同行為所帶來的獎(jiǎng)勵(lì)高低,然后對(duì)獲得高獎(jiǎng)勵(lì)的行為進(jìn)行正向強(qiáng)化,對(duì)導(dǎo)致低獎(jiǎng)勵(lì)的行為進(jìn)行負(fù)向強(qiáng)化。

為了運(yùn)用策略梯度方法優(yōu)化 Tab,團(tuán)隊(duì)定義了一個(gè)精巧的獎(jiǎng)勵(lì)函數(shù):鼓勵(lì)被采納的建議,同時(shí)懲罰那些被展示但未被采納的建議。

例如,假設(shè)目標(biāo)是當(dāng)建議的接受率不低于 25% 時(shí)才進(jìn)行展示。那么,可以為被采納的建議設(shè)定 0.75 的獎(jiǎng)勵(lì),為被拒絕的建議設(shè)定 -0.25 的獎(jiǎng)勵(lì),而未展示建議的情況獎(jiǎng)勵(lì)為 0。如果一個(gè)建議的真實(shí)接受概率為 p,那么展示該建議的期望獎(jiǎng)勵(lì)就是。該值僅在 p>0.25 時(shí)為正。因此,一個(gè)旨在最大化獎(jiǎng)勵(lì)的策略,將學(xué)會(huì)在其預(yù)估接受率超過 25% 時(shí)才給出建議。



在實(shí)際應(yīng)用中,Cursor 使用的獎(jiǎng)勵(lì)函數(shù)更為復(fù)雜,還考慮了建議的長度、代碼跳轉(zhuǎn)以及展示更多建議的可能性等因素。但其核心理念是一致的:并非直接對(duì)接受率進(jìn)行建模,而是學(xué)習(xí)一個(gè)能夠達(dá)成特定接受率目標(biāo)的策略。

可以推斷,模型在其內(nèi)部表征中自發(fā)學(xué)習(xí)到了對(duì)接受概率的評(píng)估(或至少是評(píng)估其是否超過 25%),而這個(gè)過程完全交由優(yōu)化器自行探索。

同策略(On-Policy)數(shù)據(jù)的重要性



然而,該方法有一個(gè)關(guān)鍵前提:用于計(jì)算梯度的動(dòng)作樣本,必須來自于當(dāng)前正在優(yōu)化的策略。一旦策略被更新,舊的數(shù)據(jù)便不再是「同策略(On-Policy)」數(shù)據(jù)。

為了獲取最新的有效樣本,就必須將新模型部署給用戶并收集其行為數(shù)據(jù)。這意味著需要一套高效的基礎(chǔ)設(shè)施,以快速部署新的模型檢查點(diǎn),并縮短從用戶產(chǎn)生數(shù)據(jù)到數(shù)據(jù)進(jìn)入下一輪訓(xùn)練流程的時(shí)間。

目前,Cursor 推出一個(gè)檢查點(diǎn)并收集所需數(shù)據(jù)需要 1.5 到 2 小時(shí)。盡管這在人工智能行業(yè)已屬高效,但仍有進(jìn)一步優(yōu)化的空間。

Cursor 這次更新讓你心動(dòng)了嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為何動(dòng)物多是雄性更漂亮,人類卻相反?

為何動(dòng)物多是雄性更漂亮,人類卻相反?

宇宙時(shí)空
2025-09-16 09:29:48
朋友面試了40k的offer,HR要求提供流水,結(jié)果上家是25k每月....

朋友面試了40k的offer,HR要求提供流水,結(jié)果上家是25k每月....

人力資源管理V
2025-08-27 16:44:45
西貝軍師丨全國第一的品牌營銷咨詢公司:華與華,到底是誰?

西貝軍師丨全國第一的品牌營銷咨詢公司:華與華,到底是誰?

小鵬財(cái)經(jīng)
2025-09-16 15:54:07
1年5263萬美金!歷史首人!老詹敢為天下先,NBA聯(lián)盟要小心了

1年5263萬美金!歷史首人!老詹敢為天下先,NBA聯(lián)盟要小心了

世界體育圈
2025-09-17 11:02:40
有一種痛苦叫買了“大平層”,缺點(diǎn)太多了,已經(jīng)徹底淪為不動(dòng)產(chǎn)!

有一種痛苦叫買了“大平層”,缺點(diǎn)太多了,已經(jīng)徹底淪為不動(dòng)產(chǎn)!

室內(nèi)設(shè)計(jì)師有料兒
2025-09-15 12:16:44
上海天氣奇葩!熱出新高度,今天天氣大轉(zhuǎn)折,上海人準(zhǔn)備好了嗎?

上海天氣奇葩!熱出新高度,今天天氣大轉(zhuǎn)折,上海人準(zhǔn)備好了嗎?

尋墨閣
2025-09-17 09:54:14
網(wǎng)紅“柴懟懟”被刑拘,顧客4萬買玉石價(jià)格鑒定僅3千元,首批送檢玉石多件系染色處理,很多沒有鑒定價(jià)值

網(wǎng)紅“柴懟懟”被刑拘,顧客4萬買玉石價(jià)格鑒定僅3千元,首批送檢玉石多件系染色處理,很多沒有鑒定價(jià)值

極目新聞
2025-09-16 13:56:05
看破而不能說破的8個(gè)社會(huì)真相,很多人都不懂

看破而不能說破的8個(gè)社會(huì)真相,很多人都不懂

舒山有鹿
2025-09-16 12:09:19
大老師這是37?你說17我都信!

大老師這是37?你說17我都信!

貴圈真亂
2025-09-16 10:51:13
現(xiàn)場(chǎng)崩潰!34歲演員跪地求原諒

現(xiàn)場(chǎng)崩潰!34歲演員跪地求原諒

深圳晚報(bào)
2025-09-17 07:56:07
廣發(fā)銀行發(fā)揮優(yōu)勢(shì),全力提升科技金融服務(wù)能力

廣發(fā)銀行發(fā)揮優(yōu)勢(shì),全力提升科技金融服務(wù)能力

時(shí)代周報(bào)
2025-09-12 12:29:36
金正恩能力有多強(qiáng)?創(chuàng)造5個(gè)政界紀(jì)錄,有望成為世界級(jí)偉大人物

金正恩能力有多強(qiáng)?創(chuàng)造5個(gè)政界紀(jì)錄,有望成為世界級(jí)偉大人物

尋途
2025-09-16 15:58:16
定了!歐洲名帥宣布:我將執(zhí)教云南玉昆,年底上任,備戰(zhàn)2026賽季

定了!歐洲名帥宣布:我將執(zhí)教云南玉昆,年底上任,備戰(zhàn)2026賽季

國足風(fēng)云
2025-09-17 08:56:58
卡塔爾不知悔改要世界各國對(duì)以色列強(qiáng)硬,將步敘利亞和哈馬斯后塵

卡塔爾不知悔改要世界各國對(duì)以色列強(qiáng)硬,將步敘利亞和哈馬斯后塵

一種觀點(diǎn)
2025-09-15 08:28:19
最擔(dān)心的事發(fā)生了!小鵬匯天兩架飛行汽車,相撞墜機(jī)

最擔(dān)心的事發(fā)生了!小鵬匯天兩架飛行汽車,相撞墜機(jī)

說財(cái)貓
2025-09-16 21:13:15
1歲的蘋果都吃了,還怕2歲的西蘭花:冷凍食材就不新鮮嗎?

1歲的蘋果都吃了,還怕2歲的西蘭花:冷凍食材就不新鮮嗎?

一個(gè)生物狗的科普小園
2025-09-15 08:52:11
西貝之前多次被批評(píng)都沒事,為啥這次要關(guān)門?因?yàn)槿橇速I單的家長

西貝之前多次被批評(píng)都沒事,為啥這次要關(guān)門?因?yàn)槿橇速I單的家長

中原醫(yī)生
2025-09-16 12:07:09
剛點(diǎn)完中國的名,內(nèi)塔尼亞胡突然問了一個(gè)問題,瞬間讓人后背發(fā)涼

剛點(diǎn)完中國的名,內(nèi)塔尼亞胡突然問了一個(gè)問題,瞬間讓人后背發(fā)涼

王姐懶人家常菜
2025-09-17 10:28:55
重磅:烏克蘭擊毀紅軍村指揮部!收復(fù)突出部失地

重磅:烏克蘭擊毀紅軍村指揮部!收復(fù)突出部失地

項(xiàng)鵬飛
2025-09-16 21:21:30
湖南一剛出獄男子持刀殺人致3死1傷:被抓畫面流出,死者家屬發(fā)聲

湖南一剛出獄男子持刀殺人致3死1傷:被抓畫面流出,死者家屬發(fā)聲

博士觀察
2025-09-16 19:32:48
2025-09-17 11:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11306文章數(shù) 142450關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)RTX6000D遇冷,中國大廠不買賬

頭條要聞

杭州男子買二手車:說好的20萬公里 怎么變成20萬英里

頭條要聞

杭州男子買二手車:說好的20萬公里 怎么變成20萬英里

體育要聞

什么小火龍?申京已經(jīng)是MVP水平!

娛樂要聞

官媒發(fā)文證實(shí),李乃文再破天花板

財(cái)經(jīng)要聞

曝匹克大幅降薪 員工還要進(jìn)行"三觀培訓(xùn)"

汽車要聞

唐DM-i智駕版175KM長續(xù)航版上市售價(jià)17.98萬起

態(tài)度原創(chuàng)

健康
教育
數(shù)碼
時(shí)尚
軍事航空

內(nèi)分泌科專家破解身高八大謠言

教育要聞

探索綠能科技,啟航空天之旅

數(shù)碼要聞

蘋果 Vision Pro 頭顯配鏡取消棱鏡值限制,新增“數(shù)字棱鏡矯正”

氣質(zhì)女人,都少不了亦舒筆下的開衫

軍事要聞

殲-20戰(zhàn)機(jī)首次進(jìn)行靜態(tài)展示

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲AⅤ无码一级毛片孕交| AV国内高清啪啪| 777午夜福利理论电影网| 看免费的无码区特aa毛片| 日韩精品无码内射| 9999一区二区三区| 一区二区视频日韩免费| 青草av在线播放| 性夜夜春夜夜爽aa片a| 脱了老师内裤猛烈进入的软件| 国产福利三区四区| 亚洲AV无码乱码A片秀色直播| 国产精品久久久久久久高清毛片| 亚洲精品无码网站777777777| 日韩在线永久免费播放| 国产精品_国产精品_k频道| 无码在线不卡| 无码人妻一区二区三区中文| 我看免费的真正的毛片| 极品少妇的粉嫩小泬视频| 无码AV蜜臀AⅤ色欲在线观看| www奇米影视com| 久青草国产高清在线视频 | 18禁网站在线| 日韩AV无码网站大全| 少妇愉情理伦片高潮日本| 亚洲永久免费网站| 青青国产线免观| 无码久久人妻精品一区二区三区 | 日韩一线无码av毛片免费| 亚洲av色色色色色色| 亚洲中文字幕无码卡通动漫野外| 顶级丰满少妇自慰到喷水| 亚洲视频色色色| 国产精品久久久久久婷婷| 波多野结衣被躁| 成人在线免费观看视频一二三区| 欧美射精视频在线| 国产精品爽爽爽爽爽爽在线欢看| 日本最新免费区中文| 蜜臀av色欲无码人妻精品天美|