“我最近剛滿 19 歲,從加拿大滑鐵盧大學(xué)計(jì)算機(jī)學(xué)院退學(xué)(創(chuàng)業(yè)),致力于創(chuàng)建最高質(zhì)量的編碼數(shù)據(jù)引擎,為最強(qiáng)大的大模型提供支持?!辈痪们?,出生于加拿大的亞裔女孩 Serena Ge 在自己的個(gè)人網(wǎng)站上寫下這段話。
(來(lái)源:https://serenage.super.site/)
2025 年 10 月 9 日,她像許多成熟的“大人創(chuàng)業(yè)者”一樣在領(lǐng)英上官宣了融資一個(gè)億的動(dòng)態(tài),并一一地手動(dòng)艾特投資人致以感謝。
(來(lái)源:https://www.linkedin.com/feed/update/urn:li:activit)
據(jù)了解,她創(chuàng)辦了一家名為 Datacurve 的 AI 數(shù)據(jù)公司,并由她擔(dān)任 CEO。為了更好地創(chuàng)業(yè),她邀請(qǐng)到同為亞裔的同校校友 Charley Lee 擔(dān)任聯(lián)合創(chuàng)始人。該公司此次融資了 1500 萬(wàn)美元(折合 1.1 億元人民幣),力圖挑戰(zhàn) Alexander Wang 成為下一個(gè) Scale AI。
(來(lái)源:Chemistry VC)
此次融資由 Chemistry VC 的合伙人馬克·古德曼(Mark Goldberg)領(lǐng)投,Coinbase 的前 CTO 巴拉吉·斯里尼瓦桑(Balaji Srinivasan)、DeepMind、Vercel、Anthropic 和 OpenAI 的員工也參與了投資。值得注意的是,最近美國(guó)越來(lái)越流行這樣一個(gè)趨勢(shì),那就是科技巨頭的高管們開(kāi)始以個(gè)人名義投資新一代的 95 后和 00 后創(chuàng)業(yè)者。
說(shuō)回 Datacurve 的兩位創(chuàng)始人。Serena Ge 曾于 2023 年在 Cohere 公司實(shí)習(xí),Charley Lee 曾于 2023 年在谷歌加拿大分公司實(shí)習(xí)。
(來(lái)源:https://serenage.super.site/)
相比另一位創(chuàng)始人,Serena Ge 的經(jīng)歷稍微豐富一些。在高中時(shí)代,她非常熱衷于攀巖,甚至覺(jué)得不能攀巖之時(shí)的那種煎熬就像“毒癮犯了”一樣,為此她在家里自制了一面攀巖墻。而為了讓個(gè)性化攀巖訓(xùn)練更加觸手可及,她在高中時(shí)研發(fā)了一款攀巖 App,這幫助她獲得了參加加拿大青少年抱石錦標(biāo)賽的資格。憑借自己的編程能力,她還在新冠疫情期間組建了一支高中生團(tuán)隊(duì),并和他們一起為疫情隔離區(qū)的青少年打造了一款網(wǎng)絡(luò)應(yīng)用程序,期間得到了加拿大道明銀行的支持。她還曾在加拿大皇家銀行擔(dān)任實(shí)習(xí)軟件工程師,期間構(gòu)建了一個(gè)內(nèi)部漏洞管理儀表板,處理了超過(guò) 90k+ 個(gè)漏洞條目。
作為創(chuàng)始人和 CEO,Serena Ge 的創(chuàng)業(yè)之旅并非心血來(lái)潮或趕時(shí)髦。在 Cohere 實(shí)習(xí)期間,她曾參與十億參數(shù) SOTA 模型的訓(xùn)練和步驟,期間研究了如何通過(guò)監(jiān)督微調(diào)和合成數(shù)據(jù)來(lái)提高模型推理能力,并通過(guò)使用 GPU 并行處理 100 萬(wàn)個(gè)圖像提示,為 Cohere 構(gòu)建了數(shù)據(jù)安全過(guò)濾器。
她說(shuō)這次創(chuàng)業(yè)始于自己在 Cohere 訓(xùn)練大模型的實(shí)習(xí)經(jīng)歷,這份經(jīng)歷讓她意識(shí)到數(shù)據(jù)質(zhì)量的重要性,并讓她開(kāi)始覺(jué)得大模型之所以存在瓶頸就是因?yàn)槿狈ωS富的、精心挑選的高質(zhì)量培訓(xùn)數(shù)據(jù)。在 Cohere 實(shí)習(xí)期間,她發(fā)現(xiàn)當(dāng)時(shí)人們很難獲得專家級(jí)的編碼數(shù)據(jù),因?yàn)閿?shù)據(jù)標(biāo)注在此之前一直都是一個(gè)剝削性的低技能工作,往往由來(lái)自一些欠發(fā)達(dá)地區(qū)的零工完成。之前,AI 數(shù)據(jù)公司很難招募到高素質(zhì)的軟件工程師來(lái)?yè)?dān)任“注釋員”。
而她的創(chuàng)業(yè)使命便是為了破解這一數(shù)據(jù)難題,她所創(chuàng)辦的 Datacurve 公司通過(guò)游戲化平臺(tái)來(lái)收集高質(zhì)量數(shù)據(jù),招募數(shù)百名頂尖的外部軟件工程師來(lái)解決編碼難題。據(jù)了解,Datacurve 從 Y Combinator 的一個(gè)創(chuàng)業(yè)項(xiàng)目孵化而來(lái),主要業(yè)務(wù)為大模型提供高質(zhì)量數(shù)據(jù)。
該公司使用類似于“賞金獵人”的機(jī)制吸引有經(jīng)驗(yàn)的軟件工程師去打造那些難度較高的數(shù)據(jù)集,而這些軟件工程師會(huì)從該 Datacurve 獲得報(bào)酬,Serena Ge 告訴媒體,截至目前其已經(jīng)向這些外部軟件工程師發(fā)放超過(guò) 100 萬(wàn)的報(bào)酬。
不過(guò),她表示吸引這些軟件工程師兼職參與數(shù)據(jù)集打造的主要原因并不是能夠收到這些報(bào)酬,因?yàn)樗麄儽旧硭鶑氖碌能浖_(kāi)發(fā)是高價(jià)值服務(wù),相比之下參與數(shù)據(jù)集打造所帶來(lái)的報(bào)酬甚至遠(yuǎn)遠(yuǎn)低于傳統(tǒng)工作帶來(lái)的報(bào)酬。而真正吸引這些軟件工程師參與打造數(shù)據(jù)集的動(dòng)力,在于能給他們帶來(lái)積極的體驗(yàn)。
Datacurve 并沒(méi)有將打造數(shù)據(jù)集當(dāng)做簡(jiǎn)單的數(shù)據(jù)標(biāo)簽操作工作,而是把它當(dāng)成一款消費(fèi)產(chǎn)品。隨著大模型對(duì)于訓(xùn)練后數(shù)據(jù)需求的日益增加,當(dāng)前的 AI 產(chǎn)品需要依賴復(fù)雜的強(qiáng)化學(xué)習(xí)環(huán)境,這時(shí)無(wú)法再使用以前的簡(jiǎn)單數(shù)據(jù)集,而復(fù)雜的強(qiáng)化學(xué)習(xí)環(huán)境需要通過(guò)特定且具有戰(zhàn)略性的數(shù)據(jù)收集來(lái)構(gòu)建。正因此,Datacurve 目前正在創(chuàng)建一個(gè)用于訓(xùn)練后數(shù)據(jù)的基礎(chǔ)設(shè)施。
據(jù)了解,Datacurve 能夠提供的數(shù)據(jù)類型是高質(zhì)量的訓(xùn)練后數(shù)據(jù)和評(píng)估數(shù)據(jù)。首先,這些數(shù)據(jù)是能夠用于各種編碼任務(wù)的監(jiān)督微調(diào)數(shù)據(jù);其次,這些數(shù)據(jù)能夠?yàn)榇a評(píng)估和驗(yàn)證任務(wù)設(shè)計(jì)強(qiáng)化學(xué)習(xí)環(huán)境;再次,這些數(shù)據(jù)能夠用于循環(huán)強(qiáng)化學(xué)習(xí)與人類反饋中的自定義模型端點(diǎn)。
圖 | Datacurve 公司官網(wǎng)截圖(來(lái)源:https://datacurve.ai/)
在數(shù)據(jù)用途上:
其一,這些數(shù)據(jù)能被用于解決大模型訓(xùn)練中的一些算法挑戰(zhàn),這些數(shù)據(jù)基于大量的原始文檔標(biāo)準(zhǔn)化與對(duì)齊問(wèn)題以及 Leetcode 風(fēng)格的問(wèn)題而來(lái),能被用于核心算法編碼技能訓(xùn)練或評(píng)估;
其二,這些數(shù)據(jù)能被用于代理工作流的跟蹤,基于 Datacurve 的自定義集成開(kāi)發(fā)環(huán)境捕獲的、由軟件開(kāi)發(fā)工程師遙測(cè)的完整軌跡,比如通過(guò)代碼執(zhí)行實(shí)現(xiàn)編輯循環(huán)、文件導(dǎo)航、執(zhí)行軌跡和口頭想法以及書(shū)面想法,客戶可以實(shí)現(xiàn)軟件代理的訓(xùn)練;
其三,這些數(shù)據(jù)能被用于推理與調(diào)試,參與打造數(shù)據(jù)的軟件工程師們基于日常工作中所遇到的問(wèn)題,貢獻(xiàn)出了一些推理密集型任務(wù),這些任務(wù)可被用于模擬一些模型難題場(chǎng)景;
其四,可用于私人代碼庫(kù)任務(wù)臺(tái),即能夠在企業(yè)應(yīng)用程序、游戲、系統(tǒng)軟件等私有代碼庫(kù)上設(shè)計(jì)自定義任務(wù),從而能在真實(shí)的專有存儲(chǔ)庫(kù)上進(jìn)行模型訓(xùn)練或評(píng)估;
其五,這些數(shù)據(jù)能被用于多模式界面,即通過(guò)游戲、用戶體驗(yàn)和用戶界面任務(wù)教導(dǎo)模型,將靜態(tài)代碼與動(dòng)態(tài)行為聯(lián)系起來(lái),進(jìn)而使用提示詞、屏幕截圖或錄音,來(lái)訓(xùn)練 AI 對(duì)于交互式軟件的外觀、感覺(jué)和功能的跨模式理解。
而在為客戶創(chuàng)建大規(guī)模的高質(zhì)量數(shù)據(jù),需要經(jīng)歷以下四個(gè)步驟:評(píng)估、數(shù)據(jù)創(chuàng)建、質(zhì)量檢查和交付。
在評(píng)估這一步驟中,Datacurve 會(huì)先識(shí)別客戶的數(shù)據(jù)需求。無(wú)論客戶是帶著明確的需求來(lái),亦或是希望和 Datacurve 共同制定策略,Datacurve 都能使用基準(zhǔn)測(cè)試工具幫助客戶了解模型難點(diǎn)和模型弱點(diǎn),并能針對(duì)模型弱點(diǎn)找到對(duì)其進(jìn)行彌補(bǔ)的數(shù)據(jù)類型、邊緣情況和注釋格式。
在數(shù)據(jù)創(chuàng)建這一步驟中,Datacurve 會(huì)在其游戲化平臺(tái)上和外部軟件工程師啟動(dòng)數(shù)據(jù)創(chuàng)建,這一游戲化平臺(tái)的好處在于可以提高真人在數(shù)據(jù)生成和數(shù)據(jù)標(biāo)記過(guò)程中的速度和精準(zhǔn)度。Datacurve 在官網(wǎng)寫道,這些外部軟件工程師來(lái)自業(yè)內(nèi)一些頂尖公司和初創(chuàng)公司,他們是在真正地解決 AI 問(wèn)題,而不僅僅是完成任務(wù)。
在質(zhì)量檢查這一步驟中,Datacurve 并不是依賴于單一的檢查,而是讓每個(gè)數(shù)據(jù)集都經(jīng)過(guò)自動(dòng)化的一致性檢查,并會(huì)進(jìn)行異常檢測(cè)和人工評(píng)估循環(huán),這種混合式的方法可以確保邊緣情況的標(biāo)記以及錯(cuò)誤的糾正,無(wú)論數(shù)據(jù)的復(fù)雜程度如何,都能確保在交付時(shí)符合處于嚴(yán)格的質(zhì)量閾值之中。
在交付這一步驟中,Datacurve 會(huì)使用其“可視化數(shù)據(jù)集查看器”來(lái)檢查將要交付的數(shù)據(jù),以便進(jìn)一步地檢查這些數(shù)據(jù)的基準(zhǔn)分?jǐn)?shù)和質(zhì)量指標(biāo)。對(duì)于客戶來(lái)說(shuō),他們將能了解這些數(shù)據(jù)所能構(gòu)建的內(nèi)容、性能表現(xiàn)以及在開(kāi)發(fā)流程中的位置。同時(shí),Datacurve 可以提供不限次數(shù)的修改。
當(dāng)前,AI 發(fā)展日漸成熟,對(duì)于高質(zhì)量數(shù)據(jù)的爭(zhēng)奪也成為了業(yè)內(nèi)激戰(zhàn)的方向之一,在這一領(lǐng)域除了眾所周知的 Scale AI 公司之外,還涌現(xiàn)出了 Surge AI 等公司。隨著 Scale AI 的創(chuàng)始人 Alexander Wang 開(kāi)始將精力放在 Meta 公司的 AI 業(yè)務(wù)上,讓許多投資人看到了 AI 數(shù)據(jù)這一方向的發(fā)展機(jī)會(huì),并尤其愿意為那些能夠提供優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)收集策略的公司投入資金。值得注意的是,Scale AI 和 SurgeAI 的創(chuàng)始人都是亞裔,而此次 Datacurve 的兩位創(chuàng)始人也都是亞裔,這再一次展示了亞裔人士在北美科技圈的力量。
與此同時(shí),Serena Ge 很愛(ài)思考甚至對(duì)于哲學(xué)有著一定熱愛(ài)。她在個(gè)人網(wǎng)站寫了不少隨筆。在一篇隨筆中,她質(zhì)疑了硅谷流行的“Fake it till you make it”做法,她寫道:“我認(rèn)識(shí)一些年輕的創(chuàng)始人,他們習(xí)慣于夸大自己的數(shù)據(jù)、合作伙伴、資金、發(fā)展等。我理解管理信譽(yù)和機(jī)會(huì)很重要,但當(dāng)我們陷入這種惡性循環(huán)時(shí),我們必須捫心自問(wèn),我們?cè)谧鍪裁??這是我們想要實(shí)現(xiàn)目標(biāo)的方式嗎?不要忘了你的‘為什么’?!痹诒泵溃苍S此次 1 億多人民幣的融資并不算多,但這名 00 后女生已經(jīng)邁出了勇敢且務(wù)實(shí)的創(chuàng)業(yè)步伐。
參考資料:
公司官網(wǎng)https://datacurve.ai/
Datacurve創(chuàng)始人Serena Ge的相關(guān)主頁(yè)https://www.linkedin.com/in/serena-ge-4583731b4/和https://www.instagram.com/serenaa.ge/和https://serenage.super.site/
Datacurve聯(lián)合創(chuàng)始人Charley Lee的領(lǐng)英主頁(yè)https://www.linkedin.com/in/charley-lee/
其他報(bào)道https://techcrunch.com/2025/10/09/datacurve-raises-15-million-to-take-on-scaleai/
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.