出品|虎嗅科技組
作者|SnowyM
編輯|陳伊凡
頭圖|視覺中國
“AI原生100”是虎嗅科技組推出針對AI原生創(chuàng)新欄目,這是本系列的第「12」篇文章。
8月8日,OpenAI最新模型GPT-5正式發(fā)布,但性能提升幅度遠沒有達到人們期待的“下一代模型”水準,雖然性能有一部分大幅提升,但有相當一部分并未與o3或者是Claude、Grok4拉開距離。
這個現(xiàn)象背后,整個AI行業(yè)正在面臨一個關(guān)鍵轉(zhuǎn)折點:僅僅通過增加數(shù)據(jù)量和計算資源來提升模型性能的傳統(tǒng)路徑,可能已接近天花板。
此時,一家給OpenAI喂數(shù)據(jù)的公司浮出水面——Turing。
2022年年初,Turing的CEO——喬納森·西達爾特(Jonathan Siddharth)從美國硅谷帕洛阿爾托,驅(qū)車前往OpenAI的辦公室。彼時的Turing是一家人力資源招聘公司。
在去的路上,他做好了給這家新興的硅谷AI巨頭推銷Turing產(chǎn)品的準備——Turing可以幫助OpenAI招聘人才。
當走進辦公室時,一堆OpenAI的研究員卻向喬納森提了一個需求——他們不要人,他們要數(shù)據(jù)。彼時,OpenAI的研究員們發(fā)現(xiàn),在訓(xùn)練GPT-3的數(shù)據(jù)集中,加入一些計算機代碼,有助于提高模型的推理能力。因此,他們希望Turning能夠給他們提供質(zhì)量上乘的代碼,用于GPT-4的開發(fā)中。
這次會議,成為了Turing發(fā)展的拐點。只用了7年時間,這家公司從零達到22億美元估值,并且成為了繼Scale AI之后,硅谷第二家風頭正盛的數(shù)據(jù)標注公司。
如今隨著大模型能力的演進,互聯(lián)網(wǎng)上可公開的數(shù)據(jù)已經(jīng)很少了,對更難生成的數(shù)據(jù)的需求將會急劇增長。隨著Scale AI被Meta收購,Turing將有希望在數(shù)據(jù)標注領(lǐng)域成為估值第一的公司。
虎嗅接觸了Turing的早期投資方——硅谷風投資機構(gòu)UpHonest Capital,其投資人表示,他們對Turing團隊的第一印象是沉穩(wěn)從容的連續(xù)創(chuàng)業(yè)團隊,對產(chǎn)品路線與商業(yè)化有清晰判斷;同時,Turing還通過高頻、透明的進展匯報營造出強烈的FOMO(形容創(chuàng)業(yè)者對新技術(shù)、新趨勢敏感的表現(xiàn)),善于動員資源。
彼時的Turing與現(xiàn)在的業(yè)務(wù)相距甚遠,UpHonest Capital投資Turing是2019年,正值Zoom上市,Zoom早期借助了亞洲工程人才紅利快速成長,投資方認為,這是“人才地理套利”結(jié)構(gòu)性機會,而Turing創(chuàng)始團隊具備亞裔跨境背景與執(zhí)行力,在這一賽道擁有天然優(yōu)勢。這也是他們投資Turing的原因。
不過,業(yè)內(nèi)投資人也表示,Turing這樣的數(shù)據(jù)標注公司,本質(zhì)上還是一種人力資源外包型企業(yè),毛利率不高,需要精細化運作和控制成本。隨著如今數(shù)據(jù)標注公司越來越多,數(shù)據(jù)的質(zhì)量成為了競爭的勝負手。
Turing的上升空間和想象
Turing正在書寫著"經(jīng)濟上行期"的故事。
Turing最初切入的是遠程工程師招聘市場,憑借AI驅(qū)動的人才云(Talent cloud,Turing積攢的人才網(wǎng)絡(luò))平臺快速壯大。
2021年,公司成功躋身獨角獸行列。此時,他們已經(jīng)有了400萬專業(yè)開發(fā)者的龐大人才網(wǎng)絡(luò)和ALAN AI平臺(Turing自研的AI模型開發(fā)工具平臺),并成為了最大、最國際化的開放人才平臺之一。
但這遠不是故事的結(jié)局。
當OpenAI等頂級AI基礎(chǔ)模型廠商對數(shù)據(jù)的需求正在瘋漲時,Turing捕捉到這一機遇,果斷轉(zhuǎn)型為AGI基礎(chǔ)設(shè)施提供商,將以往積攢的龐大資源(軟件工程代碼數(shù)據(jù)及模型評估能力)包裝成標準化服務(wù)。
如今,頭部模型廠商基本都是Turing的客戶,例如,OpenAI、Anthropic、Google、Meta等頂級AI實驗室,Turing為他們提供模型訓(xùn)練、微調(diào)和智能體開發(fā)等底層支持。
如果了解大語言模型的誕生經(jīng)過就知道,大模型會先將大量從網(wǎng)頁上收集到的數(shù)據(jù)進行預(yù)訓(xùn)練,然后再經(jīng)過微調(diào)和后訓(xùn)練,讓AI模型學(xué)習如何回答問題,在監(jiān)督微調(diào)中,模型可以通過專門的數(shù)據(jù),學(xué)會新的技能。這個專門的數(shù)據(jù),就是Turing提供的,標注過的,高質(zhì)量數(shù)據(jù)集。
這個目的是讓模型學(xué)習和泛化。因此,數(shù)據(jù)標注的專業(yè)性在這個環(huán)節(jié)就顯得尤為重要。
Turing的人才庫中,有涉及不同領(lǐng)域的專家。喬納森表示,他們要做的就是提供互聯(lián)網(wǎng)上搜不到的數(shù)據(jù)。
資本市場對Turing的認可度可以用“估值翻倍”來概括。2021年底的Series D輪融資中,公司籌得8700萬美元,投后估值約11億美元,正式成為獨角獸。
2025年3月完成的Series E輪融資:1.11億美元的資金注入讓估值直接翻倍至22億美元。這輪融資由馬來西亞主權(quán)財富基金Khazanah Nasional Berhad領(lǐng)投,WestBridge Capital、Sozo Ventures、UpHonest Capital等十多家機構(gòu)參投。
截至Series E完成,Turing累計融資總額約2.25億美元。更值得關(guān)注的是其業(yè)績表現(xiàn):2024年公司年度收入達到3億美元規(guī)模,較上一年增長三倍,并成功實現(xiàn)盈虧平衡。
我們梳理了Turing的融資歷史:
2018-2019年:獲得種子資金,2019年完成1400萬美元種子輪
2020年12月:完成3200萬美元Series B輪,由WestBridge Capital領(lǐng)投
2021年12月:完成8700萬美元Series D輪,估值11億美元成為獨角獸
2025年3月:完成1.11億美元Series E輪,估值22億美元
最新財務(wù)數(shù)據(jù)顯示,Turing的 年度經(jīng)常性收入(ARR)約3億美元。
創(chuàng)始人:連續(xù)創(chuàng)業(yè)者的故事
Turing由Jonathan Siddharth和Vijay Krishnan于2018年聯(lián)合創(chuàng)立。
Vijay Krishnan(左)Jonathan Siddharth(右)
兩位創(chuàng)始人均擁有斯坦福大學(xué)計算機科學(xué)碩士背景,在校期間因?qū)C器學(xué)習的共同興趣而結(jié)識,并萌生了聯(lián)合創(chuàng)業(yè)的想法 。研究生畢業(yè)后,他們多次合作技術(shù)項目并嘗試創(chuàng)業(yè)。
2008年,他們聯(lián)合創(chuàng)辦了內(nèi)容推薦平臺Rover,后于2016年被Revcontent收購 ,兩人深刻體會到僅依賴灣區(qū)本地招募頂尖工程師的局限,于是開始嘗試遠程分布式團隊的模式 。
在這個過程中,他們逐步摸索出如何高效甄別和管理全球各地的人才,并“無心插柳”地獲得了打造AI驅(qū)動的人才云平臺的靈感。
2018年,Jonathan和Vijay將這一洞見付諸實踐,創(chuàng)立了Turing,以機器學(xué)習技術(shù)對工程師進行技能審核和匹配,幫助企業(yè)“云端組建”全球開發(fā)者團隊。
正如Jonathan所強調(diào)的,傳統(tǒng)線下招聘和外包模式已難以滿足高速發(fā)展的科技行業(yè)需求,他們希望通過Turing打造全球人才網(wǎng)絡(luò),讓企業(yè)“不受地理位置限制找到世界上最優(yōu)秀的人才”。
一個AI轉(zhuǎn)型企業(yè)的教科書式樣本
Turing的華麗轉(zhuǎn)身值得細說,因為他們所上演的故事幾乎堪稱傳統(tǒng)企業(yè)向AI企業(yè)轉(zhuǎn)型的標準教科書。
在收到OpenAI需求時,喬納森坦言,他們當時完全沒料到ChatGPT會引發(fā)AI熱潮,更沒想到“軟件工程師的代碼對教會大語言模型思考和推理如此重要”?!八麄兊囊蠛喼笔钳偭耍麄兿胍谶@么短的時間內(nèi)獲得大量數(shù)據(jù)?!眴碳{森回憶。
但最后,Turing確實給OpenAI在模型性能上提供了巨大幫助,使得ChatGPT能夠在發(fā)布后,震驚世界。
另一面,Turing并沒有完全拋棄原有業(yè)務(wù)。創(chuàng)始人強調(diào),各條業(yè)務(wù)線都在增長,只是把主要資源投入到AI相關(guān)的新業(yè)務(wù)上。這種務(wù)實的做法為新戰(zhàn)略提供了現(xiàn)金流支撐。
Turing的AI業(yè)務(wù)
轉(zhuǎn)型后的Turing形成了兩大核心業(yè)務(wù)板塊,即公司內(nèi)部稱為“Turing AGI Advancement”和“Turing Intelligence”的兩條業(yè)務(wù)線。
Turing AGI Advancement專門服務(wù)全球頂級AI實驗室,幫助提升前沿基礎(chǔ)模型的各項能力。簡單說,就是讓AI模型變得更聰明。他們?yōu)镺penAI、Anthropic、Google、Meta等頂尖公司提供高質(zhì)量訓(xùn)練數(shù)據(jù)、代碼生成、模型微調(diào)等服務(wù)。
Turing Intelligence則致力于將前沿AI能力轉(zhuǎn)化為企業(yè)應(yīng)用。面向財富500強企業(yè)和政府機構(gòu),構(gòu)建定制的AI系統(tǒng)和解決方案,幫助傳統(tǒng)企業(yè)實現(xiàn)智能化升級。
兩條產(chǎn)品線分別對應(yīng)"造模型引擎"與"用模型賦能",既服務(wù)AI行業(yè)本身,又將AI能力推廣到各行各業(yè)。
支撐業(yè)務(wù)發(fā)展的是Turing的兩大核心資產(chǎn),這兩大資產(chǎn)又能夠形成閉環(huán),為Turing提供源源不斷的專業(yè)數(shù)據(jù)資產(chǎn)。
Turing的AI+人才循環(huán)
首先是AI驅(qū)動的人才云平臺。Turing聲稱通過自動化測試篩選,Turing從全球數(shù)百萬報名者中篩選出400萬技術(shù)人才,堪稱全球最大的人類智能網(wǎng)絡(luò)之一。當AI項目需要特定專家時,平臺能迅速匹配合適團隊。
例如,當OpenAI需要大量Python/C++工程師編寫代碼來豐富模型訓(xùn)練數(shù)據(jù)集時,Turing可以迅速組建起一支分布式的專業(yè)開發(fā)者團隊投入任務(wù) ;又如某制藥企業(yè)需要生命科學(xué)背景的標注人員來給模型做專業(yè)數(shù)據(jù)標記,Turing也能從人才庫中篩選出合格的PhD等高端人選。
其次是自研的ALAN AI工具平臺,用于高效編排AI模型開發(fā)的各類工作流。ALAN將人類專家與機器算法緊密結(jié)合,支持從數(shù)據(jù)生成到模型評估的全流程自動化。Turing通過這個平臺實現(xiàn)了模型訓(xùn)練與優(yōu)化的"流水線式"標準化生產(chǎn)。
Turing最初采用典型的人力資源外包模式,通過撮合企業(yè)與遠程開發(fā)者并抽取傭金盈利。
轉(zhuǎn)型后,商業(yè)模式變得更加多元:
在Turing AGI Advancement板塊,公司的主要客戶是全球頂級的AI模型研發(fā)機構(gòu)。這些AI Labs利用Turing來獲取大規(guī)模的定制數(shù)據(jù)服務(wù)和人類反饋,例如為模型生成代碼語料、構(gòu)建評測基準、執(zhí)行模型對比測試,以及提供成百上千名有特定領(lǐng)域?qū)I(yè)的標注人員進行RLHF微調(diào)等 。
Turing Intelligence板塊,則類似軟件項目制或訂閱制,從需求分析到部署運維,提供端到端的AI應(yīng)用開發(fā)服務(wù)。在多個行業(yè)已有顯著成果,例如幫助醫(yī)院降低15%庫存成本、將制藥晶體分析時間從250小時縮短到2-3小時、提升銀行客服響應(yīng)速度40%
2024年,Turing實現(xiàn)了盈利,這也證明了商業(yè)模式的可持續(xù)性。投資者也給予高度評價,從Foundation Capital、WestBridge到馬來西亞主權(quán)基金,每輪融資都有頂級機構(gòu)背書。
數(shù)據(jù)標注進入“精英喂養(yǎng)”時代
根據(jù)市場研究機構(gòu)預(yù)測,全球AI數(shù)據(jù)收集與標注市場2024年的規(guī)模已達到約180億美元,預(yù)計2025年將增至約220億美元,此后幾年維持20–30%的年復(fù)合增長率 。
這一領(lǐng)域受到資本的熱烈追捧:Scale AI等頭部公司的高估值就是明證。例如Meta斥資143億美元收購Scale AI 49%股權(quán),將該數(shù)據(jù)標注獨角獸估值推高至290億美元,并挖走其CEO負責Meta的超級智能項目 。
OpenAI的內(nèi)部評估亦印證了這種趨勢——其表示,下一代模型若按傳統(tǒng)方式訓(xùn)練,性能增益將大幅低于預(yù)期,GPT-5就是最好的例子 。為突破瓶頸,各大實驗室紛紛尋求解決方案,包括從企業(yè)自身業(yè)務(wù)中挖掘私有數(shù)據(jù)、生成合成數(shù)據(jù)、引入更多人類反饋等。
去年12月,OpenAI展示了一項叫做"Test-Time Scaling"的新技術(shù)測試結(jié)果,這被業(yè)界視為大模型在后預(yù)訓(xùn)練時代提升能力的重要突破。這個技術(shù)簡單來說,就是讓AI在回答問題時花更多時間"思考",從而給出更準確的答案。
2024年下半年,OpenAI秘密開發(fā)了一個代號為"Orion"的新模型。公司內(nèi)部原本計劃將它作為萬眾矚目的GPT-5發(fā)布,期望它能比當時最強的GPT-4o模型表現(xiàn)更出色。然而,測試結(jié)果讓人失望——Orion的表現(xiàn)并沒有達到預(yù)期的大幅提升。
從Orion到GPT-4.5再到GPT-5,海外媒體的許多報道印證了一個事實:性能提升確實不夠顯著。這期間,關(guān)于OpenAI面臨數(shù)據(jù)瓶頸的消息不斷傳出。特別值得注意的是,OpenAI前首席科學(xué)家Ilya Sutskever在一次公開演講中曾表示,支持Scaling Law(算力越大越好)的高質(zhì)量訓(xùn)練數(shù)據(jù)已經(jīng)不多了。
一個顯而易見的趨勢是,數(shù)據(jù)標注正在進入“精英喂養(yǎng)”時代,各領(lǐng)域的專家,取代了初級數(shù)據(jù)標注員。
其中,引入海量高質(zhì)量人類標注和代碼數(shù)據(jù)被證明是近期最有效的手段之一 。例如,Meta在訓(xùn)練Llama3模型時投入了超過1000萬條人類標注數(shù)據(jù) 。但如此巨量且高質(zhì)量的數(shù)據(jù)獲取絕非易事,必須建立起專業(yè)化的數(shù)據(jù)生產(chǎn)流水線。
這正是像Turing這樣的AI數(shù)據(jù)服務(wù)商崛起的背景:它們填補了AI實驗室“數(shù)據(jù)生產(chǎn)能力”的空白,幫助后者源源不斷地獲取所需的“燃料”,從而延續(xù)Scaling Law。
喬納森在Turing官網(wǎng)上發(fā)布了一篇文章提出,領(lǐng)先的前沿實驗室正在面臨新的挑戰(zhàn)——需要具有適當深度、多樣性和反饋結(jié)構(gòu)的數(shù)據(jù),從而真正釋放能力提升——這意味著,數(shù)據(jù)標注領(lǐng)域,正在進入“精英喂養(yǎng)”的模式。喬納森則表示,Turing采取的是中立的態(tài)度,不會與任何實驗室對抗。
Surge AI的創(chuàng)始人Edwin Chen表示,質(zhì)量高于一切。Turing則能夠提供400多萬軟件工程師、數(shù)據(jù)科學(xué)家、領(lǐng)域?qū)<业娜瞬艓?;能夠即時招聘跨專業(yè)領(lǐng)域的博士、奧林匹克級別的人才;發(fā)起人工智能驅(qū)動的審查,確保每位貢獻者的質(zhì)量一致。
不過,隨著資本不斷涌入,這個賽道正變得越來越擁擠。數(shù)據(jù)質(zhì)量是決定這個行業(yè)的勝負手,并且,當大語言模型的性能提升曲線逐漸平緩,對數(shù)據(jù)標注的質(zhì)量要求將越來越高。
Turing的挑戰(zhàn):精細化運營和數(shù)據(jù)質(zhì)量
在AI數(shù)據(jù)服務(wù)領(lǐng)域,Turing和SurgeAI這兩家十分有潛力的AI公司走出了截然不同的路子,就像兩個基因不同的物種,各有各的生存策略。
硅谷三大數(shù)據(jù)標注公司情況 虎嗅根據(jù)公開信息整理
Turing更像一個什么都能干的“一站式平臺”。由于一開始的人才云業(yè)務(wù)積累,它的業(yè)務(wù)范圍很寬,既能提供技術(shù)人員(工程師、數(shù)據(jù)科學(xué)家),又能提供高質(zhì)量的代碼數(shù)據(jù)和評測,并依靠這些能力幫助企業(yè)搭建AI系統(tǒng)。
而Surge AI走的是精品路線,主要做多輪對話標注、AI安全測試、復(fù)雜評測等高難度任務(wù),需要頂級專家和嚴格流程來保證質(zhì)量。業(yè)內(nèi)提到它的融資時,都會強調(diào)"人類在環(huán)"這個定位。其創(chuàng)始人Edwin Chen在談及SurgeAI業(yè)務(wù)時,十分“驕傲”,并始終強調(diào)“質(zhì)量為王”。
它的擴張邏輯與Turing完全不同:不求量大,但求價值高。圍繞高質(zhì)量數(shù)據(jù)這個核心,不斷完善工具和流程,讓每個數(shù)據(jù)樣本都更值錢。
在AI數(shù)據(jù)提供這方面,SurgeAI雖然晚成立2年,但已經(jīng)圍繞數(shù)據(jù)深入做好了相關(guān)技術(shù)儲備,甚至被稱為“業(yè)內(nèi)早已公認超越了ScaleAI”,而Turing的資源池積累相對更大一些,未來的Turing還有多大上升空間,值得關(guān)注。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4673897.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.