翻譯行業(yè)的未來最優(yōu)解,不是“AI替代人類”,而是“AI協(xié)同人類”,翻譯耳機行業(yè)未來可期。
作 者 丨 宿藝
編 輯 丨 子淇
“人類理解語言的方式,和大語言模型理解語言的方式幾乎相同?!苯?,“AI教父”杰弗里·辛頓在2025世界人工智能大會上拋出這一觀點,隨后補充道:“在一些重要的根本性方面,大語言模型與人類不同,甚至比人類更強大。”
這并非一句夸張的預(yù)言,而是不久前才被公開驗證的現(xiàn)實。
6月16日,在深圳“同傳翻譯人機大戰(zhàn)2.0”現(xiàn)場,四位資深同聲傳譯譯員組成人工隊,與使用時空壺W4 Pro組成的AI隊,展開了一場全程直播的翻譯對決。最終,AI隊以1170的總分戰(zhàn)勝人工隊的1062分,拿下勝局。
可以說,雙方比分差距不算懸殊,從現(xiàn)場表現(xiàn)來看,時空壺W4 Pro贏取的也并非分?jǐn)?shù)上的勝利,而是AI翻譯在復(fù)雜同傳語境中能夠經(jīng)受住專業(yè)級檢驗的重要證明。
作為目前市面上唯一一款能夠與高級人工同傳比肩而立的產(chǎn)品,時空壺W4 Pro在這場比賽中真正展示的,是其在語義理解、糾錯總結(jié)、語音同聲傳譯等方面的更高階能力,同時證實了,AI翻譯已經(jīng)抵達(dá)“可完成一場真實同傳任務(wù)”的能力分界點。
翻譯耳機行業(yè)發(fā)展滯澀已久,至此,終于迎來“L3時刻”。
正面對壘高級譯員
時空壺W4 Pro為何能贏?
整體來看,此次“人機大戰(zhàn)2.0”分為“基礎(chǔ)翻譯”和“關(guān)鍵詞提取”兩大環(huán)節(jié),設(shè)置英、日、法、西四語種復(fù)雜文本,由外籍人士現(xiàn)場朗讀,專業(yè)評委按照翻譯準(zhǔn)確性、流暢程度、專業(yè)適配性與文化適配性四項指標(biāo)綜合評分。
不過,真正讓全場嘩然的,并非是AI隊拿到勝局之時,而是時空壺W4 Pro在比賽過程中屢次超出外界預(yù)期,展現(xiàn)出極高穩(wěn)定性、完成度和專業(yè)度的時刻。
例如,時空壺W4 Pro不僅能夠完整翻譯出“位于西安東南西北四條大街交匯處的鐘樓”這樣的長難句、妥善還原“碑文記載”等生僻表達(dá),還能準(zhǔn)確表達(dá)出“西安有個鐘鼓樓,半截插在天里頭”這樣極具文化底蘊的地道俗語,甚至在面對摩洛哥口音濃重的法語朗讀時,其依然保持著輸出的穩(wěn)定性與準(zhǔn)確性,幾無明顯脫漏。
此前,市面上的翻譯產(chǎn)品大多停留在“文本直譯”和“語音轉(zhuǎn)文字直譯”等基礎(chǔ)層面,但時空壺W4 Pro不僅能聽清、懂意譯,還能做到低時延自然輸出,打破了人們對于機翻生硬、缺乏文化敏感度的刻板印象。
這樣遠(yuǎn)超預(yù)期的表現(xiàn),自然是時空壺 W4 Pro多年技術(shù)打磨的成果。
首先是“聽得清”。
AI翻譯的真正考驗往往發(fā)生在聲源復(fù)雜的現(xiàn)實場所,也因此,進(jìn)行第二輪“關(guān)鍵詞提取大比拼”時,比賽現(xiàn)場也特別加強了環(huán)境音的干擾。對此,時空壺W4 Pro搭載的三麥克風(fēng)陣列+矢量降噪技術(shù)發(fā)揮了重要作用。通過軟硬件配合,時空壺W4 Pro能夠更好鎖定佩戴者聲音、排除環(huán)境雜音,這就為后續(xù)正確翻譯打下了重要基礎(chǔ)。
其次是“翻得快”。
“翻得快”的難點在于“又快又正確”。以往,傳統(tǒng)翻譯設(shè)備多靠“整段處理”,先聽完再翻,但同聲傳譯講求“說一句譯一句”,這就常常導(dǎo)致前一句會被下一句修正,譯文飄忽不定,也就無法立刻提供正確通順的語音翻譯。
為此,時空壺W4 Pro通過“AI糾錯+語義判斷”雙引擎打破這一難題:一方面,利用大語言模型的上下文理解、推理能力實時糾錯近音詞,保證上下文理解準(zhǔn)確;另一方面,自研語義判斷模型精準(zhǔn)判斷句子是否達(dá)到足夠的準(zhǔn)確度,一旦達(dá)到,便及時進(jìn)行合成播放,讓翻譯不卡頓、不拖延,真正實現(xiàn)在耳邊“同步輸出”。
最后也最核心的,是“譯得準(zhǔn)”。
在過去,“機翻”常常被詬病死板、生澀、脫離語境,比如“手沖咖啡”的“手沖”會被翻譯為“hand-washing(洗手)”,諸如此類。而時空壺搭載業(yè)界首個AI同傳翻譯大模型Babel OS同傳系統(tǒng),經(jīng)過對“端、邊、云”全鏈路信息處理能力進(jìn)行深度優(yōu)化,不僅能實現(xiàn)精準(zhǔn)意譯,還可支持40種語言、93種口音間任意兩種語言的即時互譯,翻譯準(zhǔn)確率高達(dá)96%,為多元場景下的翻譯質(zhì)量提供了現(xiàn)實保障。
當(dāng)然,必須指出的是,AI翻譯與人工翻譯仍舊各有所長。盡管AI翻譯更少被現(xiàn)場氛圍和語速影響,工作效率和可接受的強度更高,但人類譯員顯然更擅長語感與情感的精準(zhǔn)表達(dá)。換句話說,AI翻譯并非已經(jīng)完全超越人工翻譯,這場比賽的真正價值在于,首次公開見證了,AI翻譯體驗已經(jīng)可以達(dá)到較高智能化的“L3級別”。
簡單來說,翻譯體驗可分為L1-L5五級:L1是最原始的“逐詞逐句”文本翻譯;L2進(jìn)入語音交替階段,說一句等一句;L3開始逼近真實同步對話,可實現(xiàn)3-5秒的雙向語音同傳翻譯;再往上就是L4的“情感級意譯”、 L5多模態(tài)輸入及輸出的“讀心級意譯”。其中,L3,被看作是通往更高級翻譯體驗的關(guān)鍵臨界點。
從這一標(biāo)準(zhǔn)來看,時空壺W4 Pro是當(dāng)前唯一商業(yè)化落地、真正達(dá)成L3體驗的產(chǎn)品,相較市面多數(shù)仍停留在L2級的翻譯耳機或軟件服務(wù),具備“立體化”的斷層體驗優(yōu)勢。
這場同傳翻譯人機大戰(zhàn),不難讓人們想起2016年AlphaGo與李世石的那場對戰(zhàn)。如果說AlphaGo的那場勝利,象征了AI可以學(xué)習(xí)規(guī)則、完成深度博弈,那么這一次時空壺 W4 Pro的勝利,則意味著AI翻譯已經(jīng)完成一場專業(yè)能力的實戰(zhàn)檢驗,能夠進(jìn)入更復(fù)雜的語言理解與實時交流現(xiàn)場。
可以看到,AI翻譯正在加緊越過“技術(shù)”與“體驗”兩座大山,而走在最前面的時空壺,已經(jīng)成功攻下“同聲傳譯”這塊高地,正式為行業(yè)劃定下新的前進(jìn)坐標(biāo)。
深度聚焦場景價值
從“升級工具”到“重寫交流方式”
實際上,此次“人機大戰(zhàn)”只是時空壺嶄露頭角的一個切面。尤其今年以來,這個僅有150多號員工、研發(fā)團隊平均年齡只有28歲的中國科技企業(yè),持續(xù)收獲著來自行業(yè)內(nèi)外多方的關(guān)注。
比如今年3月,《新聞聯(lián)播》就罕見地用足4分鐘時間,深度報道時空壺的技術(shù)研發(fā)和品牌故事。隨后,時空壺又接連出現(xiàn)在深圳文博會、粵港澳大灣區(qū)車展、北京智源大會等大型展會現(xiàn)場,在這些人流如織的喧嘩場景中,作為指定翻譯設(shè)備提供專業(yè)支持。
為何是時空壺?在《壹觀察》看來,時空壺脫穎而出的根本原因,是其不再用“工具思維”做產(chǎn)品,而是用“場景思維”再造技術(shù),也正因為跳出了翻譯行業(yè)慣有的思維桎梏,深入真實使用場景,才創(chuàng)造了更貼合現(xiàn)實需求的場景價值。
正如前文所提及,在真實生活場景下做翻譯,第一道難題是“聽清楚”。
相比辦公室、會議室等“理想場所”,時空壺更早意識到,真實的翻譯需求發(fā)生在更復(fù)雜多變的場景中,無論是地鐵轟鳴、人聲鼎沸還是車流嘈雜,都是一款實用翻譯設(shè)備繞不開的現(xiàn)實考題。
為此,時空壺的工程師們奔走于城市街巷,深入地鐵、商場、展館收集數(shù)據(jù),反復(fù)測試其研發(fā)的VNC矢量降噪技術(shù)。時空壺研發(fā)負(fù)責(zé)人石偉在接受《新聞聯(lián)播》采訪時表示,“時空壺追求的終極目標(biāo)是除了佩戴耳機者的聲音,其他說話者的雜音以及各種噪聲可以被降噪技術(shù)完全消除?!蹦壳翱磥?,時空壺正在順利向這一目標(biāo)靠近,因為在最新的模擬測試中,當(dāng)多人同時說話,甚至他人音量達(dá)到90分貝時,佩戴者的聲音依然可以被準(zhǔn)確識別和傳輸,這無疑是時空壺進(jìn)一步突破雙向同傳壁壘的積極信號。
另一個常常被忽略卻極其關(guān)鍵的場景突破,是在通信層。
在科幻片的慣常設(shè)定中,人們的面對面跨語言溝通,似乎天然只需要雙方各戴一只耳機,便可自由交談。但現(xiàn)實在于,過往所有的標(biāo)準(zhǔn)藍(lán)牙耳機,在設(shè)計之初都只是基于“我說你聽”的聆聽場景,因此行業(yè)默認(rèn)的都是單通道錄音,并不支持兩只耳機分別錄音。
時空壺發(fā)現(xiàn),這種底層通信架構(gòu)的限制,是橫亙在翻譯耳機L2與L3級別之間的一道鴻溝。畢竟若是無法“各自發(fā)言”,就無從談起雙向同傳翻譯,雙方仍然只能停留在“單向語言交替翻譯”的回合制對話,而這種對話方式本就是反直覺、反人性的。
為突破這一技術(shù)瓶頸,時空壺團隊前往國內(nèi)外的頭部芯片廠商拜訪,卻被告知“沒有現(xiàn)成解決方案”。無奈之下,時空壺只好著手自研通信技術(shù),歷時整整四年,終于在2021年研發(fā)出首款能雙向同傳翻譯耳機,實現(xiàn)兩只耳機能夠同時“各自錄音、各自翻譯、各自輸出”,這才解決了跨語言交流中最基本的“回合制”問題,為“所有語言都可以像母語一樣自然溝通”鋪平道路。
從拾音降噪到面對面同傳,時空壺基于場景需求所創(chuàng)造的技術(shù)發(fā)展與產(chǎn)品體驗,帶來的不僅是功能維度的工具化升級,更推動了跨語言交流方式的革新。
自此,“你說完我再譯”的割裂體驗逐漸消解,同聲傳譯級實時互動成為可能??缯Z言溝通體驗,開始無限接近人類長久以來的“終極想象”。
《壹觀察》評論
1954年,喬治城-IBM實驗室成功實現(xiàn)俄英翻譯,人類第一次看到語言轉(zhuǎn)換被機器接手的可能。然而,此后七十年,從統(tǒng)計機器到神經(jīng)機器,機器翻譯幾經(jīng)范式之變,卻始終未能抹除其作為“外部工具”的突兀存在感。
直到時空壺試圖改寫這一現(xiàn)狀。
從技術(shù)上看,時空壺的創(chuàng)新不止于開發(fā)開發(fā)出業(yè)界首個AI同傳翻譯大模型,還在于完成了聲學(xué)采集、傳輸通信、語義判斷等環(huán)節(jié)的技術(shù)協(xié)同,重塑整個AI翻譯鏈路的運行邏輯以及實時翻譯體驗,既讓AI翻譯具備“語義級理解+語境級自適應(yīng)”能力,又做到讓翻譯“自然發(fā)生。
從行業(yè)上看,過去AI翻譯設(shè)備的體驗?zāi):饔^,而伴隨時空壺W4 Pro的到來,L1-L5分級體系首次被明確提出,不僅促使行業(yè)走向規(guī)范化,其自身也作為當(dāng)前市面唯一商業(yè)化落地的L3級產(chǎn)品,為行業(yè)樹立起重要參照與標(biāo)桿。
與此同時,專業(yè)級的跨語言溝通往往受制于譯員的能力、成本與可用性,而時空壺W4 Pro借技術(shù)之力,擴大了這項原本稀缺的社會資源的受眾面,讓專業(yè)級跨語言溝通不再依賴“資深專家”,用前沿創(chuàng)新實現(xiàn)了專業(yè)服務(wù)的普惠化。
正如《創(chuàng)新的起源》一書所言,真正有價值的創(chuàng)新,必須經(jīng)得起兩個考驗:一是對個人有用,二是能節(jié)省時間、精力或金錢成本。從這一視角來看,時空壺W4 Pro正是當(dāng)前市面上極少數(shù)能通過這兩大考驗的產(chǎn)品:不僅可用、好用,而且能替代人工執(zhí)行高強度、高密度的任務(wù),無疑是兼具實用價值、商業(yè)價值和未來發(fā)展?jié)摿Φ膭?chuàng)新產(chǎn)品。
但同時,我們也應(yīng)當(dāng)看到,AI翻譯的能力依然有限,仍需要在深層語義理解和文化微妙之處尋找技術(shù)落點。不過,未來翻譯行業(yè)的最優(yōu)解,本就不是“AI替代人類”,而是“AI協(xié)同人類”。
翻譯耳機行業(yè)未來可期。值得高興的是,時空壺已率先站上L3時代的新起點,加速未來到來。
「壹觀察」創(chuàng)始人宿藝
原搜狐科技通信主編
今日頭條、騰訊新聞、搜狐搜索「壹觀察」
百家號、微博、抖音搜索「宿藝」關(guān)注更多
丨智能硬件丨通信丨新零售丨人工智能丨
丨智聯(lián)網(wǎng)汽車丨智能家居丨
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.