文/VR陀螺 豌豆
蘋(píng)果在WWDC25的一場(chǎng)開(kāi)發(fā)者會(huì)議上悄然推出了一種新的空間音頻(Spatial Audio)格式:Apple Spatial Audio Format(以下簡(jiǎn)稱(chēng)ASAF),蘋(píng)果表示這將帶來(lái)“真正沉浸式的音頻體驗(yàn)”。
ASAF是什么?它與杜比全景聲 (Dolby Atmos) 或三星和谷歌的Eclipsa Audio等競(jìng)爭(zhēng)對(duì)手的空間音頻格式有何不同?更重要的是,它對(duì)像創(chuàng)作者、工程師和聽(tīng)眾意味著什么——尤其是那些已經(jīng)通過(guò)蘋(píng)果現(xiàn)有空間音頻產(chǎn)品(例如AirPods Pro 2等)享受到樂(lè)趣和沉浸感的人。
雖然立體聲音頻仍然可用,但現(xiàn)在更蘋(píng)果建議創(chuàng)作者使用Apple Positional Codec(以下簡(jiǎn)稱(chēng)APAC)進(jìn)行編碼,為此有必要了解空間音頻本身,以及ASAF如何融入蘋(píng)果的戰(zhàn)略。
空間音頻賽道的格式之爭(zhēng)
空間音頻是一種在三維空間中傳遞聲音的方式,并非將音頻置于固定的左右立體聲場(chǎng)中,而是允許聲音在聽(tīng)眾的上方、后方、下方或四周環(huán)繞。它能讓用戶(hù)在聽(tīng)音樂(lè)、看電影或玩游戲時(shí),仿佛置身于一個(gè)由聲音包圍的環(huán)境中。
雖然杜比全景聲已成為家庭影院和流媒體內(nèi)容空間音頻的一大標(biāo)準(zhǔn),但它并非唯一的選擇。杜比全景聲的工作原理是,對(duì)可在3D空間中動(dòng)態(tài)定位的音頻對(duì)象進(jìn)行編碼,然后根據(jù)聽(tīng)眾的揚(yáng)聲器配置或耳機(jī)設(shè)置進(jìn)行實(shí)時(shí)渲染,主要依賴(lài)于預(yù)定聲音位置的概念。
相比之下,蘋(píng)果推出新音頻格式的這一舉措既更像是對(duì)杜比全景聲的拓展:杜比全景聲可以通過(guò)蘋(píng)果的新音頻格式進(jìn)行傳輸,該格式能夠在此基礎(chǔ)上添加一些額外的空間音頻效果。蘋(píng)果要求所有針對(duì)Vision Pro的新沉浸式視頻內(nèi)容必須采用APAC格式。創(chuàng)作者仍然能夠使用杜比全景聲,但他們需要將其封裝在蘋(píng)果定義的這一新格式中。
蘋(píng)果推出了新的空間音頻格式,不由得讓人聯(lián)想起今年1月的CES大會(huì)上,三星和谷歌發(fā)布的Eclipsa Audio格式。
2023年,由三星、谷歌、Netflix、Meta及其他頂尖企業(yè)組成的開(kāi)放媒體聯(lián)盟(AOM)正式采用空間音頻模型和格式(IAMF),確立其為3D音頻的產(chǎn)業(yè)標(biāo)準(zhǔn)。Eclipsa Audio將在今年為某些YouTube視頻上提供3D音頻體驗(yàn),同時(shí)三星2025系列電視與條形音箱也將支持該標(biāo)準(zhǔn)。
多年來(lái),三星一直不支持動(dòng)態(tài)HDR元數(shù)據(jù)的Dolby Vision(杜比視界),而是選擇推廣其首選的替代方案HDR10 Plus。至此,三星和谷歌對(duì)開(kāi)源3D音頻進(jìn)行類(lèi)似HDR10+的競(jìng)爭(zhēng)性或替代性推動(dòng),將使免費(fèi)的Eclipsa Audio成為杜比全景聲的競(jìng)爭(zhēng)對(duì)手。
這對(duì)社交媒體來(lái)說(shuō),尤其是YouTube這樣的視頻平臺(tái),能夠以一種較低成本的方式為用戶(hù)提供沉浸音頻體驗(yàn),能為創(chuàng)作者的內(nèi)容分發(fā)帶來(lái)一定的支持。
蘋(píng)果的頭部追蹤空間音頻技術(shù)會(huì)監(jiān)測(cè)到用戶(hù)的頭部運(yùn)動(dòng),并相應(yīng)地調(diào)整聲場(chǎng)。如果用戶(hù)將頭向左轉(zhuǎn),音頻就會(huì)“錨定”在屏幕上,讓人感覺(jué)聲音來(lái)自一個(gè)固定的方向。
ASAF的出現(xiàn)是否會(huì)引發(fā)另一場(chǎng)音頻格式大戰(zhàn)?
杜比的收入模式依賴(lài)于授權(quán),Eclipsa Audio以開(kāi)源的方式走向視頻流媒體,目前平臺(tái)間的戰(zhàn)火還未被點(diǎn)燃。但蘋(píng)果的目的很可能是想早一步布局,推動(dòng)蘋(píng)果生態(tài)系統(tǒng)中的差異化,尤其是Vision Pro。由此來(lái)看,ASAF更像是有著專(zhuān)業(yè)性、高度優(yōu)化且深度集成于蘋(píng)果沉浸式視頻內(nèi)容體驗(yàn)的特點(diǎn),且更希望能保持對(duì)自有平臺(tái)上高端沉浸式體驗(yàn)的控制權(quán)。
蘋(píng)果的新格式ASAF提供了更高的靈活性和真實(shí)感。但要理解其背后的原理,還需要了解Apple引入的技術(shù)棧。
ASAF格式,蘋(píng)果的下一代空間音頻革新
ASAF作為蘋(píng)果全新的音頻框架,旨在打造具有完全沉浸式、頭部追蹤和環(huán)境感知的音頻體驗(yàn)。ASAF格式在WWDC25的開(kāi)發(fā)者會(huì)議視頻“了解蘋(píng)果沉浸式視頻技術(shù)”上正式亮相,這也標(biāo)志著蘋(píng)果在空間音頻創(chuàng)作領(lǐng)域的一次重要革新。
蘋(píng)果此次更新的空間音頻分為兩部分:
據(jù)蘋(píng)果沉浸式視頻工程師Blake Gordon介紹:“ASAF通過(guò)確保使用聲學(xué)提示來(lái)渲染音頻,實(shí)現(xiàn)了真正外化的音頻體驗(yàn)。它由新的元數(shù)據(jù)、LPCM(一種無(wú)損音頻編碼方式)以及蘋(píng)果平臺(tái)內(nèi)置的強(qiáng)大空間渲染器組成。它通過(guò)眾多點(diǎn)源和高分辨率聲音場(chǎng)景或高階環(huán)繞聲,產(chǎn)生高分辨率空間音頻。渲染的音頻完全基于對(duì)象的位置和方向,以及聽(tīng)眾的位置和方向進(jìn)行自適應(yīng)。所有這些都不是預(yù)先設(shè)定的。ASAF中的聲音來(lái)自任何方向、任何位置和任何距離。ASAF包含在帶有線性PCM信號(hào)和元數(shù)據(jù)的廣播Wave文件中?!?/p>
可以說(shuō),ASAF的渲染引擎是基于對(duì)象且具有環(huán)境感知能力的。它能讓聲音感覺(jué)仿佛存在于用戶(hù)周?chē)恼鎸?shí)3D空間中。它不僅能實(shí)時(shí)適應(yīng)用戶(hù)的頭部運(yùn)動(dòng),還能根據(jù)物體的位置進(jìn)行調(diào)整,在虛擬環(huán)境中動(dòng)態(tài)調(diào)整音量、回聲和混響等效果。
APAC,可作為編解碼器可將對(duì)ASAF這一音頻格式進(jìn)行編碼以便于傳輸??稍诔齱atchOS之外的蘋(píng)果平臺(tái)上使用,包括tvOS、iOS、iPadOS、macOS和visionOS,但在visionOS上會(huì)表現(xiàn)更佳。并支持通道、對(duì)象、高階環(huán)繞聲、對(duì)話、雙耳音頻、交互元素及可擴(kuò)展元數(shù)據(jù)的配置。蘋(píng)果以此進(jìn)一步擴(kuò)展空間計(jì)算生態(tài)中更豐富、更有層次感的音頻效果。
而且,APAC編解碼器可在低至64kbps的比特率下工作,最高可達(dá)768kbps。而常見(jiàn)的立體聲音樂(lè)碼率包括128kbps、192kbps、256kbps和320kbps,其中320kbps的MP3文件可以提供接近無(wú)損的音質(zhì)。雖然APAC這一數(shù)值看似較低,但與蘋(píng)果、Netflix等公司當(dāng)前用于流媒體傳輸杜比全景聲的最大比特率相同,因此可滿足當(dāng)前所需音頻質(zhì)量標(biāo)準(zhǔn)。
Vision Pro采用開(kāi)放式音頻設(shè)計(jì),雙驅(qū)動(dòng)單元音頻單元可提供個(gè)性化音效,并根據(jù)音頻光線追蹤進(jìn)行自適應(yīng)調(diào)整
ASAF和APAC共同構(gòu)成了高分辨率自適應(yīng)空間音頻的管道,可深度融入蘋(píng)果的生態(tài)系統(tǒng),尤其是visionOS和Vision Pro頭顯。與杜比全景聲略有不同的是,杜比全景聲可以模擬用戶(hù)靜止地坐在虛擬影院中,而ASAF則可以根據(jù)以下情況動(dòng)態(tài)調(diào)整音頻:
- 用戶(hù)的頭部方向
- VR或AR空間內(nèi)的實(shí)時(shí)定位
- 虛擬環(huán)境的變化(例如洞穴與開(kāi)放空間中的混響和反射差異)
- MR應(yīng)用中的環(huán)境或交互元素
這幾點(diǎn)使得ASAF成為蘋(píng)果空間計(jì)算內(nèi)容的理想格式,包括VR/AR內(nèi)容、沉浸式視頻和類(lèi)似Vision Pro上的交互式體驗(yàn)。ASAF的優(yōu)勢(shì)在于其音頻并非預(yù)先渲染混響、回聲或距離等效果,而是基于元數(shù)據(jù)和頭部位置進(jìn)行實(shí)時(shí)渲染。這使蘋(píng)果能夠根據(jù)不同環(huán)境和場(chǎng)景動(dòng)態(tài)調(diào)整體驗(yàn)。
例如在Vision Pro觀看沉浸式視頻的虛擬音樂(lè)會(huì)時(shí),可能會(huì)有更好的體驗(yàn):當(dāng)你轉(zhuǎn)頭看向舞臺(tái)左側(cè),ASAF會(huì)實(shí)時(shí)調(diào)整歌手聲音的方位,同時(shí)根據(jù)虛擬場(chǎng)館的環(huán)境動(dòng)態(tài)添加混響。
蘋(píng)果押注空間音頻賽道,不僅是將ASAF作為技術(shù)升級(jí)的一環(huán),而是戰(zhàn)略性地將空間音頻內(nèi)容與消費(fèi)端連接的重要舉措。
蘋(píng)果有著軟硬件的完整生態(tài)鏈,ASAF旨在貫穿整個(gè)技術(shù)棧:它支持蘋(píng)果多個(gè)系統(tǒng)平臺(tái);支持頭部追蹤的耳機(jī)和頭顯;通過(guò)iPhone 16或?qū)I(yè)錄音工具進(jìn)行音頻捕獲;在專(zhuān)業(yè)工具如Apple AAX插件或DaVinci Resolve Studio進(jìn)行內(nèi)容創(chuàng)作,并能以“.MP4”格式交付。
此外,對(duì)于新版visionOS中新增的Apple Projected Media Profile(APMP)視頻格式,即對(duì)QuickTime或MP4視頻類(lèi)型的支持。Vision Pro使用的是與Meta Quest和YouTube VR上支持的同樣Ambisonic音頻格式。錄制完成后可以將音頻編碼為APAC并與APMP視頻混合完成交付。
寫(xiě)在最后
空間音頻技術(shù)的潛力不僅限于影視內(nèi)容和游戲,蘋(píng)果曾在2023年發(fā)布過(guò)一項(xiàng)關(guān)于將空間音頻用于導(dǎo)航的專(zhuān)利,通過(guò)AirPods、智能眼鏡以及Vision Pro等產(chǎn)品,利用聲音引導(dǎo)用戶(hù)去往目的地??臻g音頻也有望被用于治療、聽(tīng)力康復(fù)、教育培訓(xùn)、音樂(lè)會(huì)等場(chǎng)景。蘋(píng)果正在構(gòu)建從內(nèi)容創(chuàng)作到消費(fèi)者的完整沉浸式生態(tài)。
圖1展示了使用iPhone和AirPods的空間音頻導(dǎo)航;圖2A展示了空間音頻導(dǎo)航可以與未來(lái)的智能眼鏡或Vision Pro一起使用(圖源:Patenly Apple)
只是目前許多標(biāo)注為“杜比全景聲”的音軌聽(tīng)起來(lái)平淡或不自然,這可能是由于混音質(zhì)量差或從立體聲自動(dòng)升頻所致??臻g音頻背后的藝術(shù)性有待深入挖掘,且文件格式其強(qiáng)大程度取決于其背后的生態(tài)系統(tǒng)。ASAF強(qiáng)大的功能也帶來(lái)了更高的復(fù)雜性,博主“Hugh Hou”聲稱(chēng)ASAF使用了數(shù)量驚人的聲道,制作難度頗高,創(chuàng)作者至少需要一個(gè)Voyage Audio Spatial Mic才能開(kāi)始使用。
可見(jiàn)ASAF不僅僅關(guān)乎音質(zhì),它更是一種從空間、交互和用戶(hù)體驗(yàn)角度思考音頻的全新方式。空間音頻已不再是奢侈品,而是未來(lái)沉浸式內(nèi)容的必需品。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.