這項由卡內(nèi)基梅隆大學的Chris Donahue、Shinji Watanabe等多位研究者,聯(lián)合索尼AI、佐治亞理工學院和LMArena團隊共同完成的研究,發(fā)表于2025年7月的arXiv預印本平臺。該論文題為"Music Arena: Live Evaluation for Text-to-Music",感興趣的讀者可以通過arXiv:2507.20900v1訪問完整論文,同時可以在https://music-arena.org/體驗這個全新的音樂評測平臺。
近年來,人工智能在音樂創(chuàng)作領(lǐng)域取得了令人矚目的進展。你只需要輸入一段文字描述,比如"創(chuàng)作一首充滿懷舊感的爵士樂",AI就能為你生成一段完整的音樂作品。然而,隨著各種音樂生成模型如雨后春筍般涌現(xiàn),一個關(guān)鍵問題浮出水面:我們該如何評判這些AI音樂家的真實水平?
傳統(tǒng)的評測方法就像是讓音樂評論家在象牙塔里閉門造車。研究人員通常會雇傭一些志愿者,讓他們在實驗室環(huán)境中聆聽AI生成的音樂片段,然后填寫評分表。這種方法不僅成本高昂,每次實驗動輒花費數(shù)千美元,而且評測標準各不相同,就像用不同的尺子來衡量同一件衣服,結(jié)果自然無法比較。更重要的是,這種人為設計的聽音環(huán)境與普通人日常使用音樂生成工具的場景相去甚遠。
卡內(nèi)基梅隆大學的研究團隊意識到了這個問題的嚴重性。在AI領(lǐng)域的其他分支,比如聊天機器人和圖像生成,已經(jīng)出現(xiàn)了一種全新的評測方式——讓真實用戶在日常使用中進行比較和投票,這種方法被稱為"實時評估"。這就像是讓消費者在真實的購物環(huán)境中試用產(chǎn)品,然后直接投票選出最喜歡的那一款,而不是在實驗室里進行人為設計的測試。
受到這種思路的啟發(fā),研究團隊決定為音樂生成領(lǐng)域打造一個類似的平臺。他們創(chuàng)建了Music Arena,一個開放的音樂生成模型競技場,讓全世界的用戶都能參與到音樂AI的評測過程中來。在這個平臺上,用戶可以輸入自己想要的音樂描述,然后同時聽到兩個不同AI模型生成的音樂作品,最后選擇自己更喜歡的那一個。
這個創(chuàng)新的評測方式解決了傳統(tǒng)方法的諸多痛點。首先,它實現(xiàn)了真正的規(guī)?;u測,不再受限于昂貴的人工成本。其次,所有模型都在同一套標準下接受評測,確保了結(jié)果的可比較性。最重要的是,這種評測反映了真實用戶的真實需求,而不是研究人員設計的理想化場景。
然而,音樂領(lǐng)域有其獨特的挑戰(zhàn)。與文字聊天或圖像生成不同,音樂必須在時間維度上展開,用戶需要花費真實的時間來聆聽每一個作品。不同的音樂生成模型還有著千差萬別的輸入輸出格式,有些專門生成帶歌詞的聲樂作品,有些只能創(chuàng)作純器樂音樂,有些允許用戶指定時長,有些則是固定長度。這就像是要在同一個比賽中讓田徑運動員、游泳選手和體操運動員一起競技,需要設計一套既公平又實用的規(guī)則。
為了應對這些挑戰(zhàn),研究團隊開發(fā)了一系列專門針對音樂領(lǐng)域的創(chuàng)新技術(shù)。他們設計了一個基于大語言模型的智能路由系統(tǒng),能夠理解用戶的文字描述,判斷其中是否包含對人聲、歌詞或時長的要求,然后自動將請求分發(fā)給合適的音樂生成模型。這就像是一個聰明的服務員,能夠根據(jù)顧客的點菜要求,自動推薦最適合的廚師來制作。
同時,這個系統(tǒng)還承擔著內(nèi)容審核的重要職責。它會自動識別和拒絕可能涉及版權(quán)爭議的請求,比如"生成一首與某某歌手風格完全相同的歌曲",或者包含不當內(nèi)容的描述。這種智能化的內(nèi)容審核確保了平臺的合法性和適宜性。
在數(shù)據(jù)收集方面,Music Arena也展現(xiàn)出了音樂領(lǐng)域的獨特優(yōu)勢。由于音樂需要在時間中展開,平臺能夠精確記錄用戶的聆聽行為:他們聽了每首作品的多長時間,在什么時刻暫?;蛑匦虏シ?,是否完整聽完了作品。這些細致入微的行為數(shù)據(jù)為研究人員提供了前所未有的洞察機會,幫助他們理解用戶如何評判音樂作品的質(zhì)量。
除了簡單的"喜歡A還是B"的選擇之外,平臺還鼓勵用戶提供文字反饋,解釋他們做出選擇的原因。這些自然語言評論為研究人員提供了豐富的定性數(shù)據(jù),幫助他們理解用戶偏好背后的深層邏輯。
從技術(shù)架構(gòu)來看,Music Arena采用了模塊化的設計理念。整個系統(tǒng)分為三個核心組件:面向用戶的前端界面、負責協(xié)調(diào)的后端服務器,以及各個音樂生成模型的接口端點。這種設計就像是一個精心編排的交響樂團,每個部分都有明確的職責,同時又能協(xié)調(diào)配合,創(chuàng)造出和諧的整體效果。
前端界面采用了簡潔直觀的設計。當用戶首次訪問時,他們會看到一個詳細的知情同意頁面,說明研究的目的、數(shù)據(jù)使用方式和隱私保護措施。一旦同意參與,用戶就進入主要的"競技場"界面,在這里他們可以發(fā)起音樂生成的"對戰(zhàn)"。用戶只需要在一個簡單的文本框中輸入自己的音樂描述,然后等待兩個不同的AI模型為他們生成音樂作品。
為了確保評測的公平性,系統(tǒng)會同時等待兩個模型完成生成,然后同步展示結(jié)果,避免因為生成速度差異而影響用戶判斷。音樂播放器隱藏了作品的具體時長信息,防止用戶僅僅因為時長長短而產(chǎn)生偏見。用戶可以按照自己的節(jié)奏和偏好來聆聽作品,系統(tǒng)只要求他們至少聽滿4秒鐘才能進行投票,確保判斷基于實際的音樂內(nèi)容而非草率的第一印象。
在投票環(huán)節(jié),用戶有四個選擇:"更喜歡A"、"更喜歡B"、"兩者相當"或"都不好"。投票完成后,系統(tǒng)會揭示兩個模型的身份,并顯示生成速度等額外信息。作為參與的小小獎勵,系統(tǒng)會提供用戶選中作品的下載鏈接,讓他們能夠保存喜歡的AI音樂作品。
后端系統(tǒng)是整個平臺的大腦和協(xié)調(diào)中心。它接收來自前端的所有請求,管理與各個音樂生成模型的通信,確保系統(tǒng)能夠同時處理大量用戶會話。后端的一個重要功能是并行處理音樂生成請求,同時調(diào)用兩個不同的模型,然后等待它們都完成后再向用戶展示結(jié)果。這種設計避免了因為不同模型生成速度差異而可能產(chǎn)生的偏見。
模型接口端點是連接各種音樂生成系統(tǒng)的橋梁。研究團隊面臨的一個重大挑戰(zhàn)是,不同的音樂生成模型往往有著完全不同的輸入輸出格式和依賴環(huán)境。有些模型是開源的,可以在研究團隊的服務器上直接運行;有些是商業(yè)服務,只能通過API接口訪問。有些需要GPU資源進行推理計算,有些則相對輕量。
為了統(tǒng)一這些差異巨大的系統(tǒng),研究團隊為每個模型開發(fā)了專門的接口適配器,就像是為不同品牌的電器設計統(tǒng)一的插座轉(zhuǎn)換器。每個適配器都被封裝在獨立的Docker容器中,確保不同模型的軟件依賴不會相互沖突。這種模塊化設計還有一個額外的好處:任何研究機構(gòu)或公司都可以相對容易地將自己的音樂生成模型接入這個平臺,參與到全球性的比較評測中來。
目前,Music Arena已經(jīng)集成了多個主流的音樂生成模型。在開源模型方面,包括了Meta公司的MusicGen、Stability AI的Stable Audio Open系列、SongGen、ACE Studio的ACE-Step,以及Google DeepMind的Magenta RealTime。商業(yè)模型方面,則涵蓋了Riffusion的FUZZ系列、Stability AI的Stable Audio 2.0,以及Google DeepMind的Lyria RealTime。
這些模型展現(xiàn)出了音樂生成領(lǐng)域的豐富多樣性。有些模型專門擅長生成帶有人聲和歌詞的完整歌曲,有些則專注于純器樂創(chuàng)作。有些允許用戶精確指定音樂時長,有些則輸出固定長度的片段。有些模型能夠聯(lián)合生成歌詞和旋律,有些則需要用戶提供歌詞文本作為輸入。面對這種復雜的異構(gòu)性,傳統(tǒng)的評測方法往往束手無策,而Music Arena的智能路由系統(tǒng)則能夠優(yōu)雅地處理這些差異。
當用戶輸入音樂描述時,系統(tǒng)會調(diào)用大語言模型(目前使用的是OpenAI的GPT-4o)來分析文本內(nèi)容。這個分析過程就像是一個經(jīng)驗豐富的音樂制作人在理解客戶需求。系統(tǒng)會判斷用戶是否需要人聲演唱(比如從"民謠歌曲"這樣的描述中推斷出需要歌詞),是否對時長有特定要求(比如"30秒的背景音樂"),然后自動篩選出能夠滿足這些要求的模型進行配對比較。
在內(nèi)容審核方面,系統(tǒng)會拒絕可能涉及版權(quán)爭議的請求,比如明確要求模仿特定藝術(shù)家風格的描述,或者包含不當內(nèi)容的文本。這種審核機制對于不同音樂類型采用了靈活的標準,比如在重金屬音樂中可能接受的表達方式,在兒童搖籃曲中就會被標記為不適宜。
Music Arena在數(shù)據(jù)收集和隱私保護方面也體現(xiàn)了深思熟慮的設計。平臺詳細記錄每一次用戶交互的完整數(shù)據(jù),包括用戶的原始文本描述、系統(tǒng)解析后的結(jié)構(gòu)化信息、兩個音樂生成模型的詳細元數(shù)據(jù)(包括生成時間、文件大小、采樣率等技術(shù)參數(shù)),以及用戶的完整聆聽行為軌跡。
用戶的聆聽數(shù)據(jù)以時間戳序列的形式記錄,包括每次播放、暫停、跳轉(zhuǎn)的精確時間。這些數(shù)據(jù)揭示了用戶如何真實地與AI生成的音樂進行交互:他們是否完整聽完了作品,是否重復聆聽某些片段,在作品的哪個時間點失去了興趣。這種細致入微的行為數(shù)據(jù)為理解音樂偏好提供了前所未有的窗口。
在隱私保護方面,平臺采用了加鹽哈希的標準化技術(shù)。系統(tǒng)不會存儲用戶的真實IP地址或其他可識別信息,而是將這些信息與服務器端的隨機鹽值結(jié)合,通過不可逆的哈希函數(shù)生成匿名標識符。這種做法既保護了用戶隱私,又允許研究人員跨會話跟蹤同一用戶的行為模式,為縱向研究提供了可能。
研究團隊承諾采用滾動數(shù)據(jù)發(fā)布策略,計劃每月定期公開發(fā)布收集到的偏好數(shù)據(jù)。這種開放數(shù)據(jù)政策與傳統(tǒng)的一次性數(shù)據(jù)集發(fā)布形成鮮明對比,為研究社區(qū)提供了持續(xù)更新的寶貴資源。隨著新的音樂生成模型不斷涌現(xiàn),用戶偏好隨時間演化,這種動態(tài)數(shù)據(jù)集將為研究人員提供追蹤行業(yè)發(fā)展趨勢的重要工具。
除了技術(shù)創(chuàng)新,Music Arena還在評估方法論上做出了重要貢獻。傳統(tǒng)的音樂質(zhì)量評估往往依賴于自動化指標,比如計算生成音樂與參考音樂在頻譜特征上的相似度。然而,這些技術(shù)指標與人類的主觀感受往往存在顯著差異。一段在技術(shù)上"完美"的音樂可能缺乏情感共鳴,而一段略有瑕疵的作品卻能打動聽眾的心。
Music Arena通過大規(guī)模收集真實用戶的偏好數(shù)據(jù),為開發(fā)更好的自動評估指標提供了基準。研究人員可以將用戶的主觀評價與各種技術(shù)指標進行對比,找出哪些自動化方法能夠更好地預測人類偏好。這種研究對于音樂生成領(lǐng)域的長遠發(fā)展具有重要意義,因為它有助于建立更加可靠和實用的評估框架。
在排行榜設計方面,Music Arena也考慮了音樂領(lǐng)域的特殊需求。除了傳統(tǒng)的整體評分(基于Bradley-Terry模型計算得出的競技場分數(shù))和投票數(shù)量之外,排行榜還會展示一些音樂領(lǐng)域特有的重要信息。
訓練數(shù)據(jù)來源是其中一個關(guān)鍵維度。與大語言模型主要使用網(wǎng)絡爬取的文本數(shù)據(jù)不同,音樂生成模型的訓練數(shù)據(jù)來源千差萬別,這直接影響了模型的性能表現(xiàn)和法律地位。有些模型使用經(jīng)過授權(quán)的商業(yè)音樂庫進行訓練,有些使用創(chuàng)作共用協(xié)議下的開放音樂,還有些模型的訓練數(shù)據(jù)來源并不透明。這些差異不僅影響模型的技術(shù)表現(xiàn),也關(guān)系到生成音樂的版權(quán)合規(guī)性。Music Arena的排行榜會清楚標注每個模型的訓練數(shù)據(jù)信息,幫助用戶做出更加知情的選擇。
生成速度是另一個重要考量因素。音樂創(chuàng)作工具往往需要支持實時或近實時的交互,創(chuàng)作者希望能夠快速迭代和試驗不同的想法。因此,模型的生成速度與質(zhì)量之間的權(quán)衡成為一個重要的評估維度。排行榜會顯示每個模型的中位實時因子(RTF),即生成時間與音樂時長的比值。比如,一個能在3秒內(nèi)生成30秒音樂的模型,其RTF為10倍。這個指標幫助用戶根據(jù)自己的應用場景選擇合適的模型。
為了讓用戶更直觀地理解不同模型的特點,排行榜還提供了交互式的二維散點圖可視化。圖表以生成速度為橫軸,質(zhì)量評分為縱軸,用不同的顏色和形狀標識訓練數(shù)據(jù)來源和許可證類型。這種可視化設計讓用戶能夠一眼看出哪些模型在速度和質(zhì)量之間找到了最佳平衡點,哪些模型適合不同的應用場景。
從研究方法論的角度來看,Music Arena代表了人工智能評估領(lǐng)域的一個重要發(fā)展方向。傳統(tǒng)的AI評估往往采用靜態(tài)的基準測試集,在固定的數(shù)據(jù)上計算標準化指標。這種方法雖然具有可重復性和可比較性的優(yōu)勢,但往往與真實應用場景存在脫節(jié)。用戶在實際使用中的需求、偏好和行為模式遠比實驗室環(huán)境復雜多樣。
實時評估的核心理念是讓評估過程更加貼近真實應用。通過讓真實用戶在自然使用場景中表達偏好,這種方法能夠捕捉到靜態(tài)基準測試難以反映的細微差異。在音樂領(lǐng)域,這種差異尤為明顯,因為音樂欣賞具有強烈的主觀性和文化依賴性。不同背景的聽眾對同一段音樂可能有截然不同的評價,而這種多樣性恰恰是理解音樂AI真實表現(xiàn)的關(guān)鍵。
然而,實時評估也帶來了新的挑戰(zhàn)。首先是用戶群體的代表性問題。Music Arena的用戶主要來自對AI技術(shù)感興趣的群體,可能在年齡、教育背景、文化背景等方面存在偏差。這種偏差可能會影響評估結(jié)果的普適性。其次是評估的一致性問題。不同時間參與評估的用戶群體可能有不同的偏好,導致結(jié)果隨時間波動。
為了應對這些挑戰(zhàn),研究團隊在平臺設計中融入了多項措施。他們詳細記錄用戶的匿名化人口統(tǒng)計學信息和使用模式,以便在分析時考慮群體偏差的影響。他們還計劃進行定期的方法學研究,比較實時評估結(jié)果與傳統(tǒng)聽力測試的異同,以更好地理解和校正可能的偏差。
從技術(shù)發(fā)展的角度來看,Music Arena為音樂生成模型的優(yōu)化提供了新的可能性。傳統(tǒng)上,研究人員主要依靠技術(shù)指標來指導模型改進,比如降低生成損失函數(shù)或提高頻譜特征匹配度。然而,這些技術(shù)目標與用戶滿意度之間的關(guān)系往往是模糊的。
通過Music Arena收集的大規(guī)模用戶偏好數(shù)據(jù),研究人員可以開展更加精細的用戶偏好建模研究。他們可以分析哪些音樂特征最能影響用戶選擇,不同類型的音樂描述對應什么樣的偏好模式,用戶的聆聽行為如何影響最終判斷。這些洞察可以直接指導音樂生成模型的改進方向,讓技術(shù)發(fā)展更加貼近用戶需求。
平臺還為強化學習從人類反饋(RLHF)等先進訓練方法提供了數(shù)據(jù)基礎(chǔ)。通過將用戶偏好數(shù)據(jù)轉(zhuǎn)化為訓練信號,研究人員可以開發(fā)出更加符合人類審美的音樂生成模型。這種閉環(huán)的優(yōu)化過程有望顯著提升AI音樂的質(zhì)量和接受度。
在數(shù)據(jù)透明度方面,Music Arena樹立了新的標準。研究團隊承諾開源整個平臺的代碼(除了加密密鑰等敏感信息),讓任何人都能審查和復現(xiàn)他們的方法。這種透明度對于建立學術(shù)界和公眾對AI評估的信任具有重要意義。
滾動數(shù)據(jù)發(fā)布策略也體現(xiàn)了對開放科學的承諾。與傳統(tǒng)的一次性數(shù)據(jù)集發(fā)布不同,Music Arena提供的是一個持續(xù)更新的數(shù)據(jù)流。這種動態(tài)數(shù)據(jù)集為研究社區(qū)提供了追蹤音樂AI發(fā)展軌跡的獨特機會。研究人員可以觀察用戶偏好如何隨著技術(shù)進步而演化,分析新模型的出現(xiàn)如何改變競爭格局,探索音樂文化趨勢對AI評估的影響。
從倫理角度來看,Music Arena的設計體現(xiàn)了對負責任AI研究的重視。平臺經(jīng)過了卡內(nèi)基梅隆大學倫理審查委員會的嚴格審查,確保研究過程符合人類受試者保護的相關(guān)標準。用戶在參與前會看到詳細的知情同意說明,清楚了解數(shù)據(jù)將如何被使用。
內(nèi)容審核機制防止了平臺被用于生成可能有害或侵權(quán)的音樂內(nèi)容。訓練數(shù)據(jù)信息的透明披露有助于用戶和研究社區(qū)更好地理解不同模型的倫理風險。這些措施共同構(gòu)建了一個相對安全和負責任的AI評估環(huán)境。
然而,研究團隊也誠實地承認了平臺可能帶來的潛在風險。Music Arena可能會無意中推動AI音樂的同質(zhì)化,因為排行榜上的高分模型可能會引導整個行業(yè)向某種特定的風格和質(zhì)量標準收斂。平臺的用戶群體偏差可能會放大某些群體的偏好,而忽視其他群體的需求。這些都是需要在未來研究中持續(xù)關(guān)注和解決的問題。
目前,Music Arena仍處于早期發(fā)展階段。雖然平臺已經(jīng)上線并開始收集數(shù)據(jù),但由于樣本量還不夠充分,研究團隊暫時還沒有發(fā)布正式的排行榜。他們計劃在收集到足夠的投票數(shù)據(jù)后,發(fā)布第一版正式的模型排名結(jié)果。
展望未來,研究團隊制定了雄心勃勃的發(fā)展計劃。在技術(shù)層面,他們希望改進前端界面的音頻追蹤功能,能夠更精確地記錄用戶在音頻中的跳轉(zhuǎn)和重復播放行為。他們還計劃優(yōu)化后端的模型配對策略,從目前的隨機配對改進為更加智能化的策略,在保證評估公平性的同時提升用戶體驗。
在模型覆蓋范圍方面,團隊計劃將平臺擴展到音樂生成之外的其他音頻AI任務,比如音樂風格轉(zhuǎn)換、符號音樂生成等。這種擴展將讓Music Arena成為更加全面的音頻AI評估平臺。
在研究應用方面,團隊希望利用不斷積累的數(shù)據(jù)進行更深入的科學研究。他們計劃分析用戶的自然語言反饋,提取用戶評判音樂質(zhì)量的關(guān)鍵因素。他們還希望通過控制實驗的方式,比如人為在音樂中添加噪聲或延遲,來研究用戶對不同音樂缺陷的容忍度,從而更好地理解音樂偏好的形成機制。
一個特別有趣的研究方向是將實時評估整合到創(chuàng)意工作流程中。目前的Music Arena主要用于模型比較和研究,但研究團隊設想未來可能開發(fā)面向音樂創(chuàng)作者的版本,讓創(chuàng)作者在實際工作中就能獲得實時的質(zhì)量反饋和改進建議。
從更宏觀的角度來看,Music Arena代表了AI評估方法學的一個重要發(fā)展方向。隨著AI系統(tǒng)越來越多地進入日常生活,傳統(tǒng)的實驗室評估方法可能難以充分反映這些系統(tǒng)的真實表現(xiàn)。實時評估提供了一種更加生態(tài)化的評估方式,讓AI系統(tǒng)在真實使用環(huán)境中接受檢驗。
這種方法學的創(chuàng)新不僅適用于音樂領(lǐng)域,也為其他AI應用領(lǐng)域提供了借鑒。事實上,類似的實時評估平臺已經(jīng)在聊天機器人、圖像生成、代碼生成等領(lǐng)域出現(xiàn)并取得成功。Music Arena的經(jīng)驗和教訓將為這些平臺的進一步發(fā)展提供有價值的參考。
當然,實時評估也不是萬能的解決方案。它需要與傳統(tǒng)的基準測試和實驗室研究相結(jié)合,才能形成全面而可靠的評估體系。Music Arena的價值不在于完全取代現(xiàn)有的評估方法,而在于提供一個重要的補充視角,幫助研究社區(qū)更全面地理解AI音樂系統(tǒng)的真實表現(xiàn)。
說到底,Music Arena項目體現(xiàn)了一種更加開放、透明和用戶中心的AI研究理念。它不再把普通用戶當作被動的測試對象,而是將他們視為AI發(fā)展過程中的積極參與者和協(xié)作伙伴。這種理念上的轉(zhuǎn)變可能比任何具體的技術(shù)創(chuàng)新都更加深遠和重要。
在AI技術(shù)日新月異的今天,如何確保技術(shù)發(fā)展真正服務于人類需求,如何在追求技術(shù)卓越的同時保持對人文價值的關(guān)注,這些都是整個AI研究社區(qū)需要共同面對的重大問題。Music Arena雖然只是專注于音樂生成這一個相對狹窄的領(lǐng)域,但它所體現(xiàn)的研究理念和方法論創(chuàng)新,對于整個AI領(lǐng)域都具有重要的啟發(fā)意義。
對于普通音樂愛好者而言,Music Arena提供了一個有趣的機會,讓他們能夠直接參與到AI音樂技術(shù)的發(fā)展過程中。每一次投票都是在為未來更好的AI音樂工具貢獻自己的一份力量。而對于AI研究者來說,這個平臺提供了一個寶貴的窗口,讓他們能夠更好地理解用戶需求,指導技術(shù)發(fā)展方向。
隨著越來越多的用戶參與到Music Arena的評估過程中,隨著更多的音樂生成模型加入競爭,我們有理由期待這個平臺將為AI音樂領(lǐng)域帶來更多激動人心的發(fā)現(xiàn)和突破。畢竟,最好的AI技術(shù)不是在實驗室里誕生的,而是在與真實用戶的互動中不斷完善和進化的。感興趣的讀者如果想要深入了解這項研究的技術(shù)細節(jié),可以訪問原論文arXiv:2507.20900v1,或者直接在https://music-arena.org/體驗這個創(chuàng)新的音樂AI評測平臺。
Q&A
Q1:Music Arena是什么?它跟傳統(tǒng)的AI音樂評測有什么不同? A:Music Arena是一個開放的音樂AI評測平臺,讓真實用戶輸入音樂需求,同時聽兩個不同AI模型生成的作品,然后投票選擇更喜歡的。與傳統(tǒng)的實驗室評測相比,它更貼近真實使用場景,成本更低,結(jié)果更具可比性。
Q2:普通用戶參與Music Arena評測會不會很復雜? A:不會。用戶只需要在文本框輸入想要的音樂描述(比如"悲傷的鋼琴曲"),然后聽兩段AI生成的音樂,選擇更喜歡的那個即可。整個過程就像在音樂APP中選歌一樣簡單,而且還能免費下載喜歡的作品。
Q3:Music Arena目前支持哪些類型的音樂生成?有什么限制? A:平臺支持多種音樂類型,既有純器樂也有帶人聲的歌曲,用戶可以指定時長、風格等要求。但系統(tǒng)會自動過濾可能涉及版權(quán)爭議的請求(如模仿特定歌手)和不當內(nèi)容,確保生成的音樂合法合規(guī)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.