作者|史澤宇
責編|薛應軍
正文共3394個字,預計閱讀需10分鐘▼
生成式人工智能是基于深度學習等技術(shù)預測和生成新內(nèi)容的人工智能分支,其發(fā)展需要算力、算法、數(shù)據(jù)等關(guān)鍵要素同時推動。從技術(shù)邏輯上看,預訓練和優(yōu)化訓練中輸入的訓練數(shù)據(jù)的數(shù)量、質(zhì)量和類型直接影響生成式人工智能大模型的性能。進行生成式人工智能大模型訓練輸入的數(shù)據(jù)應當包含大規(guī)模、高質(zhì)量且豐富的作品,以此來滿足技術(shù)的發(fā)展需要。然而,生成式人工智能使用的訓練數(shù)據(jù)往往包括受著作權(quán)保護的作品,這可能存在侵犯著作權(quán)風險,由此引發(fā)社會公眾對人工智能大模型訓練數(shù)據(jù)獲取、儲存、分析、利用合法性的擔憂。
生成式人工智能訓練數(shù)據(jù)集著作權(quán)風險的類型化分析
復制權(quán)侵權(quán)風險。生成式人工智能服務提供者在構(gòu)建訓練數(shù)據(jù)集時,需要將文本、圖片、視頻和音頻等未數(shù)字化的內(nèi)容轉(zhuǎn)化為計算機可讀的數(shù)據(jù)格式并生成副本,或者直接訪問和獲取已數(shù)字化的內(nèi)容。以上行為必然涉及對受著作權(quán)法保護作品的復制和使用,因此,未經(jīng)著作權(quán)人許可使用既有作品并將其納入生成式人工智能訓練數(shù)據(jù)集,可能侵犯著作權(quán)人的復制權(quán)。
演繹權(quán)侵權(quán)風險。演繹權(quán)是對原始作品進行再創(chuàng)作形成新作品的權(quán)利,分為匯編權(quán)、翻譯權(quán)、改編權(quán)等權(quán)利。在生成式人工智能數(shù)據(jù)訓練階段,原著作權(quán)人被侵犯的主要權(quán)利是匯編權(quán)和改編權(quán)。第一,在訓練數(shù)據(jù)集開發(fā)過程中可能對全部或部分原數(shù)據(jù)進行整合編排,形成新的滿足訓練人工智能模型需求的訓練數(shù)據(jù)集。由于匯編權(quán)由著作權(quán)人享有,因此在未經(jīng)著作權(quán)人許可或轉(zhuǎn)讓的情況下,人工智能訓練數(shù)據(jù)集的開發(fā)存在侵犯原著作權(quán)人匯編權(quán)的風險。第二,如果未經(jīng)原著作權(quán)人許可,將受著作權(quán)保護的作品從一種語言翻譯成另一種語言,形成新的內(nèi)容用于訓練人工智能模型,那么這一訓練數(shù)據(jù)集的開發(fā)過程則存在侵犯原著作權(quán)人翻譯權(quán)的風險。然而,將人類語言進行數(shù)字化處理轉(zhuǎn)換為機器語言并不符合著作權(quán)法規(guī)定的“從一種語言文字轉(zhuǎn)換成另一種語言文字”的翻譯行為,而仍然是受著作權(quán)人控制的復制行為。第三,就訓練數(shù)據(jù)集的改編權(quán)侵權(quán)而言,主要發(fā)生在生成式人工智能的應用階段。當用戶發(fā)出特定指示時,人工智能模型會利用特定算法對原始作品進行模仿以實現(xiàn)用戶的要求,因此,這可能在不改變原作品思想內(nèi)涵的情況下形成具有新的表現(xiàn)形式的作品,侵犯原作品的改編權(quán)。
生成式人工智能訓練數(shù)據(jù)集的著作權(quán)法規(guī)制面臨的問題
生成式人工智能的技術(shù)特性與“作者中心主義”理念存在沖突。傳統(tǒng)的著作權(quán)法規(guī)范遵循以作者為中心的價值理念,著作權(quán)法在規(guī)則設(shè)置上注重對作者權(quán)利的保護,體現(xiàn)濃厚的“權(quán)利主義”色彩。當前,生成式人工智能技術(shù)更新迭代引發(fā)大規(guī)模使用既有作品的需求。如果著作權(quán)法一味地向保護著作權(quán)人利益傾斜,則可能導致著作權(quán)人過度控制訓練數(shù)據(jù)的獲取、存儲和使用,致使訓練數(shù)據(jù)集的形成路徑受阻,人工智能大模型將無法高效獲得作為數(shù)據(jù)訓練基礎(chǔ)的原始作品。在人工智能成為重要知識產(chǎn)品來源的趨勢下,對作者權(quán)利的保護應當以能夠為作者提供必要激勵為標準,從而使作者的權(quán)利范圍與其在增加人類知識存量中的勞動貢獻相匹配。同時,實現(xiàn)保護著作權(quán)人利益與促進技術(shù)發(fā)展的平衡。
生成式人工智能的技術(shù)特性與傳統(tǒng)著作權(quán)侵權(quán)豁免事由的沖突。首先,“法定許可”規(guī)則的適用困境?!吨腥A人民共和國著作權(quán)法》第二十六條規(guī)定,除依法不經(jīng)許可的情形,使用他人作品應當同著作權(quán)人訂立許可使用合同。然而,在人工智能時代,“法定許可”規(guī)則無法有效發(fā)揮維護各主體權(quán)益的功能。其一,在現(xiàn)有的“法定許可”規(guī)則下,生成式人工智能的開發(fā)者為獲得海量的訓練數(shù)據(jù),需要向著作權(quán)人支付高昂的對價且投入磋商成本。對于開發(fā)者而言,若需要投入的成本可能高于預期利潤,開發(fā)者出于對成本和收益的考量,將不愿對人工智能產(chǎn)業(yè)投入資金,研發(fā)積極性大幅降低,不利于具有創(chuàng)新潛力企業(yè)的發(fā)展。其二,人工智能產(chǎn)業(yè)市場環(huán)境多變,許可使用費應當與人工智能模型的經(jīng)濟收益、市場需求等因素相匹配,而通過簽訂許可使用合同的“法定許可”模式存在僵化問題,即許可使用費難以根據(jù)市場環(huán)境變化適時進行動態(tài)調(diào)整。因此,以工業(yè)社會為模板構(gòu)建的“許可使用”規(guī)則難以應對人工智能時代的訓練數(shù)據(jù)集開發(fā)問題。其次,“合理使用”標準的適用困境。在傳統(tǒng)的“合理使用”標準下,對生成式人工智能訓練數(shù)據(jù)集的開發(fā)需要符合著作權(quán)法第二十四條的規(guī)定,通過“三步檢驗法”的檢驗路徑方可滿足“合理使用”要求。然而,生成式人工智能訓練數(shù)據(jù)集卻難以達到這一標準。
第一,開發(fā)訓練數(shù)據(jù)集的目的是訓練生成式人工智能大模型,而不是出于對原始作品進行教學、科研、媒體刊登或播放等目的,因此,明顯不符合著作權(quán)法第二十四條中除第(一)項“個人使用”和第(二)項“適當引用”之外的情形。第二,判斷人工智能模型在數(shù)據(jù)訓練階段對原始作品的使用是否滿足第(一)項、第(二)項的要求,需要對這兩項規(guī)定進行解釋。一是第(一)項規(guī)定,為個人學習、研究或者欣賞而使用已經(jīng)發(fā)表的作品屬于合理使用。這里規(guī)定的“個人”是指“自然人”,但是生成式人工智能的開發(fā)者多為大型技術(shù)團隊且以盈利為目的,并不滿足主體要求且并非出于“學習、研究和欣賞”等非商業(yè)目的,因此不符合第(一)項規(guī)定的要求。二是在第(二)項規(guī)定中,構(gòu)成“適當引用”需要符合“為介紹、評論某一作品”或“說明某一問題”的目的,同時需要滿足“適當引用”的限度條件。在數(shù)據(jù)訓練階段會通過對獲取到的原始數(shù)據(jù)進行分析、整合、加工,形成訓練數(shù)據(jù)集并納入訓練數(shù)據(jù)庫,從而實現(xiàn)對人工智能模型的訓練,因此,也不符合“適當引用”的目的和限度條件。第三,著作權(quán)法第二十四條中的兜底條款僅限于法律、行政法規(guī)規(guī)定的其他情形,生成式人工智能訓練數(shù)據(jù)集僅能通過法律、行政法規(guī)的規(guī)定進入合理使用的范疇。但是,目前尚未有法律法規(guī)明確規(guī)定將人工智能數(shù)據(jù)訓練中的相關(guān)行為納入合理使用范疇。綜合以上分析,生成式人工智能訓練數(shù)據(jù)集的開發(fā)難以適用于著作權(quán)法第二十四條規(guī)定的侵權(quán)豁免事由,傳統(tǒng)的“合理使用”標準面對新興技術(shù)發(fā)展帶來的挑戰(zhàn)顯得捉襟見肘。
生成式人工智能訓練數(shù)據(jù)集的規(guī)制路徑重塑
為改變訓練數(shù)據(jù)集著作權(quán)侵權(quán)現(xiàn)象頻發(fā)問題,需要在公平合理使用數(shù)據(jù)的價值指引下,構(gòu)建與價值理念配套的具體制度,在實現(xiàn)著作權(quán)法規(guī)范激勵創(chuàng)作功能的同時,將使用作品的部分自由賦予人工智能大模型的開發(fā)者。
構(gòu)建開放的合理使用制度。為避免訓練數(shù)據(jù)集開發(fā)過程中使用原始作品造成著作權(quán)侵權(quán)的風險過大而影響開發(fā)者改良人工智能模型的積極性,可以將數(shù)據(jù)訓練行為納入合理使用的情形,從而豁免人工智能數(shù)據(jù)訓練階段開發(fā)者的著作權(quán)侵權(quán)責任。我國著作權(quán)法規(guī)定的合理使用包括一項兜底性規(guī)定,即“法律、行政法規(guī)規(guī)定的其他情形”,這一規(guī)定為擴展合理使用條款的范圍提供了立法接入點。為提升著作權(quán)法規(guī)范對技術(shù)發(fā)展的自我調(diào)適能力,我國可以通過修改《中華人民共和國著作權(quán)法實施條例》或在專門的人工智能立法中對合理使用的情形進行擴張,將生成式人工智能訓練數(shù)據(jù)集開發(fā)納入合理使用的適用范圍,以回應數(shù)字時代生成式人工智能技術(shù)發(fā)展的要求。
建立著作權(quán)人“選擇退出”機制。除對符合要求的使用作品的行為進行一定程度的豁免外,還應當尊重作者的選擇權(quán),允許著作權(quán)人選擇其作品退出被用于人工智能的數(shù)據(jù)訓練,在開發(fā)者和著作權(quán)人之間實現(xiàn)利益平衡。當著作權(quán)人獲知其受著作權(quán)法保護的作品被用于人工智能大模型訓練后,若同意該使用行為,可以向著作權(quán)主管機構(gòu)提出申請,獲取其作品被使用的經(jīng)濟補償。但是,若著作權(quán)人拒絕其作品被用于數(shù)據(jù)訓練,則可以向有關(guān)主管部門申請,要求作品使用方暫停使用其作品。但是,為了實現(xiàn)開發(fā)者與著作權(quán)人的利益平衡,應當對著作權(quán)人的拒絕權(quán)進行一定的限制,著作權(quán)主管部門應當考慮原始作品的社會價值和可能的市場影響,綜合認定能否準許著作權(quán)人行使拒絕權(quán)。
數(shù)字經(jīng)濟時代,大量的數(shù)據(jù)為生成式人工智能提供了前所未有的訓練資源和信息基礎(chǔ),也衍生出了著作權(quán)侵權(quán)風險。為了防范新興技術(shù)發(fā)展帶來的風險,需要將著作權(quán)法對于訓練數(shù)據(jù)集的規(guī)制理念進階為促進訓練數(shù)據(jù)集的公平有效利用??萍及l(fā)展在對人類文明的多維度變革帶來深刻影響的同時,對當前法律框架的時代適應性提出了挑戰(zhàn)。我國著作權(quán)法應當以包容的姿態(tài)積極能動地回應新興技術(shù)的特殊性,關(guān)注人工智能時代科學技術(shù)發(fā)展的迫切需要,提升著作權(quán)法自身在科技創(chuàng)新大背景下的活力與適應性。
(作者單位:西北政法大學)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.