亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

英美、歐盟如何規(guī)制ChatGPT訓(xùn)練數(shù)據(jù)?ChatGPT數(shù)據(jù)挖掘原理與侵權(quán)風(fēng)險(xiǎn)

AIGC行業(yè)資訊2年前 (2023)更新 編輯員
1.9K 0

英美、歐盟如何規(guī)制ChatGPT訓(xùn)練數(shù)據(jù)?ChatGPT數(shù)據(jù)挖掘原理與侵權(quán)風(fēng)險(xiǎn)

圖片來(lái)源@視覺(jué)中國(guó)

文 | 金杜研究院,作者 | 宋海燕

ChatGPT,一款由美國(guó)科技公司OpenAI于2022年11月30日發(fā)布的AI聊天機(jī)器人,一經(jīng)面世便引發(fā)全球熱議。隨著其熱度不斷升高,與之相關(guān)的諸多版權(quán)爭(zhēng)議受到廣泛關(guān)注,訓(xùn)練數(shù)據(jù)侵權(quán)問(wèn)題便是其中之一。

作為語(yǔ)言生成式模型,ChatGPT訓(xùn)練數(shù)據(jù)由大量文本數(shù)據(jù)組成。目前各國(guó)對(duì)生成式AI訓(xùn)練數(shù)據(jù)的使用仍未單獨(dú)制定成文法規(guī)定,但域外對(duì)文本與數(shù)據(jù)挖掘(Text Data Mining,后稱“TDM”)技術(shù)的法律規(guī)制卻具有重要借鑒意義。TDM指的是利用自動(dòng)分析技術(shù)分析文本與數(shù)據(jù)的模式、趨勢(shì)以及其他有價(jià)值的信息,是以計(jì)算機(jī)為基礎(chǔ)的,從文本或數(shù)據(jù)導(dǎo)出或組織信息的過(guò)程。

[1]從技術(shù)原理來(lái)看,ChatGPT訓(xùn)練數(shù)據(jù)庫(kù)的建構(gòu)與TDM均以文本和數(shù)據(jù)輸入為基礎(chǔ),二者在著作權(quán)法上具有相似意義。而在法律層面上,基于制度銜接與法律秩序穩(wěn)定性的考量,針對(duì)使用主體、使用目的、使用方式、限制條件等問(wèn)題,二者的法律適用應(yīng)當(dāng)存在一定程度上的延續(xù)與聯(lián)系。因此,本文將圍繞ChatGPT訓(xùn)練數(shù)據(jù)之合理使用展開(kāi)分析,從比較法視野分析英國(guó)、歐盟、美國(guó)及中國(guó)對(duì)TDM所制定的合理使用制度,繼而分析現(xiàn)行法律框架下ChatGPT所實(shí)施的數(shù)據(jù)挖掘行為是否具有合法性依據(jù)。

ChatGPT數(shù)據(jù)挖掘原理與侵權(quán)風(fēng)險(xiǎn)

ChatGPT是一種基于自然語(yǔ)言處理(NLP)的AI系統(tǒng),使用了深度神經(jīng)網(wǎng)絡(luò)和自然語(yǔ)言處理技術(shù)來(lái)生成文本,其工作原理可分為三個(gè)階段:數(shù)據(jù)輸入——機(jī)器學(xué)習(xí)——結(jié)果輸出。自然語(yǔ)言處理AI的訓(xùn)練數(shù)據(jù)通常由大量文本數(shù)據(jù)組成,當(dāng)中包含了語(yǔ)言的各種形式和用法。

ChatGPT訓(xùn)練數(shù)據(jù)的使用流程[2]:

1. 數(shù)據(jù)收集:從各種來(lái)源收集原始數(shù)據(jù)。

2. 數(shù)據(jù)預(yù)處理:將原始數(shù)據(jù)進(jìn)行清洗和標(biāo)準(zhǔn)化,以便后續(xù)處理和分析。

3. 數(shù)據(jù)標(biāo)注:將數(shù)據(jù)進(jìn)行標(biāo)注,為機(jī)器學(xué)習(xí)提供訓(xùn)練數(shù)據(jù)。

4. 特征提?。簭臉?biāo)注好的數(shù)據(jù)中提取特征。

5. 模型訓(xùn)練:對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分析和學(xué)習(xí)。

6. 結(jié)果生成:輸出生成物。

ChatGPT的訓(xùn)練過(guò)程中涉及到大量文本數(shù)據(jù)的使用。盡管OpenAI并未公開(kāi)當(dāng)前版本ChatGPT所使用的GPT-3.5語(yǔ)言模型數(shù)據(jù)量,但從公開(kāi)數(shù)據(jù)來(lái)看,GPT-3語(yǔ)言模型由1750億參數(shù)訓(xùn)練而成,由此迭代而來(lái)的GPT-3.5語(yǔ)言模型顯然需要更龐大的數(shù)據(jù)量作為支撐。[3]

ChatGPT主要依賴于兩種文本數(shù)據(jù)源,即用戶輸入內(nèi)容和訓(xùn)練數(shù)據(jù)庫(kù)。關(guān)于用戶輸入內(nèi)容,根據(jù)《使用條款》規(guī)定,用戶輸入的內(nèi)容將作為ChatGPT學(xué)習(xí)的文本數(shù)據(jù)之一。如果用戶不同意此使用方式,可以通過(guò)郵件等方式拒絕授權(quán)而不會(huì)影響其正常使用。[4]關(guān)于ChatGPT的訓(xùn)練數(shù)據(jù)庫(kù),其數(shù)據(jù)來(lái)源可大致分為三種。

第一種,來(lái)源于公有領(lǐng)域的內(nèi)容。公有領(lǐng)域內(nèi)容指的是不屬于私人所有,任何人可以不受限制地使用和加工的數(shù)據(jù),包括本身便不受法律保護(hù)的內(nèi)容及已過(guò)著作權(quán)保護(hù)期間進(jìn)入公有領(lǐng)域的內(nèi)容。

第二種,通過(guò)簽訂合同獲得合法授權(quán)的內(nèi)容,即通過(guò)與權(quán)利人簽訂合同從而獲得有效授權(quán),合法使用相關(guān)數(shù)據(jù)及內(nèi)容。

第三種,未經(jīng)授權(quán)的信息及內(nèi)容。該來(lái)源指的是數(shù)據(jù)及內(nèi)容本身為受著作權(quán)保護(hù)的客體,而ChatGPT在未經(jīng)授權(quán)的情況下對(duì)相關(guān)內(nèi)容進(jìn)行挖掘使用,其獲取渠道通常為利用“爬蟲(chóng)”技術(shù)獲取網(wǎng)絡(luò)數(shù)據(jù)及內(nèi)容、非法獲取數(shù)據(jù)庫(kù)內(nèi)容以及未經(jīng)許可數(shù)字化非電子數(shù)據(jù)內(nèi)容等方式。

通過(guò)上述方式所構(gòu)建的訓(xùn)練數(shù)據(jù)庫(kù),由于涉及未經(jīng)授權(quán)使用受著作權(quán)保護(hù)的數(shù)據(jù)及內(nèi)容,因此天然具有著作權(quán)侵權(quán)風(fēng)險(xiǎn)。

在我國(guó)現(xiàn)行《著作權(quán)法》框架下,ChatGPT訓(xùn)練數(shù)據(jù)使用過(guò)程的不同行為均可能存在著作權(quán)侵權(quán)風(fēng)險(xiǎn)。首先,在數(shù)據(jù)內(nèi)容收集階段,訓(xùn)練數(shù)據(jù)的使用或構(gòu)成復(fù)制權(quán)侵權(quán)。數(shù)據(jù)收集的方式有兩種形式,分別是將非數(shù)字格式的原內(nèi)容轉(zhuǎn)化為計(jì)算機(jī)可讀的數(shù)據(jù)格式,即“原件掃描”,或是對(duì)他人已有數(shù)據(jù)進(jìn)行訪問(wèn)和獲取文本內(nèi)容。訓(xùn)練數(shù)據(jù)的輸入過(guò)程必然伴隨著相應(yīng)的復(fù)制行為。

目前學(xué)界認(rèn)為,ChatGPT數(shù)據(jù)挖掘過(guò)程中的復(fù)制行為不屬于因數(shù)字環(huán)境傳輸中“暫時(shí)的”、“在技術(shù)過(guò)程中必然發(fā)生的”,且“不具有獨(dú)立經(jīng)濟(jì)價(jià)值”的“臨時(shí)復(fù)制”情形,因此除非存在法定豁免情形,否則ChatGPT數(shù)據(jù)內(nèi)容挖掘行為可能構(gòu)成復(fù)制權(quán)侵權(quán)。實(shí)際上,ChatGPT在數(shù)據(jù)挖掘過(guò)程中,往往并非只將數(shù)據(jù)短暫復(fù)制于系統(tǒng)中,而是需要將作品數(shù)據(jù)長(zhǎng)時(shí)間停留,繼而便可能涉及到對(duì)作品的永久性復(fù)制。盡管當(dāng)前各國(guó)對(duì)“臨時(shí)復(fù)制”的法律性質(zhì)存在爭(zhēng)議,但對(duì)永久性復(fù)制應(yīng)當(dāng)歸入復(fù)制權(quán)規(guī)制范圍卻存在共識(shí)。

其次,在數(shù)據(jù)預(yù)處理階段,訓(xùn)練數(shù)據(jù)的使用或構(gòu)成演繹權(quán)侵權(quán)。演繹權(quán)指的是在原作品創(chuàng)作思想表達(dá)的基礎(chǔ)上演繹創(chuàng)作新作品的權(quán)利。我國(guó)《著作權(quán)法》并未采納“演繹權(quán)”這一術(shù)語(yǔ),而是在演繹權(quán)的概念上進(jìn)一步分解為翻譯權(quán)、改編權(quán)、匯編權(quán)等權(quán)利。但歸根結(jié)底,演繹權(quán)及其分解而來(lái)的權(quán)利核心在于原作品的主要思想表達(dá)并未因創(chuàng)作語(yǔ)言、題材、種類或形式的變化而改變。而ChatGPT在數(shù)據(jù)預(yù)處理階段,涉及對(duì)所收集數(shù)據(jù)進(jìn)行清洗、標(biāo)準(zhǔn)化、標(biāo)注與特征提取等步驟,存在侵犯改編權(quán)等權(quán)利的風(fēng)險(xiǎn)。

最后,在結(jié)果生成階段,訓(xùn)練數(shù)據(jù)的使用也可能構(gòu)成與傳播相關(guān)的權(quán)利侵權(quán)。因ChatGPT會(huì)依據(jù)訓(xùn)練數(shù)據(jù)自動(dòng)化生成結(jié)果,并以可視化方式表現(xiàn),過(guò)程中需要將數(shù)據(jù)或文本通過(guò)互聯(lián)網(wǎng)進(jìn)行傳輸,從著作權(quán)法角度顯然也會(huì)涉及侵權(quán)。

ChatGPT數(shù)據(jù)挖掘行為本身具有高度復(fù)雜性,在所涉著作權(quán)內(nèi)容不同的情形下,其侵犯的權(quán)利也會(huì)有所不同,上述僅對(duì)可能涉及的侵權(quán)風(fēng)險(xiǎn)作非窮盡式列舉。關(guān)于ChatGPT在實(shí)際應(yīng)用場(chǎng)景下的侵權(quán)形態(tài)與風(fēng)險(xiǎn),應(yīng)作個(gè)案具體分析。

域外視角下的TDM合理使用制度——英國(guó)、歐盟、美國(guó)與中國(guó)之比較

著作權(quán)合理使用制度,即在符合特定條件情形下,法律允許他人可自由使用受著作權(quán)保護(hù)的客體而無(wú)須經(jīng)由著作權(quán)人同意,抑或是向著作權(quán)人支付相應(yīng)報(bào)酬,為著作權(quán)限制與例外的核心制度之一。當(dāng)ChatGPT訓(xùn)練數(shù)據(jù)未經(jīng)授權(quán)使用受著作權(quán)保護(hù)內(nèi)容,并且涉及到作者的獨(dú)創(chuàng)性表達(dá)及造成公眾傳播效果時(shí),便可能構(gòu)成著作權(quán)侵權(quán)。

此時(shí)需要進(jìn)一步判斷其是否構(gòu)成合理使用。合理使用的制度目的在于平衡著作權(quán)人對(duì)作品享有的專有權(quán)利與公眾獲取作品的需求,促進(jìn)創(chuàng)新和文化多樣性發(fā)展,保障公眾基本利益。就生成式AI訓(xùn)練數(shù)據(jù)的合理使用規(guī)則而言,大多數(shù)國(guó)家尚未單獨(dú)制定成文法規(guī)定。但各國(guó)針對(duì)TDM所制定的合理使用規(guī)則,對(duì)當(dāng)下ChatGPT數(shù)據(jù)挖掘行為的合理使用制度適用具有重要指引作用。[5]

英國(guó)

作為最早制定《版權(quán)法》的國(guó)家之一,英國(guó)是合理使用制度的開(kāi)創(chuàng)國(guó),也是最早對(duì)TDM通過(guò)立法方式確定其合法性的歐洲國(guó)家。2014年修訂的《版權(quán)法》新增了第29A條TDM版權(quán)例外規(guī)則條款,當(dāng)中允許為了非商業(yè)性研究的文本和數(shù)據(jù)挖掘目的,利用計(jì)算機(jī)分析技術(shù)對(duì)已經(jīng)合法獲得訪問(wèn)的任何版權(quán)材料進(jìn)行復(fù)制。[6]可見(jiàn)英國(guó)通過(guò)立法形式明確為TDM應(yīng)用賦予了合法性,以防止版權(quán)成為阻礙相關(guān)技術(shù)創(chuàng)新發(fā)展的阻力。

不過(guò)值得注意的是,英國(guó)同樣為相關(guān)立法設(shè)置了許多限制條件。英國(guó)雖未對(duì)行為主體設(shè)定限制,卻在客體上將TDM合理使用范圍限定為“合法獲得訪問(wèn)的版權(quán)材料”,即行為人本身應(yīng)當(dāng)具備合法訪問(wèn)相關(guān)版權(quán)材料的資格。英國(guó)也對(duì)“使用目的”作出了限制,規(guī)定只有基于“計(jì)算機(jī)分析”和“非商業(yè)性使用”目的的TDM屬合理使用范圍,即排除了不以計(jì)算機(jī)處理、分析數(shù)據(jù)為目的的行為及具有盈利性質(zhì)的商業(yè)性使用。

具體來(lái)看,ChatGPT的技術(shù)廠商OpenAI最初的定位雖為非營(yíng)利組織,但其自2019年起便開(kāi)始轉(zhuǎn)型為營(yíng)利性組織,ChatGPT的數(shù)據(jù)挖掘、使用行為難以被定性為“非商業(yè)性使用”。在使用行為上,ChatGPT訓(xùn)練數(shù)據(jù)的使用過(guò)程可能涉及版權(quán)意義上的多個(gè)行為,包括復(fù)制、改編與傳播。

而英國(guó)《版權(quán)法》第29A條只針對(duì)TDM的復(fù)制行為提供了合法性支持,對(duì)其他行為則未設(shè)置侵權(quán)豁免,因此相關(guān)行為仍存在侵權(quán)風(fēng)險(xiǎn)。除上述條件外,英國(guó)也規(guī)定了權(quán)利限制的例外情形,指出未經(jīng)版權(quán)人授權(quán)將TDM過(guò)程中產(chǎn)生的復(fù)制件進(jìn)行交易,包括出售、出租、許可等行為仍會(huì)構(gòu)成侵權(quán)。

整體而言,英國(guó)《版權(quán)法》給予TDM一定的實(shí)施空間,同時(shí)也兼顧了版權(quán)人的利益。但由于ChatGPT等生成式AI在數(shù)據(jù)挖掘與使用行為上所具有的復(fù)雜性,其在英國(guó)《版權(quán)法》框架下未必能夠適用合理使用規(guī)則。

歐盟

歐盟委員會(huì)在2016年9月公布了《歐盟數(shù)字化單一市場(chǎng)指令》提案,隨后于2019年3月通過(guò)了《數(shù)字化單一市場(chǎng)版權(quán)指令》(下稱《版權(quán)指令》),對(duì)TDM的使用制定了版權(quán)例外規(guī)則。

英美、歐盟如何規(guī)制ChatGPT訓(xùn)練數(shù)據(jù)?ChatGPT數(shù)據(jù)挖掘原理與侵權(quán)風(fēng)險(xiǎn)

《版權(quán)指令》第3條、第4條規(guī)定,基于“科學(xué)研究”與“數(shù)據(jù)分析”兩種目的,并且作品為合法獲取的情形下TDM具有正當(dāng)性。從法律條文來(lái)看,歐盟同樣通過(guò)封閉性規(guī)范的方式將TDM列入了合理使用范圍,并且對(duì)TDM版權(quán)例外制度的適用設(shè)定了相應(yīng)限制條件。

針對(duì)以“科學(xué)研究”為目的的TDM,歐盟將主體限制為科研及文化遺產(chǎn)機(jī)構(gòu)。換而言之,由于ChatGPT的發(fā)行廠商OpenAI不符合相關(guān)主體要求,因此不能適用《版權(quán)指令》第3條所規(guī)定的版權(quán)例外規(guī)則。而針對(duì)以“數(shù)據(jù)分析”為目的的TDM,《版權(quán)指令》第4條實(shí)際上賦予了TDM在數(shù)據(jù)處理階段使用行為的合法性,該例外不存在主體限制或使用技術(shù)目的限制,即使是出于商業(yè)性使用目的也同樣適用。

在客體條件上,歐盟與英國(guó)都將其限定為以合法途徑獲取的作品。ChatGPT在數(shù)據(jù)收集、預(yù)處理階段可能涉及多種權(quán)利侵權(quán),而該條中只為過(guò)程中的復(fù)制、提取行為規(guī)定了版權(quán)例外,但對(duì)其他類型行為則未明確說(shuō)明。

整體而言,在歐盟《版權(quán)指令》合理使用制度下,行為人享有作品的閱讀權(quán)即可享有作品的挖掘權(quán),但需要為副本的保存提供安全措施。

美國(guó)

不同于英國(guó)、歐盟以立法形式明確將TDM列入合理使用范圍,美國(guó)采用了基于四要素標(biāo)準(zhǔn)與司法判例為指導(dǎo)的開(kāi)放性立法。美國(guó)《版權(quán)法》第107條規(guī)定了合理使用制度,即以四要素作為判斷標(biāo)準(zhǔn),通過(guò)綜合分析使用者的使用是否符合相關(guān)法定要素來(lái)判斷該使用是否為合理使用。

具體而言,四要素標(biāo)準(zhǔn)指的是:

(1)使用目的和性質(zhì)。第一要素包括該使用是商業(yè)性使用或者是基于非營(yíng)利性教育目的之使用。一般而言,若被告對(duì)版權(quán)作品的使用為商業(yè)性使用,則不屬于合理使用;但若使用是基于非營(yíng)利性教育目的,則更有可能被視為合理使用。但自Campbell案[9]后,美國(guó)法院認(rèn)為在商業(yè)性使用能明顯增進(jìn)社會(huì)效益時(shí),應(yīng)當(dāng)以“轉(zhuǎn)換性使用”作為判斷標(biāo)準(zhǔn)而忽略商業(yè)性使用目的。而“轉(zhuǎn)換性使用”的內(nèi)涵是對(duì)原創(chuàng)作品進(jìn)行某種程度上的改編、轉(zhuǎn)化或轉(zhuǎn)換,以產(chǎn)生新的表達(dá)形式、意義或價(jià)值的行為。

(2)版權(quán)作品的性質(zhì)。法院在分析第二法定要素時(shí),需要考慮的是究竟被使用的作品是描述事實(shí)的敘事作品或創(chuàng)作性很強(qiáng)的虛構(gòu)作品。通常來(lái)說(shuō),作品的創(chuàng)作性越強(qiáng),就越應(yīng)受到法律保護(hù)。

(3)被告的使用占版權(quán)作品的數(shù)量和質(zhì)量。第三個(gè)法定要素要求對(duì)使用行為不僅要進(jìn)行定量分析,還要進(jìn)行定性分析。

(4)被告的使用對(duì)版權(quán)作品市場(chǎng)的影響。第四個(gè)法定要素的重點(diǎn)在于,若被告的使用行為減少了版權(quán)人的收益,則被告的使用可能會(huì)被認(rèn)定為不合理的使用。[10]

基于四要素標(biāo)準(zhǔn),ChatGPT對(duì)訓(xùn)練數(shù)據(jù)的使用有相當(dāng)可能性被認(rèn)定為轉(zhuǎn)換性使用,繼而受合理使用制度保護(hù)。事實(shí)上,從司法判例來(lái)看,美國(guó)法院整體也對(duì)TDM持相對(duì)開(kāi)放的立場(chǎng),當(dāng)中最具代表性的案件便是美國(guó)“谷歌圖書(shū)館”案與“TVEyes”案。

谷歌圖書(shū)館案(Authors Guild v. Google Inc)[11]

美國(guó)“谷歌圖書(shū)館”案是由谷歌圖書(shū)館計(jì)劃引發(fā)的全球訴訟系列案件之一,谷歌公司在未經(jīng)授權(quán)的情況下將圖書(shū)數(shù)字化并收錄到其搜索引擎中,這些書(shū)籍包括已出版的和未出版的作品。

2013年,美國(guó)紐約地區(qū)法院對(duì)此案作出一審判決,認(rèn)為谷歌掃描圖書(shū)的行為構(gòu)成合理使用,不構(gòu)成版權(quán)侵權(quán)。2015年10月,美國(guó)第二巡回法院確認(rèn)了一審法院的判決,認(rèn)為谷歌圖書(shū)館屬于合理使用,不構(gòu)成侵權(quán)。

在論及谷歌圖書(shū)館對(duì)原告作品的使用目的時(shí),美國(guó)第二巡回法院認(rèn)為谷歌未經(jīng)授權(quán)將受版權(quán)保護(hù)的書(shū)籍進(jìn)行電子掃描、設(shè)立搜索功能并將上述書(shū)籍的片段在網(wǎng)絡(luò)上顯示的行為屬于非侵權(quán)式的合理使用。谷歌所采取的掃描行為是高度轉(zhuǎn)換性的,其顯示的文字數(shù)量是有限的,而向公眾提供的只言片語(yǔ)也不會(huì)與原作品構(gòu)成競(jìng)爭(zhēng)或替代關(guān)系。因此,即便谷歌是一家追求利潤(rùn)的商業(yè)公司,這也不妨礙認(rèn)定谷歌圖書(shū)館的行為屬于合理使用。[12]

TVEyes案(Fox News Network, LLC v. TVEyes, Inc)[13]

在“TVEyes”案中,TVEyes公司提供的搜索引擎可以對(duì)主流電視節(jié)目進(jìn)行實(shí)時(shí)監(jiān)控和搜索,用戶可以根據(jù)關(guān)鍵詞檢索快速定位到感興趣的節(jié)目,并可查看不超過(guò)10分鐘的節(jié)目剪輯內(nèi)容,也可以對(duì)相關(guān)片段進(jìn)行保存、下載。

??怂剐侣劰驹?014年向法院提起訴訟,指控TVEyes公司侵犯其版權(quán),并要求TVEyes停止提供相關(guān)服務(wù)。此后,其他電視網(wǎng)站也加入了訴訟行列。

最終,美國(guó)第二巡回法院認(rèn)可TVEyes將大量電視節(jié)目片段復(fù)制歸檔,并向用戶提供關(guān)鍵詞搜索等服務(wù)的使用行為具有變革性,對(duì)原作品構(gòu)成轉(zhuǎn)換性使用。但卻同時(shí)認(rèn)為TVEyes允許用戶對(duì)相關(guān)節(jié)目片段進(jìn)行查看與下載并不合理,將可能對(duì)版權(quán)人的市場(chǎng)地位與許可收入造成實(shí)際損害。最終法院判決TVEyes對(duì)相關(guān)作品的傳播構(gòu)成版權(quán)侵權(quán)。

上述兩個(gè)案件展現(xiàn)了美國(guó)司法裁判中對(duì)TDM合理使用的整體態(tài)度。在美國(guó)“谷歌圖書(shū)館”案中,美國(guó)法院認(rèn)定谷歌公司基于向公眾提供搜索和片段瀏覽服務(wù)目的而對(duì)原告作品進(jìn)行全文復(fù)制的行為具有“目的轉(zhuǎn)換性”,強(qiáng)調(diào)司法實(shí)踐中應(yīng)當(dāng)對(duì)四要素標(biāo)準(zhǔn)作綜合考量?!癟VEyes”案則顯示出在法院已將TDM前期階段的使用行為認(rèn)定為合理使用的情形下,倘若相關(guān)技術(shù)實(shí)施者未采取必要技術(shù)以降低對(duì)原作品權(quán)利人的替代性影響,仍可能存在侵權(quán)風(fēng)險(xiǎn)。

相較于美國(guó)“谷歌圖書(shū)館”案與“TVEyes”案中原告的使用行為,ChatGPT經(jīng)過(guò)對(duì)訓(xùn)練數(shù)據(jù)的學(xué)習(xí)而生成結(jié)果的使用行為顯然更具有“轉(zhuǎn)換性使用”意義。因此,在美國(guó)《版權(quán)法》合理使用制度框架下,ChatGPT的數(shù)據(jù)挖掘行為有相當(dāng)可能性得以構(gòu)成合理使用。

中國(guó)

區(qū)別于英國(guó)、歐盟與美國(guó)為TDM制定了合理使用規(guī)則,TDM目前尚未被涵蓋在我國(guó)《著作權(quán)法》第24條所列舉的12種法定著作權(quán)例外情形中。換而言之,當(dāng)前國(guó)內(nèi)的著作權(quán)例外制度無(wú)法為TDM的實(shí)施提供合法性依據(jù)。

我國(guó)《著作權(quán)法》第24條規(guī)定了12種合理使用情形。然而,ChatGPT對(duì)訓(xùn)練數(shù)據(jù)的使用難以被該12種法定情形所保護(hù)。ChatGPT的數(shù)據(jù)挖掘行為并非為“個(gè)人學(xué)習(xí)”“教學(xué)或科研”“公共文化機(jī)構(gòu)”所使用,且本質(zhì)上屬商業(yè)性使用,難以直接援引該條作為侵權(quán)抗辯。因此,值得進(jìn)一步討論的便是ChatGPT的數(shù)據(jù)挖掘行為能否落入《著作權(quán)法》第24條兜底條款的保護(hù)之中。從案例來(lái)看,兜底條款實(shí)際上同樣難以為ChatGPT的數(shù)據(jù)挖掘行為提供法律依據(jù),在部分案件中可見(jiàn)國(guó)內(nèi)法院對(duì)TDM著作權(quán)侵權(quán)問(wèn)題的整體態(tài)度。

A作者訴B公司數(shù)字圖書(shū)館案[14]

本案中,原告A作者是某書(shū)籍的作者及著作權(quán)所有人。被告B公司獲得了涉案作品的紙件版本并將涉案書(shū)籍進(jìn)行掃描。隨后,B公司將掃描的圖書(shū)片段開(kāi)放給旗下搜索引擎,從而使互聯(lián)網(wǎng)用戶從搜索結(jié)果中看到涉案作品的片段。

在討論B公司數(shù)字圖書(shū)館的掃描書(shū)籍及通過(guò)搜索展示書(shū)籍片段的行為是否構(gòu)成著作權(quán)的“合理使用”時(shí),法院首先指出,B公司的涉案復(fù)制行為并不屬于《著作權(quán)法》(2010)第22條規(guī)定的合理使用行為,故應(yīng)初步推定為構(gòu)成侵權(quán)。但隨后又提出,鑒于實(shí)際的司法實(shí)踐中,法院已在部分案例中認(rèn)定《著作權(quán)法》(2010)第22條規(guī)定之外的其他特殊情形也可構(gòu)成合理使用,故如果B公司能夠主張并證明其涉案復(fù)制行為屬于合理使用的其他特殊情形,那么該行為也可被認(rèn)定合理使用。

關(guān)于如何判斷涉案的復(fù)制行為是否構(gòu)成《著作權(quán)法》(2010)第22條規(guī)定之外的合理使用特殊情形時(shí),法院提出應(yīng)綜合考慮以下相關(guān)因素,包括(1)使用作品的目的和性質(zhì);(2)受著作權(quán)保護(hù)作品的性質(zhì);(3)所使用部分的性質(zhì)及其在整個(gè)作品中的比例;以及(4)被告的使用行為是否影響了原告作品的正常使用或不合理地?fù)p害著作權(quán)人的合法利益等。

在綜合考慮了上述因素之后,法院認(rèn)為在本案中,B公司未能針對(duì)上述因素提交相關(guān)事實(shí)證據(jù),故駁回B公司關(guān)于合理使用的抗辯,認(rèn)為其圖書(shū)館行為構(gòu)成侵權(quán)。 [15]

從中美類案判決的對(duì)比來(lái)看,在面對(duì)相似案情與抗辯理由時(shí),兩國(guó)法院在判斷相關(guān)行為是否構(gòu)成合理使用時(shí)得出了相反結(jié)論。在中國(guó)“A作者訴B公司數(shù)字圖書(shū)館”案中,法院認(rèn)為在《著作權(quán)法》(2010)第22條規(guī)定的具體情形外認(rèn)定合理使用,應(yīng)當(dāng)從嚴(yán)掌握認(rèn)定標(biāo)準(zhǔn),而被告應(yīng)當(dāng)對(duì)考量因素中的事實(shí)問(wèn)題承擔(dān)舉證責(zé)任。但該案中被告B公司并未充分舉證其涉案行為屬合理使用,因此法院最終推定其使用行為構(gòu)成侵權(quán)。由此可見(jiàn),依據(jù)當(dāng)前《著作權(quán)法》相關(guān)規(guī)定,ChatGPT的數(shù)據(jù)挖掘行為被中國(guó)法院認(rèn)定為合理使用具有難度,仍存在較高侵權(quán)風(fēng)險(xiǎn)。

上述觀點(diǎn)也可以從2023年4月11日國(guó)家互聯(lián)網(wǎng)信息辦公室起草的《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》中得到印證。該征求意見(jiàn)稿回應(yīng)了公眾關(guān)注的生成式AI若干問(wèn)題。其中第7條對(duì)生成式AI產(chǎn)品/服務(wù)的數(shù)據(jù)來(lái)源作出規(guī)制,明確規(guī)定提供者應(yīng)當(dāng)對(duì)生成式人工智能產(chǎn)品/服務(wù)的預(yù)訓(xùn)練數(shù)據(jù)、優(yōu)化訓(xùn)練數(shù)據(jù)來(lái)源的合法性負(fù)責(zé),不應(yīng)含有侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容。[16]換而言之,該征求意見(jiàn)稿并未對(duì)TDM設(shè)置著作權(quán)例外,一定程度顯示出我國(guó)立法動(dòng)向仍對(duì)認(rèn)可TDM合理使用持保留態(tài)度。

結(jié)語(yǔ)

信息獲取與知識(shí)共享是數(shù)字經(jīng)濟(jì)的基礎(chǔ)。隨著人工智能領(lǐng)域高速發(fā)展,在可預(yù)見(jiàn)的將來(lái)仍會(huì)不斷涌現(xiàn)涉及他人著作權(quán)作品的新型使用行為。當(dāng)前部分國(guó)家已對(duì)數(shù)據(jù)挖掘、使用行為設(shè)定了著作權(quán)例外制度,嘗試在科學(xué)技術(shù)的發(fā)展與著作權(quán)人的利益保障之間取得平衡。

我國(guó)《著作權(quán)法》目前尚未對(duì)數(shù)據(jù)挖掘制定著作權(quán)例外規(guī)則,相關(guān)技術(shù)在中國(guó)的實(shí)施仍具有侵權(quán)風(fēng)險(xiǎn)。但數(shù)據(jù)挖掘作為人工智能時(shí)代的基礎(chǔ)性技術(shù),合理使用規(guī)則的缺失必然會(huì)限制信息自由流動(dòng)與創(chuàng)新發(fā)展。為了促進(jìn)科技領(lǐng)域發(fā)展,我國(guó)應(yīng)當(dāng)保障數(shù)據(jù)挖掘技術(shù)的流通與應(yīng)用,平衡著作權(quán)人利益與公共利益的沖突,建構(gòu)旨在驅(qū)動(dòng)創(chuàng)新的合理使用制度。

參看資料:

[1] “IFLA Statement on Text and Data Mining (2013).” IFLA, www.ifla.org/publications/ifla-statement-on-text-and-data-mining-2013/. Accessed 22 Apr. 2023.

[2] “ChatGPT and Data Annotation.” 23 Feb. 2023, labelyourdata.com/articles/data-annotation-for-training-chatgpt. Accessed 22 Apr. 2023.

[3] “GPT-4 Is Coming – What We Know So Far.” Forbes, Bernard Marr, 24 Feb. 2023, www.forbes.com/sites/bernardmarr/2023/02/24/gpt-4-is-coming–what-we-know-so-far/?sh=11045dd86c2d. Accessed 7 Apr. 2023.

[4] “Introducing ChatGPT.” OpenAI, openai.com/blog/chatgpt. Accessed 22 Apr. 2023.

[5] 除本文所列舉的英國(guó)、歐盟與美國(guó)外,日本與新加坡同樣對(duì)TDM制定了版權(quán)例外規(guī)則。日本TDM版權(quán)例外規(guī)則詳見(jiàn)《著作權(quán)法》:https://www.cric.or.jp/english/clj/cl2.html;新加坡TDM版權(quán)例外制度詳見(jiàn)《COPYRIGHT ACT 2021》:https://sso.agc.gov.sg/Acts-Supp/22-2021/Published/。

[6] Copyright, Designs and Patents Act 1988, 29A: Copies for text and data analysis for non-commercial research (1)This section applies where— (a)a person has lawful access to a copy of a copyright work for the purposes of research to which this section applies, and (b)the copy is retained by the person on a secure electronic network for the purposes of carrying out text and data analysis for those research purposes. (2)The making of a copy of the work by the person who has lawful access to the work under subsection (1) does not infringe copyright in the work provided that— (a)the copy is made by an automated process, (b)the copy is used only for the purposes mentioned in subsection (1)(b), and (c)the person satisfies the other conditions in this section. (3)The other conditions are that— (a)the person making the copy has reasonable grounds for believing that doing so is necessary for the purposes of the research mentioned in subsection (1)(b), (b)the person does not use the copy to compete with the owner of the copyright in the work, (c)the person does not supply the copy to any other person except for the purposes mentioned in subsection (1)(b), and (d)the use of the copy is accompanied by a sufficient acknowledgement. (4)This section applies to research for any purpose, except for commercial purposes.

[7] DIRECTIVE (EU) 2019/790 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 17 April 2019,article 3.

[8] DIRECTIVE (EU) 2019/790 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 17 April 2019,article 4.

[9] Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569 (1994).

[10] 宋海燕:《娛樂(lè)法(第二版)》,商務(wù)印書(shū)館2018年版,第90-95頁(yè)。

[11] Authors Guild v. Google, Inc., 4F., 3d 202,209(2015).

[12] 宋海燕:《娛樂(lè)法(第二版)》,商務(wù)印書(shū)館2018年版,第100-101頁(yè)。

[13] Fox News Network, LLC v. TVEyes, Inc., 883 F.3d 169, 179 (2d Cir. 2018).

[14] (2013)高民終字第1221號(hào)。

[15] 宋海燕:《娛樂(lè)法(第二版)》,商務(wù)印書(shū)館2018年版,第101-102頁(yè)。

[16] “國(guó)家互聯(lián)網(wǎng)信息辦公室關(guān)于《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》公開(kāi)征求意見(jiàn)的通知-中共中央網(wǎng)絡(luò)安全和信息化委員會(huì)辦公室.” 中共中央網(wǎng)絡(luò)安全和信息化委員會(huì)辦公室,https://www.cac.gov.cn/2023-04/11/c_1682854275475410.htm. 最后瀏覽日期:2023年4月21日。

? 版權(quán)聲明

相關(guān)文章