• logo

【合勤講堂】日本著作權法對開發生成式AI最友善?台灣要不要參考?

在美國,包括小說家、出版社、新聞媒體、藝術家、音樂家、軟體工程師等,紛紛都對AI開發商如OpenAI公司提告。圖/取自 Open AI XX
在美國,包括小說家、出版社、新聞媒體、藝術家、音樂家、軟體工程師等,紛紛都對AI開發商如OpenAI公司提告。圖/取自 Open AI XX

楊智傑/國立雲林科技大學科技法律所教授

日本文化廳著作權課在20245月以英文發布了一份〈日本人工智慧與版權的一般理解:概述〉,說明在AI訓練過程未經同意使用他人的大量著作,可以主張日本著作權法第30條之4的「非享受原著作的資料分析利用」限制規定。也就是說,生成式AI開發商的訓練,並非享受原著作。

生成式AI對學生、研究者、坐辦公桌的各類創作者來說,帶來了非常便利的創作協助工具。使用過後莫不讚嘆,生成式AI怎麼這麼厲害。但是,生成式AI之所以厲害,除了軟體本身和算力之外,還需要大量的資料內容去訓練,它才能在消化吸收這些訓練資料之後,生成最準確、滿意的內容給使用者。

問題就在於,AI開發商要拿這些資料內容去訓練AI,產生了侵權爭議。在美國,包括小說家、出版社、新聞媒體、藝術家、音樂家、軟體工程師等,紛紛都對AI開發商如OpenAI公司提告,認為這些AI開發商拿他們的資料去作訓練時,沒有向他們付費,得到他們的授權或同意,因而構成侵權。

AI開發商能否主張合理使用?

著作權法雖然保護著作權人的權利,也基於其他的公共利益,容許合理使用(fair use)的空間。有的國家稱為著作財產權之限制或例外。例如,學生為了學習、研究,可以去圖書館影印論文資料。所以,AI開發商被告侵權,會主張合理使用。

AI開發商主張,我拿這些受著作權保護的資料內容去訓練AI,是為了替全人類創造一個全新的高科技服務,是過去從來沒有的服務,帶給全人類莫大的價值。在美國的合理使用中,有一種概念稱為「轉化性合理使用」(transformative fair use),大意是說,將既有的著作資料拿來利用後,轉化出一個全新的產品,與既有的著作資料產品截然不同。

過去Google提出的圖書搜尋服務,掃描大圖書館中典藏的書籍著作,也被美國出版社協會控告。但Google主張其推出的服務是為了讓人類可以快速地以關鍵字搜尋到世界上任何一本書中任何一頁的內容,與原本的書籍是全然不同的產品,而構成轉化性合理使用。美國第二巡迴法院也認為其可以主張合理使用。

能否主張文本和資料探勘合理使用?        

相對於美國,歐盟希望把每一個著作財產權的「限制條款」寫清楚。歐盟2019年通過的數位單一市場著作權指令制定了一個「文本和資料探勘」之例外規定。其內容大致上類似Google圖書搜尋服務這種狀況,當「某搜尋開發者」為了「文本和資料探勘之目的」,可以對合法取得的著作和資料進行複製和截取。也就是說,像Google服務一樣,為了探勘哪一本書中有提到某段文字或資料,可以先對許多書的內容進行複製和截取,不需要得到著作權人同意。

不管用美國的「轉化性合理使用」或用歐盟的「文本或資料探勘」,大概都允許搜尋服務業者可以未經著作權人同意,大量地複製他人的著作內容。但是,回到我們現在要問的,生成式AI的開發商,可否為了開發生成式AI,而大量複製使用他人受著作權保護的著作?且都沒有付費、沒有取得授權或同意。

若是在美國,「轉化性合理使用」是一個開放性的概念,也許存在解釋空間,但其實也有許多限制條件。但若是在歐盟,「文本和資料探勘」的概念有限制。生成式AI的目的並不單純是做文本和資料探勘。

日本著作權法的非享受原著作之限制規定        

日本著作權法在2018年也通過了一個文本和資料探勘的規定,但寫得比歐盟來要大。第30條之4規定:「在以下列情況以及其他不以享受著作中表達的思想或情感為目的的情況下,可以在必要的限度內以任何方式利用著作。....2.用於資料分析,從大量著作或資訊中提取、比較、分類和分析資料。.....

日本這一條文非常特殊。什麼是享受原著作(作品)?文字著作的享受就是靠閱讀,音樂和視聽著作的享受是靠閱聽欣賞、軟體著作的享受是靠電腦執行。

其中提到的第2種情況是資料分析,強調從大量著作或資料中提取、比較、分類和分析資料。這些利用都不是讓人類去「享受」原來的著作,而是讓電腦進行資訊分析處理利用,就可以主張是著作權之限制(合理使用)。

日本著作權局20245月報告認為開發AI在日本不侵權

日本文化廳下的著作權課在2024年發布了一份〈日本人工智慧與版權的一般理解:概述〉(General Understanding on AI and Copyright in Japan),說明在AI訓練過程未經同意使用他人的大量著作,可以主張日本著作權法第30條之42款的非享受原著作的電腦資料處理利用之例外規定。也就是說,生成式AI開發商的訓練,並非享受原著作。

但是,該份文件又說,有兩種情況不符合「非享受」的要件:

1.為了AI訓練而收集作品,以生成與收集的著作權作品相似的材料。根據其說明,如果在一般對基礎模型訓練後,為了調整模型的精確度,又蒐集特定類型著作,進行微調(fine-tuning)和過擬合(overfitting),則在蒐集補充資料過程中已經有了「享受該著作」的情況。當然什麼是為條和過擬合,這裡就不多作說明。

2.不是為了訓練,而是為了回答使用者的問題去蒐集資料。例如,採用檢索增強生成(RAG)技術。所謂的RAGRetrieval Augmented Generation)是一種將檢索和生成技術結合在一起的方法。簡單來說,RAG系統在生成輸出之前,會先檢索相關的資料來幫助生成更加精確和相關的內容。    

最後,該文件又提到,第30條之4有一個例外,就是不能「不合理地損害著作權人利益」。例如,假設有一個商業資料庫已經有大量的資料且須要付費,若AI開發商故意繞過該資料庫不付費,可能就會不合理地損害著作權人之利益。

因此,有人說現階段各國的著作權法對於生成式AI的開發過程,日本的著作權法是最友善的。但是真是如此嗎?若希望開發出來的AI能夠更精確的生成使用者希望得到的內容,可能會使用上述的微調(fine-tuning)、過擬合(overfitting)、RAG技術,其實還是有所限制。

那麼台灣呢?台灣大致會跟隨美國。美國的合理使用規定是開放性的。台灣著作權法中的合理使用規定也是如此。所以台灣可以等待美國法院控告AI開發商的判決結果,看到底能否主張轉化性合理使用。

         

附註:《合勤講堂》針對國家、社會和經濟等公共議題,邀集專家學者提出理性和感性兼具的解方,以期國泰民安、社會祥和。

※以上言論不代表梅花媒體集團立場※