美國作家Andrea Bartz等人代表多位創作者,2024年8月針對開發Claude模型與聊天機器人的AI新創Anthropic提起集體訴訟,控告其在訓練語言模型時大規模使用來自非法來源的電子書。聯邦法官William Alsup周一(6/23)裁定,雖然AI訓練本身可視為合理使用,但Anthropic儲存未授權書籍的行為可能侵犯著作權,將於今年12月進入審判程序,成為生成式AI產業中關鍵的著作權判例。
控方主張Anthropic大規模使用盜版書籍來訓練AI模型,未取得授權或付費,涉嫌侵犯著作權。
事實上,此一訴訟過程揭露了Anthropic自2021年起便大規模蒐集盜版電子書的行為,包括下載了內含近20萬本電子書的Books3資料集,自著名盜版電子書網站Library Genesis取得逾500萬本書籍,以及從另一個盜版網站Pirate Library Mirror下載200萬本書籍,並將它們存在自家中央圖書館中。
Alsup認為,將書籍內容用以訓練大型語言模型,其目的與性質是轉化的,亦即AI訓練屬於創造新內容的轉化性用途,而非用來取代原作;且Anthropic模型並未向公眾再現原著的創意原素,也沒有模仿任何作者可識別的風格,符合公平使用原則。
然而,Alsup也指出,以所下載的盜版書籍來建立永久的資料庫無法被免責,應該要進行正式審理,以判定是否購成侵權並計算潛在賠償。
依照美國的著作權法,侵權賠償介於750美元至15萬美元之間,就算以最低的750美元來計算,Anthropic存放逾700萬本盜版書籍的賠償費用將是逾50億美元的天價。
總之,此一裁決被視為是生成式AI領域首起針對「AI訓練是否屬於合理使用」作出明確判決的案例,認為大型語言模型屬於高度轉化,另也向AI業者示警,若未經授權取得受保護作品依然得承擔法律後果。