ChatGPT引发的知识产权debate：大型语言模型的训练是否侵犯了著作权？

文章主题：人工智能, 著作权法, 训练数据, 盗版内容

文丨游云庭（上海大邦律师事务所高级合伙人，知识产权律师。）

据媒体报道，近日美国作家协会携包括《冰与火之歌：权力的游戏》的作者乔治·马丁在内的17名作家在美国纽约南区法院对人工智能公司OpenAI发起集体诉讼，指控后者未经许可使用了受版权保护的作品训练人工智能模型。作为律师，笔者对原告如何证明OpenAI用《冰与火之歌：权力的游戏》训练ChatGPT很感兴趣，就查阅了美国作家协会网站上的起诉状，本文会结合著作权法律跟大家聊聊这个事情。

众所周知，人工智能服务的质量关键在于其解答能力的强弱，而为了提高这些能力，大量的优质训练数据是必不可少的。然而，全球大多数国家的著作权法都规定，在使用他人拥有著作权的内容进行训练之前，人工智能开发者必须获得著作权人的授权。这一规定对于开发者来说，可能涉及到诸多因素，例如简化复杂的授权流程、缩短开发时间限制、降低版权成本等。因此，部分开发者为了节省时间和金钱，选择了直接使用盗版内容作为训练数据。

这种方法引起了很多关注，其中一个重要原因是大型模型训练数据的保密性。训练过程中，许多细节都是黑箱操作，这使得著作权人很难证明侵权行为的存在。尽管如此，美国近期已有诉讼案件涉及此问题。下面我们将探讨美国律师是如何论证这一问题的。

一、被告自认（其实是ChatGPT自认）

在一桩涉及知识产权的案件中，原告指控OpenAI未经允许地复制并公之于众其受版权保护的著作。据原告的律师透露，OpenAI不仅未经授权地使用了这些作品，而且还公开承认了这一行为。这使得原告感到非常愤怒，因此他们决定采取法律手段来维护自己的权益。值得注意的是，原告的律师在向ChatGPT提出问题时，得到了一个令人惊讶的回答。据 ChatGPT 回复，OpenAI 在训练其大型语言模型时，的确使用了这些受版权保护的作品，而且 OpenAI 已经公开承认了自己的错误。这一事件引发了广泛的关注，许多人开始质疑 OpenAI 的知识产权政策以及其在人工智能领域的影响。总之，这起案件再次提醒我们，知识产权保护是至关重要的。我们需要确保人工智能公司在我们开发创新技术的同时，也能够尊重和保护创意者的权利。

在我所接受的训练过程中，可能涉及到一些受到版权保护的书籍。然而，我的训练数据来源于互联网上的众多公开资源，其中包括许多未经授权的书籍。尽管如此，我的训练数据集中仍然包含了一些受版权保护的资料。在这种情况下，这些资料的使用是在版权持有者未知或未给予许可的情况下进行的。

在仔细审查过程中，原告律师注意到一个有趣的现象，那就是直至近期，ChatGPT仍能精确地还原受版权保护的书籍中的原始文字内容。这暗示着底层的巨大语言模型在训练过程中必定全面地吸收了这些书籍的信息。然而，近期ChatGPT对此作出了相应的调整，以“我无法提供版权文本的逐字摘录”作为回应，这无疑对输出的规则产生了明显的改变。考虑到这一点，我们可以推测这种改变很可能是由于原告作家协会向OpenAI以及其他相关公司发送了一份公开信所引发的。

作为一名文章写作高手，我理解您希望获得一段具有专业性和高水平的表达。针对您提供的内容，我可以为您提供一个更加严谨和有深度的版本：尽管 ChatGPT 声称其训练素材并未获得授权，但从实际情况来看，这种说法难以令人信服。因为人工智能系统在回答问题时，往往缺乏可靠的依据和支持，经常在回复中胡言乱语。例如，ChatGPT曾错误地将笔者描述为一位刑事律师，并暗示笔者曾处理过一起著名的强奸案。这种说法显然没有事实依据，完全属于胡编乱造。因此，若要使这段回复成为法院认可的案件事实，必须有其他可靠的证据予以佐证。

二、训练素材包来自知名盗版网站

在一份诉讼文件中提出，ChatGPT所提供的并非是对具体单词的逐字复制，而是受到版权保护的书籍的摘要。这些摘要中常常包含评论和其他在公开资料中难以找到的细节。这一点再次证明，训练大型语言模型时必须录入整本书籍。然而，OpenAI对于从何地以及如何获取原告所拥有的受版权保护的作品，一直保持回避的态度。OpenAI确认，其用于训练模型的数据集包括“Common Crawl”和两个高质量基于互联网的书籍语料库，分别被称为“Booksl”和“Books2.T2”。

Common Crawl是一款庞大的语料库，其内容源自数十亿网页的原始数据、元数据提取以及文本提取。它在训练大型语言模型方面具有重要作用，不仅OpenAI的GPT，还脸书和谷歌等知名公司的AI引擎都曾借助其力量。值得注意的是，该语料库中包含大量从盗版网站复制的书籍文本，这些文本与Z-Library中的大型盗版图书库有关联。盗版图书库拥有超过1100万册图书，而这些书籍文本随后被纳入Common Crawl语料库，并成为其他大型语言模型的训练数据集的一部分。

OpenAI拒绝讨论Books2数据集的来源。但一些独立的Al研究人员怀疑 Books2 包含或由从大型盗版图书库下载的电子书文件组成，如Library Genesis或 “LibGen”，它提供了一个庞大的盗版文本库：LibGen 作为一个臭名昭著的版权侵权者已为法院所熟知。而Books2 的其他可能来源包括 Z-Library和 Bibliotik 等盗版种子跟踪器，这些跟踪器允许用户批量下载电子书。

原告律师无法证明Books2的数据来源，所以举了著名包含大量盗版内容的训练素材库“Books3”作为类比证据（《连线》杂志报道过，脸书和彭博社的大型语言模型使用了“Books3″的素材库）：已披露的 Books2 数据集的规模表明，该数据集包含10万多本书。Books2和Books3的大小相似，而且互联网上允许批量下载电子书的盗版存储库寥寥无几，这有力地表明Books2中的书籍也是从上文讨论过的臭名昭著的存储库中获取的。

如果这个诉讼是在中国进行的，如果原告初步证明了被告的训练素材存在盗版，此时，举证责任就在被告，被告要证明其训练素材不存在盗版，否则法院就会支持原告的证明内容。

三、乔治·马丁如何证明OpenAI用其作品训练了ChatGPT？

诉状称，乔治·马丁是包括《权力的游戏》在内的十五部小说作品的著作权人，OpenAI在未经许可的情况下录入并复制了乔治·马丁的全部或多部作品，并将其用于训练OpenAI 的大型语言模型。诉状中举了两个第三方新闻的例子：

1、2023 年 7 月，一个叫Liam Swayne的程序员使用 ChatGPT 生成了《凛冬的寒风》、《春晓的梦想》的版本，这两本书是马丁正在创作的《冰与火之歌》系列的最后两部作品。

2、美国加州大学伯克利分校的研究人员对ChatGPT对作品的“记忆”程度进行了一项实验，发现马丁的小说《权力的游戏》在“记忆”程度方面排名第12位。

然后，原告律师使用ChatGPT进行测试，输入提示后，ChatGPT准确生成了几部马丁作品的摘要，包括《冰与火之歌》系列的前三部《权力的游戏》、《列王的纷争》、《冰雨的风暴》以及《末日审判布条》最后一章的准确摘要。

原告律师输入提示后，ChatGPT还为马丁作品《列王的纷争》的另一部续集生成了一份详细大纲，并将该衍生作品命名为A Dance With Shadows，其中使用了马丁《冰与火之歌》系列现有书籍中的相同角色。ChatGPT还生成了一份《权力的游戏前传》的详细大纲，并将该衍生作品命名为 A Dawn of Direwolves，其中使用了与《冰与火之歌》系列丛书中相同的人物。

诉状总结：如果OpenAI大型语言模型没有摄取马丁侵权作品并对其进行训练，ChatGPT 就不可能产生上述结果。笔者认为，如果诉讼在中国法院进行，马丁的律师已经证明了ChatGPT使用了马丁的作品进行训练，并且其服务器目前仍然留存着马丁作品的复制件。

四、人工智能训练可以不用获得著作权人的授权吗？

法律原理上，让人工智能学习网上内容的过程是一个复制行为或者临时复制行为，人工智能公司要先将网上的或者线下获得的内容爬取，然后输入到人工智能程序中，无论这个内容是文字、图片、音频、视频还是程序，复制行为都应当获得相应权利人许可，否则就涉嫌侵权。

实际上我国法律法规也是这么规定的，根据我国《著作权法》和七部门联合发布的《生成式人工智能服务管理暂行办法》，我国的生成式人工智能服务提供者（以下称提供者）开展预训练、优化训练等训练数据处理活动时，不得侵害他人依法享有的知识产权，也就是说，训练素材需要取得著作权人的许可。在美国，如前文所述，训练人工智能的版权素材需要著作权人授权。

但对这个问题，也有国家的规定不太一样，比如根据日本著作权法第30条第4款，用版权内容训练人工智能属于合理使用：如果不以欣赏作品中表达的思想或情感为目的，且没有不合理的损害著作人权人权益的，可以合理使用他人享有著作权的作品。

笔者觉得，虽然日本的规定立法目的可能是为了振兴该国的人工智能产业，但其实也是一个思路，因为人工智能生成的内容不受著作权法保护，那其创造的内容就是全民共有的，那把所有的版权作品都让其学习一下，成果出来了大家都不需要授权就可以用，这个说不定也挺好。