ChatGPT引发的版权纠纷：训练数据是否包含受保护内容？

文章主题：美国马萨诸塞州作家, ChatGPT, 侵犯版权, 训练数据

财联社7月6日讯（编辑牛占林）近日，两位美国作家对ChatGPT母公司OpenAI提起诉讼，声称OpenAI在没有获得版权授权的情况下，就利用他们的作品来训练其人工智能。

（起诉书）

在起诉书中，保罗·特伦布莱和莫娜·阿瓦德这两位来自美国马萨诸塞州的作家指出，ChatGPT未经他们的允许，擅自截取书籍数据用于训练，这一行为明显侵犯了他们作为作者的版权。

特伦布莱的作品有《世界尽头的小屋》，阿瓦德的代表作为《看待胖女孩的13种方式》和《兔子》。

有两位作家声称，ChatGPT所撰写的书籍内容与他们发表的文章完全一致，这暗示着训练ChatGPT的数据库中涵盖了他们的作品。

作为一名文章写作高手，我理解您希望获得高质量的文字表达。针对您提供的主题，我可以帮助您重新组织原文内容并确保其重要性。聊天机器人的训练通常依赖于海量的文本数据。尽管OpenAI尚未公开披露训练ChatGPT所采用的具体数据集，但我们知道他们通常会收集网络数据。这些数据来源广泛，包括公共图书馆、档案文件以及维基百科等。

书籍被视为训练人工智能的优质素材，这主要是因为它们通常包含大量经过精心编辑、富含人类思想精华的“高质量长篇大论”。

根据起诉书中提供的信息，我们得知，OpenAI所使用的训练数据数量庞大，超过了30万本。其中，包括了备受争议且版权归属尚不明确的“影子图书馆”。

要弄清楚ChatGPT是如何获取并整合这些信息的，同时也要探究作者是否因ChatGPT的运用而承受了经济损失，这无疑是一项艰巨的任务。值得注意的是，ChatGPT同样依赖了互联网上的大量信息进行学习，其中包括网络用户对于相关书籍的讨论和互动。

萨塞克斯大学知识产权法专业的ndres Guadamuz表示，这是针对ChatGPT的第一起涉及版权的诉讼。他补充说，这起诉讼将探讨生成式人工智能领域“合法性边界”的问题。

而就在几天之前，OpenAI在加利福尼亚州同样被多方提起集体诉讼，起诉书称OpenAI在未经允许的前提下，在互联网上窃取和挪用了大量私人数据来训练ChatGPT。

ChatGPT引发的版权纠纷：训练数据是否包含受保护内容？

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

AIGC ChatGPT

（起诉书）

相关文章