GPT-4抄袭太可恨求销毁！《纽约时报》正式起诉OpenAI

对于AI的快速发展，有人欢喜有人愁。自从人工智能开始用于生成图片、文字信息时，美国最有影响力的新闻机构之一——《纽约时报》（The New York Times）的噩梦就开始了。8月初，《纽约时报》先是更新服务条款，禁止将新闻报道和图片等内容用于开发任何软件程式，包括训练机器学习或人工智能系统。随后，它又因版权问题与OpenAI公司卷入了一场诉讼对战中。当地时间27日，《纽约时报》正式起诉OpenAI和微软两大公司，明确指出他们“未经授权，使用已发表的新闻作品训练人工智能”，索赔金额高达数十亿美元，且要求销毁“所有包含《纽约时报》作品的GPT或其他大语言模型训练集”。《纽约时报》打响了“就版权问题起诉ChatGPT平台”的第一枪，事情的发展令人感到意外但又似乎在情理之中。有媒体猜测，也许一开始，《纽约时报》就没准备坐下来和平谈判，而是速战速决。

新闻报道用于AI训练，能被禁止吗？

美国业界对于《纽约时报》的评价一直两极分化。有人认为《纽约时报》在每个议题上试图展现不同群体的观点，实现了帮助读者了解世界的最高抱负；但《经济学人》在12月14日的一篇文章中建议《纽约时报》应该在报道上采取一些措施，让读者能够独立思考，而不是一股脑把所有的观点都输出给他们。无论旁人观点怎样，《纽约时报》在美国新闻行业的领头地位毋庸置疑，内部新闻从业人员也确实认为自己的报道弥足珍贵。他们不会任由科技公司“偷走”报道。

2023年4月，《纽约时报》联系微软和OpenAI，试图就“知识产权问题寻求友好解决方案”，可能涉及商业协议和围绕生成式人工智能产品的“技术护栏”，但到了12月，《纽约时报》明显等不住也不等了，正式起诉这两家科技公司。OpenAI发言人林赛·赫尔德（Lindsey Held）表示对这起诉讼的“惊讶和失望”，在她看来，“友好对话”一直在“建设性地持续推进”。赫尔德指出OpenAI尊重内容创作者和所有者的知识版权，致力于与他们合作，确保他们从人工智能技术和新的收入模式中受益，最终找到一种互惠互利的合作方式。显然，《纽约时报》并不认为结果会是互惠互利。事实上，OpenAl自己也承认，与其他低质量来源的内容相比，《纽约时报》的高质量内容对GPT模型的训练更为重要，也更有价值。

不只《纽约时报》，2023年的夏天，许多公司或个人都对OpenAI提出指控，称该公司非法使用出版内容。美国喜剧演员莎拉·西尔弗曼（Sarah Silverman）2010年出版回忆录《The Bedwetter》，然而她却发现OpenAI在未授权的情况下非法使用这本回忆录的数字版本训练人工智能。《纽约时报》此次提起诉讼也吸取了一些前人的经验，它并没有指出“OpenAI的聊天机器人本身就侵权”的理论，而是提供了大量证据证明GPT-4输出的句子与《纽约时报》的原文高度重合，几乎达到了逐字逐句的效果。其中一个例子是微软聊天机器人必应（Bingo Chat）复制了《纽约时报》10月15日的报道——《哈马斯了解以色列军队的秘密》（The Secrets Hamas knew about Israel’s Military）。在一段原文为396个英文单词的文本展示中，必应原封不动复制了394个字。

GPT-4抄袭太可恨求销毁！《纽约时报》正式起诉OpenAI

△《纽约时报》给出的证据之一。新闻媒体对于AI的态度随着AI的发展，新闻媒体公司在“训练AI”上分成了两大阵营

。一方是“同意派”，美联社于7月与OpenAI签署合作协议，同意提供过去的报道用于数据学习，《华尔街日报》新闻集团也正在考虑向AI开发人员收取使用其中内容的费用，将生成式AI视为未来业绩的支持。另一方是以《纽约时报》为首的“反对派”。事实上近一段时间，《纽约时报》对于AI的评论文章一直偏消极，例如12月28日的报道——《人工智能可以创造出人性化的艺术。这是谁的错？》；12月26日的报道——《人工智能是摄影的未来。这是否意味着摄影已死？》；12月21日的报道——《陌生人如何从ChatGPT中获取我的电子邮件地址？》。然而《纽约时报》并不否认AI的发展和其光明前景，它在今年6月给员工的邮件中写道：“我们决定寻找战略性创新的方法，AI于我们只是一种补充人类专业知识的数字工具。我们为技术的发展感到欣慰，但也需要在热情与事实中保持清醒的平衡。当AI威胁到我们时，我们将诉诸法律武器。”

《好莱坞时报》指出，《纽约时报》可能会面临一场艰苦的斗争，尤其在AI愈加成为各个行业不可阻挡的趋势后，一些创作者决定与OpenAI就训练GPT产品的内容达成协议，选择每月获得一笔可观的版权费，而不是发起法律诉讼。

另一方面，《纽约时报》也并不孤独。在它发起诉讼后，《卫报》报道文章——《纽约时报指控科技巨头OpenAI和微软侵犯版权——事实确实如此》表明这个机构已经站在了《纽约时报》的阵营。今年4月，美国媒体业亿万富翁巴里·迪勒（Barry Diller）警告道，除非科技公司能够尊重版权法，对训练AI加以控制，否则人工智能将对新闻业造成破坏性影响。迪勒还考虑与一群主要出版商一起起诉使用版权内容训练人工智能系统的开发者。媒体大亨默多克领导的“新闻集团”公司（News Corp）是受到AI打击最严重的企业之一，CEO罗伯特·汤姆森（Robert Thomson）指出新闻媒体的知识产权将被AI“偷走”，它不仅能收集和抓取故事，还能吸收和合成故事。这些故事包含了伟大新闻从业者的努力，但却被AI轻而易举盗取，导致读者永远不会再访问新闻网站，从而对新闻业造成不可逆的致命打击。

GPT-4抄袭太可恨求销毁！《纽约时报》正式起诉OpenAI

灰色地带还是合理使用？《纽约时报》的诉讼之所以极富争议性，是因为从根本上来讲，“生成式AI公司训练模型，对于受版权保护内容的使用程度”——这其实是个模糊的灰色地带。分歧的矛盾点就在于，训练并不是复制，而是学习——就如同OpenAI公司发言人赫尔德声称的那样。专家指出，人工智能公司认为训练AI模型是创新之举，因此它们可能会使用所谓的“合理使用原则”为自己的行为进行辩护

GPT-4抄袭太可恨求销毁！《纽约时报》正式起诉OpenAI

此举引起了出版商和作家的不满，他们认为，谷歌图书未经出版商和作者许可，私自扫描书籍，侵犯了版权法，于是在2005年对谷歌公司提出起诉。通过10年斗争，美国联邦上诉法院于2015年做出裁决，认定谷歌公司扫描图书的行为是在法律范围内允许的“合理使用”，并没有侵犯版权。因为谷歌图书并没有创造“替代品市场”，也就是说并不存在与纸质图书的激烈竞争。

媒体公司担心“合理使用原则”会成为某些AI公司侵权的借口。迪勒表示必须重新定义“合理使用”的概念。“当一台不公平的机器没有界限时，就不可能得到合理的使用。”《纽约时报》内部人员也认为，如果法院判定AI生成的新闻与新闻媒体公司的独家新闻不构成竞争关系，那么新闻媒体公司的覆灭也只是时间问题

。

GPT-4抄袭太可恨求销毁！《纽约时报》正式起诉OpenAI