大模型引发的隐私安全危机：ChatGPT等智能工具带来的挑战

文章主题：大模型, 双刃剑, ChatGPT, 隐私安全问题

大模型的崛起犹如一把双刃剑，ChatGPT等智能工具产品的出现让人惊叹不已，但与此同时，这也带来了日益严重的隐私安全问题，值得我们高度重视。

近期，著名人工智能助手ChatGPT的创造者OpenAI陷入了两起法律纠纷：首先，16名匿名者指控ChatGPT在训练过程中获取了大量个人信息，要求OpenAI赔偿30亿美元；其次，两位职业作家指控OpenAI未经许可使用他们的作品训练ChatGPT，侵犯了他们的版权，同样要求赔偿30亿美元。目前这两起诉讼仍在进行中。

根据来自克拉克森律师事务所在加州的声明，OpenAI涉嫌从互联网上非法获取了大量内容，涉及约3000亿字，包括书籍、文章、网站和帖子等，且未经当事人同意擅自使用了他们的个人信息。这一事件已导致数百万受害者。

在不久之前，有关三星公司利用ChatGPT不足20天便发生三次机密数据泄露的消息曝光。这些泄露事件涉及到三星半导体设备的测量资料以及产品良率等重要信息。镜头回到今年第一季度，香港大学、摩根大通等知名企业和意大利等国家纷纷宣布暂停使用ChatGPT……随着生成式AI技术的广泛应用，人们从担忧职业饭碗的丧失逐渐演变为对个人隐私和版权的担忧，生成式AI技术所引发的危机感也在持续升级。

大模型时代的隐私保护挑战

大模型如ChatGPT的进化，严重依赖于海量数据的训练。这些数据通过感应器进行采集，然后被储存和处理，接着在算力的支持下进行计算，最后构建出决策机制并返回相应的结果。然而，这个过程中数据采集的环节可能会带来个人隐私、商业机密甚至国家政府层面信息的泄漏或扩散，从而对数据安全构成威胁。

一篇名为“大语言模型的记忆与数据泄露”的研究论文，通过实验性地验证了大型语言模型具有记忆能力以及部分数据泄露的现象。研究结果表明，随着模型的规模逐渐增大，其记忆力和数据泄露的能力也相应地增强。值得注意的是，这一问题并不仅限于 OpenAI 的 GPT 模型，其他主流语言模型如 BERT 和 RoBERTa 同样无法避免。

肖仰华，上海市数据科学重点实验室主任指出，大模型时代的隐私泄露和侵权问题日益凸显，其主要源于大模型的超大规模参数和多元化的数据来源。生成式大模型的结果是通过从海量语料库中随机拼接概率化的方式生成的，这使得传统用于判断隐私侵犯的方法在大模型时代变得无效，从而在隐私识别环节带来了挑战。从保护的角度看，大模型基于深度神经网络Transformer的架构，而后者本质上是一个黑盒模型，其学习到的知识体系和能力、内部运作规律至今仍然鲜为人知，这无疑让隐私保护在许多情况下显得无所适从。

在深度学习领域，模型的准确性与可解释性通常不可兼得：诸如神经网络、梯度增强模型等黑盒模型通常具有很高的准确性。但这类模型的内部工作机制却难以理解，也无法估计每个特征对模型预测结果的重要性，更不能理解不同特征之间的相互作用关系。而线性回归和决策树之类的白盒模型的预测能力通常是有限的，且无法对数据集内在的复杂性进行特征交互之类的建模。然而，这类简单的模型通常有更好的可解释性，内部的工作原理也更容易解释。

隐私计算如何切入大模型？

无可否认，大模型作为先进的生产力，个人和企业都应积极接纳。若因隐私问题而拒绝使用，实际上是在一定程度上放弃了这种先进的生产力。因此，解决问题的关键在于如何处理隐私安全问题，并采取相应措施提升隐私保护能力，同时积极应用大模型，这才是应对问题的正确方法。

通过多方安全计算、联邦学习、可信执行环境等技术，隐私计算起着平衡数据隐私保护与数据开放共享的作用，是数据要素安全领域的关键技术之一。

大模型时代，隐私计算技术本身的研究、发展和关注的重点也发生着改变，为让其更好地适应大模型，可以重点关注其可用性的研究。

肖仰华认为，隐私计算在大模型时代迎来了全新的机遇。诸如差分隐私、联邦学习等传统隐私计算都是在算法层面开展工作，但是算法层面工作的实施有其前提：例如，保护对象明确才可以实施差分隐私算法，合作协议清晰才可以施展一些联邦学习的策略。而海量化、参数化的大模型，给传统的基于可控、可解释、清晰的技术路线的隐私计算提出了全新的挑战。在不可控、不可编辑、难以解释的大模型环境下，传统方法如何进行发展，这看似是挑战，更多是机遇。

此外，从算法层面上升到架构层面，大模型的隐私保护还要从隔离机制角度分析。对于一些需要进行分层分级保护的个人与企业私密数据，可以建立起大模型自主学习能力和敏感数据相隔离的架构，大模型继续提供其智能，而需要保护的数据和信息依然被保存在密态数据库中，二者的相互协同也给隐私计算带来了新机遇。

中国信通院云大所大数据与区块链部门副主任闫树表示，隐私计算的各类技术路线都有与大模型应用场景适配的方式。比如在云端部署一些 TEE（可信执行环境）做训练，或在模型推理阶段用多方安全计算来提升隐私保护能力，但可能会相应牺牲一些模型的性能。

大模型不应成为脱缰野马

今年 5 月，肖仰华曾发表一篇题为《不要让大模型变成一场华丽的烟花秀》的近万字长文，主张发展大模型的同时要形成有效监管，对于隐私侵犯等破坏行为不能忽视，必须从产业的两侧加强安全底线、伦理标准与合规规范的建设：在数据源头端，加强对训练语料合规性的认证；在生成结果端，对生成内容建立起相关规范。

目前，网信办正推动《生成式人工智能服务管理办法》的出台，对生成式 AI 技术、生成内容、主体责任、数据源和数据处理等方面都作出了规定。

仅就隐私保护而言，我们需要建立起一个系统性的隐私保护防范体系：从用户角度，要建立起对大模型隐私的安全意识，要充分认识到在使用大模型过程当中，你的数据有可能被服务方所收集，从而导致隐私泄露；从提供大模型服务的厂商角度，要提升服务的规范性，给予用户充分的知情权，在用户完全授权的情况下，合理范围下收集用户相关的使用的数据，不应该超出用户授权的范围。

技术方面，在模型与应用之间还存在一层中间层，可以打乱、混淆用户的数据使用与查询记录。此外，以大模型治大模型也是一条重要路径，即靠大模型自身的能力来保护隐私，解决隐私问题。大模型可以识别出语料中有隐私侵犯嫌疑的内容，我们可以利用大模型清洗隐私数据、对其生成结果进行评估，来规避侵犯隐私问题的发生。

查看原文

大模型引发的隐私安全危机：ChatGPT等智能工具带来的挑战