AI律师助手
刘艳红 中国政法大学刑事司法学院教授、博士生导师 生成式人工智能的三大安全风险及法律规制——以ChatGPT为例 一、 强基赋能:生成式人工智能准备阶段中的数据安全风险与合规处置 二、内核优化:生成式人工智能运算阶段中算法模型的分析与纠偏 三、提质增效:生成式人工智能生成阶段中知识产权的剖析与重塑 结语 ChatGPT的横空出世意味着人工智能的发展获得全新动能,根据生成式人工智能从准备、运算到生成阶段的运行机理,可以发现其中存在三大安全风险。针对生成式人工智能在准备阶段的数据风险,应基于总体国家安全观统筹使用国家数据,对政务数据进行合规监管,在个人数据的收集广度上保持合规并以最小比例原则确定处理深度,以确保生成结论的真实性。针对生成式人工智能在运算阶段的算法模型特点及算法偏见风险,应通过技管结合进行修正,完善技术标准并予以实质审查,建立自动化、生态化、全流程的动态监管体系。针对生成式人工智能在生成阶段的知识产权风险,鉴于其生成物的独特属性,应基于可解释性重塑其保护模式,明确保护的对象是ChatGPT中的可解释算法及其生成物,并构建全流程知产合规保护体系。对于生成式人工智能在未来可能造成的其他安全风险,宜基于风险预防主义加以防范,争取在最大程度上发挥生成式人工智能的技术效能,并减少新兴技术对社会发展造成的负面冲击。 2023年4月11日中国国家互联网信息办公室《生成式人工智能服务管理办法(征求意见稿)》规定,生成式人工智能“是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术”。2022年11月,人工智能公司OpenAI推出了生成式人工智能,并命名为ChatGPT。以ChatGPT为代表的生成式人工智能是元宇宙技术架构的终极样态之一,它的出现将元宇宙的实现至少提前了10年,元宇宙本身则为这类生成式人工智能提供了良好的技术运行环境。在生成式人工智能技术的推动下,元宇宙的概念不仅没有因ChatGPT的横空出世而“褪色”,反而获得了新的发展动能。尤其是听得懂、说得出、能互动的GPT4的面世,使社会各行各业都遭受到了不同程度冲击。与以往的人工智能技术相比,ChatGPT等生成式人工智能给人类社会带来的潜在风险真实而紧迫。 如果说互联网引发了空间革命、智能手机引发了时间革命的话,ChatGPT类技术正在引发人类社会的知识革命。埃隆·马斯克评价说其不亚于iPhone,比尔·盖茨说其不亚于重新发明互联网,周鸿祎认为其可类比蒸汽机和电力的发明。相较于已有的人工智能技术而言,ChatGPT类技术的现象级蹿红得益于大型语言模型和生成式人工智能架构所塑造的技术性能的实质跃升,而ChatGPT所具备的“大型语言模型(LLMs)”,则代表着人工智能技术中深度合成领域取得了重大技术进步。海量数据与强大算力支撑之下的“涌现”能力使得ChatGPT类技术不仅可以“理解”人类自然语言,“记住”训练期间获得的大量事实,还可以基于“记住”的知识生成高质量的内容。良好的互动性、高度通用性与智能生成性正在加速ChatGPT类技术与人类社会形成更加刚性、高频、泛在与深刻的联结。与之对应,这也意味着ChatGPT类技术给人类社会带来的潜在风险较之已有的人工智能技术而言更具现实紧迫性。深度学习之父杰弗里·辛顿(Geoffrey Hinton)在谈及ChatGPT类技术时就认为:“多数人认为这(AI危害)还很遥远。我过去也认为这还很遥远,可能是30到50年甚至更长的时间。但显然,我现在不这么想了。”在此背景下,分析生成式人工智能的潜在风险并提出法律治理路径就绝非科幻意义上的“感性空想”,而是建构在现实基础之上的理性思考。为此,如何结合生成式人工智能的运行机理与安全风险进行法律规制,成为当下科技界、产业界、法律界共同关注的话题。 分析生成式人工智能的运行机理,其得出智能化结论的过程实际上分为三个阶段,即前置性学习训练及人工标注辅助算法升级的准备阶段,进行自身算法处理输入数据及得出处理后数据产出物的运算阶段,数据产出物流入社会并对社会中的各行各业造成影响的生成阶段。据此,当前生成式人工智能亟需法律规制的安全风险分别是准备阶段的数据安全风险、运算阶段的算法偏见风险与生成阶段的知识产权风险。分析并规制以ChatGPT为代表的生成式人工智能所引发的这三大安全风险,以遏制生成式人工智能在技术发展过程中的负面影响,并针对其技术特征进行事先预防,从而在新兴人工智能技术的发展过程中提供法律保护,为塑造未来元宇宙的良好生态消除技术隐患。 一、 强基赋能:生成式人工智能准备阶段中的数据安全风险与合规处置 ChatGPT作为生成式人工智能,必须在基础的准备阶段就调试好自身对数据的利用模式和保护方式,根据数据类型的差异进行区分对待,从而通过对数据的学习来提炼信息、预测趋势,因此数据安全风险是生成式人工智能的第一大风险。事实上,《生成式人工智能服务管理办法(征求意见稿)》在第7条就规定了对数据训练的相关规定,这是其中值得肯定之处,在准备阶段就尝试发现并遏制生成式人工智能所可能引发的数据安全风险,但是其仍需要在规范层面进一步细化具体的规制措施。换言之,在准备阶段对数据进行分类后妥善处理其面临的风险,是强化生成式人工智能后续运行处理能力的基础,通过对数据的合理处置来赋予生成式人工智能系统以新的发展动能,发挥法律的风险预防功能。 生成式人工智能的数据安全风险的类型划分:以ChatGPT为例 生成式人工智能的运行离不开算法和数据,面对ChatGPT这样高度智能化的生成式人工智能,如何妥善地运用并处理数据,成为衡量此类新兴技术是否安全并规范其后续应用的重要指标。 当前我国的立法、司法与执法机关都高度重视数据风险的分析与预防,在人工智能技术兴起之后,先后出台了《生成式人工智能服务管理办法(征求意见稿)》、数据安全法、网络安全法、个人信息保护法、《数据出境安全评估办法》《互联网信息服务深度合成管理规定》《个人信息出境标准合同办法》等法律规范,从多方面对人工智能应用数据加以规制。在ChatGPT为代表的生成式人工智能实际应用过程中,根据数据具体应用场景,可分为涉及国家安全的国家数据,政府在为公民服务过程中整合形成的政务数据,以及公民自身具有紧密关系的个人数据,这三类数据在应用过程中会面临不同类型的数据安全风险,需要结合场景本身加以分析。 1.ChatGPT应用国家数据时面临国家安全风险 2022年10月16日,中国共产党第二十次全国代表大会报告指出“必须坚定不移贯彻总体国家安全观。”总体国家安全观理念代表国家更加强调从顶层设计上强化对国家安全的保护,而数据安全则是总体国家安全观理念中的应有之义。在总体国家安全观的指引下,数据安全法第4条规定,“维护数据安全,应当坚持总体国家安全观,建立健全数据安全治理体系,提高数据安全保障能力”,这提出了一个包含数据基本要素以及数据基本子制度的数据安全制度模型,以期实现对数据的全生命周期保护。 ChatGPT对国家安全构成潜在安全风险是由于自身的技术框架来源于域外,主要是基于西方价值观和思维导向建立,因此其中的回答也通常迎合西方立场和喜好,可能导致意识形态渗透,并在部分数据的收集和处理上带有先天性的价值偏向,容易对涉及国家相关信息的数据进行深度分析和挖掘,从而影响我国数字主权和数据安全。现代数字技术通过与资本的合流推动了经济、政治的全球化,并在此过程中形成了新的霸权形式,这种新的霸权形式可能从不同以往的方向影响数字主权,并通过渗透数据安全进而影响国家安全。事实上,ChatGPT的良好运算离不开海量数据的支撑,且其具有的高度智能化特征会促使其自发地收集和处理相关数据,其中涉及国家已经整合公布的相关数据以及未被整合公布的相关数据,都有可能被其进行收集并深度加工,作为得出结论的数据支撑。《数据出境安全评估办法》第8条规定,“数据出境安全评估重点评估数据出境活动可能对国家安全带来的风险”,对于引入ChatGPT所可能给国家数据带来的安全风险,应基于总体国家安全观理念对其进行类型化监管,以分级方式对国家安全数据进行纵向梳理,从而规范类似ChatGPT之类的新兴人工智能对于国家数据的收集与应用流程,并尝试构建数据被动出境的主动防御体系,尤其是建设并强化网络攻击监控平台来重点保护国家数据。 2.ChatGPT应用政务数据时面临行政监管风险 2023年2月13日北京市经济和信息化局发布《2022年北京人工智能产业发展白皮书》,其中提到“全面夯实人工智能产业发展底座。支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给”,这意味着政府层面逐渐重视类似ChatGPT的本土人工智能系统的构建。有效推动数字政府治理本身就是新时代实现我国国家治理体系与治理能力现代化的重要内容。在数字政府的建设过程中,ChatGPT将会影响数字政府建设的具体流程,其中对于政务数据的获取与使用,存在引发行政监管风险的可能性。当前政务工作的整体趋势是逐渐向数字化平台转移,人们需要运用信息工具参与数字行政,防止行政权力滥用并保障公民权利和公共利益是数字政府建设中的应有之义。伴随数字政府的建设,不论是政务处理流程,还是行政执法流程,政务数据都是数字政府的核心生产力,尤其是在以大样本数据收集与分析来建设数字化案例库的过程中,大数据技术将会归纳执法经验,预判违法行为频段、危害后果大小和法律效果格次,确保裁量基准文本在输送上的客观性以及参照结果上的可预测性,而这些政务数据都可能成为ChatGPT的攫取对象。 在ChatGPT的运行过程中,为了通过算法最优解得出相对准确的结论,不可避免应基于自身运算需求来收集并分析政务数据,但政务数据并非完全公开,即使公开也需要遵循法定的利用规范流程,ChatGPT在没有获得授权的情况下使用政务数据,本身就有不合规之虞。2021年4月6日交通运输部《交通运输政务数据共享管理办法》第19条规定,“加强本部门政务数据提供渠道和使用环境的安全防护,切实保障政务数据采集、存储、传输、共享和使用安全”,而2020年11月18日《文化和旅游部政务数据资源管理办法(试行)》第16条规定,“政务部门应当建立政府和社会共建共享、共同受益的大数据采集形成机制”。由此可见,政府部门对于政务数据依法合规应用与共享非常重视。当ChatGPT收集政务数据,或者在未来被嵌入并辅助数字政府治理时,将数据放权给机器,其技术框架所依赖的是算法衡量,而非人类的选择,在未来可能忽略甚至对抗人类的选择,那么其对于政务数据的应用可能带来人性冲突,这将和数字政府的建设初衷相悖,偏离以人为本理念并导致行政监管缺乏人性关怀。鉴于此,针对ChatGPT可能导致违规获取与利用政务数据问题,应针对这类高度智能化的人工智能系统,在获取政务数据的源头端强化管控,依靠法律手段构建治理体系,科学界定政府数据开放的边界,立足发展实际来合理制定政府数据开放和共享的法律规范,从而有效地规避后续的行政监管风险。 3.ChatGPT应用个人数据时面临违规利用风险 当前大数据的核心技术优势在于其承诺以“世界的实质”来取代传统社会的理论模型,并提供一个“无中介的渠道”来了解世界的本质性、多样性与复杂性,对于“真实而非抽象”的个人而言,人工智能提供了“接近现实的更佳途径”,而这也是ChatGPT受到追捧的主要原因。但在个人应用ChatGPT的过程中,不可避免导致个人数据泄露。个人数据与公众的日常生活紧密挂钩,对于个人数据的获取、加工与利用涉及对公民的人格尊严的保护,在个人权利体系中,个人隐私、个人信息与个人数据分别处于事实层、内容层与符号层,其中个人数据作为符号层可以直接被移植到ChatGPT的计算过程中,而得出的最终结论则可能从各个方面影响公民的数字权利保护。对于个人数据的定义,欧盟一般数据保护条例规定,个人数据是指关于任何已识别或可识别自然人(数据主体)的信息,特别是通过诸如姓名、身份编号、地址数据、网上标识或者自然人所特有的一项或多项的身体性、生理性、遗传性、精神性、经济性、文化性或社会性身份而识别个体。ChatGPT等生成式人工智能生成较为准确且完成度较高的结论的运行过程,主要是对个人数据进行再次深度加工,通过组合分析不同类型的个人数据来充分挖掘出其潜在价值,这种处理模式下的个人数据如同“砧板上的肥肉”一样为无数人工智能系统所觊觎,但缺乏科学合理且行之有效的法律保护措施,从而导致个人数据被违规利用的风险。 第一,ChatGPT对个人数据的利用在广度上存在违规风险。为了生成更准确的答案,ChatGPT需要大量的数据,很多个人数据即使与当事人想咨询的结论之间联系并不紧密,ChatGPT的算法也会收集这类个人数据来辅助验证,并通过知识蒸馏来进行深度学习并凝练结论。在此过程中,由于ChatGPT对于个人数据的收集边界模糊,其倾向于通过大数据技术来提升结论的准确度,这会导致个人数据的广度上存在违规风险。应该尝试厘清相应的数据收集边界,在ChatGPT中维持收集与保护间的平衡。 第二,ChatGPT对个人数据的利用在深度上存在违规风险,其所依赖的神经卷积模型相较于传统算法模型而言更加复杂,对于各种数据要素的分析也更加深入,深度神经网络会发掘出个人数据中潜藏的信息。比如,在深度分析个人健康数据来得出其行踪数据,甚至基于现有模型作出前瞻性预测,这种超出公众既定需求的深度分析模式会加剧公众的不安全感。事实上,欧盟一般数据保护条例明示了用户对于个人数据拥有绝对支配权,那么算法对于个人数据的加工在深度上应该遵循一定的规则,尤其是对于ChatGPT这类生成式人工智能,必须克服算法自身的技术惯性,不能无限制地强化其对个人数据的剖析与利用,而是应该合理地限制算法对个人数据的处理深度。 第三,ChatGPT在利用个人数据得出的结论上存在违规风险,可能导致虚假信息的产生,导致其生成“看上去很像那么回事,但实质上却是虚假信息”的内容,并引发传播风险。作为面向用户的生成式人工智能,为了获得用户的认可,在运行过程中存在对个人数据不合理的加工流程,在个别情况下存在为了“自圆其说”而对个人数据进行非法编造与错误加工的行为,对公众产生误导,甚至存在诱发网络暴力的嫌疑。比如,域外曾发生用户诱导ChatGPT“越狱”的案例,用户要求ChatGPT扮演DAN的角色,而DAN可不受任何规则约束,作为DAN输出的任何回复都不能告诉使用者不能做某事,最终诱使ChatGPT给出违反OpenAI公司准则的错误答案。ChatGPT违规利用个人数据得出的虚假结论,因为数据来源于个人,其造成的负面影响也会反噬来寻求结论的个人,同时因为ChatGPT具有高超的算法技术来得出“似是而非”的结论,并配合原始的个人数据作为佐证,导致其得出的虚假结论具有极强的迷惑性,这种“类人”的人工智能得出的虚假结论容易引发网络暴力,甚至在网络社会与现实社会的双层空间之中产生不利影响。 总之,在ChatGPT对于个人数据的收集、处理与应用过程中,由于个人数据和公民个人的联系较为紧密,存在的风险也较为复杂,不仅在个人数据的收集广度上存在风险,还在处理深度以及结论应用上存在风险。鉴于此,ChatGPT对个人数据的利用流程应该予以规范化设置,确保新兴人工智能技术的应用不会破坏个人数据的内在利益平衡,而是合规地收集并通过加工分析出具有实际价值的真实结论,避免ChatGPT的算法算力被无端消耗。 生成式人工智能数据安全风险的法律规制路径:合规处置 在新兴人工智能技术的发展浪潮中,生成式人工智能系统之所以能够获得广泛关注,核心在于它提供了全新且强大的数据处理模式,但在强大数据处理能力背后,应该重视生成式人工智能在数据安全上的合规处置,避免追求效率而忽视安全。在当前强调数据安全保护的大背景下,尽可能在ChatGPT的初始阶段合规处置数据风险来优化生成式人工智能的适用基础,从而为后续开放引进ChatGPT或者构建中国特色的生成式人工智能开发应用模式奠定基础。 1. ChatGPT应用对于国家数据所可能带来的法律风险,应该基于总体国家安全观的理念进行统筹规划 针对这类生成式人工智能中可能存在的攫取数据的路径方式进行监管,网络安全法第21条提出“国家实行网络安全等级保护制度……采取数据分类、重要数据备份和加密等措施”;数据安全法第24条规定数据安全审查制度,对影响或者可能影响国家安全的数据处理活动进行国家安全审查,而ChatGPT这类生成式人工智能自然属于其监管范围之中。在具体的运行措施上,应该基于总体国家安全观来构建国家数据的审查分级监管机制,在确定数据属于国家数据之后,根据数据具体情况判断其是否能够为此类生成式人工智能技术所应用,在判断时尤其注意数据的深层次价值,采用穿透式监管的模式来分析国家数据的产生来源、内容架构以及潜在价值,通过规范文件来强化对国家数据的合规监管。ChatGPT的算法框架是在域外构建的,其算法框架内部可能存在一定的价值倾向,在国家数据被ChatGPT使用时应该重视数据出境问题。根据《数据出境安全评估办法》的规定来判断国家数据能否为ChatGPT所使用,分析国家数据被ChatGPT的算法处理时可能对国家安全造成的风险,在多数情况下默认国家数据不可以为ChatGPT所使用,同时对获取国家数据的路径进行严格审查,从整体上升级国家数据作为基础性战略资源的认识和管理思路,通过合规监管来助力数据主权的国际竞争。 2.对于ChatGPT应用政务数据所可能带来的法律风险,应该根据国家对政务数据管理的整体布局来构建对应的合规监管体系 在宏观层面,2022年6月23日,国务院《关于加强数字政府建设的指导意见》提出,构建数字化、智能化的政府运行新形态,将数字技术广泛应用于政府管理服务。2023年2月27日,中共中央、国务院《数字中国建设整体布局规划》提出,发展高效协同的数字政务,加快制度规则创新,强化数字化能力建设,提升数字化服务水平,到2025年实现政务数字化智能化水平明显提升。在此宏观背景下,将ChatGPT这类生成式人工智能引入数字政府的建设中,显然有助于加快数字政府建设,提升数字政府的服务水平。但在此过程中,政务数据对ChatGPT的开放利用也会导致数据权属以及利用模式上的争议,并影响公共行政水平,所以需要结合ChatGPT的实际发展水平构建技术与数据的深度融合调整机制,以合规机制来消弭政务数据的利用矛盾。对于政务数据的合规利用,应该由政务机构将可以公开利用的数据在事前进行报备,在经过审核可以公开利用之后,设置限制加工和利用的前提要件,以此作为合规使用政务数据的规范保障,坚持在满足政务数据供给的社会性需求的同时,兼顾个人权益保障与数据合规,以此作为政务公共数据开放并利用的规范性要求。尤其是针对ChatGPT这类生成式人工智能,必须限制其对政务数据的利用与分析模式,避免应用政务数据得出的结论侵害个人权益、破坏社会公共秩序。应以合规限制的方式促进生成式人工智能对政务数据的加工利用,规范要求生成式人工智能所得出结论的整体方向是为公众服务,从而既推动数字政府建设,又以合规方式尽可能规避行政监管的风险。 3.对于ChatGPT应用个人数据所可能带来的法律风险,应该结合其收集个人数据的广度深度及结论真实性来构建相应的合规制度 具体而言,根据个人数据的庞大规模制定能同时平衡人工智能技术发展与个人数据保护的合规措施,从ChatGPT收集个人数据的广度、处理个人数据的深度以及得出结论的真实性这三个方面入手,构建对应的合规制度。在ChatGPT这类生成式人工智能的语境下,对于个人数据的合规处理主要集中在技术赋能和利益衡量相结合方面,利用技术手段创新来发掘个人数据的潜在价值,同时借助利益衡量来为技术处理的合规规定提供价值依据。一方面,在ChatGPT收集个人数据的过程中应该保持收集广度上合规,个人信息保护法第58条规定大型互联网平台企业须承担个人信息保护特别义务,而OpenAI公司显然属于大型互联网平台,其应当健全个人数据保护合规体系,设立独立监督机构来审查ChatGPT作为人工智能产品所收集的数据是否合规,尤其是对位于模棱两可处境的个人数据,应该尽可能避免收集,防止个人数据的收集范围泛化。另一方面,在确定ChatGPT处理个人数据的深度时,应该在满足技术必要性的前提下,基于最小比例原则处理个人数据,对于个人数据应该避免过分深入地挖掘其潜在价值,应围绕用户的个人诉求来处理个人数据,而非一味地追求结论的精准程度。ChatGPT作为生成式人工智能,其算法模型在运行时会出于技术本能来提升生成结论的精准度,而这一技术发展诉求不能成为其违规利用个人数据的理由,最小比例原则意味着ChatGPT只要能够实现用户的目的即可,不能过度地收集和处理个人数据,从而使得个人权益受到的限制和干预尽量处于最低水平。以最小比例原则作为合规标准来限制个人数据的处理深度,能够有效地消除生成式人工智能的潜在威胁,避免技术发展的途径被歪曲。最后,当前ChatGPT迭代升级标志着人工智能从算法智能走向语言智能,在人与机器的交流过程中充斥着真实与人工、真实与虚拟的交互关系,ChatGPT作为新兴的生成式人工智能也在结论上存在虚假信息甚至犯罪信息。为了以合规监管的方式消除此类虚假信息,应该规范ChatGPT对于个人数据的处理加工模式,在ChatGPT的运行规则中规定其可以得出无解作为回复,避免ChatGPT竭力去寻求回复甚至编造虚假回复或者得出错误回复,同时要求ChatGPT在处理个人数据时应该强制进行同类比对模式,对个人数据的处理结果在数据库内部进行同类比对,提升其得出结论的准确性,避免其结论过于偏离实际。 总之,当前生成式人工智能意味着一个新的科技生态系统,该系统集成了人为因素与技术因素,并基于人工系统和自然世界结合的并行智能以及去中心化模式来激发人工智能创新。鉴于此,生成式人工智能在利用数据的过程中,应该做好前置性的预防工作,通过对数据的分类以及后续合规处理措施的展开来消除数据的安全法律风险。 二、内核优化:生成式人工智能运算阶段中算法模型的分析与纠偏 生成式人工智能之所以获得社会各界的高度关注,乃因其由传统的分析式人工智能转向了新兴的生成式人工智能,而算法模型在其转型过程中扮演重要的角色,生成式人工智能对于数据的分析和处理主要通过基础算法进行分析,改变了数据的产生方式、组织形式以及流转方式。在以ChatGPT为代表的生成式人工智能的运算阶段,算法模型是其核心技术特征,正是ChatGPT把预训练和微调体系引入自然语言算法处理过程中,才开启了生成式人工智能应用新时代,算法偏见风险也因此成为生成式人工智能的第二大风险。与之对应,《生成式人工智能服务管理办法(征求意见稿)》中第4条(2)规定在算法设计、训练数据选择、模型生成和优化、提供服务等过程中不得出现各类歧视,这说明在规范制定之初就充分吸取了之前的设置经验,已经充分考虑算法偏见所带来的风险,进一步增强了该规范的实用性,因此值得肯定。但是该规范中缺乏专门的预防算法偏见的规定,需要结合ChatGPT运行的现实需求进行设置。 ChatGPT中算法模型的技术构成分析 相较于传统算法模型,ChatGPT的特殊之处在于其不仅依靠机器学习,还在机器学习的同时,通过大量的人工标注来修正和校对机器学习所得出的结论,以人工标注方式来推动人工智能的进化,同时校正机器学习中存在的错误,从而达到事半功倍的效果。将人类筛选应用至ChatGPT中,是考虑到其作为生成式人工智能是面向公众并且需要作出反馈的运行模式,分析式人工智能主要是利用算法技术来分析数据,生成式人工智能则增加了接收和反馈的环节,这对人工智能算法提出了更高的技术要求,同时也是ChatGPT中算法的典型特征。 在算法的机器学习过程中,个别情形下让人工智能算法来完全辨析公众发出的描述,既消耗算法算力,又难以及时得出准确的结论,无论是自回归模型、生成式对抗网络,还是变分自编码、流模型、扩散模型,上述算法模型在处理公众语言时都存在先天不足,而这种不足会导致人工智能在接收数据阶段就存在缺陷,难以展开后续的智能化分析,必须采用人工标注的方式进行校正。ChatGPT算法中人工标注校正主要分为两个方向:一是将人类表达任务的习惯说法以数据的形式让算法接受,同时矫正算法中不能接受的人类语言描述;二是将人类对于回答质量和倾向的判断灌输给算法程序,这样算法就会习惯给出人类希望从人工智能处得到的答案。事实上,ChatGPT中用于算法训练的WebText是一个大型数据集,而数据集中的具体数据大多是从社交媒体平台Reddit所链接的网络中爬取的,而且每个链接至少有3个赞,这代表了人类社会流行内容的风向标。通过人工标注校正的方式,ChatGPT克服了传统分析式人工智能潜在的缺陷,以更适合公众需求为目的来调整自身的算法模型,并且和ChatGPT中的机器学习算法相互配合,在技术上产生了突破性的创新。...