近日来人工智能工具 ChatGPT 大火,占领各大媒体头条。同时Meta也有 BlenderBot,谷歌也有自己的AI Chatbot,这个领域必定在接下来的几年百家争鸣,百花齐放。
ChatGPT的重点在于GPT,Generative Pre-trained Transformer(生成式预训转换器)。通过深度学习和训练,它有能力极快地搜集并整理资料,组合成相当成熟的文本回答。这牵涉到数据搜集(input)和数据整理输出(output)两个方面;随着这一大类“生成式”人工智能越来越广泛的新应用,这两方面都存在很多潜在法律问题。
早在2016年,微软AI Tay昙花一现的推出和停止,已经展示了科技发展的加速度,只会越来越严重地扩大其和立法滞后之间的鸿沟。如果立法跟不上,那么很多新技术就可能是潘多拉的魔盒。这里聊聊此类技术推广比较急切需要跟进的几个立法问题。
一、数据隐私和同现有数据法的冲突
获取数据首当其冲要关注的就是数据隐私和保护问题。当我们自己用搜索引擎查找资料时,对数据的采集和整合与AI是完全不可相提并论的,这就牵涉到大量的数据法冲突。比如,自从“欧洲通用数据保护条例(GDPR)”出炉,各公司机构都颁布了自己的数据隐私条款,列清各自对这些数据的处理条件和责任。然而当这些数据被AI取得后,又被分散入个体用户手中,这些数据的所有权和保护就被架空。从此谁来对数据隐私和有效期负责?谁决定数据的应用限制或许可?谁来控制这些数据不被再次多次转手甚至滥用?
二、知识产权问题
数据一旦被收集整理,紧接而来的知识产权问题也进入了更复杂的区域。这里谈的不仅仅是简单的不注明原创的侵权问题:GPT和普通的抄袭不同,它有能力按照预训的指令模仿已经存在的内容风格进行再创作,那么就牵涉到侵权主体责任的定义问题和“风格”作为知识产权的界定和权益问题。风格拷贝在版权法上当然也是一种剽窃,但其界定本身又相当抽象,又牵涉到多重执行主体,这会给保护原创带来新的挑战。近期洛杉矶艺术家 Hollie Mengert 的作品被用作训练生成式AI “Stable Diffusion”的模板,并被模仿再创作的事件,就体现出这里立法的模糊性。
三、运用他人数据营利问题
类似Hollie Mengert作品被模仿和再创作的事件,引申出如果这类信息或者作品被用作商业工具营利,那么接下来该怎样处理其相关权益和经济纠纷的难处。很多网络信息的确是公开免费的,但并不代表就可以用这些资料间接盈利,这方面常常会有限制性条款。比如以后如果需要付费问ChatGPT问题,那些回答的信息来自不同源头的组合,其中不乏私有专业以及受版权保护内容,那么又该如何处理其相关权益纠纷?
四、数据质量和算法偏差
虽然随着技术的提高,AI的数据质量必定是越来越高,但使用者依旧不能盲目地对此形成依赖。数据的真实性可靠性,始终是需要使用者自己衡量决策的。AI可以给你优质的答案,也同样可以给你误导性的答案,提出问题的方式本身也可以导致回答差之千里或者带来伦理问题。此外,根据训练AI所用的数据库不同,得到的结果也会有算法偏差。也有给Al设定特定意识形态的问题。
五、网络犯罪
AI有多大能力行善,就同样有多大能力做恶,归根结底,它只是一个工具而已。比如几年前Deepfake技术在色情业的应用,就引起了AI在身份欺诈类犯罪方面的诸多讨论。但这方面的法律,牵涉到诈骗、名誉权、肖像权、诽谤、身份盗窃等等多个方面,却依旧滞后,几年过去了并未得到完善。随着AI的进步,其用于各类犯罪的能力,只增不减。像ChatGPT这样的工具,完全有能力伪装成我们非常熟悉的人来和我们进行沟通,写出以假乱真的各种书信文件,在私人和商业生活中引起更大的混乱。
综上所述,AI带来的多种潜在问题在法律上还没有足够的规则来予以指导和规范。而法律的生成又必定是滞后的。如果自上而下立法,难免对未来情况产生不合理揣测导致无的放矢;如果自下而上立法,则必须承受真实生活中早期犯罪的代价,才能逐步吸取教训设立规矩。无论用怎样的策略努力在法治上跟上科技,其紧迫性和困难性是不言而喻的。
我们唯有寄希望于魔高一尺道高一丈,由科技发展本身来平衡滥用科技的危险。比如ChatGPT一出就被很多学生用为写论文的作弊工具。于是立刻就有人开发出例如GPTZero这类软件,来侦查文本是否由AI执笔。一物降一物,这类发展在科技界的产生速度可大大超过社会和政府立法的速度。
科技发展难以阻挡,未来已来,我们做好准备了吗?
(作者系法律学者)
• (本文仅为作者个人观点,不代表本报立场)
陆倩