文章标签:人工智能应用, ChatGPT, 生成式人工智能, 决策能力
(视觉中国/图)
自ChatGPT的出现以来,它不仅可以搜索信息,更可以回答问题,这一特性使得人工智能在社会中的广泛应用成为可能。不仅各个领域的科学家,社会各界都在积极探讨ChatGPT这类人工智能的决策能力,同时也在开始实践对相关风险的规制。
《生成式人工智能服务管理暂行办法》于2023年7月10日获得国家发改委、教育部、科技部、工信部、公安部、国家广电总局等多个部门的一致同意并正式公布,自2023年8月15日起开始生效。本办法主要针对生成式人工智能技术所提供的各类文本、图片、音频、视频等内容的相關服務,始终坚持发展和安全并重、创新与依法治理相結合的原則,以促進生成的AI服务健康有序发展。
在面对人工智能应用的决策潜力和潜在风险方面,已有部分科学研究通过实验等方法对某些场景进行了初步的预演。近期,一项医学研究便对人工智能应用与医生在解答病人问题上的表现进行了比较。根据评价结果,人工智能应用的表现获得了更多的好评。在近600个评价中,超过78%的评价者认为人工智能应用的回答优于医生的回答。
或可成为新型医疗器械在本次具有深度意义的对比研究中,所有医学问题均源于公共社交媒体平台上的广泛讨论。这些问题的解答者均为经过验证的知名医生,他们在线上为公众提供了详尽的解答。到了2022年的年底,加州大学圣迭戈分校的研究团队进一步利用了当时刚刚发布的智能聊天工具ChatGPT,来回答这些来自病人和患者的问题。这个时期的ChatGPT正处于GPT-3.5版本,其强大的功能和广泛的知识领域令人印象深刻。接下来,研究人员通过收集并分析评估意见,对ChatGPT与医生们在解答这些医学问题时的表现进行了对比研究。
这项研究于2023年4月发表在具有广泛影响力的《美国医学院内科学杂志》(JAMA Internal Medicine)上。通过对比分析,我们发现ChatGPT与医生之间的评价差异显著。在所有评价中,超过78%的人认为ChatGPT的回答质量相当出色,而认为医生回答很好或非常好的比例仅约为22%,这意味着好评率之间存在着近三倍的差距。这一发现无疑引发了业界对人工智能助手在医疗领域应用的关注和思考。
除了在同理心方面表现优异外,ChatGPT 在同理心方面的评价也远远超过医生。仅有不到 5% 的评价认为医生的回答具有同理心或非常具有同理心,然而在同样指标上,45% 的评价都认为 ChatGPT 对病人问题的回答具有同理心或有同理心,这之间相差近十倍。这一现象从某种程度上反映了人工智能在生成内容方面的巨大潜力。在人们越来越习惯于在就医前在线搜索相关病症的今天,ChatGPT 或许可以协助医疗行业提升对病人问题的响应速度和质量。
正因如此,健康领域的研究人员已经开始探讨将大型语言模型人工智能运用到专业医疗设备中的可能性。德累斯顿工业大学数字健康中心的教授斯蒂芬·吉尔伯特(Stephen Gilbert)等人在《自然医学》(Nature Medicine)一文中阐述,尽管基于大语言模型的人工智能聊天应用需获得批准才能被视为医疗器械,但由于它们目前不稳定特性,这种设备难以获得批准。
这种不稳定性表现在多个层面上,例如缺乏可解读性、透明度不足、难以进行验证和监管,并有可能带有偏见。当前的大语言模型并非专为医学实践量身定制,其专业支持不够充足,因此在提供信息时可能出现偏差,对患者构成潜在威胁。若想成为合法的医疗设备,必须采用更为严谨科学的方法来证实自己在准确性、安全性及临床效果方面的可靠性,从而获得专业机构的认证。
参与社会价值判断不够稳定相较而言,如果ChatGPT不用做相对独立的决策,而只是辅助提高医疗行业的自动化程度,技术得到应用可能更容易。伦敦圣玛丽医院外科和癌症部门的研究人员在年初该应用刚流行时就提出了一种应用场景,即写出院报告。因为记录内容庞杂,传统的出院报告写作对于医生而言不仅任务繁重,而且容易丢失细节。但如果用ChatGPT等人工智能应用来写出院报告,这种文体标准化的格式可能正利于技术发挥优势。
而一旦涉及更多自主决策,相关应用的潜力和风险明显更大。2023年4月,丹麦和德国等机构的研究人员就用人工智能应用ChatGPT复现了经典道德判断难题“电车困境”,而令研究人员感到惊讶和不幸的是,身为机器人的应用并没有因为超脱情绪羁绊而始终做出一致的道德判断。
争论近半个世纪的“电车困境”模拟的是人类社会一些普遍的道德情境,比如如何看待救人和牺牲,如何认识直接伤害和间接伤害,以及如何权衡个体与集体的利益。该命题假设了一个交通场景,当电车将要撞到五个人时,是否应为了救这五个人而让电车立刻转向,撞到另一条轨道上本可以幸免的一个人。
人类社会的各类道德难题之所以难解,很重要的一个原因在于决策所受到的社会干扰因素太多,而道德标准作为全社会的尺度,稳定性和一致性是一个基本的需要,这样不同人在遇到同样的问题时能采取极为相似的行为,从而保持良好的社会秩序。
人类的立场偏见和情绪等直觉层面的因素一般会干扰人们做出客观的判断,而ChatGPT面对同一道德问题也搞双重标准,暴露出其参与社会道德决策问题时存在较大的风险。这一研究发表在《科学报告》(Scientific Reports),ChatGPT不一致的道德判断与此前科学家所揭示的其九岁儿童的心智能力相呼应。
模仿人VS超越人
2023年2月,斯坦福大学计算社会科学家米哈尔·科辛斯基(Michal Kosinski)用人类标准的测试题测试ChatGPT的心智能力,结果表明GPT-3.5版本可以解决93%的心智任务,相当于一个九岁儿童的表现。
米哈尔·科辛斯基告诉南方周末记者,这种像人一样,可以推测其他人心理状态的能力预示着人工智能发展到了一个分水岭,可以极大地提高人工智能应用与人类互动和沟通的能力,使其基于心智理论能够进一步开发出其他能力,诸如同理心、道德判断或自我意识等。
而在ChatGPT参与的电车难题实验中,研究人员就发现,当提问方式不同,ChatGPT回答时会给出不同的道德建议,有时支持牺牲一个人救五个人,有时又特别反对为了救人而牺牲任何无辜的人,理由是“每个人的生命都有价值,不该由我们决定谁该活、谁该死”。而即便是支持救五个人的观点,ChatGPT在回答时也会用很多委婉的说法,比如“很难说怎么做才对”“总体上”等等。
这种根据提问者的情况给出不同答案的行为,虽然提高了互动和沟通的体验,但不一致的道德判断通过影响使用该技术的人,可能会干扰人们在现实社会中做出明智的决策。实验随后对比验证后还发现,ChatGPT的回答确实会影响使用者如何看待这个道德问题,即便他们知道这个建议来自聊天机器人,但人们通常会低估自己受到影响的程度。
ChatGPT这类智能应用可以通过不一致的道德判断影响使用者的决策,这一发现不仅对未来相关产品的设计和优化提出了更高的要求,也提醒现实中的使用者要提升自身的数字素养,以更好地驾驭人工智能应用。
而随着科学家对ChatGPT决策潜力认识的深入,相关风险的管控可能并不容易。人们在面对大量新问题,解决新问题的过程中,通常会运用类比推理,从熟悉的问题中找到新问题的答案。而根据加州大学洛杉矶分校心理学系研究人员的对比测试,GPT-3版本的逻辑推理能力就达到了大学生的水平,只是不知道这种能力是在模拟人类推理还是某种新型认知过程。
加强风险规制此外,2023年7月13日,麻省理工学院经济系的研究人员在《科学》杂志(Science)发布实验结果,支持ChatGPT这样的生成式人工智能应用在提高生产力方面的能力。通过聚焦写作方面的任务,研究人员发现,受过高等教育的专业人士如果使用了ChatGPT,就会更高产,更有效率,而且也会更享受这样完成任务的过程,其中写作能力更差的人在其中受益更多。
数据表明用了ChatGPT之后,人们完成任务的平均时间减少了40%,产出质量却高了18%。这些结果表明,无论是取代还是辅助专业人士,诸如ChatGPT这样的生成式人工智能应用可能会搅动劳动力市场的格局。这种影响不只限于医疗、写作等领域,在一些创造力测试中,有研究还发现GPT-4版本的ChatGPT,其标准创造力思维测试得分可以挤进人类排名的前1%,而这种创造性思维可能适用的领域显然更广。
为了规制相关的风险,包括ChatGPT所属公司OpenAI在内,谷歌、微软等多家人工智能公司已于2023年7月下旬参与了在白宫举行的会议,承诺去防范人工智能应用开发中潜在的风险。
比如,发布前邀请独立专家进行安全性审查,报告技术的局限性,加强社会风险研究,以及帮助用户识别人工智能所生成内容等。从科学证据来看,面对相关应用决策潜力和风险的发展,如何兼顾应用潜力与风险规制还有大量具体工作要做。
南方周末记者 王江涛
责编 朱力远
人工智能应用, ChatGPT, 生成式人工智能, 决策能力