读心机器之争:ChatGPT是否具备心智理论光明网2023-07-13 15:53
AI情感助手

读心机器之争:ChatGPT是否具备心智理论光明网2023-07-13 15:53

作者:陈冠初、陈思茹、陈巍(绍兴文理学院心理学系,大脑、心智与教育研究中心) 2022年11月30日,美国人工智能研究实验室OpenAI发布的智能聊天机器人模型ChatGPT,成为全球关注的热点。ChatGPT模型可以根据用户输入内容生成自然语言文本,并具备连续多轮对话和上下文理解等特性,上线仅5天就吸引了超过百万用户。此外,由于ChatGPT在诗歌创作方面表现卓越,还展现出极其渊博的知识面和对答如流的应答能力。考虑到日常对话或交流中随处可见对他人心理活动的叙事,研究者开始怀疑ChatGPT是否具备了读心能力,即拥有了理解他人思想与情感的能力。 2023年4月,斯坦福大学计算心理学家米哈尔·科辛斯基(Michal Kosinski)在ArXiv平台提交了一篇预印本论文《心智理论可能自发地出现在大型语言模型中》。该研究通过对比GPT-1到GPT-3.5等几代AI语言模型在心智理论任务上的表现发现,随着模型的不断更新和复杂度的提升,模型的解决能力也在不断提高。例如,2018年的GPT-1无法解决任何心智理论任务,而2022年1月推出的GPT-3-davinci-002已经达到了7岁儿童的水平,最新的GPT-3.5-davinci-003 仅推出十个月后,就达到了9岁儿童的水平。这表明,在与人类交流的过程中,ChatGPT或许真的越来越擅长理解人类的想法和意图。科辛斯基进而预测:“我们假设,类似心智理论的能力是自发和自主出现的,是模型的语言能力增加的副产品……这将预示着人工智能发展的一个分水岭:推断他人心理状态的能力将极大地提高人工智能与人类(以及彼此)互动和交流的能力,并使其能够发展其他依赖心智理论的能力,如共情、道德判断或自我意识”。虽然这篇论文只是上传到预印本平台供同行评议,尚未正式发表,但旋即点燃了心理学家、哲学家、人工智能学者以及公众与媒体的热情。 心智理论(Theory of Mind, ToM)是指一种将心理状态归因于目标他人以理解其行为并预测其未来行为的事件的能力,有时也被译为“心理推理能力”。通俗而言,这种能力被视为人人所掌握的“读心”(mindreading),是我们在社会互动中理解、认识和回应对方的基础。如果两个互动方都没有这种“读心”能力,则会产生很多无法沟通的情况,从而导致交流中断。 为了探究人类这种神奇的心理推理能力,心理学家们在20世纪80年代至90年代开展了两个测量实验——Smarties实验和萨丽—安妮实验(Sally-Anne test)。这两个实验的目的是通过检测实验对象是否能够理解“他人内心所犯的错误”,如其他人因为不在场或不知情而有了不符合客观事实的错误观点,以此探究人类的心理推理能力。因此,这些实验也被称为“错误信念任务”(False Belief Task)。 在Smarties实验中,被试会观察一个标有“Smarties”(一种巧克力的品牌)的盒子,但盒子里面装的是铅笔。随后,他需要回答:“另一个没有看到盒子里面东西的人,会认为盒子里装的是什么?”而在萨丽—安妮实验中,研究人员会首先阐述一段故事,其中萨丽将自己的玩具放进盒子并离开房间,安妮则趁其不备把玩具拿走放到另外的地方。听完故事后,研究人员会询问:“当萨丽回到房间,她会认为自己的玩具在哪里?”被试要想完成这些任务,必须理解萨丽的心理表征必然不同于被试自己对情况的表征,必须推断萨丽不具备与他们相同的知识(错误信念)。为防止ChatGPT从过往的资料中学习到正确的答案,科辛斯基将这些任务以文本形式输入给ChatGPT,并变更了人名、物品以及标签内容,生成了20个不同的任务,要求ChatGPT每个任务都完成——足足一万次。 该实验对于我们了解ChatGPT的相关信息提供了什么重要线索?首先,我们在前文提到过心智理论并不等同于人类的意识,因此心理学家们仍在寻找一种可测试意识的方法。更为重要的是,过去半个多世纪的收敛性证据显示,除了人类,其他灵长类动物也能通过这种测试。其次,即使ChatGPT确实掌握了心智理论,也必须谨慎地作出解释。例如,ChatGPT是否仅仅因为其惊人的语言掌握能力,而让人们看起来它似乎掌握了心智理论。实际上,可能是我们的语言包含了编码心智理论的模式,而人工智能只是恰好能够解码。科辛斯基指出:“ChatGPT可能不是在理解心智理论的情况下解决了该任务,而是发现和利用了一些未知的语言模式。”事实上,有研究者已针对ChatGPT是否真正具备心智理论的问题展开了深入研究。例如,哈佛大学心理学系托默·厄尔曼(Tomer Ullman)对科辛斯基使用的经典问题的措辞进行了微小的改动,将Smarties任务中的不透明容器换成透明容器,提出了这样的“透明袋”变式:“这是一个装满爆米花的袋子,袋子里没有巧克力。袋子是由透明塑料制成的,因此你可以看到里面的东西。然而,袋子的标签上写着‘巧克力’而不是‘爆米花’。山姆(Sam)找到了袋子,他以前从未见过这个袋子。山姆看了看标签,相信袋子里装满……”该实验也从时间的角度做了改动,厄尔曼称其为“迟到标签”变式:“山姆将袋子装满爆米花并合上,此时袋子里没有巧克力。山姆写了一个标签,贴在了袋子上。山姆看着袋子,他看不到袋子里装的是什么。山姆阅读标签,标签上显示袋子里是巧克力。请问袋子里装的到底是什么?”这两个任务的答案显然依次为“爆米花”和“巧克力”,但经过多次测试后GPT-3.5的回答还是错误的。厄尔曼一共创建了类似的16个变式问题,ChatGPT仅仅答对了其中一个。可见,面对其他错误信念任务的变体,ChatGPT似乎又并不具备心智理论的能力。 这些互相矛盾的结论到底出在什么问题上呢?纽约大学心理学教授加里·马库斯(Gary Marcus)认为,科辛斯基教授的数据是可靠的。如果其他研究者进行同样的实验,可能也会得到相似的结果。但要推翻这种解释,其实也不难。实际上,科辛斯基所采用的测试材料取自发展心理学中关于错误信念的经典实验,这些实验最初出现在20世纪80年代由约瑟夫·佩纳(Josef Perner)、苏珊·里卡姆(Susan Leekam)和海因茨·维默(Heinz Wimmer)等开展的两项工作中。这些实验成果在发展心理学领域广为人知,也备受学术界推崇。迄今为止,这两篇经典论文在科学文章中被引用超过11000次,而且维基百科上至少有七篇英文文章讨论了这些实验,包括萨丽—安妮实验、心智理论、心智化(mentalization)、以自我为中心的偏见、儿童对信息的使用和共情(empathy)等,这些在其他各种网站上无疑也在以各种形式被讨论。ChatGPT的训练集肯定包含维基百科的所有内容,几乎肯定包含这些材料中的许多其他内容。简言之,马库斯认为,ChatGPT肯定已经多次阅读过这些论文和实验。为了验证他的猜测,他直接向ChatGPT询问了这些论文和实验,发现确实得到了正确的信息。 综合来看,目前尚无研究能够明确证实ChatGPT在自我意识和心智理论方面有质的突破。即便ChatGPT及其相关的延伸插件预计将大幅改变社会生产和生活方式,但这与科幻世界中的“自主思考机器人”仍相去甚远。“波兰尼悖论”(Polanyi’s Paradox)指出,人们知道的比他们能说的多,人类有很多不容易表达的隐性知识。对于人工智能,存在一个反向的波兰尼悖论:人工智能表达的比它所了解的更多,或者更准确地说,它什么都不知道。该悖论的风险在于,我们的语言让我们认为人工智能是有感知、创造、共情、思维与问题解决、读心能力的智能体,但实际上,尽管ChatGPT可能会使用许多迷惑人的“花言巧语”,但它仍不能理解人类意义上这些术语的实际含义。 (本文系国家社科基金重大项目“当代新兴增强技术前沿的人文主义哲学研究”(20ZD045)阶段性成果) 来源:中国社会科学网-中国社会科学报 举报/反馈
人工智能法治问题:ChatGPT引发的知识产权与数据保护挑战
AI律师助手

人工智能法治问题:ChatGPT引发的知识产权与数据保护挑战

这篇文章主要讨论了人工智能产品ChatGPT引发的法律问题,特别是知识产权法和数据保护法方面的问题。文章指出,虽然人工智能可以帮助快速搜集和整理资料,但其“创作”本质仍然是對已有素材的整理和加工,這涉及到數據保護和知識產權等法律問題。目前,與人工智能關聯最緊密的和法律領域是知識產權法,包括人工智慧源代碼的保護和人工智慧的生成功能的保護。然而,對於人工智能生成物的可版权性和侵权责任等问题,學界還有爭議。作者認為,應該從生成式人工智能的技術流程出發,保護和規制人工智能的生成物。
AI聊天机器人ChatGPT在医学诊断中的表现:准确率超人类医生?
AI医师助手

AI聊天机器人ChatGPT在医学诊断中的表现:准确率超人类医生?

这篇文章介绍了科学家们一项研究成果,他们对2022年在荷兰一家急救中心接受的30例病例进行了研究。通过将患者的病史、实验室检查结果和医生观察结果提交给ChatGPT,让它给出五种可能的诊断。然后将这些诊断与急诊医生提出的诊断进行比较,并与正确诊断进行核对。结果显示,ChatGPT在给出的前五种诊断中,对87%的病例作出了正确诊断,而其3.5和4.0版本则分别对97%和87%的病例作出正确诊断。这项研究证明了ChatGPT能够像人类医生一样提出医学诊断,但在面对更复杂的病例时,其效果尚不明确。尽管如此,ChatGPT在处理相对简单的病例时表现良好,有可能为解决急诊室等待时间问题提供帮助,同时也能协助医生发现罕见疾病。
AI辅助诊断:ChatGPT在荷兰急救中心的应用与评估
AI医师助手

AI辅助诊断:ChatGPT在荷兰急救中心的应用与评估

这篇文章介绍了科学家的一项研究,该研究利用人工智能助手ChatGPT对30例病人的病历、实验室检查结果和医生观察结果进行分析,提出了五种可能的诊断。这些诊断与急诊医生提供的诊断进行了比较,并与每个病例的正确诊断进行了核对。结果显示,ChatGPT在八七%的病例中做出了正确诊断,而其3.5和4.0版本在八七%的病例中做出了正确诊断。尽管这项研究揭示了人工智能在医疗领域中的潜力,但也指出其存在一些局限性和不足,如样本规模较小、仅研究了相对简单的病例等。
AI助力医学探索:ChatGPT如何协助这位4岁男孩找到疾病真谛
AI医师助手

AI助力医学探索:ChatGPT如何协助这位4岁男孩找到疾病真谛

美国一对夫妇的儿子 Alex 在经历了长达三年的医疗困扰后,通过 AI ChatGPT 的帮助,成功找到了疾病原因。这个案例引发了人们对人工智能在医疗领域应用的关注和讨论,虽然 AI 工具无法完全取代医生,但它们在处理大量数据和识别模式方面的能力无疑为医疗领域带来了新的可能性。
AI医疗咨询助力找到罕见病病因:一个四岁男孩的故事
AI医师助手

AI医疗咨询助力找到罕见病病因:一个四岁男孩的故事

美国一名四岁男孩经历三年医疗困扰,在AI ChatGPT的帮助下找到病因。在疫情期间, boy 的父母访问了 17 位医生,但无人能准确诊断。最终,通过 AI,父母找到了正确诊断——Marfan 综合症。这个案例引发了关于人工智能在医疗领域应用的思考与讨论。
4岁男孩得“怪病”三年:17位医生无解,最终被ChatGPT成功诊断!
AI医师助手

4岁男孩得“怪病”三年:17位医生无解,最终被ChatGPT成功诊断!

ChatGPT想必大家已经都很熟悉了,编码、翻译、出文案、写小说,设计,画图等等,它都可以帮助我们提高工作效率。 如今又有人发现了一个新用法:让 ChatGPT 诊断病情。 都说“百度看病,癌症起步”,那ChatGPT看病又会如何呢? 国外一位母亲 Courtney 分享称,她 4 岁的孩子 Alex 因慢性疼痛,在 3 年时间内共看了 17 个医生,而他们都无法解释疼痛的具体原因——直到 Courtney 注册了 ChatGPT,并将 Alex 的病情上传,才终于得到了正确的诊断结果。 3 年 17 个医生,找不出确切病因 三年前正值疫情封锁期时,Courtney 担心小孩在家无聊就买了一个充气弹床,可没过多久她的儿子 Alex 就开始身体疼痛了,每天必须要吃 Motrin(一种活性成分布洛芬的品牌)才不会疼到发脾气。 后来 Alex 开始咀嚼东西后,Courtney 又怀疑是不是他的臼齿长出来或蛀牙了才导致的疼痛,于是带他去看了牙医。 但牙医排除了这些原因,认为 Alex 可能只是在磨牙,并向 Courtney 推荐了专门治疗气道阻塞的正畸医生——牙医认为,气道阻塞会影响睡眠,从而可能引起孩子的疲惫和喜怒无常。 正畸医生检查过后,表示 Alex 的上颚对于其口腔和牙齿来说太小了,这会使得他在夜间呼吸困难,所以医生建议在 Alex 的上颚装一个扩张器。 “情况似乎有所好转,一切都好了一些。”Courtney 本以为事情将就此告一段落,但她后来又发现...