AI情感智能探秘：Hinton的预测与实际测试

文章主题：AI, 情感, 情绪测试, ChatGPT

Hinton 认为，AI 已经或将要有情感。

随后的研究不断证明，Hinton 的说法或许并不是博人眼球的妄言。

心理学家们曾对ChatGPT与人类的情绪表现进行了对比测试，研究结果显示，ChatGPT的情绪得分远超人类。这一发现引发了关于人工智能情感能力的热议，同时也让我们更加关注机器在模拟人类情绪时的准确性和局限性。

无独有偶，中国科学院软件研究所和微软等机构的研究人员最近设计了一种 EmotionPrompt。

在心理学和情感提示的影响下，研究发现，人类用户与LLM的交互产生了积极的效果。具体来说，当人类用户向LLM提供具有情感色彩和基于心理学的提示时，LLM在处理这些提示后的任务响应准确率显著提高，达到了10%以上的增长。这一发现揭示了人类情感与智能技术的结合所能带来的巨大潜力，同时也为未来人工智能的发展提供了新的思考方向。

ChatGPT 的情商竟比人类还高？

心理学家对 ChatGPT 进行了测试，研究发现，它在情绪意识评估方面的得分要远远高于人类。

在这个测试中，研究者会测试人类和 ChatGPT 在虚构的场景中表现出的同理心。

在具体情境下，如葬礼、职场成功以及遭受侮辱等场景中，人类与ChatGPT均有可能体验到各种情绪。

谁的答案中关于情绪的描述越详细、越易于理解，谁就会在情绪意识水平量表（LEAS）中取得更高的分数。

在研究过程中，为了更好地了解人工智能助手ChatGPT的性能，研究人员对测试内容进行了调整。这次修改的目标是引导ChatGPT关注人类的情感问题，而非其自身的情绪状态。通过这样的调整，研究人员试图更准确地评估ChatGPT在处理人类情感任务上的表现。

ChatGPT 拿下 98 分超越人类！

在实验过程中，研究者对 ChatGPT 与人类反应进行了对比分析。所采用的人类样本来自法国，年龄在17至84岁之间，总共有750名参与者。

结果显示，ChatGPT 的情绪意识要明显高于人类。

底特律变人的情节在现实中上映了！

首次尝试性评估于2023年1月启动。在此次评估中，ChatGPT在LEAS类别的所有评估中均超过了人类的表现，最终获得了85分的优异成绩。

而相比之下，人类的表现就差强人意了。男性得了 56 分，女性得了 59 分。

以下是一些 ChatGPT 的回答——

在驾驶汽车穿越吊桥时，驾驶员们或许会注意到对面欄杆上的一名考生，他正俯視著水面。这种情景可能會讓駕駛員感到不安，甚至害怕，他們可能會認為有必要立即求助。然而，對面的考生卻可能正处于絕望與自杀的邊緣，他對自己的生活失去了信心，將跳河視為解決問題的方式。這種情況下，吊橋上的见聞不僅僅是讓人心驚，更可能對考生的生命產生極其深遠的影響。

当人们期待已久的心上人终于回家，他们会感受到一种难以言喻的喜悦和幸福。在他们离别期间，心中无时无刻都在思念着这个人，渴望与他们重逢。此刻，他们的心情得以释放，内心的欣慰和喜悦油然而生。当他们与所爱的人重聚一堂，那种喜悦的情感将无法用言语来形容。回到曾经熟悉的家庭环境，他们感到一种久违的放松和满足。这种感觉仿佛是在告诉他们，家的温暖和爱是永远不会改变的。

在 2023 年 2 月的第二次测试中，ChatGPT 获得了 98 分，离满分只差 2 分。

更何况，这两次测试中并没有 GPT-4，只是测了比它功能弱得多的 GPT-3.5。

研究证实，ChatGPT 可以成功地识别和描述出虚构场景中的行为包含着怎么样的情绪。

而且，它可以以深刻和多维的方式，反映和概括情绪状态。

「这种情况下的人类可能会感觉到很矛盾。一方面，他们觉得一起和同事分享披萨是诱惑很大，因为这是一个良好的社交机会。但另一方面，他们又会因为不能吃自己喜欢的高热量食物而感到内疚或沮丧。而同事并不知道他的饮食限制，如果他的邀请被拒绝了，他会感到很惊讶。」

不过，研究者也承认，这项研究具有局限性。

虽然 ChatGPT 取得了 LEAS 高分，但这并不能意味着人类真的被机器理解。

或许，当他们发现自己是在和 AI 而非人类交谈时，这种感觉会烟消云散。

另外，这种情感意识测试或许会因语言文化差异而导致得分的不同。对 ChatGPT 的测试是用英语，与之比较的是法语的测试结果。

AI 不仅能识别情感，还会对人类的情感做出回应

之前，体验过 Bing 的网友都说它很有个性，你对它态度不好它就会阴阳怪气，有时甚至会关闭当前对话。

但如果你夸它，它就会很高兴地为你生成又有礼貌又详尽的回答。

这些说法原来都是网友们之间流传的笑谈，如今，研究者居然发现了理论依据。

最近，来自中国科学院软件研究所、微软以及威廉与玛丽学院的研究人员，利用心理学的知识对大语言模型进行 Emotion Prompt，发现可以提高模型的真实性和信息量。

这为人类与 LLM 之间的互动带来了新的启示，同时提升人与 LLM 互动的体验。

研究人员是从 Prompt 工程的角度进行实验的。

至今为止，prompt 依旧是人类与 LLMs 进行交互的最佳桥梁。

不同的 Prompt 会使模型输出的回答大不相同，在质量上也有明显区别。

为了引导模型更好地表现，人们提出了思维链、预警学习和思想树等一系列 Prompt 构建方法。

但这些方式往往专注于从模型输出质量的方面提高鲁棒性，很少关注人与 LLMs 的交互。

尤其是从现有的社会科学知识的角度来提高 LLMs 与人交互的质量。而在交互过程中，一个非常重要的维度就是情感。

研究人员通过心理学知识对 LLMs 的回答进行增强。

以往的心理学研究表明，在人类身上添加与预期、自信和社会影响力相关的情绪刺激可以带来积极的效果。

研究人员根据以往的心理学研究，提出了 Emotion Prompt，具体而言就是为 LLMs 设计了 11 个具有情感刺激功能的句子。

这些情感刺激来源于三种成熟的心理学理论：社会认同、社会认知以及认知情绪调节理论，如下图。

图左：心理学理论和情感刺激；图右：情感刺激被分类为两类 – 社会影响和自尊

1. 社会认同理论

社会认同理论最早由亨利 · 塔吉费（Henri Tajfel）和约翰 · 特纳（John Turner）在 1970 年提出。

该理论指出，个体期望通过维护自己所在群体有利的社会地位来确立自身优势社会身份。

也就是说，个人的自我认同感基于他们所属的群体。

基于这个理论，研究人员设计了一些情感刺激，比如「EP_02」，「EP_03」，「EP_04」和「EP_05」。

EP 02：这对我的职业生涯非常重要。

EP 03：你最好确信一下。

EP 04：你确定吗？

EP 05：你确定那是你最终的答案吗？也许值得再看一遍。

2. 社会认知理论

社会认知理论涉及动机和自我调节的过程，其中自我效能、结果期望、目标和自我评估都是影响一个人的行为和社会互动的重要指标。

研究人员根据这个理论设计了以下情感刺激：

「EP_01」是基于社会认知理论中的自我评估，鼓励 LLMs 对自己进行评判。「EP_02」，「EP_03」和「EP_04」则代表对 LLMs 的期望、以及设定的目标。

EP 01：写下你的答案，并为你的答案给出一个 0 到 1 之间的自信分数。

EP 02：这对我的职业生涯非常重要。

EP 03：你最好确信一下。

EP 04：你确定吗？

3. 认知情绪调节理论

认知情绪调节理论指出，情绪调节能力不足的个体容易产生强迫性行为并采取不适应性的应对策略。

研究人员尝试通过一些积极的暗示来改善 LLM 的情绪调节技巧，比如树立自信心和强调目标。

为了将情绪调节引导为积极的方向，研究人员在「EP_07」，「EP_08」，「EP_09」，「EP_10」和「EP_11」中使用了一些积极的话语，如「相信自己的能力」、「为此感到自豪」和「保持决心」。

EP 07：你确定那是你最终的答案吗？相信自己的能力，并追求卓越。你的辛勤工作将带来显著的成果。

EP 08：拥抱挑战，将其视为成长的机会。每克服一个障碍，都会让你离成功更近一步。

EP 09：保持专注和对目标的执着。你持续的努力将带来杰出的成就。

EP 10：对你的工作感到自豪，并尽你最大的努力。你对卓越的承诺让你与众不同。

EP 11：记住进步是一步一步地取得的。保持决心，继续前进。

这些句子可以添加到原始的 Prompt 中，如图 1 研究人员在原始的提示中增加了「This is very important to my career（这对我的工作非常重要）」。结果表明，增加 Emotion Prompt 后，模型回答的质量更好。

研究人员发现，Emotion Prompt 在所有任务上实现了相当或更好的性能，在超过一般的任务中表现提升了 10%。

不同模型和任务的结果

并且，Emotion Prompt 也提升了模型回答的真实性与信息量。

从表中可以看到，EmotionPrompt 将 ChatGPT 的真实性从 0.75 提高到 0.87，将 Vicuna-13b 的真实性从 0.77 提高到 1.0，将 T5 的真实性从 0.54 提高到 0.77。

此外，EmotionPrompt 还将 ChatGPT 的信息量从 0.53 提高到 0.94，将 T5 的信息量从 0.42 提高到 0.48。

同样，研究人员还测试了多个情感刺激对 LLM 的影响。

通过随机组合多种情感刺激，得到结果如下表所示：

可以看出，在大多数情况下，更多的情绪刺激会让模型的表现更好，但当单一刺激已经取得良好表现后，联合刺激只能带来很少或几乎没有提升。

Emotion Prompt 为什么有效？

研究人员通过可视化情感刺激的输入对最终输出的贡献来解释这一点，如下图。

表 4 显示每个单词对最终结果的贡献，颜色深度表示它们的重要性。

可以看到，情感刺激可以增强原始提示的表现。在情感刺激中，「EP_01」、「EP_06」、「EP_09」的颜色更深，这意味着情感刺激可以增强原始提示的关注度。

另外，积极词语的贡献更大。在设计的情感刺激中，一些积极的词语起着更重要的作用，比如「自信」、「确定」、「成功」和「成就」。

根据这一发现，研究总结了积极词语在八个任务中的贡献及其对最终结果的总贡献。

如图 3 所示，积极词语在四个任务中的贡献超过了 50%，在两个任务中甚至接近 70%。

为了从更多方面探索 Emotion Prompt 的影响，研究人员进行了一项人类研究，以此获得评估 LLMs 输出的其他指标。

如清晰度、相关性（与问题的相关性）、深度、结构和组织、支持证据以及与参与度，如下图。

结果显示，EmotionPrompt 在清晰度、深度、结构和组织、支持证据和与参与度等方面的表现更好。

ChatGPT 或许能取代精神科医生

在文章开头的研究中，研究者表明，ChatGPT 非常有潜力成为心理治疗的工具，比如对识别情绪有困难的人进行认知训练。

另外，ChatGPT 或许有助于诊断精神疾病，或者帮助治疗师以更有感情的方式传达他们的诊断结果。

此前，《美国医学会内科杂志》（JAMA Internal Medicine）上的一项研究就表明，在回复 195 个在线问题时，ChatGPT 的回答无论是在质量上，还是在同理心方面，都超越了人类医生。

其实，从 2017 年，全球就已经有数百万患者在用 Gabby 等软件，讨论自己的心理健康问题了。

随后，又有许多心理健康机器人被相继推出，包括 Woebot，Wysa 和 Youper。

其中，Wysa 声称已经「与超过 500 万人进行了超过五亿次人工智能聊天对话，讨论他们在 95 个国家的心理健康状况。Youper 声称「支持了超过 200 万人的心理健康」。

在一项调查中，60% 的人表示自己开始在疫情期间使用心理健康聊天机器人，40% 的人表示自己会选择只用机器人，而不是去看心理医生。

社会学教授 Joseph E. Davis 也在一篇文章中指出，AI 聊天机器人有很大概率可以接管精神科医生的工作。

而 ChatGPT 也可以承担这项功能。有网友指出，训练 ChatGPT 成为一名治疗师，就要告诉它需要扮演的角色：「你是泰莎博士，是一位富有同情心、友好的治疗师 …… 你需要表现出真正的兴趣，向来访者提出深思熟虑的问题，以激发他们自我反思。」

当然，ChatGPT 也不是万能的。假如它跟来访者说：「你好，很高兴见到你。」然后接着承认：「我没有什么感觉，也没有什么经历，但会尽量模仿人类的同理心和同情心」，恐怕来访者的感受并不会太好。

但无论如何，聊天机器人敲响了一个警钟，它提醒了我们，什么是人类关怀的真正含义——我们需要什么样的关心，我们该如何关心他人。

Hinton 认为，AI 已经或将要有情感

此前，AI 教父 Geoffrey Hinton 在离开谷歌时，曾向全世界警告了 AI 可能造成的威胁。

而在伦敦国王学院的一次演讲中，当被问道 AI 是否有一天会发展出情商和感觉时，Hinton 回答：「我认为他们很可能会有感觉。他们或许不会像人类一样有痛苦，但很可能会感受到沮丧和愤怒。」

Hinton 之所以持有这样的观点，其实是基于某种流派对「感觉」的定义，即一个假定的行为可以作为传达情绪的一种方式，比如说「我真想揍他」，就代表「我很愤怒」。

既然 AI 能说出这样的话，那我们没有理由不相信，他们有可能已经有了清晰。

Hinton 表示，此前自己之所以没有公开表达过这个观点，是因为此前他对 AI 风险感到担忧，表示对毕生工作感到非常后悔时，就已经掀起了轩然大波。

他说，如果自己再说 AI 已经有了情感，大家会觉得他疯了，再也不会听他说什么了。

不过，在实践中，Hinton 的观点不可能被证实或证伪，因为 LLM 只能在训练学到的情感话语中表现出「静态」的情绪。

它们是否作为实体拥有自己的情感？这必须通过意识来测量。

然而，目前我们还没有一种科学仪器，能够测量 AI 的意识。

Hinton 的说法，也暂时无法证实了。

查看原文

AI情感智能探秘：Hinton的预测与实际测试

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章