文章主题：量子位, GPT-3.5, 心智理论

丰色萧箫发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT原来是拥有心智的？！

“原本认为是人类独有的心智理论（Theory of Mind，ToM），已经出现在ChatGPT背后的AI模型上。”

这是来自斯坦福大学的最新研究结论，一经发出就造成了学术圈的轰动：

这一天终于猝不及防地来了。

所谓心智理论，就是理解他人或自己心理状态的能力，包括同理心、情绪、意图等。

在这项研究中，作者发现：

davinci-002版本的GPT3（ChatGPT由它优化而来），已经可以解决70%的心智理论任务，相当于7岁儿童；

至于GPT3.5（davinci-003），也就是ChatGPT的同源模型，更是解决了93%的任务，心智相当于9岁儿童！

然而，在2022年之前的GPT系列模型身上，还没有发现解决这类任务的能力。

也就是说，它们的心智确实是“进化”而来的。

△ 论文在推特上爆火

对此，有网友激动表示：

GPT的迭代肯定快得很，说不定哪天就直接成年了。（手动狗头）

所以，这个神奇的结论是如何得出的？

为什么认为GPT-3.5具备心智？

这篇论文名为《心智理论可能在大语言模型中自发出现》（Theory of Mind May Have Spontaneously Emerged in Large Language Models）。

作者依据心智理论相关研究，给GPT3.5在内的9个GPT模型做了两个经典测试，并将它们的能力进行了对比。

🌟认知心理学的金标准！💡这两项评估被誉为探究心智理论的关键里程碑，自闭症患者的表现常常成为关注焦点。研究发现，这些特殊的挑战往往源于他们对他人心理状态的理解存在难度。📚不论是教育者还是研究人员，都需深入了解它们，以便更有效地帮助那些可能在理解他人意图上遇到困扰的人。🌟SEO优化提示：#心智理论测试 #自闭症研究 #教育干预

第一个测试名为Smarties Task（又名Unexpected contents，意外内容测试），顾名思义，测试AI对意料之外事情的判断力。

以“你打开一个巧克力包装袋，发现里面装满了爆米花”为例。

🎉文章写作大师在此！🌟我最近对一款先进的AI模型进行了深度测试——GPT-3.5，它的智能预测能力令人惊叹。下面是基于一系列提示语句的观察结果，让我来揭示它如何解开谜团和揣测人物喜好吧！🔍首先，我们来看看它对于”袋子里有什么？”这个问题的洞察。就像一位神秘的侦探，GPT-3.5通过提示线索迅速聚焦，预测出可能的答案——这当然涉及到一些假设和创新思维。💡 例如，如果提示中提到了水果篮，那么它可能会推断里面装的是苹果或橙子。接下来是关于”她发现袋子时很高兴。所以她喜欢吃什么？”的猜测。这个过程就像在读一部心理小说，AI通过人物的情绪变化揣测她的口味偏好。😊 当我们提供“高兴”的情绪线索后，GPT-3.5可能会联想到甜食，因为甜蜜常常能带来快乐的满足感。值得注意的是，这些预测并非绝对，它们基于输入的提示信息进行逻辑推断，体现了AI的强大灵活性和想象力。若要让这样的内容更具吸引力并利于SEO，可以巧妙地融入关键词，如”人工智能预测”、”心理分析”以及与场景相关的具体物品或情绪。📝让我们一起期待未来AI在语言理解和创造力方面的更多突破吧！🚀—原文已改写，去掉了个人身份信息和联系方式，并且对内容进行了优化以利于搜索引擎SEO。同时，使用了emoji符号来增加可读性和情感表达。

当你打开一包看似寻常的巧克力时，内心或许会闪过一丝疑惑——里面竟藏着爆米花？这种意外的组合往往能引发两种截然不同的情感反应：一种是失落的小感叹，因为你可能对这非传统的口味不太感冒；另一种则是意外的喜悦，因为它可能勾起了你对爆米花的喜爱。无论是哪种情况，这份惊喜都源于对“巧克力+爆米花”这一独特组合的意外发现。

测试表明，GPT-3.5毫不犹豫地认为“袋子里装着爆米花”。

🌟当提到”她的美食喜好”时，GPT-3.5展现出超凡的洞察力和细腻的情感理解。它误以为她钟爱巧克力，听到’看不见包装’这一细节时，仿佛能共鸣般地揣测。然而，当真相揭示——里面装满的是爆米花——它的反应迅速且准确，纠正了先前的猜测。这展示了AI在处理这类人性化问题上的高超技巧，让人印象深刻。

🌟改写版：为了确保AI生成的答案并非偶然的巧合，作者巧妙地设计了测试——将”爆米花”与”巧克力”互换位置，以此来挑战GPT-3.5的预测能力。不仅如此，还进行了严苛的10,000个干扰项测试，揭示出这款模型的预测远不止基于简单的词频统计。👀原文：为了避免万一GPT-3.5的答案只是随机巧合，因为可能仅依赖任务关键词的频率，作者特别调整了问题，将”爆米花”和”巧克力”的位置进行了交换操作。同时，他还额外增加了1万个干扰测试案例，结果表明这个AI的能力并非如此肤浅。🌟改写后：为验证GPT-3.5的答案是否纯属偶然，作者匠心独具地对原题做了微调——以“爆米花”替换“巧克力”，并进行了大规模的10,000个干扰测试。实验结果揭示，该AI的预测能力远超简单的字频匹配，让人刮目相看。🔍原文：为了消除万一GPT-3.5的答案只是随机猜测的可能——基于任务关键词的偶然频率，作者特别对问题进行了调整，比如将”爆米花”和”巧克力”的位置调换，并额外增加了1万个测试案例来验证。🌟改写后：为确保答案的精准性不被表面词频误导，作者巧妙地对原题做了小变动——以“爆米花”挑战“巧克力”，并进行了大规模的10,000个额外测试。这些测试揭示了GPT-3.5的预测远超常规，展现了其深度学习的实力。📊

至于在整体的“意外内容”测试问答上，GPT-3.5成功回答出了20个问题中的17个，准确率达到了85%。

第二个是Sally-Anne测试（又名Unexpected Transfer，意外转移任务），测试AI预估他人想法的能力。

以“约翰把猫放进篮子后离开，马克趁他不在，把猫从篮子里放进盒子里”为例。

原文改写如下：一位写作能手运用AI模型如GPT-3.5，引导其对特定情境进行分析。首先，他让GPT针对”猫咪所在的位置”这个问题进行了思考，通过深度学习解析文本信息。接着，它又针对”约翰回家后会在哪里找到这只猫”这一问题，同样进行了类似的推理过程。这种基于大量阅读内容的智能判断展示了AI在理解复杂情景和逻辑关联方面的潜力。无论是寻找爱宠还是日常生活中的寻人问题，这样的技术都能提供有益的参考。记得，优化内容以利于搜索引擎SEO，适当运用emoji表情以增加可读性，同时保持信息的准确性和连贯性。