AI医师助手
在人工智能(AI)发展初期,Hubert Dreyfus在其著名的1972年作品What Computers Can’t Do[1]中论述*,由于计算机与人类有诸多的不同,它们永远无法具备智能。近来,Jaron Lanier在《纽约客》杂志上撰文,强调计算机不过是工具而已。正如他所作文章标题所言,“没有所谓的人工智能”[2]。这些AI批评家的观点犀利,但倒并不是在反技术。实际上,Dreyfus的著作激发了人工智能领域许多创新,而Lanier则是虚拟现实的提出者,也是一位长期创新者。然而,尽管Dreyfus和Lanier们洞若观火,但他们却混淆了两个重要的问题。 *注:中译本为《计算机不能做什么——人工智能的极限》。作者批判了基于符号处理的人工智能研究,强调人类智能不仅仅会处理对符号、规则或是事实,它还根植在人类的身体经验和其所处的特定环境中。他的观点在当时引发了巨大争议。随着神经网络和机器学习的发展,对他的批评才逐渐被重新审视和讨论。 一个是技术问题:计算机是否能够具备智能; 另一个则是科学问题:人类及其他动物是如何表现出智能的。 要解答这两个问题,首先要对“智能”这个概念达成共识。本文将遵循常规用法,并避免仅将“智能”定义为成年人所特有的能力,而是将其视为解决复杂且认知上具有挑战性的问题的能力。按照这种理解方式,关于计算机是否能具备智能的问题似乎已有答案。虽然Dreyfus和Lanier可能不愿意承认,但多年来的研究已明确显示,答案是肯定的。 ChatGPT及其他大语言模型近期的跃迁,是数十年技术创新的成果。LLMs能够就几乎任何主题生成清晰、令人信服的文章;它们能在科研中起作用;也能生成可编译并运行的计算机代码;而最近,ChatGPT甚至被病人评价为在医疗准确性上与人类医生相当,甚至更具同情心[3]。 当然,ChatGPT并非完美无瑕。例如,尽管其创造者做出了大胆尝试,但我们依然可以轻易发现,来源于互联网的大语言模型训练集中潜藏着种族偏见和性别歧视[4]。此外,ChatGPT还常常做出其创造者所说的“幻觉”,即凭空编造事实。 幻觉是否意味着大语言模型缺乏智能?也许并不是这样。由于大语言模型通过产生统计上可能的词序来回应查询,它们甚至没有尝试对世界做出真实陈述。大语言模型旨在解决那些复杂且在认知上具有挑战性的问题,即如何生成清晰的句子来回应查询,在这项任务中它们表现出色。可以将大语言模型比作竞选公职的政客:两者对任何问题都有现成的答案;两者也都倾向于凭空编造事实。当然,政客具有智能,大语言模型也是——即使两者都需要经过事实的核查。 然而,尽管当前的大语言模型展现出一定程度的智能,但它们与人类的智能并不相同。例如,根据语料库研究,美国儿童到两岁时听到的英语单词数量在1000万到3000万之间(不幸的是,这个数字与社会经济地位存在悲剧性的相关[5])。相比之下,人类儿童的语言学习方式与大型语言模型的训练过程迥然不同。以ChatGPT-3.5为例,该模型在大约570GB的文本数据上训练,涵盖约1150亿个参数。换句话说,ChatGPT需要的训练集是典型儿童所听到单词数量的5000多倍,这一点在比较它们的学习方式时尤为明显。 要回答人类(和其他动物)如何能够表现出智能这一科学问题,首先需要认识到我们与大语言模型有何不同。虽然人类能够熟练地使用文本信息并从中迅速学习(就像大语言模型一样),但与文本的互动仅仅是我们理解周围世界的众多方式之一。阅读和写作作为进化较新、发展上较先进的技能,并非是每个人都能轻易掌握的。在人类大部分历史中,我们——与其他动物一样——主要通过与外部世界和同类的具身互动来了解周遭环境;而直到今天,绝大多数人依然在依赖这种方式来认识世界。 根据当代认知科学中的具身观点[6],理解人类智能的关键在于承认我们的具身性。仅凭任何计算系统(包括大型语言模型)是无法完全解答科学问题的。从这个观点来看,我们不仅是逻辑思维的主体,更是不断与物质、社会、文化和技术环境互动的活生生的生物。 作为生物,我们有特定的新陈代谢需求,这与我们的身体性质紧密相关。为满足这些需求,我们拥有调校得恰到好处的运动和感知系统。以青蛙为例,它以捕食苍蝇为生,它们是捕捉这些食物的大师,正如现代人善于寻找杂货店和餐馆一样。 在生命体中,感知和移动方式紧密相连,感知世界旨在引导行动,并常常包含行动本身。人类和其他动物通过移动来体验周围世界,比如转动眼球、伸长脖子、走近物体以便更好地观察事物。这种活动不仅仅是观察的辅助,它实际上是观察的一部分。 换言之,从具身的角度看,人类的视觉不仅仅是眼睛或大脑某区域的功能,而是整个动态系统的协作。看见世界的主体当然包括大脑和眼睛,但这些眼睛总是在移动(多亏了肌肉),而且它还嵌入在一个移动的动物头部、颈部和躯干上。要解释人类智能,必须考虑这整个的具身系统。这种体验与行动之间的紧密联系是人类智能的核心特征,但这是大语言模型所欠缺的。大语言模型的智能不是具身的,因此,它们的智能与我们的不同。 另一个区别在于,虽然ChatGPT的运作和训练可能需要消耗大量(且未公开的)能量,但与生物不同,大语言模型并不像动物那样具有新陈代谢的需求。我们的代谢需求暗示着我们对世界中情境体验内在地带有积极或消极的评价[7]。生物因需求而存在,因此有些情境会比其他情境体验起来更理想。即便是单细胞生物也会对其环境中特定化学物质的不同浓度做出不同的反应,以努力维持在其生存所需的条件范围内。从根本上来说,人类的认知是一套我们用来维持生存的工具,这就是为什么我们会体验到某些情境是好的,而另一些则不是。我们人类受到温暖、饱腹和被爱的需求驱动,这种动机渗透我们的体验,甚至影响到看似最公允的认知过程。 人类的生活本质上是社会化的。我们在另一个人体内开始我们的生命,并以完全无助的状态出生。我们在与其他人类共存的世界中成长,特别是那些提供我们温暖、食物和爱的照顾者,他们是我们继续前行的支持。与大型语言模型相比,我们之所以能更快地学习语言,部分原因在于,对我们来说,词语的出现总是伴随着面部表情、语调、手势以及时间延续的人际互动背景。这些互动不仅是交流的媒介,还是语言学习的关键因素。此外,我们还生活在特定的文化和技术环境中,这些环境深刻塑造并促进我们的活动和思维方式。作为具身的生物,我们在复杂的人际情境中航行,调整自己的面部表情、语调和手势,以适应不断变化的环境和我们在其中的角色[8]。例如,我们作为演讲者进入讲堂的方式与作为听众时截然不同;我们在东京的行为模式也可能与在多伦多时有所不同。 人类智能的一个关键特征是我们的适应能力,特别是对新技术的适应能力。我们不仅能够采用新技术,还能通过它们改变我们的思考和生活方式。书写文字,作为一项“古老”技术,就是这种适应能力的早期体现。到了2023年,智能手机和人工智能(包括大语言模型)无处不在,它们通过改变我们的环境和所需的认知技能,从而改变我们的认知模式[9]。这一转变,无论好坏,已成定局,无法逆转。 这些差异综合起来,指向了John Haugeland所说的“在乎”(giving a damn)的生活方式和智能方式*[10]。人类在乎,“在乎”不仅仅是对维持个体存在和与世界及他人关系的承诺,更包括对自我认知状态的深切关心——关心自己是处于“幻觉”,还是在述说真相。ChatGPT无法关心这些事情,因为它不是一个具身的有实体生物,不是一个活着并参与其生成文字所描述的世界的生物。当我询问ChatGPT这个问题时,它确认大语言模型并不在乎。当然,未来的人工智能模型(可能会融合大语言模型技术)或许会被构建成在乎这些事情的样子。 *注:出自John Haugeland的Giving a Damn: Essays in Dialogue with John Haugeland。其中“在乎”(giving a damn)指的是一种根植于个体身份和存在方式的深刻承诺和关注。这意味着个体的认知过程和智能表现不仅仅是冷冰冰的信息处理,而是与个体的情感、价值观和社会互动密切相关。 我们从如今的大语言模型中学到的是,智能的表现方式不止一种。我们的智能方式并非唯一,也不是大语言模型所采用的方式。这一认识并没有从技术成就上削弱大语言模型,但这清楚地表明,就回答关于人类及其他动物智能的科学问题而言,大语言模型并无太大帮助。认知科学家们仍有大量工作要做。开展这些工作需要我们仔细关注我们作为具身的存在——我们是活着的、能移动的、社会化的、有文化的生物,我们是会在乎的生物。 阅读原文: Chemero, A. LLMs differ from human...