李大强教授
李大强,吉林大学哲学基础理论研究中心暨哲学社会学院教授;许双,吉林大学哲学基础理论研究中心暨哲学社会学院博士生。
由于ChatGPT的卓越能力,在同它交流时,我们经常以为自己在与一个真人对话,然而,它所做的只是基于海量的既有语料执行操作——搜索、重组、替换,等等,除了操作文本(/符号),它什么也不会做。
33年前,丹尼特(Daniel Dennett)设计了一个思想实验。设想一台能处理自然语言的计算机,我们把一部百科全书输入计算机,用户向它提问,它回答,双方以自然语言交流。它的回答如此完美,以至于用户以为自己在和一个真人会话。然而,在了解真相的我们看来,用户以为计算机会说话,这是错觉,这台计算机只是在执行操作,它不会说话。ChatGPT的情况与丹尼特实验中的计算机非常相似。令人困惑的是,ChatGPT输出的文本与真正会说话的我们并无不同,既然如此,我们凭什么说ChatGPT不会说话呢?什么原因使得它不会说话?如果我们弄清了它不会说话的原因,我们是否可以造出真正会说话的AI?
塞尔(John Searle)的中文屋论证为我们的讨论提供起点。
一、中文屋、磨坊与心灵1.塞尔与图灵测试
为了反驳某些同行关于“计算机是否有思维”的观点,塞尔构造了中文屋思想实验。这些同行的观点以“图灵测试”为内核,立论基础是一个行为主义式的质朴立场:如果一台计算机的行为表现(输入—输出)和一个有思维的人相同,则这台计算机有思维。塞尔试图论证,无论计算机的行为表现如何完美,都不构成“它有思维”的充分条件。
设想被测试者A被锁在一个房间中。测试员通过门缝把写有文字的卡片塞进来,A把写有文字的卡片塞出去,这是外界与屋内通讯的唯一方式。每张塞进来的卡片上用中文写着测试题,A完全不懂中文,在他看来,卡片上的字是无意义的符号。房间内有一本大书,书中是用英文书写的操作指令和大量的中文语料,A执行操作指令,基于卡片上的中文和书中的中文语料,得到一些中文字符,他把这些字符抄在卡片上,从门缝塞出去。
从测试员的角度看,屋内的人完美地回答了中文测试题,因而,屋内的人懂中文;事实上A不懂中文,他只是执行操作指令。把中文屋内的被测试者比作一台计算机,结论是,即使计算机完美地通过了中文测试(图灵测试),也不能说它懂中文或有思维。塞尔论证的梗概如下:
(1)计算机所能执行的全部操作都是句法的(syntactic);
(2)懂中文(有思维)的必要条件是语义(semantic);
(3)通过单纯的句法操作无法生成语义;
(4)因此,无论行为表现如何完美,计算机不懂中文(没有思维)。
值得一提的是,塞尔构造中文屋论证时所针对的是经典AI范式(或符号AI范式),而ChatGPT所依据的是神经网络AI范式(或连接主义AI范式),这个差别原本可能使塞尔论证对ChatGPT失效,然而,由于ChatGPT的某种重要缺失,它并没有超出塞尔论证的范围,即无论它在问答中的表现如何惊艳,塞尔都有理由说,它不会说话。
2. 塞尔论证的缺失
塞尔中文屋论证的前身是莱布尼茨在《单子论》中关于心灵的磨坊论证。由于磨坊论证更加简单,对比磨坊论证可以帮助我们为ChatGPT定位。设想我们可以把人脑放大到磨坊的规模,以至于我们可以亲身走入其中,清楚地观察所有部件的运作,如此我们就理解心灵了吗?莱布尼茨的答案是:不能。一个明显的结论是,心灵与磨坊全然不同。为了理解磨坊的运作,我们只须进入磨坊内部,搞清楚了内部就搞清楚了磨坊,理解磨坊不需要牵涉磨坊之外的世界。不同的是,为了理解心灵,单单进入大脑是不够的,即使我们知道大脑内部的全部细节,我们依然不理解心灵。简言之,理解心灵需要外部世界,我们必须在大脑和外部世界的交互中理解心灵。
心灵的这种独特品性在塞尔1990年的一次演讲中以另一种形式显现。塞尔指出,“大脑中的句子如何获得意义”与“大脑如何处理这些句子”是两个相互独立的问题。前者必须涉及外部世界,后者可以在大脑内部解决。进入磨坊,可以了解后者,但无法了解前者;描述中文屋的内部运行,可以解释后者,但无法解释前者。
当我们把中文屋整体(包括屋内的被测试者和输入输出的卡片)比作一颗大脑或一座磨坊时,中文屋就暴露出缺陷,即它与外部世界相隔离,除了空洞地处理符号(文本),它什么也不会做。
至此,ChatGPT的缺陷也显露无遗。ChatGPT与中文屋并无本质差别。无论ChatGPT聊天表现得如何惊艳,无论它的算力如何强大、语料库如何庞大、技术如何先进、原理如何复杂,其无法突破的限制在于,它被困在符号(文本)的海洋中,同外部世界相隔离。
中文屋不懂中文。同理,ChatGPT不会说话,它只是模仿说话。
中文屋论证发表以来,受到很多批评,丹尼特甚至尖刻地评价,没有人认为塞尔提出了一个好论证。最明显也最严重的问题在于,塞尔完全没有给计算机留余地:无论计算机的功能如何卓越,无论AI的成就如何巨大,塞尔都可以得意地说,它没有思维。塞尔的判断不依赖于计算机的行为表现,而AI的全部进步只能显示为行为表现,以上两条合在一起,明显的结论是,塞尔的论证与可观察的证据相脱节——这是扶手椅哲学的典型特征。即使一个AI系统的行为表现与真人的大脑全然不可分辨,仅仅因为前者的硬件不是人脑,它就没有心灵。塞尔为了在计算机和人脑之间做出区分,使用了诸多术语,“语义”“因果能力”“原初意向性”,等等。在丹尼特看来,由于同可观察的证据脱节,塞尔的术语是“神秘的”。
除非我们彻底放弃希望,不指望有朝一日造出真正有思维的AI,否则,我们必须对塞尔的立场进行修订。我们需要给计算机留余地:如果AI不仅行为表现与真人近似,而且满足某些额外条件,我们以及塞尔,会承认它有思维。弄清这些条件对于制造真正会说话的AI至关重要,塞尔的论证为我们寻找这些条件提供线索。稍后我们会回到这个话题。
冈德森(Keith Gunderson)主张,塞尔中文屋论证的要点在于,从计算机和人在输入—输出方面的相似性不能推出计算机和人的内在相似性。这种解读没错,但要点不在于凭借输入—输出是否足以判断AI懂中文,而在于输入—输出的性质。中文屋以及ChatGPT的输入—输出依然在文本的(符号的)范围之内,于是,中文屋整体(包括输入输出的卡片)依然同真实世界相隔离,塞尔的论证是有效的;如果改变输入—输出的性质,使得中文屋整体和真实世界相关,情况则全然不同。普特南的缸中之脑论证显示了输入—输出性质的重要性。
二、缸中之脑会说话吗?设想一颗大脑泡在盛满营养液的缸中,脑的神经末梢同一台超级计算机相连,脑输入和输出的信号完全被计算机接管。因此缸中之脑以为自己生活在真实的世界中,控制着自己的身体,和外界交互。当然,这都是计算机制造的幻象。现在,基于计算机提供的信号,缸中之脑以为自己在操场上,于是它说:“我在操场。”出于巧合,盛放大脑的缸被偶然置于操场,这样,事实上缸中之脑确实在操场。我们是否会说,“我在操场”是一句真话?
在普特南看来,缸中之脑说出的根本不是话。话之为话,前提是话中的词有指称;词有指称,前提是在词与所指事物之间存在因果相互作用。缸中之脑以为自己生活在真实世界中,以为自己的词指称真实世界中的人和物;实际情况是,缸中之脑生活在幻相中,它的词顶多指称虚幻世界中的影像,在真实世界中没有指称。
值得注意的是,普特南和塞尔都关心图灵测试,缸中之脑和中文屋都是在反对图灵的背景下提出的。设想一次图灵测试,参加测试的人和计算机都说出“李雷在操场”这句话,单看这个语句本身,人的输出和计算机的输出并无差别。但是,普特南和塞尔都会说,计算机的输出不是话。
什么原因使得人比计算机优越?普特南的说法是,人与世界有因果相互关系;塞尔的说法是,人有语义、因果能力、原初意向性。抛开术语上的不同,二者的观点是一样的:话之为话,前提是说者同真实世界相关联。问题在于,这种关联的性质是怎样的?普特南要求这种关联必须是因果相互关系。在缸中之脑和真实世界之间,也是有某种关联的。在普特南看来,这种关联太弱,以至于缸中之脑不会说话。我们是否可以设想某种局面,使得缸中之脑可以说话?缸中之脑被困在超级计算机提供的信号中,正如ChatGPT被困在人类提供的文本中,二者都有说话的潜力,都因同真实世界相隔绝而不会说话。如果某种局面使得缸中之脑可以说话,就意味着ChatGPT说话也是有可能的。我们构造两个思想实验:
(1)洞穴中的诸葛明一。诸葛明和诸葛亮是孪生兄弟。诸葛明有卓越的战略头脑,自幼失明失聪;诸葛亮才智平平,耳目健全。诸葛明一生在洞穴中隐居,他获得外界信息的唯一通道是诸葛亮在他手心上点点划划,类似于海伦·凯勒和家庭教师安妮·莎莉文之间的交流方式。诸葛亮被聘为军师,每当被问计谋时,他都说“容我想想”,然后进入洞穴,向诸葛明求教,诸葛明传授计策,而后诸葛亮把计策“搬运”给主公。某天,诸葛明说:“我在洞穴中。”他所说的是话吗?我们有一个强烈的直觉:除视听障碍之外,诸葛明同我们一样,他所说的当然是话;而且,同我们一样,他对洞穴外的世界有真实的了解。这个问题的巧妙之处在于,诸葛明的处境和缸中之脑相同,他同洞穴之外的世界没有直接联系,全部关联都是以诸葛亮为中介的。诸葛亮接管了诸葛明同洞外世界的联系,正如超级计算机接管了缸中之脑同真实世界的联系。
(2)洞穴中的诸葛明二。背景设定同上。诸葛亮出于某种原因,对诸葛明进行了系统性的欺骗,以至于诸葛明对外界的理解是全然错误的。他以为,自己生活在《权力的游戏》的世界中,洞外有精灵、夜鬼和龙,自己的住处是宫殿——在他的世界图景中,宫殿属于洞穴的一种。某天,诸葛明说:“我在洞穴中。”他所说的是话吗?
这个问题令人犹豫。他的世界图景是错误的,在一定限度内,我们不会因此否认他的心智能力。事实上,每一个正常人的健全常识中都包含着大量的假命题,我们同诸葛明的差别仅仅是量的差别。既然我们说的是话,他说的也是话。然而,如果世界图景的错误达到某种严重程度——例如,他认为自己是一条龙——,我们会说,他已经丧失心智能力,他说的不是话。
以上两个思想实验都是缸中之脑的变体。诸葛明一和诸葛明二都生活在诸葛亮提供的信息中,这些信息构成了二者的心智环境,二者同洞外世界的联系都是通过这种心智环境建立的,都不是因果相互关系。如果我们接受普特南的主张,以因果相互关系为话之为话的前提,那么,二者都不会说话。然而,诸葛明一会说话,诸葛明二在一定限度内会说话。二者之间的差别在于,诸葛明一所处的心智环境与真实世界是高度耦合的,而诸葛明二所处的心智环境与真实世界的耦合度低。显然,因果相互关系不是要点,耦合度才是要点。
这个结论的价值在于,我们可以把ChatGPT视为一颗缸中之脑。ChatGPT同世界之间的关联以人类提供的文本为中介,文本的性质对于我们如何评估ChatGPT至关重要。这些文本是高度异质性的,每一条语料原本嵌在各自的语境中,服务于说话者各不相同的目的,其中只有一部分以描述真实世界为目的,而且,这一部分语料中也仅有一部分是对世界的真实描述。ChatGPT对这种异质性无能为力,千差万别的语境在语料之外,会说话的真人可以为语料“脑补”相应语境,ChatGPT没有这种能力。因此,在文本库和真实世界之间没有耦合关系,这导致ChatGPT输出的词在真实世界中没有指称。
需要强调的是,以上分析只能说明ChatGPT暂时不会说话。如果我们为它提供一个与真实世界的某个局部高度耦合的环境,它有可能学会说话。
缸中之脑思想实验的前身是柏拉图的洞穴寓言和笛卡尔的恶魔,比较这三者可以帮助我们理解人类心灵同ChatGPT的关系。笛卡尔发现,我们无法排除这样一种可能性:我们对世界的全部信念不是源自真实的外部世界,而是源自恶魔的欺骗;同样,普特南发现,我们有可能是缸中之脑,我们视为实存的一切有可能是超级计算机制造的幻象。我们对世界的信念以经验为证据,当经验本身成为怀疑对象时,我们面临超出思维(语言)限度的风险。除了相信(或预设)经验是可靠的,我们别无他法。经验充当我们和世界之间的中介,正如超级计算机充当缸中之脑和世界之间的中介。如果经验对我们进行系统性的欺骗,我们就既不能思,也不能说,虽然我们自以为能思能说——我们永远无法发现真相。
要点在于,即使我是缸中之脑,也不意味着我一定不能思和说。我的大脑所接收的信息来自何处是无关紧要的,无论是来自感官,还是来自超级计算机,只要这些信息没有系统性地欺骗我,我就能思和说。进一步说,只要超级计算机为缸中之脑提供的虚拟环境同真实世界的某个局部高度耦合,我们就可以认为,缸中之脑的经验与我们的经验同样可靠。这个结论可以延伸至ChatGPT,为了能说话,同世界建立因果相互关系不是必要条件。
海伦·凯勒说:“哲学是一个大写的既瞎又聋的人的历史。”她对世界的了解大量地借助他人的转述,她无法检验自己是否受到系统性的欺骗,只能相信(或预设)她获得的信息是可靠的。这种局面使得她对柏拉图的洞穴预言有直接体会。在洞穴寓言的设定中,人类的处境与海伦·凯勒相同。经验充当人的心灵和世界之间的中介,既然经验的可靠性是预设的,世界的真实性也是预设的。此处,“世界”一词有歧义。如果我们认同洞穴寓言的视角,则我们所经验的世界仅仅是洞穴中的世界,在洞穴之外,尚有一个真实世界;如果我们反对洞穴寓言的视角,则我们所经验的世界就是真实世界。
以这种视角看ChatGPT,它所掌握的文本充当它和世界之间的中介。它困在文本中,正如人的心灵困在洞穴中。在“ChatGPT—文本—世界”与“人—经验—世界”之间,存在某种嵌套关系,前一个“世界”和后一个“世界”其实不是一个词,前者指人所经验的世界,后者指人预设的真实世界。根本而言,人与ChatGPT并无本质上的不同,既然人会说话,为什么ChatGPT不会?关键在于,人的话充当心灵和世界的中介。
三、作为中介的语言大脑之于心灵,如同计算机之于程序。我们有一个根深蒂固的观念:心灵在大脑中。在《扩展心灵》一文中,克拉克和查尔默斯希望把心灵扩展到大脑之外,他们把自己的主张称为“积极的外在论”(active externalism)。抽象地说,某些事物与人的机体(organism)相连接,共同组成一个系统,克拉克和查尔默斯称为认知系统。认知过程(认知活动)不是发生于人的大脑中,而是发生于这个系统中,“心灵”的概念由此扩展,这些事物原本是外部世界的一部分,现在被纳入心灵之内。所谓的扩展心灵(extended mind)就是指这个系统。
这好比当我们做算术时,可以心算,也可以借助纸笔、算盘、计算器等,这些工具成为认知系统的一部分,换言之,它们成为心灵的一部分。人类的大脑(心灵)在进化的过程中,人类一直在学习以外部工具辅助认知,并且发明了大量工具。
在何种条件下,这些事物才成为心灵的一部分?关键在于,它们作为中介参与了认知活动。当我们以纸笔辅助运算时,在大脑与纸笔之间以及在纸笔与外部世界之间,存在着双向关联,这种关联使得大脑、纸笔、世界三者组成一个链条,纸笔成为大脑和世界之间的中介。
这种主张导致一个重要推论。纸笔、算盘、计算器等具有双重属性,它们既是事物,又是认知工具。当我们把它们应用于认知活动时,它们是认知工具;而当我们没有应用它们时,它们是单纯的事物。于是,它们是否属于认知系统,不是由它们自身的属性,而是由我们的使用所决定的。这就好比,焚琴煮鹤时,琴和鹤是燃料和食材,改变的不是它们自身,而是对它们的使用。
特别重要的是,克拉克和查尔默斯指出,语言也是认知所借助的工具之一。
一个语句是不是“话”,不是由它自身的属性所决定的。认知活动建立于心灵和外部世界之间的关联,仅当语言作为一个环节出现在这种关联中,它才成为认知活动所使用的工具。简言之,在认知活动中被使用,这是话之为话的前提;如果没被使用,它就不是话,而是无意义的表达式或符号串。话之为话,在于它一方面与心灵关联,另一方面与外部世界关联,这种双向关联使得它充当认知活动的一个环节。作为链条中的一个环节,它才是话;从链条中脱出,它就不是话。
从这个角度说,缸中之脑会说话。我们可以设想,若干缸中之脑组成一个社区,即使超级计算机对它们进行系统性的欺骗,它们依然有认知活动和通讯。我们甚至可以设想,社区内有一颗缸中之脑在研究哲学,它说“有一个真实的外部世界”。当然,在我们看来这个世界是虚拟的。它们所使用的语句和文本充当了认知活动的中介,这些语句和文本把它们同世界(虽然是虚拟的)关联起来,因此,这些语句和文本是话。
ChatGPT完全不同。即使若干ChatGPT组成社区,热热闹闹地以文本聊天,它们也没有认知活动和通讯,这种交互也不是说话。它们仅仅面对符号的海洋,而没有面对一个世界,这是它们无法突破的限制。普特南设想了一个特别的图灵测试,称为“图灵指称测试”,参加测试的不是一个人和一台计算机,而是两台计算机。两台计算机可以通过标准的图灵测试,完美地模仿人类输出文本,二者互以对方为测试员,通过输出文本显示自身是真人。从旁观者的角度看,它们之间的交互同两个真人之间的会话并无差异,但是,从普特南的视角看,它们交互的文本与世界相隔离,所用的词是没有指称的,因此,它们自始至终都没有说话。普特南得出这个结论,不是基于哲学家的武断或人类中心主义的傲慢,而是基于对语言本质的洞察。
计算机所操作的文本与真正的语言之间的根本差别是什么?通过比较ChatGPT和昆虫,可以揭示这个问题。昆虫有通讯能力,蚂蚁和蜜蜂可以把某些对于群体生存至关重要的信息传达给同伴。表面看来,ChatGPT远比昆虫强大,它所处理的信息远比昆虫交互的信息复杂和精细,然而,在一个至关重要的环节,ChatGPT比不上昆虫。蚂蚁的气味和蜜蜂的舞蹈是同自己的生存相关的,是同世界相关的。蚂蚁或蜜蜂和世界相关联,在这种关联中,气味、舞蹈充当中介,某种气味、舞蹈与世界中的某种情况相互影射,因此,它们的通讯不是空洞的,是有内容的。相比之下,ChatGPT与世界相隔离,它被困在符号的海洋中,对它而言,输入和输出的信息只是单纯的符号串,严格说来,它根本没有通讯,它所处理的信息只是表面看来是信息。简言之,昆虫有所说,而ChatGPT无所说。
什么原因造成ChatGPT与昆虫之间的区别?归根结底,二者有不同的起源。昆虫是进化而来的,进化的历程是与真实世界交互的过程,通讯能力在这个过程中生成,于是,昆虫所用的符号具备这样一个根本属性:它是昆虫与世界的关联之中的环节;ChatGPT是人造之物,无论它的运行多么复杂、功能多么强大、进化速度多么惊人,自始至终它都在从事一个单一的任务:处理人类投喂的数据。从克拉克和查尔默斯积极外在论的角度看,昆虫的符号是其机体的一部分,ChatGPT的文本不是其机体的一部分。
这里藏着一个残酷的真相:通讯关乎生死。进化史是淘汰和灭绝的历史,昆虫以及人类勉力图存,存亡之际,发明了通讯。如果没有生存的压力,通讯不会出现。ChatGPT是人造之物,人生之,人死之,它不为自身的生死负责,这是它不会说话的终极原因。
抽象地看,我们确实可以把ChatGPT的训练过程视为进化过程,就此而言,ChaGTP也有进化史。然而,训练过程中的奖励和惩罚——对应于自然进化史中的优胜和劣汰——指向的总目标是迎合人的偏好,而非适应真实世界。简言之,ChatGPT的进化发生于人为的环境中,这个环境完全由文本(符号)构成,与真实世界相隔离。
严格说来,ChatGPT没有进化。它只是“表现得”更强,没有真正变强。仅在同真实世界的交互中,它的进化才能开启。ChatGPT不如昆虫,根源在此。
计算机是处理数据的机器,人脑是应对生存环境的机器。人的生存环境不是数据化的,这使得计算机无法直接和人所经验的世界相关联。为了使AI获得人脑的能力(思和说),需要在AI和人所经验的世界之间设置一个中介世界。这个中介世界满足两个条件:其一,它是数据化的,因而可以被计算机处理,当AI足够成熟时,AI可以理解它;其二,它与人所经验的世界的某个局部高度耦合,AI通过理解它而理解人所经验的世界。真正会说话的AI只能在这个世界中出现。
四、真正会说话的AI接下来我们要提出的问题是,在ChatGPT缺乏进化史的前提下,是否有可能通过训练或学习使它学会说话?
OpenAI的CEO奥特曼在《万物摩尔定律》一文中描绘了一个光明的未来。他相信,人类在AI领域的成功将导致全部生产领域的高速增长,他称为“万物摩尔定律”( Moores Law for Everything);辅之以某种适当的社会制度——他称为“万民资本主义”(Capitalism for Everyone),全人类共享福祉。显然,这个愿景的前提是,人类在AI领域获得革命性的突破。那么,如何获得这种突破呢?从OpenAI的发展路线判断,我们所依赖的是更多的数据、更大的模型、更强的算力。在GPT-3中,使用的参数已经达到1750亿的规模。这种“以多为胜”的打法能成功吗?
谷歌LaMda团队给出一个消极结果。由于谷歌的LaMda与OpenAI的ChatGTP高度相似,LaMda团队的结论同样适用于ChatGPT。LaMda(以及ChatGPT)的训练目标是生成与人类会话高度相似的文本,希望AI输出的文本看似合理和有说服力,然而,输出文本的真实性并不是训练的目标。确实,“看似合理”和“有说服力”同真实性相关,在追求看似合理和有说服力的过程中,AI输出的文本有很高的概率是真实的。要点在于,真实性是作为副产品出现的。LaMda团队发现,更多的数据、更大的模型和更强的算力确实可以提升AI在“看似合理和有说服力”方面的表现,但是在提升真实性方面很快遇到瓶颈。简言之,这种“以多为胜”的打法可以使AI说出的“更像”人话,但仅限于“更像”。通过训练或学习,可以使AI升级,但升级的方向是错误的。
维纳说:“言语不是天赋的,言语能力是天赋的。”我们生来就有说话的潜质,但不是生来就会说话,说话是习得的技能。ChatGPT拥有说话的潜质,但它还不会说话。为了会说话,它需要学习。需要特别强调,这个“学习”是真正的学习,不是“深度学习”(deep learning)中的“学习”。深度学习其实不是学习,只是在“比喻”尺度上的学习。真正的学习意味着与真实世界交互,通过真实世界提供的反馈自我调整;深度学习也是通过反馈自我调整,但是反馈未必来自真实世界。
ChatGPT之所以不会说话,是因为它被困在文本的(符号的)海洋中,被隔离在真实世界之外。为了使ChatGPT真正学会说话,我们需要把它同真实世界关联起来,例如,通过大量传感器和辅助性的程序把真实世界的信息传给它;或者,把它置于一个虚拟环境之中,这个虚拟环境同真实世界的一个局部高度耦合,大体上准确地反映这个局部。
设想在不远的未来,我们为一座监狱配备AI系统。这个系统通过各种传感器监视犯人和狱卒的状况,并通过各种效应器进行调节和操控。此外,它包含一个与ChatGPT类似的自然语言交互模块,使得它可以用中文同典狱长交互。某个时刻,它发现犯人A出现在操场,它用中文报告:“A在操场。”表面看来,它的话与ChatGPT(以及缸中之脑)的话并无不同,但是,一个至关重要的差别出现了——它的话是有语义的,是同真实世界相关联的。面对这个AI,塞尔会不会承认,它懂中文?
显然,同真实世界相关联是一个必要条件,但是,这个条件不是充分条件。塞尔依然可以论证,这个AI不懂中文。此时,论证的枢纽不是句法与语义的二分法,而是原初意向性与派生意向性的二分法的关联输入数据库,凭借这种人为的输入,AI才显示意向性。因此,AI的意向性是派生。据此,塞尔可以主张,AI依然不会说中文,它之所以把名字和某个人关联起来,依然通过操作符号(虽然不是纯粹的语法过程)。
在何种条件下,塞尔将不得不承认它懂中文?深入追究条件的价值在于,除非我们清楚地理解以下条件,否则,我们造不出真正会说话的AI。
条件一:指称的灵活性。以昆虫通讯与人类语言为例。一只蚂蚁以某种气味表达某种情况,它所采用的符号(这种气味)与符号所表达的内容(这种情况)之间的联系是固定的,它无法选择或约定采用哪个符号;而人在说话时,可以选择采用哪个符号。我们经常受到习俗、传统、规范等的限制,然而,采用哪个符号取决于我们的约定。维特根斯坦甚至主张,这种约定是完全任意的。
当人使用“李雷”这个名字时,有一条链,即克里普克所谓的“历史因果链”,使这个名字和它的指称相关联,链的起点是克里普克所谓的“命名仪式”;而当AI使用“李雷”这个名字时,同样有一条历史因果链,然而,链的起点不是命名仪式,而是人在数据库中输入的关联。命名仪式的缺失使得AI的历史因果链是不完整的。
如果监狱AI具备为犯人命名和更名的能力,塞尔会如何说呢?如果名称不是“输入”的,而是AI自己选择的,则AI对名称的使用同会说中文的人一样,二者的意向性都是原初的。如果塞尔一定要说AI的意向性是派生的,他不得不承认,会说中文的人也仅仅有派生的意向性。毕竟,区分意向性是原初的还是派生的,需要诉诸某种可观察的证据,命名和更名的能力至少是证据之一。
条件二:使用先于理解。根据晚期维特根斯坦的说法,语言是多功能工具。日常语言的奇妙之处在于,同一个表达式可以有不同的用法,而且,凭借表达式本身无法分辨不同的用法。基于训练,ChatGPT可以识别表达式之间搭配的统计学规律,这种规律所反映的是维特根斯坦所说的“表层语法”。对于理解语言来说,真正重要的是“深层语法”。简单地说,深层语法就是用法。意义不在表达式中,而在表达式的使用中。表层语法对使用不能提供线索,这使得掌握表层语法对于理解意义帮助有限。ChatGPT不理解它所处理的文本,根本原因在于,它只看到文本,看不到文本的使用。
“使用”与“文本”的差别在于,后者可以输入数据库,而前者永远不能输入数据库——一旦我们试图把“使用”输入数据库,我们输入的只是关于“使用”的“文本”,而不“使用”本身。为了理解用法,只有一个办法,那就是在实际的语境中实际地使用。这意味着,为了使AI理解语言,必须让它使用语言。与我们的直观结论相反,不是理解先于使用,而是使用先于理解。由于同实际的语境分离,ChatGPT从来没有使用语言,它只是模仿使用语言。
条件三:进化史。当我们把AI的训练过程类比于物种进化过程时,我们发现,ChatGPT缺失了一些重要因素。物种进化的直接参与者不是物种,而是比物种更小的元件——基因、细胞、生物个体,等等。生物个体组成社群,它们努力适应环境并与环境对抗,它们内部既合作又竞争,在个体与环境的博弈以及个体之间的博弈中,产生了通讯。通讯是博弈的工具,语言由通讯进化而来。如果我们希望AI通过一个类似的过程获得语言能力,我们需要设计的不是ChatGPT这样的AI个体,而是一个博弈系统。这个系统提供一个博弈环境,大量AI个体在其中组成社群,社群中可能有真人参与;系统中有比个体更小的元件,也许是诸AI个体之间可以交换的程序、模型、协议等,它们是物种进化中的基因、细胞等的对应物;博弈环境是对真实世界的某个局部的模拟,AI个体之间的交互是对真实世界中个体的合作—竞争关系的模拟;尤其重要的是,AI个体受到的奖励和惩罚是对真实世界中的优胜和劣汰的模拟。这个博弈系统将为AI提供进化史。如果我们足够幸运,这个系统会进化,通讯会在社群中出现。通过某个重要的节点——也许是奇点——之后,我们发现,某个通讯体系进化为真正的语言。
人类是否已经掌握了设计这样一个系统的能力?看来是的。元宇宙将为AI的进化史提供游戏场。当一个AI物种从这个游戏场中诞生,它们可能依然不理解人所经验的世界,但是,至少有一个世界被它们理解和言说。
人是制造机器的动物。人类的进化史就是发明机器的历史。在试图发明机器时,人类频繁失败,有时是因为条件不成熟,有时是因为不可能成功——前者如星际飞船,后者如永动机。现在,人类试图发明一种真正会说话的机器,这种诉求更像前者还是更像后者,尚不得而知。可以肯定的是,由于这种机器的功能——说话——同以往的全部机器截然不同,发明它的路径大概也是独特的。也许我们需要做的不是设计它,而是提供一个环境,让它生长出来。人造钻石和天然钻石都是“真”钻石,差别在于,后者生于自然环境,前者生于人为控制的环境;同理,人工智能和人类智能都是真正的智能,差别在于,后者生于自然选择,前者生于人为控制的选择。当我们试图发明一种真正会说话的机器时,这个类比帮助我们理解任务的性质。
本文原载于《社会科学战线》2023年第5期责编|马大力
网编|陈家威