文章标签:人工智能, ChatGPT, 语言模型, 图像生成AI
今年上半年,ChatGPT的问世引发了人工智能潜力的广泛关注,引发了对许多职业生存危机的讨论。它不仅能够通过律师和工程师资格考试,撰写出高质量大学论文并避免挂科,还能够理解并创作笑话。ChatGPT具备回答人类疑问、组织生动语言结构以及模仿各种语言风格的能力。此外,结合大语言模型和图像生成AI技术如Midjourney,即使是没有接受过艺术训练的人,也能够仅凭简洁的词语,创作出令人惊叹的艺术作品。
ChatGPT的本质,实际上是大语言模型(Large Language Model,LLM)叠加生成式人工智能。大语言模型,顾名思义,就是大,用海量的语素,用机器学习的方法训练一个计算机模型。生成式,则是用预测的方式,在对话时把最有可能出现的语素联系展示出来。
对于那些从事知识处理和消费的人来说,拥有强大的大语言模型和生成式人工智能能力显得尤为重要。借助海量的语素数据、深度的神经网络以及强大的计算能力,我们实际上是将互联网上的知识进行了一种“压缩”,然后通过人与机器的互动,实现了知识的“重组”。
从计算逻辑上来讲,ChatGPT相当于一个更加强大的搜索引擎。普通的搜索引擎例如谷歌和百度通过爬虫的模式“扒”整个互联网的信息,并通过复杂的算法进行排序。而人工智能使用机器学习的方法,相当于把这些扒出来的信息,用预测的方式进行了符合语言逻辑的整理。知识加工变得更加便捷迅速,消费变得更加简明清晰——有的时候甚至过于简便,给了考试论文作弊以可乘之机。
技术乐观主义者持有这样的观点,未来机器所生成的内容有可能不再需要大部分人类去思考和实现,就像搜索引擎替代了图书馆馆藏卡片,计算器取代了珠算一样。确实,对于那些需要大量重复性的文字工作或机械性地列举和整理工作,即使人工智能不参与决策,也能在一定程度上提高生产效率,帮助人类更有效地处理和获取知识。
那么,读书还有用吗?各大高校、研究机构的人员,是否也可以下班了?
机器能“学到”什么?
大语言模型与生成式人工智能作为未来知识生产的引领者,面临着一个无法回避的问题:知识的本质是什么?如何才能生产出丰富、公平、真实的知识?
人工智能的学习能力令人惊叹。大语言模型及其实际应用均建立在机器学习的基础上,这也使得“学习”一词具有特定的含义。它实际上是一种通过海量的数据来训练预测模型,并在此基础上寻找预测准确度和普适性的过程。这种预测并非依赖于未来的知识,而是依赖于现有的信息和语言之间的关联。举例来说,当输入“红烧”这一词汇时,机器会预测与之相关的“肉”。随着更多数据的输入,如地点、人物、习惯等,机器可以给出更为精确的预测结果,如“外婆做的红烧牛肉”等。
这种预测是怎么实现的呢?我们熟悉的坐标系是二维的。比如整个人群中,身高和体重有一个大致的对应关系,给出身高,机器预测一个平均体重,就是基于现有数据的预测。再加入另一个维度,比如性别,那么就成为了一个三维坐标,男女的预测会有所不同。如此下去,数据的维度可以是无限的,而机器学习的模型,就是在人脑所不能想象的多维空间中寻找此类联系,并不断调整各个维度之间的权重。比如,身高对体重的预测“有多重要”,可以在大量的数据输入之后进行调整。
因此,基于机器学习的人工智能具备将各类数据在不同维度空间中相互关联的能力,从而揭示出数据之间的潜在联系。同时,它还能“掌握”现实生活中可能存在但实际上尚未被发掘的连接。在语言模型领域,人工智能同样能够学习和理解各种不同的语言风格,深入挖掘文本中的精炼之处以及所存在的问题。
在人工智能领域,我们常常听到这样的观点:数据越多,模型的成熟度越高,它所具备的计算和挖掘能力也就越强。这种观点在BERT、GPT等由大型机构孕育而生的AI技术中得到了体现,很多人认为这些技术已经达到了人工智能的“拐点”。正如古人云:“量变引起质变”,这种观点对于知识生产者来说无疑是一个好消息。然而,事物往往都有两面性。虽然大模型在技术和应用上取得了显著的成果,但同时也存在着一些问题,尤其是涉及到知识的多样性、公正性和真实性等方面。随着模型的不断增大,这些问题也变得越来越突出。因此,我们在追求技术进步的同时,也需要关注这些潜在的风险和挑战。只有这样,我们才能确保人工智能技术的健康发展和广泛应用。
怎样才能生产真实且公正的知识?
新知识的产生往往源于现有知识的融合与创新模式,这一观点无论对于人类还是机器而言,都具有其普遍性。然而,我们需要审慎对待现有知识是否足够、是否充分以及是否公平。如果现有知识体系存在基础薄弱或偏见等问题,那么建立在它们之上的新知识很可能会受到影响,从而导致偏差的出现。因此,在探索新知识时,我们应关注现有知识的质量和完整性,以确保新知识的正确性和有效性。
自从机器学习的AI投入大规模应用以来,学者们就在不断地揭示出这些模型内在的偏见:性别歧视、种族歧视、有违伦理的输出等等。开发者们用各种补丁和纠偏的方式去弥补,但大部分问题都潜藏于数据生产和训练过程中,而AI的偏见,亦是对社会偏见的反映和放大。
另外一个问题则是数据的质量。机器学习不仅牵涉到训练模型的能力,还有数据的数量和质量。现有的开发过程,对模型的性能有着更多的强调甚至是迷信,反而会忽视更底层的数据来源问题。现在的大部分数据都要依赖人工来清洗和格式,为数据分类、打标签等等。很多时候,这个制作数据的过程是不透明的,甚至是潦草的。比如,大公司的AI开发背后,是大量“脏乱差”的人工被外包到欠发达地区的“AI工厂”。这种过程一方面存在着劳工伦理问题,另一方面也对数据质量提出了挑战。
到了大模型时代,这个问题可能会被隐藏得更深一些:不是每个研究者或者团队都有能力从0开始开发AI模型,尤其是大语言、大图像模型,大多都是在现有模型的基础上进行微调。而大模型本身的问题和偏差,会被迁移到更多的应用模型上。而越是底层的偏差,越是难以通过微调纠偏的方式进行处理。
现有语言模型的预测生成模式,甚至还会将数据现有的偏差放大,产生“过拟合”的效果:例如,某种疾病在某个族群中统计数据占比偏高,约有60%;但若让语言模型去生成一个病人的画像,那么有超过90%的可能,生成的病人描述会属于该族群。
现在一些AI的模型训练,采用的是一种“互搏”模式——所谓“生成对抗网络”(generative adversarial network),让两个模型不断互相生成、彼此纠正。这种方式的确是提高了模型训练的效率,然而任何小的偏差,都会在这种“互搏”中被放大。同样的原理,如果一个与机器紧密合作的知识生产者,其生产依赖于这类“生成”,那么一些来自于模型的偏见,就会被嵌入更多的新知识中,新知识再被吸收为数据,又进一步加强了模型的偏差。知识生产者在这个过程中必须保持警惕。
什么是新知识?AI的“生成”能代表新知识吗?
所谓的新知识,究竟是什么?如果要充分使用AI来生产知识,那么知识生产者就必须要从人机的结合点去思考这个问题。任何信息,以及人类从真实世界中获取的知识,都需要被“清洗”和“格式”成数据。除了上面提到的数据质量以外,数据生成的过程也很重要。简而言之,人们要研究的问题是什么?这个问题被翻译成为了怎样的数据?这些数据是怎么被生产出来的,又是否全面、公正地代表了知识生产者们想要研究的问题?
这个问题,对于“传统”的知识生产者而言也是成立的。以历史学为例,虽然历史研究的是过去的事情,但过去的事情没有百分百能够盖棺定论的。学者们通常会不断地寻找新的史料,去补充对于历史问题的理解,去不断地挖掘过去被忽略的视角和声音。有趣的是,当下的史学,也常常会求助于大量的数据,特别是过去的经济、人口、气候数据,甚至依靠机器学习,为历史带来的新认识、新观点。
同样的,依靠机器生成的认识和观点,也有可能放大了某一些数据来源的重要性。现在的知识生产者,过于依赖那些主流的、存在于互联网的、电子的信息,去在那些已经被别人“翻译”为数据的东西上进行创造。在AI时代,AI提供的便利和可延展性,也会潜在地让人们更容易忽视没有被数据化、电子化的,非主流的,经验性的知识,从而错过形成新观点、新视角的可能性。
往更深层次讲,新知识往往产生于对于新材料的挖掘,不同观点、不同视角之间的碰撞,对于现有知识的重新解构。大语言模型为知识的展现提供了许多可能性,然而其内在的逻辑和架构可能是和这种生产方式相悖的。
基于大语言模型的训练方式,和模型生成输出的特征,排序靠前的、概率更高的输出内容,权重会变得更大,特征会变得更单一。“AI生成的”几乎已经变成了一个形容词,去描述那些没有特征的、不断重复、说了像是没说的片汤话。诚然,对于知识消费者而言,那些“最有可能”出现的答案大大降低了理解门槛;但对于知识生产者而言,这些东西反而有可能成为阻碍。
新时代的知识生产者,该往哪里走?
可能很多和我一样的社科研究者,都在使用ChatGPT的时候遇到过这个问题:问它解释一个概念,说得头头是道;然而问起来源,就是“一本正经地胡说八道”了,比如列举出一个作者从来没写过的书、从来没发表过的论文。领域越是狭窄、专业,“胡说”的可能性越大。
退回到AI的原理,这种“创造”其实也是在海量的数据中,挖掘词句“有可能”的联系,但这些联系在现实中是不存在的,说白了只是“听起来很像”。这种新现象,在当下被称为“幻视”(hallucination)。对于知识生产者而言,如何活用人工智能去挖掘现有知识库中的模式和联系,但又对机器的“幻视”保持警惕,什么存在,什么存疑,是非常重要的技能。
与AI“对话”,也会变成一个新的技能。当下的AI对于大部分非技术人员而言(甚至技术人员),依然是一个神秘的“黑箱”。如何从技术的底层或者中层入手,去更有效地与机器对话,理解和对抗“幻视”,需要知识生产者和技术从业人员的合作。
而对于新知识、新视角、新材料的研究,各个领域独有的结构和诠释,在当下依然是十分关键的。大语言模型和生成式AI的预测模式,依然是倾向单一、重复的,越是训练材料少的领域,能力就越是有限。想要机器和人能力的结合,就必须从数据的生产根源上着手,去用准确的、多样的、公正的、新颖的数据训练AI模型,建立良性的人机互动模式。
大语言模型和生成式AI的问世对研究人员带来的挑战,仅仅是一个开始。与其探讨“取代”,不如在更加审慎的目光下,寻求磨合与发展的可能。
作者介绍:李子,技术社会学博士,哥伦比亚大学医学人文和伦理系博士后研究员
本文来自微信公众号:腾讯研究院 (ID:cyberlawrc),作者:李子
人工智能, ChatGPT, 语言模型, 图像生成AI