文章主题:自然语言处理, 人工智能, 机器翻译, GPT-3
最近,在腾讯科技与梅花创投联手举办的《GPT开放麦》活动中,我们有幸邀请到了腾讯新闻创作者以及甲骨易AI翻译平台的LanguageX负责人李光华,他为我们展现了一张ChatGPT的“全方位剖析图”。在这次分享中,李光华从技术、产品以及市场等多个角度深入探讨了ChatGPT所带来的机遇和值得我们深思的问题。
划重点:
1关于吴军“ChatGPT不算技术革命”的回应:吴军所熟悉的NLP领域的中间任务和部分传统方法已经逐渐消失。目前的神经网络与传统的N-Gram概率计算方法已经有了很大的差距,不能再可再同日而语。 2关于ChatGPT的评价:它是产品和工程的胜利,比如他们选择语言作为AGI的切入点,语言对人类至关重要,它是人类思维的边界。 3关于ChatGPT技术:尽管OpenAI的成功主要归功于其工程能力,但仍有三个核心技术值得关注一提——情境学习、思维链、人类反馈强化学习。 4关于ChatGPT的几点建议:一旦技术门槛降低,其影响力会变得非常巨大,会带来深远的生产力革命,并带来危机:机器智能可能是人类最后一项伟大发明,但我们不能依赖它。以下为现场实录整理:
尊敬的各位,我乃甲骨易研发团队的成员,负责甲骨易AI翻译平台的LanguageX项目。我们甲骨易科技,一家专注于语言AI领域的研发公司,已经在AI翻译与内容生成等领域积累了长达8年的丰富经验,同时,我们在语言数据的积累方面也拥有多年的深厚底蕴。
在 GPT-3 出现之前,谷歌和 OpenAI 已经在进行相关的研究工作,但是这些成果并未得到充分的展示,因此外界对于大模型的威力仍然没有足够的认识。直到去年 11 月 30 日之前,我们团队由于从事自然语言处理和神经机器翻译等相关工作,所以当 ChatGPT 发布后,我们立即尝试了 GPT-3,并且在短短的两个月内,就完成了公司方向的调整。现在,我们的团队已经专注于模型平台、大型翻译模型以及相关应用的开发。
在如今这个信息爆炸的时代,我们似乎已经习惯于每天不断吸收新的知识,甚至有时候会感到有些疯狂,担心自己会错过任何重要的信息。因此,为了让大家更好地了解ChatGPT,我将从它的背景、技术、产品和一些建议四个方面进行详细的介绍。
缘起:关于吴军“ChatGPT不算一次技术革命”的看法
近日,我国知名人工智能专家吴军老师在一场直播活动中,针对“ChatGPT是否算一次技术革命”的问题发表了自己的看法,引发了业界的高度关注与热议。尽管我对吴军老师的学术造诣深感敬意,但在某些关键的技术判断上,我们的观点或许存在一定的分歧。为此,我谨向吴军老师表示尊重,并希望能就这一问题展开更深入的讨论。
吴军先生将语言模型视为一个过时的工具,仅仅依赖于概率计算。他的观点并非完全没有道理,因为语言模型的起源可以追溯到1972年,由IBM首次提出。然而,受限于当时的计算能力,该模型在处理大量数据时,必须进行适度的简化、裁剪和精简。比如,当计算一个含有四个字的词语时,为了减少计算负荷,可能需要去除其中的前两个字,这种方法被称为N-Gram。在过去,为了节约计算资源,研究者在计算一句话的概率时,不得不去掉句子的前端部分信息。然而,随着计算能力的提升,这种限制已经不再适用。以ChatGPT为例,现在的版本已经能够处理包含4000个词的Token句子,这在 earlier的技术条件下是无法实现的。因此,尽管早期的研究者们曾认为这种路径行不通,但随着时间的推移,语言模型的发展已经取得了显著的突破。
近期,我深入研究了OpenAI的最新科研成果。一位科学家在解释自己的观点时引用了OpenAI首席科学家Ilya Sutskever的话:现代神经网络在预测下一个词汇时的精确度已经达到了令人瞩目的地步。事实上,他们正在努力构建一个事件世界模型。在这个模型中,现代神经网络的工作机制类似于对一幅图像进行压缩。就像经过压缩后的照片虽然看起来略显模糊,但仍能清晰地呈现原始图像的主要内容。同样,神经网络能够对输入信息进行高效且精细的处理和解析。
现在的神经网络技术与传统的N-Gram概率计算方法相去甚远,不能等量齐观。这足见,在自然语言处理领域,神经网络技术的发展已经取得了显著的进步。
在微软长达154页GPT-4评测的论文中,其所展示的智能已经涵盖了本科生甚至研究生水平的题目,这在很大程度上说明了模型的能力。吴军老师认为GPT-4擅长写作,但他仅把它看作是一种应用学者鹦鹉学舌。我的观点是:尽管GPT-4处理的文本数据量可能达到3000亿个单词,但它的能力并非仅仅是简单地组合这些单词。正如之前的嘉宾提到的“涌现”现象,当数据量和参数达到一定程度时,性能会急剧提升,这一点难以解释目前甚至还没有找到好的解释。
吴军老师可能过于恰恰可能过于“专业”专业,作为谷歌中日韩搜索的技术负责人,他所熟悉的NLP领域的传统方法已经逐渐消失已经发生很大变化。另外,图灵奖得主袁乐坤杨立昆也认为GPT-4等模型缺乏技术创新。但我认为现代神经网络在自然语言处理领域已经取得了显著进步,并在某种程度上超越了传统方法。
ChatGPT是工程和产品的胜利
看这张图,才过两个月ChatGPT的用户已经破亿,并且我们我使用它的频次很高,我自己每天至少花两三个小时用ChatGPT做辅助工作,国内外的大公司都在研究这些模型,亚马逊也加入了这个领域。
我认为ChatGPT是工程和产品的胜利,他们选择语言作为AGI的切入点,最早人工智能学科出来的时候,有一派研究机器人、物理世界,就像波士顿动力正在做的事情,而为什么这一派觉得语言更重要?
因为语言对人类至关重要。维特根斯坦曾说,语言的边界就是思想的边界。尤瓦斯拉蒂《人类简史》作者尤瓦尔赫拉利认为,讨论虚构事物是人类语言的独特之处,——语言可能是我们区别于比如一个生物和其它生物的关键标准。
人工智能发源的符号主义和连接主义都遇到了挑战,而现代神经网络为我们提供了新的解决方案。
简单解释一下,符号主义其实就是逻辑学派,他们认为所有东西都可以解释,比如用机器翻译写语法规则,学外语的人告诉我们这个单词后面要分第几格,学计算机的人把代码写出来,但最后拼在一起错误百出,所以这些东西做到196760年代年就做不下去了。
一段时间之后,连接主义逐渐崛起,它并不强调可解释性。虽然空气动力学能解释飞机的部分原理,但不能完全解释。因此,神经网络和涌现现象也是难以解释的,然而,目前为止,还没看到这条路的天花板。
从下面这张图中,我们可以看到谷歌收购的DeepMind(红色柱子)与OpenAI之间的巨大差距。DeepMind每年发表的论文数量为数百篇,而OpenAI的论文数量仅有个位数。尽管OpenAI投入了大量资金,但他们并未闲着闲置,他们聘请了一个标注团队进行数据标注工作,并将其视为一项工程,而非仅仅是实验和论文发表。
GPT在两三年之前完全被谷歌BERT碾压,但是在过去几年里,OpenAI一直在不断迭代,专注于大型语言模型。他们在2017年的时候还研究过其他技术方向,比如训练过游戏角色,最后把这些都砍掉了,就剩下大语言模型这个方向。
他们的大语言模型可以用“参透万象”来形容。深度学习之父Hinton在GPT-3发布后曾说,:将GPT-3的能力推演到未来,生命、宇宙和万物的答案只是4.398万亿参数而已。GPT-3的参数为1,750亿,大约是前者的几十倍。大型模型通过跨语言的文本知识汇集了人类的智慧,这是而地球上任何一个人都无法阅读如此多书籍和知识的。
此外,预训练模型是世界的压缩镜像,同时也是一个世界模式。黑灰色的圈就是1750亿参数,尽管GPT-3只学习到了其中的一小部分,但它神奇的地方在于泛化能力,它没有见过白色圈子的内容,但是它也可以回答相关的问题。换句话说,它可以回答一些从未见过的问题。当然,泛化会导致精度的损失,例如GPT可能在回答某些历史事件的日期时出错。
最后,用一个词概括大模型——“大道至简”,这其实体现在很多方面,比如在预训练方面,BERT和GPT都采用了预训练方法。然而,这并不意味着一开始就是这样。最早,各公司在做机器翻译、自动问答、情感分析等任务时,会分别建立相应的系统。大型预训练模型直到17、18年之后才开始流行。
大型模型还存在一个问题,那就是微调(Fine-tuning)。微调需要算法工程师来完成,而现在的Instruct GPT可以直接与用户交流,不需要算法工程师或额外的数据。这无疑降低了门槛。从用户界面(UI)的角度看,这可能是最大的改进,从计算机的历史发展来看,早期的计算机只能处理0和1的纸带,后来逐渐出现了键盘、鼠标和触摸板屏。触摸屏的出现虽然有所创新,但其实只是将鼠标替换成了手指。如今,我们所面临的可能是不再使用编程语言,而是用自然语言进行交互,这种变革已经超过了iPhone等触摸式设备带来的影响。
当年谷歌以其简洁的界面在搜索引擎市场上取得了成功,这与当时主流的雅虎等门户网站形成了鲜明对比。现在,特斯拉AI的负责人Andrej Karpathy已经回归到OpenAI,他认为未来最热门的编程语言将是英语。
ChatGPT的三个核心技术:情境学习、思维链、人类反馈强化学习
接下来,我们简要介绍了ChatGPT的技术基础,从算法、算力和数据三个方面进行宏观了解。首先,在算法层面,连接主义取得了胜利。然而在过去,连接主义曾经是一种信仰。人工智能之父马文·明斯基是符号学派的代表,当时深度学习的论文难以发表,连接主义者在主流圈子的会议上也没有发表论文的机会。
在算力的发展中,Transformer技术取得了巨大的进步。从商业角度来看,与微软合作是因为训练这类模型非常耗费资金。据估计,训练一个模型的成本在500万至1200万美元之间,而这还不是一次性的费用,因为过程中可能会出现问题。至于推理成本,即模型部署到服务器并响应指令的成本,我们很难按次数计算。不过,根据GPU租金计算,每天的成本大约为35万美元。
在数据方面,英语占据了92%的份额。而中文在GPT-3中的占比仅为0.99%。我们在国内的训练主要还是用中文。尽管如此,中文的影响力在全球范围内可能仍处于较低水平。此外,这些语料库基本上都是公开的,几乎所有的语料都被使用了。
尽管我们把OpenAI的成功主要归功于其工程能力和产品胜利,但仍有三个核心技术值得一提值得关注。
首先是情境学习(In-context Learning),这意味着模型能够根据上下文来学习和适应。
左边是论文标题,右边是Fine-tuning模式,我们之前做模型的方式就是右边的说法,所以模型出来之后我们要拿数据来训练,给他一个例子,如果给出一个法语翻译任务,模型可以根据提供的示例来进行翻译。同样,在情感分类任务中,模型能够学会根据评论内容判断情感倾向。
比如大众点评要给一个我喜欢的电影做评论,第一个评价是正面的,第二个评价是负面的,然后再给他提示我喜欢这个电影,这时候它就知道我让它做情感分类,这是很神奇的,我通过少数例子就让模型发生变化。
模型可以通过少数几个示例迅速适应,这是目前Prompt技术的核心基础。另外两个关键技术分别是思维链和与标注相关的技术。当数据量增大时,思维链的方式可以出现涌现,表现为指标的直线急剧增长。简单的指令可能导致错误的结果,但是当给出解题过程或详细步骤时,模型会给出正确的结果并展示过程。尽管目前对于思维链的研究仍有许多未知,但已经有很多算法在研究这一领域。
第三个技术与标注有关,例如DeepMind先通过人工写答案,再训练一个监督模型,然后让人评估多个答案,最后训练一个模型来自动选择答案。这样一来,可以实现标准化和自动化地选择答案,并对齐人类的价值观。这是一个关键技术,没有这一步,像ChatGPT这样的产品可能早已因为言辞不当而下线。
ChatGPT类产品的市场格局:以aA16zZ和Open AI为代表
在产品方面,市场格局有两个版本,一个是美国的aA16zZ,他们将OpenAI的技术应用于Being模型,并在应用领域进行开发。Hugging face则是一些模型托管平台以及图像声图的支持资源。另一个OpenAI的CEO认为在大语言模型和C端应用之间,还有一层模型托管和创业公司的机会层,专门处理这些大模型,将其应用到不同业务场景。
微软的生态相对明朗,已经将技术应用于Office365等产品。我已经不用谷歌,谷歌确实很危险。创业公司在内容生产、场景应用、办公类应用以及新的交互方面都有机会。例如,可以生成逼真的装修风格图,辅助阅读论文和专利,以及提供实用工具。尽管目前还没有看到太多新的交互方式,但这可能是一个更大的机会。
总之,模型适应性、思维链技术以及与标注相关的技术为大型预训练模型的发展提供了基础。在产品和市场方面,依然存在很多创业机会,值得关注。
在当今时代,我们的想象力往往被现有的应用程序框架所限制。例如,在京东购物时,我们需要在众多参数、品牌和选项中进行选择。但是,试想如果有一天,我们只需告诉APP我们的预算和需求,它就能为我们找到合适的产品,而不是让我们自己逐一筛选。这恰恰表明,贫穷的想象力限制了我们的思考,很多现有的APP和PC应用范式都在成为“枷锁”,阻碍我们的创新。
类似的例子还有烤面包机。当电灯泡问世时,人们把它等同于电,以至于烤面包机出现时,人们仍然离不开电灯泡的思维。今天我们也面临类似的局限。
去年,我们LanguageX在WMT国际机械翻译比赛上夺冠,幸运地击败了京东和华为等强大的对手。此外,我们还尝试了许多模型和方法。在训练发音翻译模型方面,我们取得了很大的进步。然而,我们很快又遇到了新的挑战,需要不断调整和创新。
几点非结构化建议:AIGC只是开始,AI安全值得关注
关于AI的应用,我们需要重新审视我们的认知。现在,很多创业者都在尝试文案撰写、图像生成和视频制作等方面的应用,但如果不是非常了解这些产品业务和场景,可能并不是一个好的商机。此外,AI的普及和民主化将给我们带来巨大的机会。就像计算机从IBM时代到鼠标和图形界面的出现,一旦技术门槛降低,其影响力会变得非常巨大社会影响力将会空前深远。
我们需要关注一手真实有效的信息,而非被标题党所迷惑。建议大家每天抽时间阅读一些论文,关注AI领域的发展看一些重要人物的访谈视频。此外,我们还要学会运用这些技术,而非只是谈论颠覆。
还有一点看法,我们认为,AI的机会点包括产品内容生产、效率工具和新的交互方式。同时,我们需要关注工业革命和电力革命等历史事件,从中寻找未来的发展方向。
关于AI的监管问题,比如千人联名信呼吁暂停研发AI,有的人吐槽马斯克暗渡陈仓,一边呼吁暂停,一遍自己在研发,我不好猜测他是怎么想的,但我认为这个事情很关键。——AI的发展可能会导致泡沫,也可能让我们失去碳基项目对硅基的控制,因此需要谨慎对待。
最后,分享几句关于AI安全的重要的观点。比如机器智能可能成为人类最后一项伟大发明,但我们不能完全依赖于它。尽管AI可以帮助我们发明更多的东西,但我们仍然需要保持自己的创造力和独立思考。有人认为,只要控制AI的电源,就能控制AI。然而,如果真正的AI出现,它有可能掌控电源甚至创造出新的电源。因此,我们需要对AI有更深入的了解和认知,以避免过于简单化地看待问题。
我们作为创业者、投资者,我们关注应用,作为和人类的一员,我们有责任关注和了解AI安全问题的发展。只有这样,我们才能把握未来的机遇,发挥我们的创造力,为人类的发展作出贡献。只有这样,我们才能把一个安全的世界传承给我们的后代。
作者:李光华 David Lee
编辑:周小燕
自然语言处理, 人工智能, 机器翻译, GPT-3
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!