最新GPT-4在律考中击败90%人类,它到底强在哪?|钛媒体深度
“码农真的快失业了,编程不存在了。”在今早 GPT-4发布之后,朋友圈刷屏,很多人表达该技术对目前人类生产生活的影响。 GPT-4有多强,GRE考试接近满分,律考比肩顶级律师,随手画个草图就能做出同款网页。当国内还在热议人工智能对话大模型产品ChatGPT时,背后核心预训练模型技术GPT却突然重磅升级。 钛媒体App获悉,北京时间3月15日凌晨,创造出ChatGPT的美国 AI 公司OpenAI 正式对外发布GPT-4。 据悉,GPT-4是新一代多模态大模型,支持图像和文本输入以及正确的文本输出,拥有强大的识图能力,文字输入限制提升至2.5万字,支持多个语言,回答准确性显著提高,从而让新的ChatGPT更聪明。此外,GPT-4还开放了角色扮演和性格定制能力。另外,GPT-4版本还会随着时间进行自动更新。 钛媒体App了解到,OpenAI发布的GPT-4在各种专业学术基准上有着人类水平表现。例如在模拟律师考试中,GPT-4得分约为前10%——击败了90%人类,而ChatGPT背后的GPT-3.5得分约为倒数10%。 “GPT-4 是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人。”OpenAI工程师在开发者Demo视频中表示,GPT-4 是OpenAI努力扩展深度学习的最新里程碑。OpenAI称,GPT-4虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。 微软在GPT-4发布后第一时间表示,新的必应(Bing)已经基于GPT-4 技术运行,这是为搜索产品量身定制的模型产品。“如果你在过去五周内的任何时候使用过新的Bing预览版,你就已经提前了解过这个强大模型的早期版本。随着OpenAl对GPT-4及以后的版本进行更新,Bing 从这些改进中受益匪浅。” 钛媒体App获悉,即日起,ChatGPT Plus付费订阅用户现可直接使用GPT-4版本的ChatGPT,未来则将对免费用户开放一定数量的GPT-4体验。同时,GPT-4 API 需要申请候选名单,今天将开始邀请一些开发人员,并不断扩大邀请规模,每1000字符的价格为0.03美元;图像输入则处在研究预览阶段,仅对少部分用户开放。 不过,GPT-4仍存在改进空间。虽然这次模型大升级,但之前ChatGPT会出现幻觉、“胡说八道”的毛病还是没能在GPT-4中完全改掉。 谁能革得了 ChatGPT 的命?现在看来还是 OpenAI 自己。 花了6个月打造,GPT-4到底强在哪里? 聊GPT-4之前,先要了解GPT到底是什么。 随着1956年“达特茅斯会议”上创造“人工智能”这个术语,全球迎来了 AI 技术发展阶段。在2016年谷歌DeepMind的“阿尔法狗”(AlphaGo)击败了韩国围棋冠军李世乭,以及机器学习的诞生,AI 算法、算力、数据“三驾马车”获得了突破性技术进展。 但问题在于,机器学习利用循环神经网络(RNN) ——序列数据或时序数据的人工神经网络来处理文字,使得文字按顺序一个个处理,没办法同时进行大量学习。 因此2017年,谷歌团队发布论文“Attention Is All You Need”,提出了一个新的学习框架Transformer,以解决此问题。它抛弃了传统的CNN(卷积神经网络)和RNN,使整个网络结构完全由Attention机制组成,从而让机器同时学习大量的文字,训练速度效率大大提升。 简单来说,只需要LLM(大型语言模型)、大型参数量和算力算法训练,以Attention机制就可实现快速的机器学习能力。因此,无论是ChatGPT的T,还是谷歌预训练语言模型BERT的T,均是Transformer的意思。 基于Transformer框架,OpenAI进行了新的研究学习GPT,全称为Generative Pre-trained Transformer(生成式预训练框架),其利用无监督学习技术,通过大量数据来形成快速反馈。2018年6月,OpenAI发布第一代GPT,2019年11月发布GPT-2,2021年发布了1750亿参数量的GPT-3,不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力等,而ChatGPT是微调之后的GPT-3.5消费级应用。 今天发布的GPT-4,是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。OpenAI表示,团队花了6个月的时间使用对抗性测试程序和ChatGPT的经验教训,对GPT-4进行迭代调整,从而在真实性、可控性等方面取得了有史以来最好的结果。 “GPT-3.5 和 GPT-4...