文章主题:GPT4, ChatGPT, NLP, AI
今天 GPT4 发布了。
近期,我與許多朋友的對話中,話題頻繁涉及ChatGPT的影響,從專家们的分享中,我也吸納了一些深刻的見解與想法。對於我們來說,情感豐富的AI並不僅僅是遥不可及的概念。
这篇博客是我尝试运用人工智能助手的成果,其中ChatGPt协助完成了文本的修订,Midjourney则负责绘制了插图和封面设计,而Dall-E则对图片进行了精细的优化。
GPT3 – 文字是通用接口
自从 ChatGPT 引爆之后,我一会在想为什么这个变革性的 AI 会出现在 NLP 领域。
在凯文·凯利的著作《科技想要什么》中,他提出人类发明出的各种技术中,文字的出现无疑是一次重大的进步。在文字出现之前,人们交流和储存信息的手段主要依赖实际举例,如父亲向儿子传授打猎的技巧等。然而,由于古代人类的寿命相对较短,他们能够用于传授技能的时间非常有限。因此,许多技能如打猎、建造等往往只能学习到一部分,例如仅学会一种狩猎方式,父亲便可能撒手人寰。然而,随着文字的出现,人类的技术和信息得以保存并高效地传承。当人工智能有一天能够理解文字 deeply enough,它对人类知识的理解也将达到一个新的高度。
人类的思维方式是通过各种途径来表达和强化的,其中最重要的载体就是文字。我们从内心独白、口头表述以及做笔记等过程中,不断加深对自己思考逻辑的理解。对于那些掌握多种语言的人来说,他们可能会发现每种语言所体现的思维模式都有其独特之处。例如,使用汉语作为思维语言的人往往更擅长进行抽象和提纲挚领式的思考,而在英语语境下,人们的思考方式则更偏向于具体的实例。随着GPT3等大型语言模型的诞生,我们有了新的工具来利用语言中的逻辑能力。在这里,“链式提示”就是一个很好的例子。它就像是一种条件概率的表现形式,其中提示(prompt)作为先验条件,会限制后续回答的范围。这个范围,就是由人的逻辑所设定的。比如,“我已经吃过了饭,你认为会怎样?”这个问题,后续的回答就应当围绕“吃饭”这个主题展开,这就是文字在条件概率上对我们思维的限制。
在网络上,有很多优秀的博客文章,其中一篇名为《Text Is the Universal Interface》(https://scale.com/blog/text-universal-interface)的博客文章也探讨了这一主题。
GPT4 – 三维世界的物理规律
今天,GPT-4 正式亮相,这是一个令人兴奋的事件。作为一款多模态模型,GPT-4 可以同时处理图像和文本输入,这意味着它能够获取更多的图像知识。与 GPT-3 相比,GPT-4 在这个方面的优势尤为明显。
图片和文字一样,作为一个重要的信息来源,除了图片本身的规律,可能还会嵌入很多三维世界的理解能力,例如三维世界的透视关系、物理碰撞、杠杆定律、动物肢体的运动规律等信息。如果训练的数据源有视频的逐帧截图,可能对三维世界运动规律的理解会更强。举个例子,如果下面这个小孩的动作图片被作为一整组训练图片的话,模型就可以学习到人在跳跃时的肢体形态。
有人已经晒出了一张图,也是 GPT4 对物理规律理解的一个例子,看起来它可以理解一根刚体杆子的合理运动轨迹:
也许这部分能力可以帮助训练机器人的行动方式,让机器人的关节和肢体运动更流畅。
下一代 GPT?具备情感的 AI
对于一个理解了人类逻辑、语言、三维世界运行规律的 AI 来说,与人最终的差距可能就是情感了。之前看过一本牛津出版社的 《Emotion: A Very Short Introduction》,其中提到,人的情感来源其实是在进化过程中,为了适应环境,被环境不断筛选出来的。例如:
愤怒是为了让敌人感到恐惧而放弃对自己的伤害。
恐惧是为了让自己远离危险。
同情和难过是为了让族群中的人能互相帮助。
欲望是为了让基因能获取更多生存资源。
如果用强化学习中的多智能体学习的方式,把许多随机初始化的智能体用 GPT4 放入环境中训练,让智能体相互之间相互对话,然后竞争、合作获取生存资源,再用遗传算法不断迭代,也许就能训练出具备情感的 AI 了,就像让几个 ChatGPT 去玩大富翁游戏一样。如果在训练过程中加入人类因素,可能会训练出一个会讨好人类的 AI,因为讨好人类的情感是最有可能在遗传算法中生存下来的。
未来
我相信现在已经走到了一个 AI 能对大部分行业都起到帮助的阶段,也就意味着大部分的行业都能因为 AI 得到发展进步。技术的自我加速螺旋开始了,技术的进化速度只会让人一次次瞠目结舌。第三次工业革命也开始了。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!