揭秘科技工作者的神秘世界：你真的了解他们吗？

文章主题：科技, 工作者, 阅读

谁能革得了 ChatGPT 的命？现在看来还是 OpenAI（在美国成立的人工智能研究公司，ChatGPT 的开发机构）自己。在 ChatGPT 引爆科技领域之后，人们一直在讨论 AI下一步的发展会是什么，很多学者都提到了多模态，我们并没有等太久。今天凌晨，OpenAI 发布了多模态预训练大模型 GPT-4。揭秘科技工作者的神秘世界：你真的了解他们吗？

GPT-4 实现了以下几个方面的飞跃式提升：强大的识图能力；文字输入限制提升至 2.5 万字；回答准确性显著提高；能够生成歌词、创意文本，实现风格变化。

揭秘科技工作者的神秘世界：你真的了解他们吗？

“GPT-4 是世界第一款高体验，强能力的先进AI系统，我们希望很快把它推向所有人，”OpenAI 工程师在介绍视频里说道。似乎是想一口气终结这场游戏，OpenAI 既发布了论文（更像是技术报告）、 System Card，把 ChatGPT 直接升级成了 GPT-4 版的，也开放了 GPT-4 的 API（应用程序编程接口）。另外，微软营销主管在 GPT-4 发布后第一时间表示：“如果你在过去六周内的任何时候使用过新的 Bing 预览版，你就已经提前了解了 OpenAI 最新模型的强大功能。”是的，微软的新必应早就已经用上了GPT-4。

GPT-4：我 SAT 考 710，也能当律师GPT-4 是一个大型多模态模型，能接受图像和文本输入，再输出正确的文本回复。实验表明，GPT-4 在各种专业测试和学术基准上的表现与人类水平相当。例如，它通过了模拟律师考试，且分数在应试者的前 10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。OpenAI 花了 6 个月的时间使用对抗性测试程序和 ChatGPT 的经验教训对 GPT-4 进行迭代调整，从而在真实性、可控性等方面取得了有史以来最好的结果。OpenAI 正在通过 ChatGPT 和 API（有候补名单）发布 GPT-4 的文本输入功能。图像输入功能方面，为了获得更广泛的可用性，OpenAI 正在与其他公司展开合作。有趣的是，GPT-3.5 和 GPT-4 之间的区别很微妙。当任务的复杂性达到足够的阈值时，差异就会出现 ——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。OpenAI 还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型。许多现有的机器学习基准测试都是用英语编写的。为了初步了解 GPT-4 在其他语言上的能力，研究团队使用 Azure Translate 将 MMLU 基准 —— 一套涵盖 57 个主题的 14000 个多项选择题 —— 翻译成多种语言。在测试的 26 种语言的 24 种中，GPT-4 优于 GPT-3.5 和其他大语言模型（Chinchilla、PaLM）的英语语言性能：揭秘科技工作者的神秘世界：你真的了解他们吗？

GPT-4：我能玩梗图GPT-4 可以接受文本和图像形式的 prompt（javascript编程语言中的一个方法），新能力与纯文本设置并行，允许用户指定任何视觉或语言任务。比如给 GPT-4 一个长相奇怪的充电器的图片，问为什么这很可笑？揭秘科技工作者的神秘世界：你真的了解他们吗？

GPT-4 回答道，用 VGA 线充 iPhone。揭秘科技工作者的神秘世界：你真的了解他们吗？

格鲁吉亚和西亚的人均每日肉类消费，算平均数：揭秘科技工作者的神秘世界：你真的了解他们吗？

看起来，现在的 GPT 已经不会在计算上胡言乱语了。还是太简单，那直接让它做题，还是个物理题：揭秘科技工作者的神秘世界：你真的了解他们吗？

GPT-4 看懂了法语题目，并完整解答：揭秘科技工作者的神秘世界：你真的了解他们吗？

GPT-4 可以理解一张照片里“有什么不对劲的地方”：揭秘科技工作者的神秘世界：你真的了解他们吗？

GPT-4 还可以以量子速读看论文，如果你给它 InstructGPT 的论文，让它总结摘要，就会变成这样：揭秘科技工作者的神秘世界：你真的了解他们吗？

如果你对论文里的某一个图感兴趣呢？GPT-4 也可以解释一下：揭秘科技工作者的神秘世界：你真的了解他们吗？

接着来，问 GPT-4 梗图是什么意思：揭秘科技工作者的神秘世界：你真的了解他们吗？

它给出了详细的回答：揭秘科技工作者的神秘世界：你真的了解他们吗？

局限性与风险尽管功能已经非常强大，但 GPT-4 仍与早期的 GPT 模型具有相似的局限性，其中最重要的一点是它仍然不完全可靠。OpenAI 表示，GPT-4 仍然会产生幻觉、生成错误答案，并出现推理错误。目前，使用语言模型应谨慎审查输出内容，必要时使用与特定用例的需求相匹配的确切协议（例如人工审查、附加上下文或完全避免使用）。总的来说，GPT-4 相对于以前的模型（经过多次迭代和改进）已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中，GPT-4 的得分比最新的 GPT-3.5 模型高 40%：揭秘科技工作者的神秘世界：你真的了解他们吗？

GPT-4 通常缺乏对绝大部分数据截止后（2021 年 9 月）发生的事件的了解，也不会从其经验中学习。它有时会犯一些简单的推理错误，或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败，比如在它生成的代码中引入安全漏洞。GPT-4 预测时也可能出错，但它“很自信”，意识到可能出错时也不会复核。有趣的是，基础预训练模型经过高度校准（其对答案的预测置信度通常与正确概率相匹配），然而，通过 OpenAI 目前的后训练（post-training）过程，校准减少了。揭秘科技工作者的神秘世界：你真的了解他们吗？

OpenAI 表示，研究团队一直在对 GPT-4 进行迭代，所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。GPT-4 有着与以前的模型类似的风险，如产生有害的建议、错误的代码或不准确的信息。同时，GPT-4 的额外能力导致了新的风险。为了了解这些风险的程度，团队聘请了 50 多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家，对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估，来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。GPT-4 发布后，ChatGPT Plus 订阅者可以在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。要访问 GPT-4 API（它使用与 gpt-3.5-turbo 相同的 ChatCompletions API），用户可以注册等待。OpenAI 会邀请部分开发者体验。获得访问权限后，用户目前可以向 GPT-4 模型发出纯文本请求（图像输入仍处于有限的内测阶段）。迫不及待的用户大概已经开始测试体验了吧。揭秘科技工作者的神秘世界：你真的了解他们吗？

参考内容：https://openai.com/product/gpt-4来源：微信公众号“机器之心”授权转载（有删减）往期精彩回顾|连躺两个月，身体会发生什么变化？|打喷嚏、流眼泪，过敏季又来！花粉过敏不全是因为花？|爱社交，更长寿！研究表明频繁社交与寿命延长相关|为室温超导新进展“奔走相告”？不妨先了解基础概念~科技发展的背后离不开科技工作者的奉献

阅读“科技工作者”