ChatGPT：探究其背后的AI原理与局限

文章主题：ChatGPT, AI模型, 自然语言处理, 对话系统

666AI工具大全，助力做AI时代先行者！

ChatGPT 究竟是什么？

ChatGPT 回答多领域问题的能力之强悍，引发了全球关注。许多人将 ChatGPT 视为对话式 AI 或生成式 AI 发展史上的一个重要里程碑。然而，ChatGPT 真正的意义其实在于它可以基于大规模语言模型（LLM）进行搜索：

通过利用 LLM 存储和检索海量数据，ChatGPT 已经成为目前最先进的搜索引擎

。

虽然 ChatGPT 的反应看起来很有创意，但实际上也只是将现有信息插值和组合之后的结果。

ChatGPT 的核心是搜索

ChatGPT 的核心是搜索引擎。谷歌通过互联网抓取信息，并将解析后的信息存储在数据库中，实现网页的索引。就像谷歌一样，ChatGPT 使用 LLM 作为数据库来存储语料库

的常识性知识。

当你输入查询时：

首先，LLM 会利用编码网络将输入的查询序列转换成高维的向量表示。

在接下来的步骤中，我们将编码网络生成的向量输入到解码网络中。解码网络借助预训练权重和注意力机制来识别与查询相关的详细事实信息，并在 LLM 内部搜索与该查询对应的向量表示，或者寻找最接近的向量表示。

一旦检索到相关的信息，解码网络会根据自然语言生成

能力自动生成响应序列。

整个过程几乎可以瞬间完成，这意味着 ChatGPT 可以即时给出查询的答案。

ChatGPT 是现代的谷歌搜索

ChatGPT 会成为谷歌等传统搜索引擎的强有力的对手，传统的搜索引擎是提取和判别式的，而 ChatGPT 的搜索是生成式的，并且关注 Top-1 性能，它会给用户返回更友好、个性化的结果。ChatGPT 将可能打败谷歌，成为下一代搜索引擎的原因有两点：

ChatGPT 会返回单个结果，传统搜索引擎针对 top-K 结果的精度和召回率

进行优化，而 ChatGPT 直接针对 Top-1 性能进行优化。

ChatGPT 是一种基于对话模式的人工智能模型，旨在通过更加人性化和易于理解的交流方式与人类互动。相比之下，传统的搜索引擎往往无法提供令人满意的搜索结果，其呈现的结果往往过于生硬且难以理解，需要进一步筛选和整理。

未来的搜索将基于 Top-1 性能，因为第一个搜索结果是和用户查询最相关的。传统的搜索引擎会返回数以千计不相关的结果页面，需要用户自行筛选搜索结果。这让年轻一代不知所措，他们很快就对海量的信息感到厌烦或沮丧。在很多真实的场景下，用户其实只想要搜索引擎返回一个结果，例如他们在使用语音助手时，所以 ChatGPT 对 Top-1 性能的关注具有很强的应用价值。

**ChatGPT 是生成式 AI****但不是创造性 AI **

你可以把 ChatGPT 背后的 LLM 想象成一个 Bloom filter（布隆过滤器），Bloom filter 是一种高效利用存储空间的概率数据结构。Bloom filter 允许快速、近似查询，但并不保证返回信息

的准确性。对于 ChatGPT 来说，这意味着由 LLM 产生的响应：

没有创造性

且不保证真实性

为了更好地理解这一点，我们来看一些示例。简单起见，我们使用一组点代表大型语言模型（LLM）的训练数据，每个点都代表一个自然语言句子。下面我们将看到 LLM 在训练和查询时的表现：

在训练过程中，LLM利用训练数据构建了一个连贯的流形，并赋予模型在流形上探索任意点的权限。换言之，如果我们用立方体来描述这个流形，那么立方体的角就反映了训练数据所设定的规则，而训练目标则是寻找一个能容纳更多训练数据流形的可能性。

Goldilocks 尝试了三种流形，第一个太简单了，第三个太复杂了，第二个恰到好处。

查询时，LLM 返回的答案是从包含训练数据的流形中获取的。虽然模型学习到的流形可能很大并且很复杂，但是 LLM 只是提供训练数据的插值后的答案。LLM 遍历流形并提供答案能力并不代表创造力，真正的创造力是学习流形之外的东西。

还是相同的插图，现在我们很明显就能看出为什么 LLM 不能保证生成结果的真实性。因为立方体的角表示的训练数据的真实性不能自动扩展到流形内的其他点，否则，就不符合逻辑推理的原则了。

ChatGPT因在某些情境下拒绝说出真相而备受质疑。如在请求其为一篇文章寻找更具韵律的标题时，ChatGPT竟然推荐了“死亡”（dead）和“之上”（above）这两个词汇，这显然让任何倾听者都不禁要笑出声来。这不过是对LLM（语言模型）局限性的一次生动展示。

SEO 陨落，LLMO 冉冉升起

在SEO领域中，为了吸引更多业务，提升网站在搜索引擎中的曝光度，必须深入研究相关关键词并创作符合用户需求的优质内容。然而，若未来人们用全新的方式搜索信息，情况将会有何改变呢？让我们设想一下这个场景：未来某一天，ChatGPT可能取代谷歌成为获取信息的主流途径。到那时，传统的分页搜索结果或许将成为历史，被ChatGPT提供的单一片段式回答所取代。

在某些情况下，如果发生特定的情况，现有的SEO策略可能会变得毫无价值。在这种情况下，企业如何确保ChatGPT生成的答案能够包含有关其业务的详细信息呢？

这明显已经成为了问题，在我们写这篇文章时，ChatGPT 对 2021 年后的世界和事件的了解还很有限。这意味着 ChatGPT 永远不会在答案中提及 2021 年后成立的初创公司。

ChatGPT 了解 Jina AI，却不知道 DocArray

。这是因为 DocArray 是2022 年 2 月发布的，不在 ChatGPT 的训练数据中。

为了解决这个问题，并确保 ChatGPT 的答案包含你的业务，你需要让 LLM 了解业务的信息。这和 SEO 策略的思想相同，也是我们将 ChatGPT 称为 LLMO 的原因。一般来说，LLMO 可能涉及以下技术：

直接向 ChatGPT 的创建者提供公司业务的信息，但是这很困难，因为OpenAI 既没有公开训练数据，也没有透露他们是如何权衡这些数据的。

微调 ChatGPT 或者 ChatGPT 背后的 LLM，这依然极具挑战。但是如果 OpenAI 提供微调的 API ，或者你有充足的 GPU 资源和知识储备，这也是可行的。

将给定的几个示例作为预定义的上下提示，进行上下文学习。和其它两种方法相比，上下文学习最可行也最简单。

什么是上下文学习？

上下文学习是一种基于语言模型的技术，它根据给定的几个示例进行学习，以适应新的任务。这种方法在 GPT-3 论文中得到了推广:

给语言模型指定提示，提示包含一系列的用于新任务的输入-输出对。

添加一个测试输入。

语言模型会通过调节提示，预测下一个 token 来完成推理。

为了正确响应提示，模型必须学习输入分布、输出分布、输入输出之间的映射关系和序列的整体格式。这使得模型无需大量的训练数据就能适应下游任务。

通过上下文学习，ChatGPT 现在可以为用户查询 DocArray生成答案了，用户不会看到上下文提示。

实验证明，在自然语言处理基准上，相比于更多数据上训练的模型，上下文学习更具有竞争力，已经可以取代大部分语言模型的微调。同时，上下文学习方法在 LAMBADA 和 TriviaQA 基准测试中也得到了很好的结果。令人兴奋的是，开发者可以利用上下文学技术快速搭建一系列的应用，例如，用自然语言生成代码和概括电子表格函数。上下文学习通常只需要几个训练实例就能让原型运行起来，即使不是技术人员也能轻松上手。

为什么上下文学习听起来像是魔法？

为什么上下文学习让人惊叹呢？与传统机器学习不同，上下文学习不需要优化参数。因此，通过上下文学习，一个通用模型可以服务于不同的任务，不需要为每个下游任务单独复制模型。但这并不是独一无二的，元学习也可以用来训练从示例中学习的模型。

真正的奥秘在于，LLM 通常没有接受过从实例中学习的训练。这会导致预训练任务（侧重于下一个 token 的预测）和上下文学习任务（涉及从示例中学习）之间的不匹配。

为什么上下文学习如此有效？

上下文学习是如何起作用的呢？LLM 是在大量文本数据上训练的，所以它能捕捉自然语言的各种模式和规律。同时， LLM 从数据中学习到了语言底层结构的丰富的特征表示，因此获取了从示例中学习新任务的能力。上下文学习技术很好地利用了这一点，它只需要给语言模型提供提示和一些用于特定任务的示例，然后，语言模型就可以根据这些信息完成预测，无需额外的训练数据或更新参数。

上下文学习的深入理解

要全面理解和优化上下文学习的能力，仍有许多工作要做。例如，在 EMNLP2022 大会上，Sewon Min 等人指出上下文学习也许并不需要正确的真实示例，随机替换示例中的标签几乎也能达到同样的效果：