金融GPT来了:500亿参数,但用来投资还是跑不赢大盘
机器之心报道 机器之心编辑部 专业领域的 GPT 大模型来了。 在 ChatGPT 爆火之后,各行各业都在研发自己垂直领域的 GPT。 作为一个极具价值的应用场景,金融行业也需要自己专用的大模型。 现在,面向金融行业的大语言模型 BloombergGPT 来了!这是一个 500 亿参数的语言模型,支持金融行业的各种任务,并取得了一流的结果。 论文链接:https://arxiv.org/pdf/2303.17564.pdf 试用者表示,「这个模型知道 CEO 的名字,可以生成新闻标题,可以编写 BQL 查询(访问彭博数据的查询)。这些行为在我们测试的其他模型中没有发现。」 我们来看一下论文的核心内容。 金融行业为什么需要自己的大模型? 2020 年发布的 GPT-3 展示了训练超大自回归语言模型(LLM)的强大优势。GPT-3 有 1750 亿个参数,比之前的 GPT-2 模型增加了上百倍,并在各种 LLM 任务中表现出色,包括阅读理解、开放问答等。 此外有证据表明,大型模型表现出了涌现行为:在扩大规模的过程中,它们获得了小模型中不存在的能力。涌现行为的一个明显的例子是通过少量 prompt 执行任务的能力,在这种情况下,一个模型可以从少量的例子(few-shot prompting)中学习任务。当我们扩大语言模型的规模时,这种能力的提高远远超过了随机。广义上讲,few-shot prompting 极大地扩展了模型支持的任务范围,降低了用户寻求新的语言任务自动化的门槛。 在 GPT-3 之后,模型的规模增长到了 2800 亿(Gopher)、5400 亿(PaLM)甚至...






