《Gemini1.0：地表最强人工智能的崛起》

文章主题：人工智能, Gemini 1.0, 不同尺寸优化

原标题：超越ChatGPT，地表最强人工智能来了！

当地时间12月6日晚，谷歌宣布推出其规模最大、功能最强大的新一代大型语言模型Gemini，并在多个方面超越ChatGPT，再次引发市场对人工智能产业的想象空间，并带动A股AI概念股大幅上涨。

多模态，还是多模态。

根据谷歌的说法，Gemini之所以如此出色，是因为它的多模态能力、复杂的推理和先进的编码能力。

GPT-4也号称多模态模型，但它不是直接训练一个多模态模型，OpenAI先分别训练了纯文本、纯视觉和纯音频模型，然后将他们拼接在一起。与GPT-4不同，Gemini 原生是多模态的。谷歌从一开始就建立了一个“多感官”模型，给其“投喂”多模态数据（包括文字、音频、图片、视频、PDF文件等）进行训练。 “这有助于Gemini从头开始无缝地理解和推理各种输入，远远优于现有的多模式模型。”

据谷歌介绍，从自然图像、音频、视频理解到数学推理，Gemini Ultra在32个常用的学术基准的30个上领先GPT-4。Gemini 在 MMLU（大规模多任务语言理解）上的得分为 90%，高于GPT-4的86.4%，成为首个超越人类专家表现的模型。（MMLU测试包括数学、物理、历史、法律、医学和伦理等57个学科，旨在考察世界知识和解决问题的能力）

据报道，Gemini 1.0针对各种尺寸进行了专门的优化，包括Ultra、Pro和Nano（大杯、中杯和小杯）三个版本。其中，Gemini Ultra适用于最大规模的复杂任务；Gemini Pro则能应对大部分其他任务的中等需求；而Gemini Nano则是一款尺寸小巧但功能高效的产品，可轻松携带于手机之中。据计划，Pro和Nano版本将于即日上市，而Ultra版本则需等到明年才能正式亮相。

当下AI应用遇到瓶颈，原因之一是基础模型能力尚未有本质性迭代。Google Gemini的发布，刷新了现有模型的测评结果，且原生支持多模态，为应用的跃升打下基础。

我们“优秀交易员”节目持续关注AI带来的产业变革和投资机会，在11月份，OpenAI最新大模型GPT-4 Turbo发布时，我们就详细梳理了多模态下，AI应用的四大投资方向和代表公司，制作了专题《GPT-4升级加速AI应用落地》，目前来看，这四大方向正是近期强势表现的板块，有需要专题报告的小伙伴，欢迎免费索取。

《Gemini1.0：地表最强人工智能的崛起》返回搜狐，查看更多