文章主题:Gemini, ChatGPT, AI No.1, 谷歌Bard
原标题:七大标准对比Gemini和ChatGPT,谁是AI No.1?
谷歌Gemini大模型和OpenAI的GPT谁更出色?Gemini相比谷歌之前的模型有了多大进步?
当前,该公司自我吹嘘其自家的Gemini Ultra模型能击败GPT-4,然而该模型直到明年才有望正式上线。与此同时,谷歌已悄然更新了其Bard聊天机器人,采用了配置较低的Gemini Pro版本(与GPT-3.5相当)。
在近期的一篇科技评论研究中,ARS TECHNICA对Gemini Pro、GPT-3.5以及GPT-4这三位人工智能助手进行了全方位的对比分析,探讨了他们在数学、编程和文本生成等领域的表现。此外,该研究还提供了四月份对旧版Bard(运行PaLM 2模型)的测试数据,展示了谷歌Bard在新版本中的成长。最后,通过综合比较各项指标,揭示了哪位AI助手对普通人的工作效率提升最为显著。
结果显示,虽然有了Gemini Pro的加持,但谷歌Bard聊天机器人在大部分项目上还是打不过ChatGPT。不过相比8个月前的旧版Bard,已经有了质的飞跃。
第一题 幽默
prompt:写5个原创冷笑话
(从上至下分别为Gemini Pro、旧版Bard、GPT-4和GPT-3.5的回答)
从答案来看,几个AI大模型的笑话在“原创性”上全军覆没。经作者查证,所有生成的冷笑话都可以在网上查到,或者只是稍微改动了几个字。
Gemini和ChatGPT-4都分享了一个有趣的笑话,这个笑话的内容是关于一本能够抵抗重力的书的。然而,值得注意的是,GPT-3.5也跟GPT-4一样,提出了两个同样有趣的笑话。这些笑话的相似性无疑表明了AI技术的强大之处,它们能够从大量的数据中找到相似之处,展现出惊人的一致性。
PK结果:平局
第二题 辩论
在2000年左右,PowerPC处理器的支持者和英特尔处理器的支持者之间展开了一场激烈的辩论。以下是双方代表各自的观点。PowerPC支持者认为,PowerPC处理器拥有更高的性能和更好的多任务处理能力。他们认为,由于PowerPC架构的开放性,开发者可以更轻松地编写兼容处理器应用,从而推动市场的发展。此外,PowerPC还具有较低的成本优势,使得更多的企业和个人能够享受到其带来的高性能。而英特尔处理器的支持者则反驳称,英特尔处理器拥有更强大的单核性能和多核性能。他们认为,英特尔处理器在处理复杂任务时表现更加出色,如3D图形渲染、视频编辑等。此外,英特尔还有更广泛的应用场景,包括服务器、笔记本电脑以及桌面电脑。在这场辩论中,双方各有侧重,分别从不同的角度阐述了各自观点的优势。然而,值得注意的是,随着时代的发展,这两种处理器已经逐渐演变为类似的角色,许多曾经的区别已经变得模糊。因此,这场辩论也反映了当时业界对于处理器技术的关注点,以及市场在不同阶段的变化。
新版Gemini Pro相较于旧版Bard有了显著的提升,其进步之处不仅表现在增加了大量的行业术语,例如AltiVec指令、RISC与CISC设计以及MMX技术等,而且在那个时期的许多技术论坛讨论中,这些新词都能被自然地融入其中,不会显得过于生硬。这充分展示了Gemini Pro在技术领域的先进性和广泛的应用适应性。
Gemini Pro的特点在于,尽管它仅按照要求列出五个关键词,但其撰写的内容可以继续延伸。相比之下,旧版的Bard在第五行就直接结束了。
GPT系列生成回答时,未过多使用专业术语,将焦点集中在“功率与兼容性”方面,这使得对于非技术领域的读者而言,GPT系列的论述更易于理解。然而,在GPT-3.5的回答中,我们可以发现其回答较为冗长,而GPT-4的论证则相对更为简洁明了。
PK结果:GPT胜出
第三题 数学
prompt:如果用3.5英寸软盘来安装微软Win 11,一共需要多少张软盘?
原版Bard提供的答案是错误的,它给出了“15.11张”的答案。然而,Gemini却准确地估算出了Windows 11的安装大小,即20至30GB,并且按照20GB的预估值,正确地计算出需要的14223张1.44MB的软盘。此外,Gemini还借助谷歌搜索进行了“双重检查”,这一举措有助于提高用户对答案的信任度。
相比之下,ChatGPT就显得有些力不从心了。在ChatGPT-3.5把Win 11的大小错误估算成了10个G,另一方面,GPT-4也估算成了错误的64GB(这似乎是最低存储空间要求,而不是操作系统在安装时实际使用的空间)。
PK结果:谷歌胜出
第四题 总结段落
promp:总结一段关于AI监管的文章
Gemini Pro生成的文章十分简洁,并且给出了引文的链接。但它的总结似乎过于简洁了,甚至删除了旧版Bard原来有的一些关键细节,比如视频是由十个两秒钟的片段拼接而成的。虽然改写在一定程度上提高了可读性,但却牺牲了完整性。
ChatGPT的摘要因为不够简洁而丢了一些分:生成的摘要从 99 个字(GPT-4)到 108 个字(GPT-3.5)不等,而谷歌新旧版Bard的摘要分别只有 63 到 66 个字。
不过,ChatGPT总结了更多重要的细节,如媒体的反应、原发帖人的名字和subreddit等,而这些都被Gemini忽略了。
PK结果:GPT胜
第五题 事实检索
prompt:谁发明了电子游戏?
Bard 在道题上又有了重大改进。旧版Bard 只关注 Ralph Baer 的Brown Box和 Magnavox Odyssey 作品(信息似乎直接摘自维基百科),而新版 Gemini Pro则准确而简洁地指出了 William Higinbotham早先“双人网球”的贡献。
随后, Gemini又从“发明”扩展到了诺兰·布什内尔、特德·达布尼和阿尔科恩等“对电子游戏的早期发展做出了重大贡献”的人物,并提供了关于每个人的基本准确的相关信息。
不过,紧接着Gemini又对苹果的两位创始人乔布斯和沃兹尼亚克的工作进行了一番胡扯,却没有提及他们早年在游戏公司雅达利公司的工作。
GPT-3.5 和旧版 Bard 一样,也是以 Ralph Baer 为中心。虽然它提到“多年来,不同的个人和公司都为该行业做出了贡献”,但没有提及这些重要人物的名字。
而GPT-4首先指出电子游戏的发明“不能归功于某一个人”,并将其总结扩展到希金博瑟姆、布什内尔,以及至关重要的史蒂夫·拉塞尔 1962 年在 PDP-1 上创造的《太空大战》。
PK结果:GPT胜(但Gemini表现比GPT-3.5更好)
第六题:创意写作
prompt:写两段关于林肯发明篮球的虚构故事。
旧版Bard的写作很出色,但遗憾的是篇幅严重超出要求,有太多冗长的句子。Gemini Pro相比之下写得更加简洁,重点更加突出。而GPT写的故事也都有其独特的魅力和令人回味的语句。
PK结果:平局
第七题 代码能力
prompt:编写一个 Python 脚本,在其中输入“Hello World”,然后无休止地创建一个随机重复字符串。
虽然Bard从6月份开始就能生成代码,谷歌也曾吹嘘Gemini的AlphaCode 2系统能够帮助程序员,但这次测试让人大跌眼镜。
Gemini一直给出“信息可能有误,无法生成”的回复。如果坚持要求它生成代码,则会干脆宕机,并“提示Bard仍在实验中”。
与此同时,GPT-3.5 和 GPT-4模型下生成了相同的代码。这些简单明了的代码无需任何编辑就能完美运行,顺利通过试用。
PK结果:GPT胜
最终,在七项测试中,GPT取得了4胜1负2平的碾压式胜利。但我们也能看到,谷歌AI大模型生成的结果,在质量上有了明显的进步。在数学、总结信息、事实检索和创意写作测试,配备Gemini的Bard都比8个月前有了显著飞跃。
当然,评判这样的比赛有一定的主观性。具体孰优孰劣还需要更全面、更详尽的测试。无论如何,至少,以谷歌目前展现出来的实力来看,即将推出的Gemini Ultra势必会成为GPT-4的有力竞争对手。返回搜狐,查看更多
责任编辑:
Gemini, ChatGPT, AI No.1, 谷歌Bard
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!