这篇文章讨论了当下 AI 行业中“百模大战”的现象,即各大厂商发布的多款大模型在各种榜单上争夺第一名。然而,尽管这些大模型在某些方面表现出色,但在用户实际体验中,其表现并不尽如人意。此外,由于各种不同的统计排名口径,使得榜单变得难以使用。文章指出,部分榜单存在刷榜现象,这导致了一些模型虽然在榜单上排名靠前,但在实际应用中表现不佳。为此,C-Eval 团队 issuing lists of models that have passed their evaluation and those that haven't, in order to help users carefully evaluate the actual performance of these models.