《ChatGPT背后的GPU力量：AI芯片的崛起》

文章主题：文章关键词：ChatGPT, AI行业, 通用人工智能, 生成式人工智能技术

打开凤凰新闻，查看更多高清图片

撰文 | 古芯

编辑 | 杨博丞

题图 | IC Photo

ChatGPT的问世是AI领域的一个重大突破，它将通用人工智能推向了更广泛的应用阶段。尽管ChatGPT属于生成式人工智能技术（AIGC）的一种，但它却能够训练其他AIGC产品，如AI绘画模型Midjourney的提示词分析师。

ChatGPT 的卓越能力引起了广泛关注，自其母公司于 2022 年 11 月推出 ChatGPT3.5 版本后，迅速吸引了大量用户。然而，这一突破也引发了争议，尤其是全球首富马斯克，他联手数千人在全球范围内发起请愿，呼吁停止研发类似 ChatGPT 的产品。

马斯克的呼吁之所以引起广泛关注，并非仅仅是因为他反对开发类似ChatGPT的产品，或者因为他身为全球首富的地位，而是他在宣布自己将组建团队、 self-finance 研发类似ChatGPT产品的前夕，就 already 表明了其雄厚的财力，使得他在一掷千金购买10000块GPU芯片时，显得尤为自信满满。

马斯克对ChatGPT的态度似乎存在矛盾，然而，考虑到他在2015年曾是ChatGPT母公司OpenAI的联合创始人，而在2018年被现任CEO“奥特曼”排挤，这种心理上的失落感便不足为奇。此外，马斯克始终站在科技的风口浪尖，他岂能允许自己与当前最热门的技术失之交臂？

马斯克多次表态想要进入人工智能（AI）领域，却在成立AI部门之前购买了一万块GPU（图形处理器）芯片。那么，他购买的是哪一款型号的芯片呢？这一万块芯片的采购是否会对行业的供需关系产生影响？此外，我国是否有能够生产GPU的企业，以及他们在何种程度上已经取得了突破？这些都是值得我们深入探讨的问题。

01.GPU如何搅动人工智能行业

马斯克之所以花费一万人民币购买GPU芯片，主要原因在于GPU的性能对于行业的发展有着决定性的影响。相较于通用的CPU（中央处理器），GPU在人工智能领域被专门划分为“AI芯片”类别，这是由于其针对AI算法进行了特殊的加速设计。

狭义的人工智能芯片，是指那些经过专门优化的显卡。在人工智能领域步入快速发展阶段的年份2012年，前谷歌计算机科学家Alex Krizhevsky通过采用深度学习GPU方案，在Image Net LSVRC-2010图像识别竞赛中，成功地将从74%的识别准确率提升至了85%。这一突破性成果在行业内引发了广泛的关注和讨论。

受到这一事件的鼓舞，英伟达（NVIDIA），作为GPU行业的领军企业，积极投入人力资源与物质资源，进一步优化其CUDA深度学习生态系统。据相关资料显示，短短三年时间内，英伟达的GPU产品性能得到了显著提升，达到了65倍之多。更为重要的是，该公司还推出了一套完整的产品方案，涵盖了从后端训练到前端应用的所有环节，展示出了强大的技术实力与创新能力。

众所周知，GPU通常被用于图像处理任务，因为图像是由多个像素组成，GPU想要高效完成图像处理任务，就需要大量可以完成独立运算的单元，厂商也会极尽可能，在芯片内放入更多独立计算核心，2018年发布的英伟达GTX2080TI有4352个CUDA核心，到2022年发布的4090显卡CUDA核心增至16384个。本就具备同时大量独立计算的能力，所以只需要CPU给出正确的指令，GPU自然可以迅速完成深度学习型AI产品所需要的超规模计算。

我们今天熟悉的ChatGPT已经迭代至第四代。以第一代ChatGPT为例，2018年6月发布的GPT-1只在8个GPU上训练了一个月，当年运行TensorFlow单GPU深度学习研究，表现最佳的GPU是GTX2080TI，参数量约为1.17亿，预测训练数据量仅有5GB；2019年2月发布的GPT-2预训练数据量增至40GB，参数量达到了15亿，此时需要256个Google Cloud TPU v3上训练一周。

到2020年5月发布的GPT-3，预训练数据量猛增至45TB，参数量达到1750亿，需要在355个GPU上训练一年，且训练总成本达到1200万美元。GPT-3.5也就是我们现在熟悉的ChatGPT，和最新发布的ChatGPT4.0尚未公布相关数据，可以肯定的是，这两代ChatGPT均使用GPU训练。据华西证券数据，ChatGPT母公司OpenAI已使用了约2.5万个英伟达的GPU。

虽然微软已经将OpenAI收入麾下，并提供代号为“雅典娜”的人工智能芯片，但由于英伟达芯片在人工智能行业深耕多年，新玩家短期内很难对其形成威胁，未来需求仍将继续上升。

《ChatGPT背后的GPU力量：AI芯片的崛起》

更为人熟知的CPU，与GPU相比具有明显短板。因为CPU需要较高的通用性，较为高端的产品还需要在核心内构建3级缓存，所以单个核心会尽可能做的大而全，这就造成CPU可用于单独计算的核心明显少于GPU，无法专精处理某一项任务，导致CPU在行计算、浮点计算以及矩阵运算方面存在明显的先天不足，这三个能力恰恰是完成ChatGPT这种深度学习型AI产品迫切需要的。

英伟达为了进一步提升旗下产品对AI深度学习的适应性，特意推出用于超级计算机的深度学习的Tesla显卡，最新型号为A100，2022年由于不可抗力，已经被禁止向中国出口，转而推出减配版A800。

和消费级显卡相比，Tesla显卡在完成图像处理、语音识别、机器学习、物体检测等任务时更快，根据相关测试，同样是2020年推向市场的A100和3090，消费级显卡3090 的tensor core只有A100的四分之一。在深度学习领域，无论是常见的CNN还是ChatGPT使用的Transformer，大多数浮点计算量，都集中于依托tensor core计算的矩阵乘法上面，所以使用A100可以更快完成深度学习产品的开发。

基于上述分析，不难发现海外对中国禁运A100的意图，就是想要极大可能限制中国人工智能行业发展。

02.国产芯片露出微光

短期来看，中国人工智能行业可以选择除A100外的次等GPU，但是长期来看，必须要突破封锁，实现人工智能芯片国产化。

聚焦人工智能芯片领域，除GPU外，可用于AI算法的芯片还包括CPU、FPGA、MLU、TPU，以及最新研究方向类脑芯片，后者由于概念较为先进，预计最快将于2023年成熟，尚不足以撼动AI芯片竞争格局。同时出于现实考虑，国内厂商在GPU芯片上和英伟达或AMD、Intel正面硬钢，毫无胜算。

CPU方面虽然有近期龙芯有所突破，但是如前所述，CPU并行算力不足，不适合应用于AI深度学习；FPGA虽然已经用于AI算法训练，但是市场规模较小；最有可能替代GPU的就是MLU、TPU通用AI芯片。

但根据ChatGPT发展历程，Openai在开发GPT-2时，曾经使用过谷歌TPU芯片，这是一种以ASIC作为底芯片的计算单元，专注于神经网络所需的矩阵运算的专用芯片，最先应用于AlphaGo中。

但是鉴于使用ASIC技术的芯片需要定制化，用户使用成本较GPU更高且更繁琐，OpenAI开发GPT-3时重新选择GPU，同时考虑到GPT-3模型参数量陡增，英伟达CUDA架构较其他产品具有明显优势，间接体现了英伟达GPU在人工智能芯片领域绝对龙头的位置，但这不代表其他产品就没有开发和应用价值。

首先是以谷歌TPU、寒武纪MLU为代表的通用AI芯片，凭借针对特定算法深度优化和加速，可以在确定性执行模型的应用需求中发挥作用；FPGA芯片依靠灵活多变的通用性，再加上可编程性，适用于开发周期较短的AI产品、传感器数据预处理工作以及小型开发试错升级迭代阶段等。

梳理国产芯片企业的格局，除寒武纪外，华为、国芯科技也布局了通用AI芯片（TPU\MLU）；安路科技、紫光国微、复旦微电等企业布局FPGA芯片，试图在这两个领域突破海外对我国GPU芯片的封锁。

目前寒武纪虽然尚未实现盈利，芯片市占率也不高，但芯片产品覆盖了云端智能芯片及加速卡、训练整机、边缘智能芯片及加速卡、终端智能处理器IP以及上述产品的配套软件开发平台。

另一个已经被应用于人工智能的算法训练的FPGA芯片领域，中国市场占有率最高的国产厂商是安路科技，目前公司在中低端产品线全面对标海外龙头企业，考虑到建立FPGA芯片软硬件生态体系行业壁垒较高，且用户更换产品验证周期长，安路科技未来有望依托现有市场扩大优势。

目前安路科技的产品广泛应于用网络通信、消费电子、工业控制和数据中心等领域均能保持稳健的成长，正在拓展无人机、自动驾驶、智慧城市等涉及人工智能的应用领域。

不过目前最值得关注的国产AI芯片企业应该是千芯科技，公司生产的存算一体AI芯片，通过自研存算一体技术，可提供能效比超过10-100TOPS/W，在特定领域可以提供更大算力（1000TOPS以上），优于其他类型AI芯片10-40倍的算力支持，应用场景包括自然语言处理，一旦量产，可用于类ChatGPT产品的研发。其他可以用于深度学习领域的国产芯片还包括北京君正的AI协处理器T02，燧原科技的邃思AI训练和推理芯片等。

《ChatGPT背后的GPU力量：AI芯片的崛起》

现阶段，寒武纪、安路科技、千芯科技等国产AI芯片企业的产品，虽然尚不具备替代英伟达的能力，但是也给中国人工智能行业带来一丝微光。回顾芯片行业的发展，无论是芯片设备还是芯片产品，只要中国企业突破封锁，就能迅速改变行业格局，这其中就包括一种最常见的AI芯片。

03.AI芯片领域唯一的突破

这种最常见的AI芯片就是存储芯片，日前国产存储芯片生产商长江存储凭一己之力，让海外大厂三星等企业的固态存储产品主动降价超50%。长江存储芯片对三星带来的危机感，是典型的弯道超车，也是国产芯片产业链寻求的最佳发力点。

过去很长一段时间，存储芯片占全球芯片市场规模的27%，但是竞争格局较为固化，尤其是中国市场，2018年中国进口的3120亿美元的芯片中，存储芯片进口额高达1150亿美元，占比超36%。

到2020年，中国存储芯片规模增至全球存储芯片的31%，但是自给率不足1%，竞争格局高度固化，韩国三星近乎垄断高端存储市场。

同时考虑到中国AI行业发展过于迅猛，有数据显示，预计到2025年，中国人工智能核心市场规模有望达到4000亿元，鉴于当前国内芯片行业发展现状，CPU\GPU等产品研发周期太长，想要短期获得国内市场的话语权难度极高，所以在国家大基金的领导下，长江存储加快3D NAND存储芯片研发进度，2019年推出64层3D NAND后，于2022年顺利推出192层3D NAND芯片。

反观垄断中国存储市场的三星，自从2013年推出24层3D NAND闪存芯片后，直到2019年才推出96层V-NAND，虽然研发进度慢有更换技术路线的原因，但是同期另一家老牌存储长海力士已经推出128层4D NAND产品，三星此时已经明显落后于同业企业，但仍领先长江存储。

现如今，长江存储不仅从技术层面实现赶超，还凭借中国特有的“量大管饱”生产模式，将产品售价一降再降，迫使三星在中国市场全面接受价格战，实现全系产品降价。

虽然目前有观点认为，三星存储产品降价，以及一季度出现3.3万亿韩元的营业亏损，主要是因为过去几年芯片行业产能过剩，不得已降价去库存并首次减产，这种观点不能说错，但确实很片面。

从市场角度出发，目前在某电商平台上，采用长江存储自研3D NAND闪存芯片的存储产品，2TB规格产品单价最低到了479元，600元以下的选择非常多，而三星虽然大幅降价，但客单价依旧比致钛高100元，比售价最低的近乎翻倍，如果三星不降价，继续采取之前2TB规格产品动辄超2000元的单价，等于直接宣告退出中国消费级存储市场的竞争。

中国存储市场这块大蛋糕，三星可不会轻易放弃。上文提及，到2025年，中国人工智能核心市场规模将达到4000亿元，按照存储芯片27%的占比计算，AI芯片领域存储芯片市场规模或将达到1080亿元。考虑到当前存储产品售价大幅降价，保守估计未来市场规模也有望超过500亿。

而且在大数据时代，数据的产生和运算速度都在急速上升（参考GPT-3预训练数据量），所有云服务供应商不仅需要更强的算力，还需要容量更大、读取速度更快的存储设备，所以即使未来存储芯片还有降价的可能，更低的产品价格反而会催生行业内固态存储对机械存储设备的替代。

这种行业趋势其实从2019年就已经开始显露端倪。据民生证券数据，2019年企业级SSD平均容量达到2.3TB，2020年将增长至2.7TB，设备出货量年均复合增速达到15.8%。三星即使降产断臂，也会极力平衡存储产品的供给关系，继续抢夺中国市场，只可惜三星再也没机会躺平挣钱了。

因为长江存储的芯片制程普遍处于22nm，海外制裁不涉及该部分，且国产设备目前已经逐步覆盖该领域的芯片制造。再想通过制裁简单粗暴的限制中国芯片行业发展，只停留在理论层面，而一旦中国企业突破海外封锁，将立刻改变行业竞争格局，帮它们真正参与理解，什么才是“市场竞争”。

文章关键词：ChatGPT, AI行业, 通用人工智能, 生成式人工智能技术

《ChatGPT背后的GPU力量：AI芯片的崛起》

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章