原创:李欣帅
谷歌正凭借强大的算力储备和基础设施快速研发下一代AI大模型。AI“一哥”的位置被OpenAI暂时取代之后,该位置或许即将重回谷歌手中。据SemiAnalysis报道,谷歌下一代大模型Gemini的训练算力已达GPT-4的5倍。
众所周知,算力是AI大模型研发的“超级引擎”,它能让模型更快地学习、分析数据。算力不仅影响着模型的研发进度,还直接关系到模型的性能和可靠性。
因此,在AI热潮席卷全球的当下,引发了一场前所未有的“算力争夺战”。从大型企业到创业公司,都在争抢提供算力资源的GPU,最终导致GPU供不应求。
就连OpenAI这样早早就手握大量GPU资源的公司如今都面临GPU短缺问题。在今年6月,OpenAI的CEO Sam Altman曾提到,OpenAI 现在最大问题来源于GPU。由于GPU短缺,客户对OpenAI提供的API的可靠性和速度有所抱怨。而更长上下文等功能的开放也受限于GPU。而为解决GPU短缺等问题,OpenAI目前正积极谋求融资。
与此同时,在OpenAI等公司为GPU犯愁时,谷歌有着自家设计的TPU(张量处理单元)。TPU是谷歌开发的人工智能加速器专用集成电路,于2015年开始在谷歌内部使用。自发布以来,谷歌已经构建了6种不同的AI芯片(TPU、TPUv2、TPUv3、TPUv4i、TPUv4和TPUv5)。
TPU是专门为机器学习设计的芯片,在AI研发的某些方面可能比GPU更高效。并可以高度优化以适应谷歌的软硬件生态和人工智能计算工作负载。尽管TPUv5单个芯片的性能与H100 GPU芯片还有差距,但在谷歌自家的生态系统(如TensorFlow框架)中,TPU通常会有更好的性能和成本效益。
TPU可以很快地处理神经网络中使用的大量矩阵运算。图源:谷歌
据了解,谷歌全新架构的多模态大模型Gemini,正在以令人难以置信的速度迭代。最近的一次迭代算力高达1e26 FLOPS,是GPT-4训练算力的5倍。据SemiAnalysis预测,这一数字有可能在明年年底变为20倍。
谷歌的算力资源仍在快速增长。据报道,OpenAI即使在两年内将GPU总数增加4倍,谷歌的算力资源仍然处于大幅领先地位。目前OpenAI、Meta、CoreWeave、甲骨文和亚马逊的GPU总和仍要小于谷歌拥有的TPUv5数量。
由于算力的重要性,算力资源的差距很可能会成为谷歌拉近并拉开和OpenAI距离的关键因素。毕竟,拥有更多的算力资源意味着能进行更多的实验,更快地迭代模型。
除了在算力方面的优势,谷歌还拥有全球范围内的大规模数据中心,为大模型的训练和部署提供了强大的基础设施。这使得它与其他公司(如OpenAI)竞争时具有明显的优势。这种优势不仅体现在现有的资源上,还体现在其持续增长和未来发展的潜力上。
总体来说,谷歌在资源、技术、生态系统、商业模式和全球战略等多个方面可能具有优势,这使其在大模型的研发和发展方面具有相当的竞争力。至少在训练前的计算规模扩展和研发速度方面,谷歌应该会最终胜出。
相比之下,OpenAI虽然在模型设计和算法研究方面有着前沿的成果,但在硬件资源方面相对较弱。这种差距可能会限制OpenAI在模型规模和应用场景上的拓展能力。
充足的算力资源和高效的基础设施,会成为谷歌在AI研究和商业应用方面的利器,也可能会成为谷歌和OpenAI竞争的重要分水岭。当然,最后还是要看成品如何,也就是谷歌的下一代模型Gemini是否会比GPT-4 更有优势,这一结果可能在未来几个月会见分晓,Gemini据称会在今年秋季发布。它是否会取代ChatGPT的地位值得期待。