GPU争夺战，OpenAI点燃新战火

如果您希望可以时常见面，欢迎标星收藏哦~ 来源：内容编译自semianalysis，谢谢。由于推动扩展定律的持续改进，AI 基础设施的建设永无止境。领先的前沿 AI 模型训练集群今年已扩展到 100,000 个 GPU ，预计 2025 年将扩展到 300,000 个以上的 GPU 集群。考虑到许多物理限制，包括施工时间表、许可、法规和电力可用性，在单个数据中心站点同步训练大型模型的传统方法正在达到临界点。 Google、OpenAI 和 Anthropic 已开始实施计划，将其大型模型训练从一个站点扩展到多个数据中心园区。Google拥有当今世界上最先进的计算系统，并率先大规模使用许多关键技术，而这些技术现在才被其他公司采用，例如其机架级液冷架构和多数据中心训练。 Gemini 1 Ultra 在多个数据中心进行了训练。尽管他们拥有更多的 FLOPS，但他们现有的模型落后于 OpenAI 和 Anthropic，因为他们在合成数据、RL 和模型架构方面仍在追赶，但即将发布的 Gemini 2 将改变这一现状。此外，到 2025 年，谷歌将有能力在多个园区进行千兆瓦级的训练，但令人惊讶的是，谷歌的长期 ...