GPU争夺战,OpenAI点燃新战火
半导体行业观察·2024-09-06 09:08

如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容编译自semianalysis,谢谢。 由于推动扩展定律的持续改进,AI 基础设施的建设永无止境。领先的前沿 AI 模型训练集群今年已扩展到 100,000 个 GPU ,预计 2025 年将扩展到 300,000 个以上的 GPU 集群。考虑到许多物理限制,包括施工时间表、许可、法规和电力 可用性,在单个数据中心站点同步训练大型模型的传统方法正在达到临界点。 Google、OpenAI 和 Anthropic 已开始实施计划,将其大型模型训练从一个站点扩展到多个数据中心园区。Google拥有当 今世界上最先进的计算系统,并率先大规模使用许多关键技术,而这些技术现在才被其他公司采用,例如其机架级液冷架 构和多数据中心训练。 Gemini 1 Ultra 在多个数据中心进行了训练。尽管他们拥有更多的 FLOPS,但他们现有的模型落后于 OpenAI 和 Anthropic,因为他们在合成数据、RL 和模型架构方面仍在追赶,但即将发布的 Gemini 2 将改变这一现状。此外,到 2025 年,谷歌将有能力在多个园区进行千兆瓦级的训练,但令人惊讶的是,谷歌的长期 ...