一场芯片大战正在上演，英伟达被围攻

文章核心观点 - 云构建商和超大规模企业在部署 AI 训练平台时,主要使用 Nvidia 数据中心 GPU,有时也会使用自研的 XPU 加速器或 AMD GPU [1] - AI 训练完全是关于研究和开发,时间至关重要,金钱似乎不是问题,这些公司很难选择第三种选择 [1] - 在云构建者和超大规模企业中,很难打入 AI 训练领域,这也是为什么尽管 Nvidia GPU 匮乏,但世界上许多 AI 芯片初创公司仍未利用其芯片和软件堆栈在系统销售方面引起轰动的原因之一 [1] - 数据中心的 AI 推理成本高昂,是企业推出 GenAI 以增强现有应用程序或创建全新应用程序的主要制约因素 [1][2] - 推理的成本必须低得多,但必须使用相当笨重的硬件来完成,而不是一些可以放在铅笔橡皮擦末端的 50 美元推理芯片 [2] - 如果 GenAI 要蓬勃发展,就必须大幅降低推理成本,推理容量可能是训练容量的 10 倍,但需要便宜几个数量级才能获得需求的弹性可扩展性 [2] - Groq 采用了两块多一点的 GroqChips,每秒可以处理 315.06 个token,性价比提高了 100 倍 [3][4] - Cerebras 在四晶圆机上表现出的性能是云 LLM API 的 20 倍,比在云上运行的最佳 DGX H100 好 5 倍左右 [4][5] - SambaNova 机器在 Llama 3.1 8B 型号上能够以全 BF16 精度每秒处理 1,100 个tokens,在 Llama 3.1 70B 型号上峰值性能将在每秒 580 个tokens左右 [8] - 云 LLM API 是真实存在的,但企业不会急于将其数据和模型存放在超大规模或云构建器中,这对销售 AI 计算引擎的所有人而言都是好消息 [9] 根据目录分组总结 AI 训练平台的技术选择 - 云构建商和超大规模企业主要使用 Nvidia 数据中心 GPU,有时也会使用自研的 XPU 加速器或 AMD GPU [1] - AI 训练完全是关于研究和开发,时间至关重要,金钱似乎不是问题 [1] - 在云构建者和超大规模企业中,很难打入 AI 训练领域 [1] AI 推理成本问题 - 数据中心的 AI 推理成本高昂,是企业推出 GenAI 的主要制约因素 [1][2] - 推理的成本必须大幅降低,需要使用相当笨重的硬件 [2] - 如果 GenAI 要蓬勃发展,就必须大幅降低推理成本,推理容量可能是训练容量的 10 倍 [2] AI 芯片初创公司的表现 - Groq 采用了两块多一点的 GroqChips,每秒可以处理 315.06 个token,性价比提高了 100 倍 [3][4] - Cerebras 在四晶圆机上表现出的性能是云 LLM API 的 20 倍,比在云上运行的最佳 DGX H100 好 5 倍左右 [4][5] - SambaNova 机器在 Llama 3.1 8B 型号上能够以全 BF16 精度每秒处理 1,100 个tokens,在 Llama 3.1 70B 型号上峰值性能将在每秒 580 个tokens左右 [8] 云 LLM API 的挑战 - 云 LLM API 是真实存在的,但企业不会急于将其数据和模型存放在超大规模或云构建器中 [9] - 这对销售 AI 计算引擎的所有人而言都是好消息,包括 Nvidia、AMD,从长远来看,可能还包括英特尔 [9]