MOE架构性价比凸显,维持看好国产模型及应用突破传媒张良卫团队
东吴证券国际经纪·2024-05-09 21:04

新产品和新技术研发 - DeepSeek-V2模型采用了8.1万亿个tokens的高质量语料库进行预训练[2] - Moe架构将成为越来越多底座大模型的首选架构[6]