2024年中国大语言模型能力评析（三）：行业应用能力评测结果

报告行业投资评级 - 报告未提及投资评级相关内容报告的核心观点 - 在中国大模型能力评析中不同模型在各行业能力评测结果不同文心一言通义千问等在多行业能力评测中表现优异部分排名靠后的大模型表现一般不同模型在各维度如专业知识储备行业应用能力道德伦理安全等表现有差异且各行业中模型表现也有不同梯队分化如政务行业[9][12][23][70] 根据相关目录分别进行总结行业能力评测结果 - 文心一言通义千问混元大模型在多行业能力评测中表现优异排名末位的大模型面对大多数行业的专业能力表现一般不同模型在各行业得分不同且各有优势行业[9] 大模型优势行业分析 - 头部大模型如文心一言通义千问拥有超10个以上的优势行业末位大模型的行业能力仍需进一步提升不同模型在不同行业如电商电信等有不同的优势表现[12] 专业知识储备细分维度 - 文心一言腾讯混元通义千问商汤日日新·商量等大模型表现超国际水平部分大模型处于中国均值以下文心一言等背后有海量数据和先进算法支撑部分模型受数据资源和算法优化等因素制约[14][15] 行业应用能力细分维度 - 中国多数大模型表现较好处于中国均值以上文心一言通义千问超国际均值部分大模型展现出对行业特性的深入洞察和将技术转化为实际解决方案的能力并举例说明[17] 道德伦理安全细分维度 - 文心一言通义千问天工大模型表现优异超国际均值部分大模型表现一般是因为缺乏对道德伦理因素的充分考虑并举例说明其重要性[20] 行业能力细分行业 - 在政务板块通义千问360智脑等领衔第一梯队超国际均值百川智能天工等构成第二梯队超中国均值各梯队凭借技术实力等推动政务智能化进程且不同梯队有不同的优势[22][23][24] - 在传媒行业腾讯混元大模型远超其他模型和国际均值多数大模型处于中国均值以上且大模型对传媒行业多个环节起重要作用[26] - 在电商行业文心一言和Moonshot(Kimi.ai)等表现卓越超越国际均值文心一言凭借电商专业知识储备和跨平台整合能力领先[30][31][32] - 在泛娱乐行业部分模型如腾讯混元天工文心一言凭借用户理解和内容生成能力成为领先者但部分模型道德伦理维度表现差拉低均值[35][36][37] - 在工业板块文心一言商汤日日新·商量雅意大模型远超国际均值通义千问天工等接近国际水平且文心一言等在工业领域有强大理解和应用能力[40][41] - 在互联网科技板块腾讯混元大模型超国际水平但整体受制于道德伦理安全识别能力不足部分模型在国际均值附近[45] - 在金融板块商汤智谱AI腾讯混元大模型超越国际平均水平但整体大模型在金融场景应用效能仍有提升空间[49][50] - 在能源板块中国大模型整体超国际平均水平但少数模型因道德伦理短板拉低行业整体表现[53][54] - 在线下零售板块中国大模型整体表现与国际水平存有差距文心一言通义千问接近国际水平且大模型对线下零售行业多个环节起关键作用[57][58] - 在医疗板块文心一言大模型远超国际均值占据领先地位其余中国大模型在专业知识与应用能力上尚有提升空间[61][62][63] - 在运输板块中国大模型整体性能超越国际均值文心一言通义千问凭借多种优势在物流调度路径规划等方面发挥关键作用[66][67]