开云体育·(kaiyun sports)中国官方网站 华为昇腾 0 Day 支握智谱 GLM-5.2 模子, 提供全面推理优化

IT之家6月18日音书,“昇腾AI建立者”公众号6月17日告示,昇腾0Day支握GLM-5.2,为编程与长程任务提供全面推理优化。
据官方先容,现在昇腾A3系列居品如故支握GLM5.2的单双机以及大EP推理部署。针对GLM5.2模子的结构特色,昇腾围绕以下几个要害手艺开展了高效推理优化:
MOE大会通算子:将巨匠路由、加权策画与规定归约会通为调解算子,拔除中间张量冗余读写,权臣训诫策画效果。
通讯与策画会通:通过将AllReduce优化为ReduceScatter与AllGather通讯原语,并与矩阵策画酿成紧耦合活水线,收尾通讯蔓延的有用装璜。
翔实力前措置与多Token预测优化:罗致翔实力前措置会通算子,连合多Token预测(MTP)机制的加快,训诫单步生顺利果。
高并发诊治与预填充蔓延机制:在高并发搀和负载场景下引入预填充蔓延诊治,平滑策画峰值,裁减Prefill阶段对Decode阶段的资源霸占。
智能缓存与索引优化:连合IndexCache手艺缓存高频巨匠旅途与静态路由表,并罗致ChunkedPrefill、疏淡索引检索等形状,开云体育官方网站 - KAIYUN优化长潦倒文推感性能。
PD分裂与PrefixCache:通过Prefill与Decode阶段分裂及前缀缓存手艺,压缩解码时延抖动,训诫在线就业糊涂相识性。
IT之家翔实到,智谱6月17日告示上线并开源GLM-5.2。在民众百万用户参与盲测的前端建立评估系统CodeArena上,GLM-5.2得到民众可用模子第一的施展。

官方示意,GLM-5.2专为长程任务智商而生,特色包括:
Solid1M潦倒文:相识扶持长程任务,多个长程任务基准标明GLM-5.2的施展介于ClaudeOpus4.7与4.8之间,是名次最高的开源模子

更强体感,更实用的Coding智商:在主流编程基准上,GLM-5.2保握开源SOTA,与ClaudeOpus4.8处于可比区间
AYX爱游戏app2026世界杯中国官方下载
极致Infra优化,Day0初始在国产算力平台:在1M潦倒文长度下,将单元token的FLOPs裁减至2.9倍;已在Day0完成与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配;瞻望下半年昇腾950超节点上市后,也将成为GLM-5.2强盛的算力底座
开云体育·(kaiyun sports)中国官方网站