DeepSeek DeepGEMM 推出 Mega MoE 与 FP4 Indexer 等重大更新
okx 4月16日消息,DeepSeek 开源矩阵运算库 DeepGEMM 发起一项名为“Public release 26/04”的合并请求,引入 Mega MoE、FP4 Indexer 等新特性。本次更新将 MoE 中的 dispatch、linear1/SwiGLU/linear2、combine 融合为单一 mega-kernel,并在 NVLink 通信与 tensor core 计算间做重叠优化,目前仅支持 FP8 x FP4 MoE、EP≤8,且需 PyTorch≥2.9;同时新增 FP4 Indexer(用于 MQA logits,支持更大 MTP)、FP8 x FP4 GEMM、PDL、DeepEPv2 MoE GEMM layout,优化 GEMM 启发式与内核、加快 JIT 编译,并修复分布式文件系统下 JIT 崩溃和部分 kernel hang 等问题。该发布仅与 DeepGEMM 开发相关,与内部模型发布无关。
