您现在的位置是: > 快讯快讯

DeepSeek发布DeepGEMM:高效FP8 GEMM库,优化V3/R1训练与推理

zhoucl 2025-02-26 10:41:58 快讯 已有人查阅

导读 2月26日消息,DeepSeek在其开源周(OpenSourceWeek)第三天推出 DeepGEMM,一个支持 FP8 GEMM 的CUDA库,可用于稠密矩阵计算和混合专家(MoE)架构,优化V3/R1模型的训练和推理。

2月26日,DeepSeek在开源周第三天推出 DeepGEMM,一个支持 FP8 GEMM 的 CUDA 库,专为稠密矩阵计算和混合专家(MoE)架构设计,优化 V3/R1 模型的训练和推理。

DeepGEMM 主要特性:

  • 高性能:Hopper GPU 上实现超过 1350 FP8 TFLOPS
  • 极简依赖:代码简洁,易于集成
  • JIT 即时编译:运行时自动优化,无需预编译
  • 核心代码约 300 行,性能超越专家级优化内核
  • 支持稠密布局和两种 MoE 布局

本文标签:

很赞哦! ()