跳到主要内容

FP8 / MXFP4 / INT4

FP8、MXFP4 和 INT4 是面向训练或推理的低精度表示,需要同时理解数值范围、硬件支持和软件栈。

核心问题

  • 不同格式的动态范围和精度如何变化?
  • 硬件是否原生支持对应格式?
  • 格式选择如何影响吞吐、显存和模型质量?

笔记模板

  • 数值格式。
  • scale 策略。
  • 硬件支持。
  • 算子支持。
  • 质量指标。
  • 部署限制。