AI 系统与性能模型压缩与量化FP8 / MXFP4 / INT4本页总览FP8 / MXFP4 / INT4 FP8、MXFP4 和 INT4 是面向训练或推理的低精度表示,需要同时理解数值范围、硬件支持和软件栈。 核心问题 不同格式的动态范围和精度如何变化? 硬件是否原生支持对应格式? 格式选择如何影响吞吐、显存和模型质量? 笔记模板 数值格式。 scale 策略。 硬件支持。 算子支持。 质量指标。 部署限制。