跳到主要内容

模型压缩与量化

量化是模型压缩与推理加速的一部分,不和 GPU、vLLM、KV Cache 平铺。它关注如何在更低精度下尽量保持模型质量,并获得显存和吞吐收益。

包含内容

推荐学习路径

先理解量化误差、scale、zero point 和校准数据,再学习 PTQ / QAT,最后进入 SmoothQuant、GPTQ / AWQ、旋转量化和硬件低精度格式。

笔记模板

  • 量化对象。
  • 精度格式。
  • 校准方法。
  • 误差来源。
  • 质量指标。
  • 推理性能。

参考资料

量化论文、推理框架量化文档、硬件低精度格式说明和复现实验。