量化是模型压缩与推理加速的一部分,不和 GPU、vLLM、KV Cache 平铺。它关注如何在更低精度下尽量保持模型质量,并获得显存和吞吐收益。
包含内容
推荐学习路径
先理解量化误差、scale、zero point 和校准数据,再学习 PTQ / QAT,最后进入 SmoothQuant、GPTQ / AWQ、旋转量化和硬件低精度格式。
笔记模板
- 量化对象。
- 精度格式。
- 校准方法。
- 误差来源。
- 质量指标。
- 推理性能。
参考资料
量化论文、推理框架量化文档、硬件低精度格式说明和复现实验。