跳到主要内容

GPTQ / AWQ

GPTQ 和 AWQ 是大语言模型权重量化中的代表方法,关注低比特权重量化下的质量保持。

核心问题

  • GPTQ 如何利用二阶信息近似量化误差?
  • AWQ 如何识别和保护重要权重通道?
  • 两者在速度、质量和部署格式上如何取舍?

笔记模板

  • 模型和数据。
  • 量化位宽。
  • 方法步骤。
  • 质量指标。
  • 推理性能。
  • 部署限制。