跳到主要内容

并行策略

并行策略决定模型、数据和计算如何分布到多 GPU 或多节点上。

核心问题

  • 数据并行、张量并行、流水线并行、序列并行分别解决什么问题?
  • 通信开销如何影响扩展效率?
  • 不同并行策略如何组合?

笔记模板

  • 模型规模。
  • 设备拓扑。
  • 并行切分。
  • 通信模式。
  • 吞吐指标。
  • 扩展效率。