跳到主要内容

调度系统

调度系统决定请求、token、batch、任务和资源如何被安排。

核心问题

  • 调度目标是吞吐、延迟、公平性还是成本?
  • 请求长度差异和优先级如何处理?
  • 调度策略如何影响显存和通信?

笔记模板

  • 调度对象。
  • 约束条件。
  • 策略设计。
  • 指标变化。
  • 极端负载。
  • 失败模式。