AI 系统与性能算子与内核优化算子融合本页总览算子融合 算子融合通过减少中间结果落盘和 kernel launch 开销提升性能。 核心问题 哪些算子适合融合? fusion 会如何改变访存、并行度和寄存器压力? 融合后是否影响可维护性和数值行为? 笔记模板 原始计算图。 融合后的计算图。 中间张量变化。 访存变化。 性能收益。 风险与边界条件。