AI 系统与性能GPU 与并行计算GPU 架构本页总览GPU 架构 GPU 架构笔记关注计算单元、线程层级、内存层次和执行模型。 核心问题 SM、warp、thread block 如何组织执行? Register、shared memory、L2、HBM 的访问成本有什么差异? 算力、带宽和 occupancy 如何影响性能? 笔记模板 架构对象。 数据路径。 内存层级。 并行粒度。 性能指标。 对 Kernel 优化的影响。