Skip to content

性能优化

ALModel 17B XL 在 TPU v7x 上的训练性能分析与优化。

背景

  • 模型:17.43B 参数,混合 GLA/MLA 注意力,256 experts top-8 MoE
  • 硬件:TPU v7x 64 chips (128 TensorCores),Peak bf16 2,307 TFLOPS/chip
  • 基线 MFU:11.89%(DP=4, FSDP=32, save_out_proj)

文档索引

文档说明
性能理论分析框架两级上界分析框架(Roofline Bound → System Bound),覆盖算子 roofline、显存模型、通信模型、overlap 模型
理论分析结果128 TPU v7x 上所有可行并行/重计算配置的 MFU 预测,最优配置 DP=4/FSDP=32 理论 MFU 31.5%
性能优化工作拆解优化工作全局视图:理论分析、Profiling sweep、Kernel profiling、优化项优先级排序
IR Dumps 性能分析指南Mosaic/HLO/LLO IR 文件说明,VLIW 指令周期分析,数据依赖分析,寄存器压力分析,硬件利用率与 Fusion 分析