訓練性能加速
更新時間 2025-09-10 13:50:23
最近更新時間: 2025-09-10 13:50:23
分享文章
平臺通過多種加速策略實現MFU提升和線性加速比提升。
MFU提升
在平臺上使用1152卡對Llama3.1-405B進行預訓練和微調,通過數據加速、鏡像加速、3D并行等加速策略,實現MFU的提升:
MFU - 芯片算力(%):達到44.185
MFU - CUBE算力(%):達到47.064
環境配置
| 服務器型號 | Atlas 800T A2 |
|---|---|
| NPU型號 | 910B2(64GB) |
| 驅動版本 | 23.0.3 |
| CANN | 8.0.RC2 |
| Python | 3.10.14 |
| MindSpore | 2.3.1 |
| Mindformers | dev分支(5bfebf+diff.patch) |
訓練配置
| Epochs | 100 |
|---|---|
| Learning Rate | 6.e-5 |
| Global Batch Size | 2048 |
| Batch Size | 1 |
| Micro Batch Size | 256 |
| Sequence Length | 4096 |
| Data Parallel (DP) | 8 |
| Model Parallel (MP) | 8 |
| Pipeline Parallel (PP) | 18 |
| max_device_memory | 54GB |
| jit_level | O2 |
訓練結果
| 吞吐量(tokens/s/p) | 61.962 |
|---|---|
| MFU - 芯片算力(%) | 44.185 |
| MFU - CUBE算力(%) | 47.064 |
線性加速比提升
在平臺測試模型訓練規模的性能線性比,分別測試1k,2k,4k,6k,9k規模并作對比如下(以千卡規模為基準):
| 訓練規模(卡數) | 吞吐量(tokens/s/p) | MFU(芯片/CUBE)(%) | 線性比(%) |
|---|---|---|---|
| 1024 | 407.701 | 47.847 / 50.965 | 100 |
| 2048 | 403.415 | 47.344 / 50.429 | 98.95 |
| 4096 | 400.734 | 47.030 / 50.094 | 98.29 |
| 6144 | 393.577 | 46.190 / 49.200 | 96.54 |
| 9216 | 366.915 | 43.061/ 45.867 | 90.00 |