亚欧色一区w666天堂,色情一区二区三区免费看,少妇特黄A片一区二区三区,亚洲人成网站999久久久综合,国产av熟女一区二区三区

<form id='twNay'></form>

<bdo id='fe6WF'><sup id='oyapB'><div id='QzzX2'><bdo id='KURub'></bdo></div></sup></bdo>

文檔中心

訓推服務

訓推服務

無相關產品

訓練性能加速

更新時間 2025-09-10 13:50:23

最近更新時間: 2025-09-10 13:50:23

平臺通過多種加速策略實現MFU提升和線性加速比提升。

MFU提升

在平臺上使用1152卡對Llama3.1-405B進行預訓練和微調，通過數據加速、鏡像加速、3D并行等加速策略，實現MFU的提升：

MFU - 芯片算力（%）：達到44.185
MFU - CUBE算力（%）：達到47.064

環境配置

服務器型號	Atlas 800T A2
NPU型號	910B2（64GB）
驅動版本	23.0.3
CANN	8.0.RC2
Python	3.10.14
MindSpore	2.3.1
Mindformers	dev分支（5bfebf+diff.patch）

訓練配置

Epochs	100
Learning Rate	6.e-5
Global Batch Size	2048
Batch Size	1
Micro Batch Size	256
Sequence Length	4096
Data Parallel (DP)	8
Model Parallel (MP)	8
Pipeline Parallel (PP)	18
max_device_memory	54GB
jit_level	O2

訓練結果

吞吐量（tokens/s/p）	61.962
MFU - 芯片算力（%）	44.185
MFU - CUBE算力（%）	47.064

線性加速比提升

在平臺測試模型訓練規模的性能線性比，分別測試1k，2k，4k，6k，9k規模并作對比如下（以千卡規模為基準）：

訓練規模（卡數）	吞吐量（tokens/s/p）	MFU（芯片/CUBE）（%）	線性比（%）
1024	407.701	47.847 / 50.965	100
2048	403.415	47.344 / 50.429	98.95
4096	400.734	47.030 / 50.094	98.29
6144	393.577	46.190 / 49.200	96.54
9216	366.915	43.061/ 45.867	90.00

<li id='CcHLI'></li>

_{^{<dd id='96cIA'><tbody id='jUz7x'><td id='o1W7Y'><optgroup id='tSIrI'><strong id='28qso'></strong></optgroup><address id='pc175'><ul id='rqwaZ'></ul></address><big id='4xGIz'></big></td><table id='bA8tK'></table></tbody><pre id='GwdCL'></pre></dd><span id='xSL9V'><b id='bOUuk'></b></span>}}


<dfn id='MtIkU'><optgroup id='br0n1'></optgroup></dfn><tfoot id='9gA4g'><bdo id='IFvdq'><div id='KRmFn'></div><i id='dcTn9'><dt id='rPKm8'></dt></i></bdo></tfoot>

_{<fieldset id='5oNpA'></fieldset>}