diff --git a/.gitattributes b/.gitattributes
index 280a96c5e6a1933d4782ff2ca206012009caf130..f2593a6837b27fb1f6d5facee96ed808ead3eb8d 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -35,3 +35,2260 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
 trt/NeMo_bfloat16_tp1_rank0.engine filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/gemma-7b-sql-nemo.nemo filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.1 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.2 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.3 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.7.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.0.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.1.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.2.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.3.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.4.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.5.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.6.0 filter=lfs diff=lfs merge=lfs -text
+nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.7.0 filter=lfs diff=lfs merge=lfs -text
diff --git a/nemo/checkpoints/gemma-7b-sql-nemo.nemo b/nemo/checkpoints/gemma-7b-sql-nemo.nemo
new file mode 100644
index 0000000000000000000000000000000000000000..e4f8a39ecab7e6181f2f82b824a22487e1fa9b63
--- /dev/null
+++ b/nemo/checkpoints/gemma-7b-sql-nemo.nemo
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5913b2f1371a31e7a25b5cdc2a1946e4be67daa4591ae06b4def257d474b87a9
+size 17081016320
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/common.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/common.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ac4407ed73692c858f3b6b624dc5b7b701b90c11
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/common.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d358ddab6b28f844cf94b3d0786a5ec3c7fb8b3968d0b59e58a1fed8ce3d16d6
+size 25175
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/metadata.json b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/metadata.json
new file mode 100644
index 0000000000000000000000000000000000000000..efdcae4b720b402ac0295007ff69eefab33a2e82
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/metadata.json
@@ -0,0 +1 @@
+{"sharded_backend": "zarr", "sharded_backend_version": 1, "common_backend": "torch", "common_backend_version": 1}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.final_layernorm.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.final_layernorm.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..116a370cfb4a874aac3a7282f55644defe240022
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.final_layernorm.weight/.zarray
@@ -0,0 +1,14 @@
+{
+    "chunks": [
+        3072
+    ],
+    "compressor": null,
+    "dtype": "bfloat16",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.final_layernorm.weight/0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.final_layernorm.weight/0
new file mode 100644
index 0000000000000000000000000000000000000000..505912dba80ebad4a7ebea4a701ff6b378a03c7d
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.final_layernorm.weight/0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_0_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_0_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..bdfd5deaa7cef9ec35e981f5fde6534cb556554c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_0_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:63f63a650a1e81efb1222bec5ea786efd0bfb9a5e80530f442bf91f9acdbf8df
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_10_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_10_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a440038d68af2458a2032eeaf2e1fa79cf5c8333
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_10_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:227c205836c7bbcc512b59dc9008d0c412699bd03df9aebfee0b7bd3c3e329c4
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_11_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_11_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..609ac2f1bdff7c62b652fb7f1d0281a8e154bb08
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_11_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b05ac4f60393e0c09711fc249a87bc2e036047e8dcc5d63402503e7d1d662c31
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_12_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_12_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8417bad1d79124c6d415b688488f813e9aa59250
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_12_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:764ad22a31d074c0951a6a5dbd73f033ca459ecbb5ac362236981e8fe12da56c
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_13_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_13_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e01a6610c2cabfee5ab8f23b7be40f83fa72adfe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_13_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e620f1086ba7f104be16365fc69e8487a32d8bd7acbdf63f87bf802447b6466d
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_14_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_14_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d7dc479dce1cf4d854fed381732cddbded4919da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_14_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6910bdfa718b3600854184a6b1f32a8e9d9be3ce10c17f12fe6db79120786a2f
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_15_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_15_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9dc5d5187f1ec2891ca599e47c932ee715c6842d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_15_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9acd9fb25e6ab8a85b6ab125c958ee5480710dab44592b1fb84a4eb69872a013
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_16_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_16_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9b41c96bd9ae3456f318bd68a6b349bcac76020d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_16_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:885ef049145a29bcdab6fefc355a8e1236bd882c226930cf530a3ba0bd4ee721
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_17_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_17_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4aa15a759da172cd1b03640bc9277aa61350bfaf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_17_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:22bfd3234ccd2293b4de4762d491d064b46cb4558254220f7634545715025838
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_18_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_18_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2881e7895900a5d72eb8a991ee08c58f20f253c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_18_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c02c0faf91090dbe1822a700e9bc7f91f16e835f7f826eab91a0443d48cac46
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_19_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_19_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..49e7902ecb6a4b2823a4714d278459095b09acd6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_19_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf409a5924123568716ca4dcbcd3b5f1ba9624a1713a170c91d025cb035207cc
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_1_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_1_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b0775267108891887248012335887ef50e474889
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_1_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e8b079d0103f30cd750bc238764389ba0c37424878264066e76bfdbe45c0562
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_20_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_20_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..aed8bf7a92522b09c2c6d802baf18c6420c7ab0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_20_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2188e59e72780c58a3acd8e6ff7fe03f373d14a42a0e36c69f1583b349cbc4a7
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_21_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_21_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..54c8e397876158258c7e3d55678ec2b5b76b9ca9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_21_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a5a40ef6b59bc7e2ac745df57f28cc08ba614e13e73c12c7a16ac9e3bb005a74
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_22_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_22_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c74304cc0514ddcbdfda7fc598edaee49f7ca20c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_22_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb827b13ea508701f2eb587f7c075983c97a7aedac472cc63f237756c5961c76
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_23_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_23_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5496445b8f4849c98c75f3e0dc375b647d7e3c04
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_23_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a1927306a894bb424ec9e0ce4a672d7afb28d3bb9d5db1c6e1268c2ec58232a
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_24_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_24_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5c68fd9e24c7965a63ad4bbcfa04638f17d6c974
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_24_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84ab4816acfe4bf4df6814b170665c0b14ff82e64c6a3db350780a5ee58961e1
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_25_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_25_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a1dab169defb9b542680af169499ec57bbc631cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_25_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e0bc28d64fcfc1620f51ba7912eb5f3e6757292e45e4256c2d11914214bbc77
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_26_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_26_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..97bd93532dc4ef87c88fdfb3f5e5e4668e1ce3d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_26_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4e987570aaa427c84d57db99f8a2529370b6bb4bb6e61a5c0a280fc3f8b1f3f
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_27_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_27_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9c3239fcff67bf15ce49e9e79e187324a699095c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_27_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:addb78803cdfa5fcc25acb716a18e71def373b29af9d89294cc8bdda95b3757d
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_2_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_2_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7e8b538fb206407dbb80bc34f1b59c33d352e864
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_2_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce21d6653df4f0be7621f065b58aa61c970bef1c6dbbcbf018391ba742f93e4d
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_3_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_3_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..cb6af6b317ec0581d251e39fc0540030056be26d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_3_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e17ee9ca84caa8e84a29eae3086e03cdcd8242fa586638054520904b7d5811a
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_4_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_4_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..754f4bcfa097f57f7181dee82f61b5288cb5671e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_4_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ceab42286b21b2bc4a581e3b7a3cb3de527ddf20deea8354d87bef6ec9b8b648
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_5_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_5_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..58e175f50a43d4c1deaeb2acbfc26921669fa447
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_5_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c10d49188641f77ed026550da10a961d3e7096ed1c71fcdaf8c4a4964dd5d8b2
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_6_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_6_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7f071d0d9ee8e42d35e1ac4d622c1d71a4ba7906
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_6_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f9b99c08a5951d88fddc30f73527ab22295e4bdc040febc36a47616428f879fc
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_7_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_7_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c301c90b7efddcee8db52cbcfc196386ac6c216e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_7_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65b2a3db54c013bd9849efb2db9c10758012e0f5a5d1f31397e97482756600e6
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_8_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_8_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c7ca746be773968cf1efd88a58dbbc7850baa321
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_8_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9e62e3c64c74eceaaa2bbd8b35484b88271cfe637474693ce93c978f0bed7ad
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_9_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_9_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6b11a1c96a58d2a4085c34fec35f3ac4e9f30524
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1._extra_state/shard_9_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0069d31c4f93e27495b18776b0c2fe67027ca0e663f5174f085b69c0cd60df36
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..5b98056452be6adf83cd241da1380f6b4effa63b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        1,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "bfloat16",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f8bc814af041a3b253a2ec5e4f53ba7376129cda
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..75997332ebb809c949b18e1c8baf460fd790e66e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0
new file mode 100644
index 0000000000000000000000000000000000000000..b97e17dda22b85035580937a0936a8cdcf06dab1
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0
new file mode 100644
index 0000000000000000000000000000000000000000..c2e1c8478cffafff2dd64bcd92c4bc84499b8a2f
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0
new file mode 100644
index 0000000000000000000000000000000000000000..ecf22db7f932da1f530f2296309630be690e39d7
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0
new file mode 100644
index 0000000000000000000000000000000000000000..e40081851cfe138a165f7d570122685350065f1d
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0
new file mode 100644
index 0000000000000000000000000000000000000000..944e458050157cf36c2e621f42931b3210a8ad6f
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0
new file mode 100644
index 0000000000000000000000000000000000000000..6e06dc45ae9d8b23c0d49ed4ab7d221a6bf3586e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0
new file mode 100644
index 0000000000000000000000000000000000000000..bf6f03c3a731eac6582cda771b6f2305c56b00ff
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0
new file mode 100644
index 0000000000000000000000000000000000000000..0d06bc34500651a0e3594a5d969c176fafd08016
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0
new file mode 100644
index 0000000000000000000000000000000000000000..4a4aa8d9b13798db406e0c2a770d99679ccf807b
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0
new file mode 100644
index 0000000000000000000000000000000000000000..5674740815e6f645e0ae1db25ded475a01fd5e9b
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..64a4549a03d1ea026b0dedf601d1929e2aac5009
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0
new file mode 100644
index 0000000000000000000000000000000000000000..50027f8d268487176798a476df5cfd777533e641
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0
new file mode 100644
index 0000000000000000000000000000000000000000..4fbb7c419e30ede3a91d5615f24221a4a07e1c8e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0
new file mode 100644
index 0000000000000000000000000000000000000000..f7d7ef78ceb66815f09cfa4488fe1c55cd2453e3
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0
new file mode 100644
index 0000000000000000000000000000000000000000..69643deae30da8158efb433c0ed60721eb1a7aa9
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0
new file mode 100644
index 0000000000000000000000000000000000000000..61d040dcd46d09279ea9792dacac4b45db1bb100
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0
new file mode 100644
index 0000000000000000000000000000000000000000..633e6a3da73dfad46917f5cf83b5000641aa8b8c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0
@@ -0,0 +1 @@
+y@�@a@�@�@�@�@O@i@(?s@�@z@�@�@{@n@�@�@|@�@r@�@�@m@t@�@�@�@U@~@�@�@�@�@^@G@�@�@|@n@Z@�@y@p@�@�@�@�@Y@^@g@�@J@G@Z@S@y@�@�@�@x@�@O@�@�@�@�@�@�@q@C@F@�@�@�@r@�@�@a@g@j@`@�@T@�?c@8@v@�@u@m@b@�@�@N@g@|@�@{@R@t@�@�@d@b@�@�@�@�@B@�@�@�@�@=@�@s@Q@�@T@�@�@�@<@�@�@q@X@�@i@�@~@�@�@j@h@�@�@}@�@F@X@F@�@�@C@x@@s@l@�@q@G@�@Q@G@�@�@�@x@�@@MAv@�@�@�@�@h@�@k@@�@p@E@Z@�@�@�@�@�@�@�@�@�@�@�@�@�@�@�@�@g@�@�@�@|@N@�@�@�@�@�@�@L@I@�@�@�@�@_@�@�@�@�@�@�@�@L@o@�@r@h@�@q@b@�@u@�@�@g@�@�@�@�@�@�@b@�@z@G@>@�@�@`@y@�@�@�@�@�@�@�@�@�@�@�@h@�@�@c@Z@�@�@�@�@�@G@M@�@�@�@�@�@�@�@�@q@�@~@d@�@�@o@Z@�@�@�@�@�@B@�@�@�@�@H@�@�@h@�@�@�@�@q@j@�@v@�@�@�@�@�@q@�@�@�@T@�@}@G@�@�@�@a@�@�@�@�@�@�@�@f@s@d@m@�@o@�@�@Z@�@t@�@{@�@�@�@�@~@�@k@i@K@�@^@m@�@�@�@]@�@�@�@�@�@�@h@X@�@s@�@G@�@�@�@�@�@�@�@c@M@�@�@m@u@@�@�@�@�@�@3@�@�@o@�@�@�@@@�@P@�@�@�@�@W@~@�@v@�@�@�@�@�@�@�@�@�@J@}@�@@�@�@�@�@�@�@�@�@�@�@S@J@�@O@�@�@�@�@�@{@�@�@�@�@C@`@g@�@>@�@�@b@\@�@�@f@�@�@�@�@q@�@�@n@�@W@u@F@�@�@�@r@�@�@�@r@@�@g@�@d@�@�@�@�@�@~@�@�@�@�@V@�@�@�?�@�@�@�@�@�@�@�@�@�@�@�@p@Q@�@�@�@�@�@�@V@�@0@�@�@�@�@�@�@�@�@�@�@�@u@�@�@^@l@�@�@w@�@u@y@�@n@�@�@�@�@�@�@X@�@�@G@x@l@Z@J@�@~@�@A@x@h@�@�@�@I@�@@_@�@�@�@�@�@�@�@�@�@�@�@V@�@�@K@P@�@K@�@�@�@�@s@V@�@�@�@�@�@�@I@�@�@\@�@P@�@p@�@L@�@�@�@I@m@O@�@�@@y@t@�@|@C@�@�@r@[@�@K@�@�@U@j@w@�@�@{@�@r@�@�@�@F@�@�@v@�@�@f@�@�@�@�@�@�@~@{@@c@C?i@�@�@�@G@�@�@d@�@�@�@M@�@�@@�@�@^@�@z@�@�@p@�@v@�@w@�@b@�@�@�@O@n@�@�@�@�@@�@�@x@�@�@l@?@�@�@�@�@Z@q@�@�@�@�@�@�@�@�@�@k@�@�@�@�@�@�@K@w@g@�@�@C@�@f@�@m@�@�@�@h@U@Y@�@�@�@�@�@P@|@|@�@�@�@�@�@�@�@�@O@q@�@�@�@d@�@�@~@�@�@h@�@�@u@�@�@u@n@�@s@�@�@~@h@�@�@�@�@�@G@�@y@i@�@�@d@�@�@v@�@�@d@�@�@�@�@�@�@b@�@�@�@�@�@@�@�@^@�@Y@s@�@�@~@�@�@i@�@�@f@^@e@�@�@�@�@�@k@�@w@�@�@r@�@�@�@�@�@�@�@h@o@f@�@S@�@�@�@i@H@b@k@�@�@b@�@|@Y@�@�@�@|@�@�@�@�@t@�@�@�@�@�@�@j@T@�@`@\@�@�@�@�@j@]@�@�@�?�@�@�@�@�@�@�@�@�@�@A�@�@�@�@�@�@w@�@�@�@o@i@�@@�@�@�@�@�@�@�@�@�@�@�@�@�@�@V@|@�@�@�@�@�@�@�@�@�@|@q@�@�@�@�@�@�@�@]@�@�@�@�@v@�@�@|@�@�@�@�@�@z@�@l@�@�@�@�@�@Y@�@�@�@�@�@�@�@�@`@�@f@d@�@o@]@�@�@�@�@�@�@�@�@R@�@�@�@�@�@@S@x@{@|@�@�@�@h@�@T@T@�@�@�@�@�@�@�@p@�@�@�@�@q@�@�@�@�@�@j@t@�@�@�@�@�@�@�@�@h@�@�@�@�@�@p@�@�@�@�@�@�@�@�@�@]@�@�@�@�@�@@�@�@�@�@�@�@�@n@m@�@�@@�@�@�@�@�@�@�@}@�@�@o@�@�@�@g@�@�@p@�@�@=@}?e@d@�@@�@�@T@�@~@a@�@�@~@�@�@{@�@R@b@�@b@�@�@�@s@q@�@�@`@�@�@]@y@b@X@�@�@�@�@a@}@�@�@�@�@�@�@�@�@g@�@�@�@�@�@y@�@n@y@�@�@�@�@�@a@�@�@�@j@_@�?b@�@�@x@�@�@.@o@u@�@�@�@�@�@�@�@o@q@�@�@2@�@�@z@�@i@{@�@�@�@�@�@�@_@�@�@�@y@d@�@�@c@�@�@�@�@t@�@e@P@�@�@�@�@�@r@�@�@�@�@f@�@�@y@�@�@�@~@�@�@A�@�@�@i@}@�@�@A@�@�@�@v@�@�@�@�@�@�@�@�@�@�@�@�@w@x@�@�@�@�@�@�@�@�@�@d@�@R@l@|@�@�@k@�@8@P@�@�@�@�@�@�@�@�@O@�@�@�@�@K@�@�@�@W@p@�@�@�@�@j@�@�@�@�@�@�@[@�@�@�@@�@�@q@�@�@�@�@�@�@�@�@�@�@�@f@�@�@~@V@�@i@t@�@�?s@�@�@�@�@�@�@]@�@�@�@f@�@�@�@�@�@�@{@b@�@�@�@�@�@�@{@�@�@�@U@q@|@M@�@m@ @�@�@\@a@�@v@U@�@h@�@Q@~@a@�@�@s@�@�@�@@�@�@�@o@�@�@�@�@�@e@x@�@H@|@�@�@�@S@�@s@�@�@�@�@�@�@�@�@�@�@�@�@�@�@�@�@q@&@�@E@�@w@�@�@�@k@]@|@�@�@�@�@�@�@�?�@�@�@�@�@�@�@x@}@�@�@z@�@|@�@�@u@�@�@�@�@{@v@�@�@�@�@�@<@�@ @�@�@g@i@�@�@|@�@�@|@�@�@�@)@x@�@\@I@�@�@{@r@�@t@�@�@C@h@�@j@r@j@�@�@�@}@�@~@�?s@�@�@�@y@�@�@<@�@�@�@y@�@�@�@�@G@�@�@j@�@P@�@�@�@�@~@D@r@�@�@�@~@|@�@}@�@�@}@�@g@�@o@�@�@}@�@@f@�@�@�@�@�@�@�@�@�@�@q@�@�@�@�@u@�@k@�@�@�?�@�@{@�@�@�@�@�@�@�@�@~@�@�@�@�@�@I@{@�@�@3@[@�@�@l@�@j@�@�@�@n@�@�@�@�?�@�@�@�@�@�@D@u@z@�@�@x@�@�@�@R@�@Z@�@�?m@n?�@�@0@�@�@�@�@y@�@�@q@g@�@�@V@l@�@@�@I@�@@�@�@�@w@�@�@�@G@n@�@�@�@�@@Y@�@�@�@�@�@�@�?�@P@�@�@�@�@�@�@�@C@|@�@�@�?�@�@�@@�@�@�@�@�@�@�@�@>@�@�@�@�@|@c@n@�@�@�@�@X@o@�@�@�?@�@�@�@�@s@�@D@k@�@�@�@�@�@�@0@!@�@K@<@�@N@�@�@�@W@�@�@�@�@�@�@o@x@�@�@n@�@�@�@A@�@t@�@�@�@q@i@�@�@�@H@\@�@�@y@C@(@~@z@D@�@�@T@�@�@�@u@�@�@[@�@�@|@�@q@�@�@�@�@�@�@�@@�@�@�@�@;@�@�@�@�@�@�?x@l@f@r@�@�@�@^@{@c@�@e@�@j@�@�@�@�?�@�@]@�@�@{@�@�@z@f@i@�@k@�@�@b@b@�@^@T@�@@�?�@X@�@l@e@�@�@(@�@�@�@�@d@�@P@~@_@�@�@t@�@@y@�@k@X@�@�@�@�@U@e@�@�@�@�@�@�@[@�@w@�@�@�@�@�@x@�@�@�@]@�@�@�@{@�@N@B@�@�@�@_@�@�@�@@�@�@n@�@g@�@�@�@+@|@Y@�@�@�@�@V@�@l@Q@�@Q@�@�@�@�@�@�@q@�@;@Y@�@�@�@�?V@k@�@�@�@o@�@N@j@u@�@�@�@�@�@�@�@�@�@�@�@�@|@�@r@|@�@x@�@�@M@�@�@�@�@�@�@N@f@}@�@@�@�@�@�@�@�@@�@�@�@�@�@�@�@f@�@Y@q@�@�@}@�@�@�@�@�@�@�@(@�@~@�@�@x@�@�@`@i@p@�@n@�@�@K@�@�@�@{@�@�@�@x@x@x@�@n@�@�@o@�@�@�@z@�@�@�@�@�@�@�@�@�@F@�@r@�@�@�@�@w@�@�@�@i@q@�@�@s@^@�@w@q@�@R@�@�@m@�@�@�@u@�@i@D@�@�@�@�@t@�@�@�@�@a@�@�@|@\@�@u@�@�@�@�@�@�@�@�@t@�@�@�?�@�@k@l@�@�@�@a@�@l@�@�@�@�@:@�@�@�@[@�@�@�@�@�@�@�@z@w@G?�@�@�@~@g@�@j@�?m@�@�@�@�@�@�@l@�@�@�@%@�@n@}@�@[@�@m@�@�@�@�@�@�@�@�@�@q@L@�@�@�@�@�@�@�@6@g@�@�@�@�@�@^@�@�@a@�@�@o@�@�@�@�@v@�@�@�@�@�@�@j@�@�@�@�@�@�@�@�@�@�@�@�@�@P@�@u@e@L@�@�@d@�@q@�@�@�@�@�@g@�@v@�@@�@v@�@�@�@�@c@�@z@@�@^@g@�@y@y@�@�@V@W@�@�@�@~@�@�@�@�@�@k@�@�@{@�@�@{@�@�@y@p@�@u@�@�@�@�@V@�@�@�@�@c@�@�@�@�@�@~@�@�@�@�@�@e@�@��@�@�@�@�@�@�@�?Y@�@�@�@�@�@U@�@g@\@x@z@P@�@N@�@c@�@�@�@�@P@~@�@�@�@�@M@f@�@�@�@g@�@�@|@x@�@�@W@x@�@R@�@�@�@�@�@�@}@�@�@�@�@�@�@�@�@{@�@�@�@�@_@i@�@�@�@e@�@L@X@�@�@]@�@�@�@�@n@�@q@`@�@�@_@x@�@�@�@�@y@�@�@V@�@�@�@�@�@�@�@S@�@m@�@�@�?�@p@�@s@�@z@R@v@�@�@�@�@�@�@�@�@�@l@L@�@\@�@�@u@E@�@l@�@�@�@�@�@�@j@m@�@~@�@j@�@M@�@�@�@|@�@q@�@�@u@X@�@d@s@p@�@�@}@�@�@�@�@�@�@{@�@�@�@�@�@�@�@�@�@�@W@�@~@�@F@i@�@f@�@�@�@�@v@�@�@w@b@�@�@|@�@�@�@�@�@�@�@�@�@r@y@�@\@z@�@�@`@�@�@�@�@T@�@�@�@_@U@�@�@�@c@�@�@�@}@�@q@N@�@�@c@x@�@x@�@c@�@�@�@�@�@�@�@�@�@�@�@�@w@e@�@�@�@R@s@�@V@x@�@�@�@�@f@�@�@�@|@x@�@Z@�@�@�@�@l@�@�@v@�@�@�@I@�@�@�@`@�@�@�@O@�@�@�@f@F@O@%@q@�@t@�@�@�@�@�@j@�@X@�@y@�@X@�@�@�@�@�@~@�@�@�@�@�@�@�@�@�@o@�@�@y@Z@K@z@�@�@z@�@`@�@r@�@�@�@T@�@z@�@x@�@f@�@i@�@�@�@g@�@�@~@�@�@�@�@~@b@�@m@�@V@�@q@�@�@s@a@�@Y@�@�@`@�@�@�@�@�@�@�@^@�@�@�@�@�@�@�@�@�@n@�@�@�@�@\@�@�@<@�@�@s@|@�@�@k@�@i@�@�@�@Y@g@_@�@�@�@�@�@o@�@�@f@�@�@�@�@�@�@�@�@P@�@�@z@�@�@�@�@�@�@�@�@k@�@�@�@�@�@�@�@�@�@�@y@t@�@�@^@@�@�@l@I@f@�@@@�@�@�@\@�@�@�@�@V@�@�@�@�@�@�@d@�@�@�@S@H@[@�@j@�@�@�@�@O@�@k@E@�@�@�@Z@�@�@K@B@�@�@�@�@l@�@�@�@�@P@�@�@�@�@�@V@C@�@�@�@�@�@�@�@�@�@�@�@l@�@�@]@K@�@�@@�@m@�@�@�@�@�@�@j@z@�@�@�@�@M@D@�@�@�@�@D@�@�@L@�@�@t@�@>@v@�@f@�@~@}@�@r@>@�@�@W@E@�@�@`@�@�@x@�@Z@q@6@S@v@�@�@�@A@[@T@~@m@�@m@�@D@f@�@�@�@x@�@�@�@r@�@�@�@<@F@�@�@F@v@n@�@T@�@�@g@X@8@�@�@~@�@�@z@i@�@�@�@�@`@A@�@@}@�@�@�@u@�@�@�@X@�@�@r@R@�@�@Z@z@�@y@>@�@�@�@{@�@�@{@�@C@B@
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0
new file mode 100644
index 0000000000000000000000000000000000000000..e5e297c02ebadf492b9a318dfb8fe2d1582908c8
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0
new file mode 100644
index 0000000000000000000000000000000000000000..840f63a59cbd18737ff7734672db3364fc499036
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..865a0ade3d0015130a1a6263dac93b0277a48487
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0
new file mode 100644
index 0000000000000000000000000000000000000000..bd15786d5ae843081fb3262e9128abdad742eebf
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0
new file mode 100644
index 0000000000000000000000000000000000000000..1051c7781d7f4123e9ccb79e421cbca34381f714
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0
new file mode 100644
index 0000000000000000000000000000000000000000..059b0f5f04cb249b5024038df742c707d22c0df3
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0
new file mode 100644
index 0000000000000000000000000000000000000000..5681581eef3b9017d9be2216fb7a3ebf44e4ab88
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0
new file mode 100644
index 0000000000000000000000000000000000000000..b249e44b37d8290a6817ba68ce1b008b10b5bbd4
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0
new file mode 100644
index 0000000000000000000000000000000000000000..f99601e285abecd1f3a8cf4915ed4abed68d3bb5
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..3f3b87589f26b540b976cdf5ad9d88e236a72841
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        6144,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "bfloat16",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        49152,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b0000ba8c3671c1036d95465f2f347533e2a868b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c30e682396a9dcceab963c016985827054bde0e89f7c0265a8a482f4fddbd7f6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..3cb575d2ea8a147b91abbd9b54c2a03aa56bc517
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02267689603f5907a185996985ccde81abe76ad92225a2c71ac9295b9bcba181
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..4484e37a6e66ec8202124f494cab0f3e065d2d74
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e9be75e3cc9c5cc74302f3398deb1298872a269a6e96dff52ce4e1bf4d6518fd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ead938b004706c1204e5f2c380b60b64d6cd3d23
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:515bcc18b3a273eedac6b47cf9358ba822a07cb3c2c64fa7937a2ac2528fca9f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..b263f731134ce5141b3965388048b5353ec85db8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:457bd3ff930d5468183693b027ff4a434c5b7ca41b1c3ea8b24d7448a95302b7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..d041d0f90fc6725be1e67e55dc489e7ca5d6694f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2fc2705df8281fec2d41e70859b40318ec3216d86633f036517306f0b0f4b46d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..f62c38e6627e2572135f7c40896535e363cb857a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:16e971b4aa99b2fc0e98c5ed0b372a9c873f8445323c95a9019c3f7b04ba43eb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..95df587f0efe287dd82a5d8ec114933afcbba6fb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/0.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:926f8ad9fbc976ca4a45c7f9a3c6e45704d95ac4e240b05ac574b5b8de843f40
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..762adb5d56c5a8a92d71ae5fa288f2975fbff91b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a73ca1b208254321dc66abe490a4c8fea7a967d4609c63a9b15c3caa0a8fc99c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..370a1e6a2f78534ec7a1e30ac32dfccde9d1f775
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6964b969d270fae8312e104ffe7d6aedbffca7e18947d5c0b7788d76e0d3ff10
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..81f2e9c4f285594e8d72a125e00d8b8f4f49e30d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fba84539d5fd9043fc9b783d56ba7ce821a72f279b336f0ed7016308616901a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..dab2d918ddcc44916717190bcbdfc1f09e37dadc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0534390ceb2029e6093fed20b562e8624e9c15190b3726ad406a86bb23e608f0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..4dd0a8e0d60d11805f8530da18180ff63289d535
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a513b446477f3de5dcfc29cb052266ca070b81c36e40ed6c643cb85be303eb04
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..27b07e500884afa49ea576b81c68feff25a60789
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9a345a2bc46be114ec7adaff0b50d4aaf4da90e88875a55928464a2494af9e7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..29b5d66d5db240f792db2817ffdc897355b77583
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:67e3cbcc9e33c2d8a7791af26a05bfe0107dea4548f3701e15517d9ede9cfe61
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..327447b668a433c1fde7c8b5934b901c60d06b91
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/1.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4b7d239d14cb0456c437668d99679dc02d17a7a218b0492649b466015d0a23ed
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..683fa806e65c3f5574b29e39cba9172056ba2315
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8aba2740991191ba91405b7fa9e89e4787b52df10b685b3cf1464fc4d33c1fd2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..4ee7b0088481e060b9e7cd689d21447631d9638d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d190cd8664e89cf771148f5c69d5d3ca08304838fe8a185ae5f02bf69be1d173
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..33dafd36c4e1260e10fae354c860c9635a67e8c3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:49cd24f3d94b9da685254b045f5b694a3456af28ff089d7770dee77d4d984f90
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..e41ac091a01714627b32f7760fa96a8f1f90af7e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32ab8c258e84c5644ec19a99f7e27771abc6f14751a01178443b26556292302f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..c91364fe26ec2f9902886f66120d0ac084b67236
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a76be16ca35b7afbfad13b68016034ce4e749c1eb44457ada9615cebdf5afbfc
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d59bd1d1be18808d5c4826e2da53da5ccda7064
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:11bd0b731008b531c7fd979cc0890fa7e06c75616c0b89b81830f3197e5ce9ef
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..5f147710ef3583dbeeaf44c83180df3d4f1f0f3f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:302f5b2b3b872a06936e0de2d68ec032278ebb3003d838a84bfae8459df09f97
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..5d963e3e085efc0896764ba72b11fc6d95f1703e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/10.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a5f64ba50993e7b7dba7b24dda3427fa53012233b03b601081be143a5ad01f62
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..50923ba57cfdcdb409b5a5ed6f44a7dd8a1c274b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe614edcc883c699bdfffe4fa28d67d200bf701c2a4cacdc548cd6187c549289
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b73911de4e22629b0d3de9c99690ee4aa85be579
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be5f6f18cae2c6db8d0363f343ad9eb943be9ecd6612357108497f94e6a884df
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..1ff98be9714f1026a38b83a7f9d619861a893789
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25a8a5d5f7cc32d6db32a3477d389de93eeb6a0483647fe24d0f34cb97a86b30
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d2e97ba7cce91d4a75d107b11ea3a7501b7263c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a45de52e5eb26587628b8b51b93d93a950768b3e811f5b03393ccdf0c206223
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..dd1d76029bbdd0518eb2e1202db37f7e4309c99c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f72992d0f92c3fa0199c7b3e0b44eb438cd763cf1f35ebd3dc5ac9815ba905ca
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..c3b3fe1e1c11993123347130da2ff8d590024c22
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db1310b67571af0f136bb52ed85fcfa1ca354821aed3657d57bd28c2fe147cd2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..d551017ec769f15c6e73fd6023c10f9a5838b404
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a090c02ed1a2981f02d2074de91bae9aeffb06f30b59c7451adb7004221ff6a0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..ba49753ff0af73cdacafaa89de4faf4e87199e4b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/11.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:37c2da3ce03911ecc14b6e74cc49f108b5fe2350940bc6d5c5439578439cf95a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b2134062bdac6cf5f87df7f54ce0e150386434fa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1617eae37b93c1496ce25035bace7377f85bf31e8de68885d653d637e209c48a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..90a7920dd0dad6c7a4708834a1f91a6854c790f8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c1727d10fd9cd73a8917bc2dcf9d6710d7e1b7e2a767790f6bf9cd2dc1b92f7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..a62eb225cf6a1d0c9710d9cf705e146b01fd57d9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9c8647c47354a310e14b85bb5d970cdb44b852cfea9a6fa2da8ad0fc51b029f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..d638647dd28d4d8da96557b0ef5c34f6772e3cb8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8aaa34da6edd9c819775fbe8218047bbfca5b0723725bb9dedf4e7c90da2eb01
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..7345b9581af33c7d074d9fed195d0b5ae50bc831
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c9163aad1df209bb703aeb694cd60d762c11573dab7842d03e985e51d87a398b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..5de29c60d2acf0f820447a3250572eae14804042
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e2367414e929827e614c9f6eebc35c4873a58c5749ebe1abadc3ecefa48567e3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..07a00471712a5465e64d8fe3aa73374bad4f3260
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:072f1ce12b8038d1d42f688523b37aea800371bd32b7e101553bd512efd8e551
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..6053084e1b211c499285ccdd4e88e43042bf54a3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/12.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bb0b6c140a44c421fca96b60e897e1bdb8cef4d86c39ab3aed6f1515320c269e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..afd9d045ed4bbf344cd142e0c18152d57497e24f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa93162b0670f8e2993f8333abf77fa4dd439318553a4c6cd7dbebdda4178799
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..36aa5654f236fd8598a699d8047a33b0c88e8b8f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d19ccd70dcdf2c107a34809a65ad8aa80cfdf830d5744c721d22a67685f574b1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..110a71e1a014a22c0a864a858ccc2729c8e40db4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88fa42d0fb6e501ced70c5eff0b9a98af8612f44b734227f43045be00f7c73e0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..bd203650a20776367d68c2b9676c25d06e76cbe4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:44f07747c3c7453020edaa5d16519747c7458d9c1effaeaf5857962411dd04cc
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..c704786486342199c6d62245c39edf5a4ae9d78f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ecdb7061bd49af4720ecdf8f07bf6533e6d33abdba2964bb72132a0b2ba71bd7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..d0682ca702828e9b2ea7ca1433b67362b986b857
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:895e9c7db2087dba764dcca8102315ea34a9df649521707c5fd5ebda5a97e5cf
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..26473dbe3659ece344f89f083e89ceb355ab2328
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d8cc82021a3a3f9352e50ba53c8474ec80f8ac178de834750d294ebb7978330e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..86567bed02185999e87bf0f65e10f739245c8795
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/13.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:abdb6d42dfe16e978d57aba40b663576c198449775d5882330dd50a3d723655e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5b164d72e45a2f29e1baf9e200f002ccf77d0e58
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:66fb30a29fb588bff20247cf08b55ce75689ccef2fc33bc36ff695a4cfe9e815
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..aa9c0a70fb6b8c86363f167b08cde5912b2b31da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b3f6b7de590a7fb952dfec4c37015e08486911d87416ad12db3900f123771b44
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3394064736689db76658d166997b6cc2efb196c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d5ed38d0fd58fd207135b21f9b3d424ca0c9e29279764bf6ba433f8b8b32d10
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..8840914d362ee28be68701dbf32a8f790e58a616
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cc5d15c250129ebae2e1e5499d2b12f89e809d781cc8620e56282bd5e35625b9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..5d25e5ed988133be8bcca4ed38add29982547ea0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fec879c56749f7d4745304c119c383f48097ce1a562ea7818eb465c34de351b9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..81aabbbc59817ce6409d1e483984032c306c6091
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6a6109ffbb499c191d00395f08afacaaaa4d65130635a93ed3d5117ec0cace4a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..2b35cf67a26d28cd9f1fec0eefd538f8005152b3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:448a53b5ff63f0df7a055d69b905fba869840ea7e2ce0343fe67c0c8c24e6671
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..3099e188750985c4bf8c7b87a071bbf6f04a887f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/14.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f05e6a6e5d5e60274ef0cdc4c0d67d990aac9f27381b75a78efb290a8ed4cbcd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..793da7bb6a7ff551bad75ae468c7958080d8fff8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c539ce511bb3b39e00bc2e631ce5783513144550fef590309197b1ae9b6c2570
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..381413208ac1d2d3b44d047205d2dffc09556f7e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:128143bb1ae38e1110127678d5c7b2cd6fc01b1b08849d17229b56a254e1e389
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..2a8705734b6df227344cec10f9c09b2c9a24dd51
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f911c3850129275a9cb37232eaf651e36a10161cd091290c112368a95bcfa68
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ed6902cfafb86944d1d3c57a0d3665f2789be584
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a8d645370973ae17930c136c8cd3509ecb678679eb31de5ce8b40cd23be41587
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..313986d2116fc86a8829b40e71ea5184abde5088
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b77f08894157ff3f16bf3c98d4c230a3cdbf99b9afd3eea9b48cfd391698bed6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..271c2912fede044c8ba8760cf1660adfea3cbcfa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0b71898c7870e93d431a4577a559d370a81a2dd1f69806aab4662e5e120f5013
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..3706cfd66f913e1ca9520d265f2404ee3721740a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:86de29338b918a1372a55b1da3b9898e96d5b8f23f0eb7b5eb953f2bad0b0130
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..54fa9b35151547bc184b3583090d67a20d499469
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/15.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f1e20f6b3f239fae5ce59f49b3ca7dd23bfb9bd14b6e7d40544caec9d5a61502
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e0790911abe0fe5586ece4ac451fb705e390c850
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b25ce96f7a66dbce6eafbea3bd8331786a9c89ce38ace7ff6bc354e9824d3a4b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9bc804784a4b5f563a2d9cb97aac5b8196839662
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc9577f3fcd926618137ebba456099d35140f1b37284042c522a6df033e528b8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..adc60b9a274bbe750022e5b70a096100d0bb7bd8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b3b284952982af4d421c9706639225fd7885270f488ad60ecad7a3daad1a706b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..2f7e795a213d447ac8b6ef97a3d9209a5628d488
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:70968d637cb29d3f39f62467c33d483887ae7fab7773186d86b87cba9603433b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d4b2628f5c4bb9d806c3b4f45d2163526c54e70
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18861adb13de39b7ac79f5e2ea8e0cd7da90b9b84ab05ff2052fd92a5665601d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..ec13f868a45830ba86ad6f03bd9cd04368f6e041
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a1c9c560231576c7187624486bc1577d6358de43a3f177c6069ee3a605e9d2e3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..bc3230365dac59182f78d3cced56dae1db8c5701
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:313623d819342220de947bde1358ebfd3d43fa4d8655b4b401c5b41b90bdbdd9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..e24128b9eed2736c74c2e152dbd80e3aff181e8e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/16.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1b04b4ff8c8d4d9761630544d3bd1864e505c3636ef38af9842033ed470af88f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..53deb1d890a24e5bd8b888ffe2a90d9487312396
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d7fe39b63d1f44b628cccd16387af0e244e4dc1cccb67b2259ea22595014c834
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..25e53474a02bf808787c475279721faecb28d9d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:093679fdb32972ff6f484868ca57b4d4f7151aa471deb49ed30236f002855a0f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..fae06a95cf3035baae548a4e2e2c0433cfcc7e64
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d343aea2483ba20e851a3110e2a5c1d776016c2b5fbd1bb83eb2148d1217f49a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..5339c77b756fc6bab627cff893641735c3dab69c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cd2bef4f742bd74f8facd610d9ec41c265cc61cda30f4b8bb65d635b4c4c784e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..2c5a073f6c02fd88baf0f2cbca1f142e6827d92b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d7c5cccc6d968dfe033c0c0e68c966d42a1a2e6daddf9084513ef9941048db5e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..5fc6c7fec0bee0f8be8279c96042e8d73d7138e3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe00e69c6060f5fea28e032facc66db1a5df2e18feca767a0f3b9052e90766f3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..779f286f43bf4f4586acce2e7184f99607fa5091
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:baf466270c0946b84adc175d279ac9fca449fa2486805b7443a2fbfe6dc23ce1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..3d1111fc4a5e19f35b6ad39c873f9af503bbdaa4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/17.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9f17b5180788a76ffdadeca1d71f030cdd0518c1d679d8191c39f5690b077fdb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0508c7c1614002fceb4d4e8b853114798070b815
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8ee1d50802a703504bf5150f96b7bfff44e96340e3285c86c210e33ed09d4dab
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..2bd18319b7b01e3b725ed959138d105c66d39d54
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8de19ed65905918335e2b4678eacbb7df03a6de4db35a1923c7b2cdcf1892afa
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..f7442f387e641c6a151cf71003f02fc178475d1e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6950d0f37f004d534a6b75062c6c743923779b06f0b964b034db6e28c2bff0c8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..044aacc02fc2e54a1f66754b5473de89e78ba1de
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c9a00bb3ddd8c4c02e3cabd8d7d228525f543547d802b4a7aaeccc71ff433a30
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..9663f14d0a162827a9ceb12f98983fd10a9e2adc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09cce326cbcf088cd4dd926ef6544e9ea89687db323b77c44c3d580277577510
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..5b7916aab16d98424e698ca44864f36e040517d8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c1bd7f4564166542cb6b1b16e5d045ae753a7f24490325a8dd46c87f91f0825
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..82e4c99e73e04e852f2925111dd622e4e265a5d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:23af0a5c8edd5aec4c822e82fef09259d9e13327442bddf0c2ba47338b839103
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..3284d1fb32fff0514a27521aa755c12c21889119
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/18.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:06c701648e1ab0b82b0af63c74b7470ad5b370fab9ac681ebf94baaeb5456853
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e7817c1d1cd4dae32cd945429523ac1e21ac3c96
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8581bcfe5e76e1cb7c647ddeee3ae3fa0a1793a1fb0cdda9161839fb5f45fb6e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..5590435624e4ad069bb1ef892c31ac9c74b6de1e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f272314fe102e25bb9ef21c51adb56dcd25afc31a1942d82ec856757edd13500
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..defd2b69966115410abd988e3568f43e01b2397a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:487d6becd66b08fa3a3891ff53f212e25094b30d856267e6807925efc94cf724
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4be37884f7090b6b2aaf965cd40f5ae740697949
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:deab60010363cc58dc97f9ca7ddc2d98ebac5ea76c0bd6c598cd52bececdb201
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..6eb11dca6513e61b61b85e9fbe00e188530c92e9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6d597b1275358ed24c613a254ec98fbc530e7c89e6300131514a131e3ea18b69
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..21fc2d5ea67526857235febb3278f519d9e505f4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f475c49b3b3938794f4f8f10a35543ca6e22a0661c43aead11805cb44490ee0d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..3cb8329caf69943b9c09e3164da12b3bfdaad9a3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba1194e804cae2edc0c7e1e80459ce93c120098662c6ad612012e88fc0b769e9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..37f6deed964eb241e1c8c98944fd7307cad6ef8c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/19.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd5ab5c51f0333bd5a44dd37469acb40971ab1947b1da5bce38762bd67214291
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f07d187ba06e5166b9589ba8daeb15a87edef6b6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f1ca43b2199e3e8b65ec2062c0be3ec8732b381b1beee856baf4de9b38dd760
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..7e6c7ea46acabd540d370b8be4f4dfeaba9a399b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7aa2db0b57ad3a3d3194ad911a62f4f69322463f9ee3ab7436cf708c295f4551
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..f703f4bdf106b5b1d56a237f27fbb0b849d56757
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:94d66df9fd1b919b57adf06bdf0ebf7bdeef160ca85f60368fccc4cbda6fe0b6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..cc5fe9038b5a2e997622caa3421f8016da3171e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff3738fb6cc702d57d4b5516a13b8cb4541863c20b466a7feec28d7c4eaac4f0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..6342d72cc49fcdf37ee044189e0c7c3abb11dbef
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e4c449c0fa811c1c56032b1f516f24647d19a03bec8150e69f2ce1b812914fe
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..1ac01e1ee7d3d706beef54ebd506d932098f95c9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f93b99847129d5c7dbfeedd25d6e78a0f53d97eaade1897707ccdf10426fe5ec
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..7c9a068519c999bf61c76f61fa70807ad562e6b6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7a81abb908eb1e9af6742ab01264591bef4a16ede3deeee622b437412f61bca4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..5c75c39eb62f4039821fdaacc2a355cfc0d83255
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/2.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a2d98abcabea11378d9df9b36ddadfa4c442916aed231d407690d9e2fbc941a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..77262e86b700f4e7feebaabd9b69bd34466ca845
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8cca168249b2ddf9c392c85dbe1703e95dd9a866b1cefa808f2eccca0303994d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c507473da5e5c20314807fd43a455f130bc4a17f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8461788f28f7eed367f0e5ff0b3e14edda50273fa681098b1cd76b568fa2f72
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..a75dec25f732d6d014b677f78a08285d1d463dac
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d3917a582d5397682d95239bddb8e3bc6470055905a358c6b39a088ca4d16423
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..27d4e9f5833afd20e0ed6f64ace0123beefd6fb1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a1026a80a424be36ee69ab9d6490a60d5d441bc6b81ea879f879e004d716ba7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..8220b5dae66451718121c8b2ce9f9de563251da8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:426d2a56feec2c79b95cd44345bbe144fa8c3d6536378397ec9581dea163c830
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..cd148984d8e62c236f084842e1a29070925e2782
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:370d61699cff6f959928280944d6e86fa4886c5ca5f19677a0d2639545649f1f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..88fdea48059404ba51251cd9873609a012fda1c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:581122de9b086fc000176558fad7a75a56972841bc439784a05965f90c215389
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..6c6665cddf56124db5f769eef0fb5186299cb505
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/20.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a857488d34833a851adec69e29a6d0c908ea9077900f6df404a2fe44c80845a3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c88e14e21b485a7a8c919d3b2f7625a10a74441e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e6960ce64dd7d41a80d06b20a513e67e668c2db2ba56bdeadcc0db50232595e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..4658932916276d1cec4794b4bb4964f615cbe55f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:403fcbb4a5521a780c48da66f7a48377243d17d37a677b129d1167f6b0e8c39c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..a112c787d1054e7fbdafa3cb18a7b4af99744935
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d0ca0ba9ed9bb03ebcd911f944af0dd3126d7444d6de302e13757f1dcbef16a8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..b439e0a5966cea2d25a7977370c3a2cfee970d8a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:66506d0b8c2a3ce890aec27c84a42d141170306c8d376e76f3b7e07919cf3eeb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..74c5ba2fbac08c23ebf77d53ae7b99eeec86c1af
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:747af4125062c1bcc9171e1e971bc71dcd8fa67c4ec7093af6eacc910912ec90
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..1b293c5675690c754f395d8cfd9c9b2c951c996e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f83f93e2df088dc2c974d8091699ec19ac1b63012fd4353e8abbbdda1d35a2a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..cbd08a9745d8bca7243edbd855cf343f011f326f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:89af0609148c53bcefddcf7b8aff736d07c139cf988a763e1440a3a0c68c5c5d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..010ceb222f5e0ae3313cb896a4bcb8e774e060fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/21.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:072694ef53d468226977095b4551be3caead0f9a2903b6b6e5d46bc38691573f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4c317fd6c3479689b5fe708386df56594e8e677b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:522d120ea63b11f9419acfbcac24d555255283c0677005a2bb4796512ec0499d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..7576460ecb6c2b3349cebe6493b77759628223f8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe526812d6e177758dc3e9a13e2dbd0fe261062b539250423dacb1233f55f514
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c5f05cc1813a26d5107400c266120ddefcad3fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cb9af9ec0f707fb33865e99feb45ed4767a032c6ef9296e1ae323bb0a0c8ce81
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..3b1e49e5665a7cbfad8926f7f11536d1dce2ac4c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9099e0dbacd22917d5a0e63584ade3564851369d13be4e80f173ca94c1b5929
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..a39c28d3e26817fabb5cb35f1e3d2a98be294a61
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fb408fca3e2fc3894d8c3136b3af70f50f8db9881ea17feec06a4894d721d37e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a1756a8730608eb2201ca2dd1662086c2349ca49
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4d1628a7fe2bcdfc371f161992c52992f1b780d6cee8f8200194c870c9522cc0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..125beaada186d0a1e2a9056330370ba67a17ec0c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:928b17ae32c043be3edb5753db3517089601b0d8afc9410310b919b51fb5ce17
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..63982901847c09228288a84033f14635249f6718
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/22.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bb0557afefac1241c2e5b5b028213ac3ddf5aed09b6972c211050f2d7cc50913
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1bb4f2a7487342dfdd9ef40550380d9af2773fe2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d81d450ff086c4a20d1fd16d1c0d6fe8a07eaa21047e2c6048bf48d01bef7555
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..4f66a4bcb38f0fb6ad5503223925265703ce33af
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:205df9a1f7e295585babd65921af9c4b36b1dcd4f3e20a2431bc6907f82ad514
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..bdb84a9f323a400476d7fccf56636fa5232198e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eddf154fa00f4e90dc30cb2f4d205c940cb06d9aa51837769270b29c229f8b7e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..9d31111a4a1c78b78316b6156dc7bfb00ba1d1e1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:64ffeb4c6fdb4bb34b788c984496da9630d0cb722b332eabeba364169c831b30
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..5aff2a5bcad868e80df0a0bd87e1d39b98bfc9d2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ca9acc31576d6af2e57516845c345b490bbe79e875af6432d9c52c8a09740541
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..58b2f0b46e7fd1125ea3a27070bcb684834c6fe3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d362e1f86a8408d3ee8bfb178aecb1fa90dfb9785a4ce11ef9995055e35ab737
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..d90eeb3e71c853335126033b25d89b20724f6d64
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c53724a508134983112ee98c2a99a8c6839fe8a295eadb084db40156563aa6c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..105f214e803d244536988571d44465e8e8e34fc8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/23.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f56ca6e98d18f5828a58f65c535c24272b8e9b82ef589b9f6d9c53f2324ac16
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fecebf5b2d3f3e7bfe72bf8cdefb276d8ee08792
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c174c9bf658a1b0d79ccbc2711eae0ef7243c9e9a50db155b659179db5be6507
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b9178cb4da3ca31dc0a3010414f8beb3e21f4ca4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3453034ff231ae8e30e4be7668997d3c6db01ea567271d6501b074c96559b2e0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..1f452453e59d724bb2c18d39ac052e3fc33181a5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:24fa9fc2a016279f85c7f7301ed3493d9af19bbcbbe307f52e54621a668ee21b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c9beb184efaee9ae8211f5062342e70b7b5bdea
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c25ebc02e92bd8a82bc24d27f9efb5ea6faa5bc92e7b9d96a5a8b226a60e6d56
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..35dfd7fd6d35e84c253f40666a42c73fad648e9b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4b3af8bf83bcccdbd872f3fbc3a221d1d993e11983355617cf758d5ff9f68ef1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..5cc9e591e383bdb868b180fa60f324b6af715e97
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6a920fa6b3a900189cd1de215d8d09abc6921bf76d1f38fb0731290f518fd622
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..e31f8d50cb1700d4c20d94811cf4a6e4e3f5c27a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea6847bcf67da2a5428b131e1e4b62abc9453d1fe26a6ed42c5076fc42462f30
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..1f03cd358ab164d240460c11c80224725e4b485c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/24.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d77c2c03f20104e80c29da9346bdd038575fa602e6eab1bc45185c8358cf2f44
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bc55e58c49621dd9211855670cf3f473d7f2fe62
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7436acb0e0b19c58a4945817ffbf25922e443e1e8015351536e6ab284ced3b36
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..44182d3e737831e305ed8d36522b7476b39be63e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bbe4f1883bc407ab618ce8aa563a52a15c62ec21aa36b7b7c4125c603f0c8e3f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..16375ffef63cd4f83f58f1eb476a4949db3e65f1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3f98cae2d0869bcfb8c2e841d0f74d8f11a8bcfb079f8e7b1ed8d9d3b5826533
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ba6894af1c92c146ec9a76bb4839a632ddcbe10d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d1de2f30ae6b4f98c33acc14e2440b0eedc48090e95b5c1f28ddba7131d44bed
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..10a604dff75d0385054b894665fbe41fb12bb85b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:77c1f1727c7eee9ca812e07ec4f70557ad472d8b97f083fb228df54212cd884c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..85567d5354c9e411d87e552bbfb6452c6ecdf4cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5bd5d8624d2153fe552433e06ea4ee0fd20551fbc1696080fb7516afc55255f6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..86e45a7b8dd0d8ae3ebbd7d88d1fb3643c37c50c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eeae56aac892357b79f1dad93ac23621f5ab04f70a3e62174625918d14f28db3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..9679fdea1c5db1a5a7c8fc5cef20264c3785d6ce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/25.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0614f4605e34cd6f80b5840d1feb7712a84eda9921bb01f5d05d0516e8690ddc
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f59d115551f0da1a91329fa2e09c78795b377519
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e2666654c3910b7447c69435393d0ac0adf58a4acc3fb5fc46e266fab9c93674
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..29222085418239954859648d14498f80f133d1c3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bea1c473a6df63360037038a0222b2e266fac5b893a62fe432073c89a7cdd5cb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..d1f611e0e559f3947e7732c1c6c8660c088297cb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7523fbf841bcd4efe3601c5602a1a1c0628c6de898b38e5a6e1d0e96b5b77626
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..dd8ca7aafad1ea3387808354d41aecaa3e459663
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f425d4866bff1d5277e74f26a831707fd054e8aef5f4f27c262df665690acbf
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..5e1b24e88d8f67f5305673115d89474592f08037
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d1103bbcd2d36cdc6b8c5bf7356991940d6e3cde7aa882824735d2b23d8d105c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a414b0eb3f530bf6962167c0827450ca3547f5ed
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e77c3cc8f721b82cb8d0582c21fbbf3549563ee4037127b8dec4f4fbb43e52d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..c62a63ba72fcc076c5ac2dab29180ed8e55e99d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c8b13afbfdf62c4be2a202198147cbe7b7b8336a3b9a29fc2c36c9f190bc841
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..237588eeaeb2c83c437ea0f4b6697b5057c256f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/26.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:876f26594a4d9aef555b611e2ed270f1c8d601fedaf1eaeea278127bb1a2ea3b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ee70176e2d4ec836e12297179ed9c94a157afcbe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3675781946d73ba2180c5ad9be4f7aed12deb8583b952873fe3739700236fa2d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..cd4e0844fdf4c75ea6b5f9de049625e0a4ade753
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51bf5c9357b890962588d2bc6e7cdbefb59e53b18611089808db69c8436d53ee
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..35b489dfb9cb179272aedd28390b1f9e07a61301
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1005ba60cd6ba940f515ba4dcbeda0e63bf1b7be767c0549c7a36e2a73abeaa3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..524c6f579df0f8c996ff738cb7657308fb951808
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3e8beda4700eb7b72f814812159b84c1bb71628fe133dec96dbb227691a29432
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..7e9f477c9bfe39cd585ced999049693702801be5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f6fe48627aa2f9b909403488b4d7947f036b541d5c5616290fa570fab6c909f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..e77cec63a4127d29bbf373e1b6e113f32f022e88
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b34b8e2a214f7d3f210e2163d6b659db24677715d0a85260e4c84ae2ef14e2ed
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..2bf09360db4a2e1253efb4ce4514b3f5e6c02947
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e9c7e63bffac38bc9d01c5af26516c941051d1e090dad905f4509e51ac7af8d0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..279c7c8161c477c9b15c2e4bcbb3b53244d1c0c6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/27.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33052feffbe386623eae3fd9b9f1bb769dd817322c2ce00dc3073efc3a5ce2e7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2700f8aeeab1daacc66f1c4b3307af4a95c1e478
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3377eb740b160b761be97f39264e8e18b5b4e6cad90c794ad522acc844e6d904
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..3cee5927f9aeee595e73cad2ca36b64df228a7cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:584e1b5120afc8b7186c9f46c151983947ada866dd793e101f901d0eadb66453
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..5c39f5b31bebbac1e43746e2650ff06e4dc51c05
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d16091873cf1aa2d47dc8407902fb896883fbf4cdf574a30c83851d397cff30
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..3b80a60dcd91004f22e49c747a627e907fd906bf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e86aeaf2213480f77330bbe0c4f7682f68e2af9192d97825dee38b6ae9a65e7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..de79586424cc1353945c52570085f09d90bb4b03
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e8c47aa773d10c8ca0c3cf407773217e5e07c80a6e5ecb623f757d7250a76ca
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..7eb5402ef68ce4a7e6caf6d199f6e7ab585d1675
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32da27ce896ecf94e1b8f7dfebb7fe175269f918f186f1bde45872d06114a278
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..cec870a28b620bfc76cfe8bfc5471a2073f9797b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b6347d233bee2c8f4409d7c3d8e4e5f6f59b1b3465f091c4e3bb01e0bdef2ab
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..0dd052dbbb33db8681b42027957a8cfff0d0081a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/3.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:149520750c728e6b790ceb6ab40e2a3c8ea4bac347c101dc9091290f9538087b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0838da0115a9a2c35555fe1847d8312e3f3bdf1d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a49d6f81f453a59ea1e2bca64aa3e118e40c96fdb5319dd0b015d432c5cde738
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9acb2e60a589a348800a533a6c71a4b57b91c105
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d608ee5fe5eead59e449724a0847f3e1aa9bf79387390fde6ab5b2f2a95a3808
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..45dc8bb1ed63b5bde858dd6f4e46509baa82d059
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2109f39a205b83573575a95f7da0afa2ae166260ea4755dde5667fb678d7f18c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..fa844cd5e47cc28d4fb91bd4556500a66b20b5dc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:980b998b7ad856fc65460b22cb3595334bef9e57eb42c17e7468fd3eefee26d6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..3ceb48105fd80237b186892271677746aad58594
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:034291afefc55cf5cacd0901b2bffc877832acb2832ef2a77bfe0172d8be9253
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..2a4d3b70bf764b2db9ba5aaac5f99d0e88f69be7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:feb7a30b6c04c618c8f70575215573fdd9a0843ca33a15bb481a0791743e74d9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..74206a61d0a0c0a40fd2c808b7cf088db4ee887a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:983b5754137a299c68bd12f45a809f402c5a651b771ccc0512998ed438b9080c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..cf32e76e3bef70af805840ea7f7506c37fb38544
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/4.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2a2ecc93742c0aa6b55e307314d834bd29288a55b476914c4f9539e4d387551f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a765ef922ef350333346f0ac8730282193d61640
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d756892c06c4f6617c1e4e228ad95a2c13e65d56a24d86f8a880ec77f0a650d1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..a2548013a90d5ec59fb83be25d25ab076ac8da14
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:48137386cb0b2d079cf1b0f93d9e15c320c192420031358d6cbcdcbde923cdf4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..fbf8ff27306a59567388bc388216a2672dbb8ac1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5f523f1d6d120c3f2295c6b94a21cfb06914dc1b820d3a747fee9c356e902ace
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..61d815047a983755455858e70643d4dc9e3c3581
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30606a327d96a912c03ef7bb43c0108094ce8075707be45d215299ec38e4eedb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..b9a3b72d09fa6fbce9e9171f42c0943f0f92dd73
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35de93e4b802d69064452059a65c56f3784313127b4081e8021a7c9ead1dda36
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a3edfecf02d47bff7257992354746e2bd72d8cd9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e8fd0f7b32fb44cd89f3d3b2db8e6b27b21c458725c5a84053fab4bcd8c587c7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..707d8960c80551944f8f68e851fde406efd1bc22
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:11ddffe346c0a260f7a62753f2f3007c307f772da5c7df1e7508acfdfc5becd3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..f5486acb6d7ea6ee6927e0ff5a404942b9473700
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/5.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f42ddec0562ed24b195e2e8acc67054971dfad212b31c6e3d87a09ea8bc2e4af
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7f17969be36727aee6efaf347cb6ddc0e3de69c6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae0e35c684677d9047ae641ed685b640d98afd82f273f948b62bbaa02228a65e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..2e41fda30536697da652f898f95e4afbb387cbce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02251218597bee042fca3dee99cfd1631a5b67c2acf59a081a75b922a4835cbb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..b65acd302ce6fb0e8695ddc9df2c85f92d9590e3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:373b737743ab89314f56f0f503e8f971e9d2a54ef6ea4609bd195802ddfd9d32
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..dc412b78c8473195462c5f3b6487ced690dbd82d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:92e83ec1515fd044fcce968462b869a0ec1699c01c00fc35a92569fa3fb1ee07
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..b5cbb8eacd755167e04aab406879d822c0f45ecd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72392232917d08a485c41a6fb5dd5fde76034e3454346e520ea8636fb03ec604
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..15663a80f95cc6eae5d6e30ad2fcb5fe12b2ca33
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea786ade01e5a76017acf9590c48bee056e11f695c42bcc32d547ca678cce15e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..3e31203ef48c4a46914c520fad839457d170a2f7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0b35896d9ddaf411b76c7d3fe6eb2c3efedc7f71fbfc5b2a3bebc2aefbaf7ff
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..7c545a8f5ed3573637bf91154b445a12072dc543
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/6.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9f1b6a785dd016af2e916fe563640fc0fba503bfb08e11bead1b28e9b6dd6ea2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6ee259a147df53f351a7fdc0fcf9a51310ae7e1a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4927425234061c2a43be4e7c46d5dd51984604dde5d4bfda6acfa985ef49a5ef
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..81cbb7bdb00d1ec5078b6d51401641a1c5a307be
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8efc67b6dd20bba8e9e3a35eb4e64a223a06d5dd8bf21a8324958c5bc33cee2b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..40720f4df923a6f82cbb429e8cb1d7b727cfe44a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:239af9882779f78daf08400d8215a71443006a16746c01ebe1b6f0a11205b8e7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..f228853f42a3e014579d3ac41054a8fb346b6c42
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7baa63cfc584e30e3a4d4636989d92b465ee3041c80c734dc767e31f2b2115b4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..07f1335ff096590e297aefaaa2085daa5225b88a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:68eab4b316003ddfd6c5d671ad7a2895141d4013c97a0521cbf962a687e27501
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..201e8b0b2407c2c641d0c9fc23997cf7f26cfeeb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc676d827508716b263257b7e2cd740acb7c972d5a15093c4c532b40b0702c35
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..3ba1da38ac90ea44163b4c92d3f50707eb06d0f4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2d4eba0f03e4f13fceeb8790c703775e9d2e3d866b913db16e0cb1db40f0552
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..a56b6ff8cb4c28b2ab0a134fae9afe29c6079642
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/7.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f1e1dac0b89f9b4d78a444d3e76278f0aa1eb7796b02ee5352d327d7cc31c81
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c8eee00f1e6558dc1e1364873b791a116af9cd70
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b08635108278d325d8b6ef6261bb0e700608faab38e084e587d5dfb7f99e9e3f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..92c89f786c4c1b364bbf97c46f3fbcaf52c3ecd6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5ae91e6e1898f525c49bba39fb54ea3ff7b4bbeb6c06d3433ba9e442b0398881
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..57002be9279cd543a321ea2e1c2c73ff8b3873cd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51650884713baa7999852a8a2d0c083a7f579e3e3dfdfa6cb82aa807e800d3bc
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..eea175abbcf2a68d79feb7c56b4981deaef2f6fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c02c4a8ce4c35ddcdd7ea822e1b9a5e9c02197acde13a2ca364acf9e5074c2c8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..e833b7259755e81d394dc7b0e7be311f5937a1dc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:06c9027bed7329207a57f2ec7a928bf46f33624fb676466a742e8117abb53146
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..4ac0f7c25aa4cbc2c05cc4823afa6efa834ef89e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5678d0ddb4b3b1c605f932307fd4d4defb4f2ac3e5bff750f6d36e36a22618b2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..0b9f12d51f2fb613abc82c565c4f7dc0140009fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02e75a76741dd5c313a07f3e9f772c0cb7cdd01b9c32bb729220d97c1605451f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..b3a39ec02fde3ea41ce5bd457016c81948f783cb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/8.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cb63518c3c07636c924d09579a86b87d22bc8c79488260f163d7e0329ffd79f8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8b3db9e51da040f4acb7b2e8401f64bd94bc9a86
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e7e4de519ebc8b527cc60d356597ee52cc5eac008679a7915293ac16a8f0893
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f75d5527aede754854bed2496e45e4da0d6df22c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:255e3d3574154dc4c1e4586022ebeb89b1f9b8eabb2932bbc9d01f08be98b79d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c8936f1c8543d2d1f68a953a033210b678aef00
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:653a785c418bec3295ccec4fc4a5f3d3752813aaeedbfd86c9852c98e304c1db
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1d4b69f0711bc93d229b6cc0c36dac1a81912bee
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a90af8a3fdbefe15d91096771282b16c903d421e2a1ebc9dbf171599663fee51
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..5887336defbb86e76f3b283f0fb59cf988371815
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0592da422eb203d0e1b1d8fa24ced8d29359ab9fa6245054ea49ee698b4446ba
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..4a2ed14d0a00031903603f766acf06f127b024ca
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:547971756d3d3cab3b6456c2e210aa69b3bde8ef96d16dba810420535c65bb36
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..f4516ab202f5ab63323bc4ad680d6bc63e7de511
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9b7d2463b783e72788539d09b8652ded2ab5a393b87f50ce05e69646925b9bc
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..509da5cc9e8848c32d87ff60072a399919813bad
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc1.weight/9.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93ca594f7d221a878457eae107b7e66d5085fdb0bd31934d2a5b2b95458d7d0c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_0_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_0_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..bdfd5deaa7cef9ec35e981f5fde6534cb556554c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_0_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:63f63a650a1e81efb1222bec5ea786efd0bfb9a5e80530f442bf91f9acdbf8df
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_10_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_10_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a440038d68af2458a2032eeaf2e1fa79cf5c8333
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_10_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:227c205836c7bbcc512b59dc9008d0c412699bd03df9aebfee0b7bd3c3e329c4
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_11_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_11_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..609ac2f1bdff7c62b652fb7f1d0281a8e154bb08
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_11_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b05ac4f60393e0c09711fc249a87bc2e036047e8dcc5d63402503e7d1d662c31
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_12_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_12_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8417bad1d79124c6d415b688488f813e9aa59250
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_12_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:764ad22a31d074c0951a6a5dbd73f033ca459ecbb5ac362236981e8fe12da56c
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_13_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_13_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e01a6610c2cabfee5ab8f23b7be40f83fa72adfe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_13_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e620f1086ba7f104be16365fc69e8487a32d8bd7acbdf63f87bf802447b6466d
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_14_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_14_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d7dc479dce1cf4d854fed381732cddbded4919da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_14_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6910bdfa718b3600854184a6b1f32a8e9d9be3ce10c17f12fe6db79120786a2f
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_15_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_15_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9dc5d5187f1ec2891ca599e47c932ee715c6842d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_15_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9acd9fb25e6ab8a85b6ab125c958ee5480710dab44592b1fb84a4eb69872a013
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_16_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_16_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9b41c96bd9ae3456f318bd68a6b349bcac76020d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_16_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:885ef049145a29bcdab6fefc355a8e1236bd882c226930cf530a3ba0bd4ee721
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_17_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_17_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4aa15a759da172cd1b03640bc9277aa61350bfaf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_17_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:22bfd3234ccd2293b4de4762d491d064b46cb4558254220f7634545715025838
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_18_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_18_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2881e7895900a5d72eb8a991ee08c58f20f253c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_18_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c02c0faf91090dbe1822a700e9bc7f91f16e835f7f826eab91a0443d48cac46
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_19_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_19_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..49e7902ecb6a4b2823a4714d278459095b09acd6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_19_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf409a5924123568716ca4dcbcd3b5f1ba9624a1713a170c91d025cb035207cc
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_1_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_1_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b0775267108891887248012335887ef50e474889
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_1_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e8b079d0103f30cd750bc238764389ba0c37424878264066e76bfdbe45c0562
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_20_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_20_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..aed8bf7a92522b09c2c6d802baf18c6420c7ab0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_20_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2188e59e72780c58a3acd8e6ff7fe03f373d14a42a0e36c69f1583b349cbc4a7
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_21_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_21_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..54c8e397876158258c7e3d55678ec2b5b76b9ca9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_21_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a5a40ef6b59bc7e2ac745df57f28cc08ba614e13e73c12c7a16ac9e3bb005a74
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_22_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_22_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c74304cc0514ddcbdfda7fc598edaee49f7ca20c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_22_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb827b13ea508701f2eb587f7c075983c97a7aedac472cc63f237756c5961c76
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_23_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_23_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5496445b8f4849c98c75f3e0dc375b647d7e3c04
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_23_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a1927306a894bb424ec9e0ce4a672d7afb28d3bb9d5db1c6e1268c2ec58232a
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_24_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_24_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5c68fd9e24c7965a63ad4bbcfa04638f17d6c974
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_24_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84ab4816acfe4bf4df6814b170665c0b14ff82e64c6a3db350780a5ee58961e1
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_25_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_25_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a1dab169defb9b542680af169499ec57bbc631cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_25_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e0bc28d64fcfc1620f51ba7912eb5f3e6757292e45e4256c2d11914214bbc77
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_26_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_26_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..97bd93532dc4ef87c88fdfb3f5e5e4668e1ce3d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_26_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4e987570aaa427c84d57db99f8a2529370b6bb4bb6e61a5c0a280fc3f8b1f3f
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_27_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_27_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9c3239fcff67bf15ce49e9e79e187324a699095c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_27_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:addb78803cdfa5fcc25acb716a18e71def373b29af9d89294cc8bdda95b3757d
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_2_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_2_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7e8b538fb206407dbb80bc34f1b59c33d352e864
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_2_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce21d6653df4f0be7621f065b58aa61c970bef1c6dbbcbf018391ba742f93e4d
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_3_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_3_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..cb6af6b317ec0581d251e39fc0540030056be26d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_3_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e17ee9ca84caa8e84a29eae3086e03cdcd8242fa586638054520904b7d5811a
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_4_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_4_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..754f4bcfa097f57f7181dee82f61b5288cb5671e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_4_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ceab42286b21b2bc4a581e3b7a3cb3de527ddf20deea8354d87bef6ec9b8b648
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_5_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_5_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..58e175f50a43d4c1deaeb2acbfc26921669fa447
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_5_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c10d49188641f77ed026550da10a961d3e7096ed1c71fcdaf8c4a4964dd5d8b2
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_6_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_6_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7f071d0d9ee8e42d35e1ac4d622c1d71a4ba7906
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_6_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f9b99c08a5951d88fddc30f73527ab22295e4bdc040febc36a47616428f879fc
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_7_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_7_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c301c90b7efddcee8db52cbcfc196386ac6c216e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_7_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65b2a3db54c013bd9849efb2db9c10758012e0f5a5d1f31397e97482756600e6
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_8_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_8_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c7ca746be773968cf1efd88a58dbbc7850baa321
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_8_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9e62e3c64c74eceaaa2bbd8b35484b88271cfe637474693ce93c978f0bed7ad
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_9_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_9_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6b11a1c96a58d2a4085c34fec35f3ac4e9f30524
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2._extra_state/shard_9_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0069d31c4f93e27495b18776b0c2fe67027ca0e663f5174f085b69c0cd60df36
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..7614c2228d0ff8117fbcb68016694d2d3fb66f53
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        6144
+    ],
+    "compressor": null,
+    "dtype": "bfloat16",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072,
+        24576
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..02598172abe0283459ca821294d368d82993c14c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a769e50fc98333a327732b1ecdb589f90026717503698f03e2361c62499ce97c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..882917638af1493abf27ad39d1f1ed8f4fc84be4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:173dba916b83617776f78f75f538c204db0f334693a58975fc9dede4f4c54914
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..b0d4e54ebf5177fa47ca380c5acc8faefbb1648c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65967ad06ab8316802dfc02f05c8d1a6e1d18083429ffceea252ed433770cf73
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a9d92366f3a984a585d75e9b069be4cc3eab5b28
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/0.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53cf3ffa008f10725c44e1a12608e558fb519aed57b6c8396646ea29db83e330
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..abf96a640f79173a5f70f75e55677089b9bfea7d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3fd84c40b18a6aa74efb9964f0ae3253e2e6755b3a23cd53866bc5d9dd47205d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..405b0a58c8a3e767d0d5cbda83d7b52a2c5400f2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:355e2b355457ac59b1bb42c4e053beb0aa3cd9428b649940a7a7f77b6351cc60
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..c09b62d3b808e2a4db18b335085765a9c36f3f76
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:16ce4efcc5c398b30cb117d7450183f0db19267f1320c5572d311c1634b16f13
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2ffbc2233a9a500ef9d8ef44ac44a95acfbc791e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/1.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a1fdb77762337a3aa2ede002bfef6372bb46b3271ecbea56b9b79d1eba4175a0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d4234f3aaaf564cdd01c5bdcb77f06a70cd74a44
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:975af6301f28a4d10378c658c5a6e3772f69025ac3f99b7fb4288d5ac2c3d25e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..68d944f6b9060980c5abfbbaf7a09f02358c4500
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:deb18d6dff51553b721e8736760f28d576d4e152d96d3335467a93ff72b0ae53
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..cd2184ecb64998ae47475d06b81113f93b90534d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:851247e9dc939655790c44ebd91084235f10ea3d87a079bba66f3e925e267942
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..259de00584db8e483b1b82a25ab60067dd9ceee5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/10.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3903b756320dcf99405aa318da7ac79d5b12d03a9a6a5a0988ba8e05f5c93f72
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..df19277fc76055712920e47c02720ece557fc031
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e78a5767bb2676f5118add6d5d6a83b43133a1516043d2bd80f5642ff9c0c9d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..5ceee5681756f7ec6c9d5d0ecd172b7b11ac6e32
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:15c33e63fe6effb3211bd7cae0bdf39fe77f9bcd55a9e19c4653819e62b0bd4f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..0414802a14d9a047c101763ff31673a2997a11bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aebb357ac26acc35d59d6318f5c25cfd6d756a89d127df8e27dc685bf49ffe62
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..289c091b2335907ac62c215488f4a46311cf895a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/11.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6aa5e6e61953f8b4803ceeb23f7e61836878145a13bf6647e5bdb05e1f71f6cf
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..23b1a94332206f7472721b7cde64115abc211511
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f62837e387d1149b9e380de4a8f1b77062d148d9b44e5342e6400098b86c34cf
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..400712ec28c4a46a4f58c71951f2d21c702f84bf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:47490e5d08a22703a0c1399c5b2db24db61a10c0633dabe16debdea26b6fb7e3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..67a2cf27a962d1a85bc5804a041a1512d6bc38f6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f6d92dd3c395e11ae6dd4d5b3712423af35275b1d9276470a541fa3f8bdbc81
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..306c1c8b039abc5668e53e9dd0789abc301e6068
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/12.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35b359221e72ea23f27c78c5dd92dd8469cb32ea778905c109a737b1a9b77ae4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f9c5bf0a81f26f1df5d6957c39f0e4d86112ef49
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:979f44731e977fec84e9d3a2e433d9ed9c981a3dc61e935b6a695bd61e771872
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2b7902da8aed1a359925f67688112f4a99773a25
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:500bb1005e9d514f2711c95c89faf8ed54d1817745f53d1999f6d4fa7cfe20ce
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e890469ca3f5ce8c7246939e1460dc2c3f815012
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:86f3fe89a01d50fd74e03a8d75ad06195f21c50acd48c5231d1514c9256c6932
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a9ad1e127084b60b2383b8414cf70914f2f94b79
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/13.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:96ede3f4f06920bce7d458bc1f3a53b7e7e44387ff5e0c85a31bc7604ac43813
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ffad042f9971a7deba34cd4185d7beae1db7cae2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e3dec206c967a1d3c975ad7aac11b43e4ca1f1baaceb2837eb42fa27d78b348
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..a411a267444341c969cd6f91f031276e8f464025
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f090fbc562e4f68a0e59995f229691717d5a09036e0f4b2b840fde57e97e880
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..5adcd50c6b2c283ad987266ffa3748feb3cb8026
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6982b89a5c0ca2712bd59a2302396a8aedfd6e001e59f2194e00673c7535a29d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..09b28ffffb35f3c6b29dfc37e6e6e27aed71b0b4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/14.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:16421e912493edb4f41aae8c1ed557d2d89831b7c192c414d1fb22a3acfabda2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5f69b60b025b554bd7a6b54123a3a52c0fe5d567
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2ccda7e30fc260264f3b946033e93e7a86a83d92070df8b6cebcaa98dc22e21
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..0179a0f121e7f2953ab0406f26a8b6aab1324348
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45092094aa585a128ff98646fd68a20f4fd361625df868d6055b3a84ec0dbd8b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..aa21fdc4a6a69b8ac50e44cfdc6c728779b6ca19
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f087d40f953d5222fb2b52750fef37273fb6840a2cbb8df8df8f6430e494821e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a6ac828b6b91a02acf7eb74a3028efa9c7f761b1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/15.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ca3a72a8c56a7e88150cf914c53a55768fed3edef251838edf5ee32b23832e9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..69d7590d00177cfd3b4e560d2aac576bc3b7d26a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3b668e1629b28b97e31431756b12fa38c07814070f0ada1263278ba59fe5a1dd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..b9173c231c4f48ce5779de22dd0f96c8db1b540c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:714334ea3bc9397ec9bf2060d05d8e90e1ae3f85f401de65cb8033fab93479ff
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..75cfcd2df4ff768d8a1c107bdfbdda681cec34bf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb388266e3f8c6c51425e7225b1d3bb08201307edd68e8b941ffc41ed9a47375
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..06e59b9cb34bcb43b5e451a6f1604ee672bb462e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/16.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:411bccbb1c73ec144966028c4a18e2ac340f22a289ff3aaee0dc68dccd2376b3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5c2a2facdcb5a34fe0d542579f3eda0d7846ac74
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d500ff85fb1590ae820fe346c412c283e239de1c398146f33790bde8ad7b749f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..1c2699a553f6939aeeee1326627f7433ed53d32b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f710a8056c311ffe6c627bda0277b9e27342030ad3fc463c391871d621ae6026
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..06848a2953b32ba15cada15979e91ab9303683e0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:05680fa21febe3e233fc0e925e5354d1a0385a58b34c3db161bdb005025d40d4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..4df64a7d6b81176a7bb09345c790cb086b52df8e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/17.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:03a0a7b0bf3b590702d454c1a86f6f405682c1ad5107a708d32848460e452c5d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c75d8d1058d9d295b712123116bd24c736fbfbb8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10444a55fcb00155737b95836eac07fe0e1082fa8a9fd1607f6c54a94ea07c61
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6f619d5a399c779ef8ed5cc85b52d772e2a5ce2a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e3596740df644bf53c0f1c72c88c1ce9301a0d325d1af006669c4e92f05cb27
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..94d1d6c265f6d969797470b4f69643883144b1d4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:385a410abac3a34ee2befd85a4e3b195ce4f88af801dc3a8ec408cc8ddab8c75
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..8b5a88556e566884d62ec4cd6d1429ae852a05f4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/18.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8b9ac1a0b3fbba5e4a60a3318daf0f16f899ed21b894fdec0de7477df771ac55
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b34d1bbf7f899aca440febf4ecc4d038d42d9bb6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2874590e1489918e646509b98398e6b6987f054f6350b5ed91b3796b41276cc9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..65da4b0050dfb3247c7d82e7b634cb7430c58f4b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91b88644b21ba717598391256ad7b73404c1aa36f5d6714e49dbabe07341ada4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..948869a19b1cceb27c988fea9152252b6cf7987a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a604f7e985bfed8699a81a9e2cf1b6aa8eacbc0f8970fa09ad9533dd921f43d9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c9c41d3dd2d7148ba142dde4eeb8a2c067503c80
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/19.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:19efc54a7d56a4d4356d99988c8ccd4d8f366d7190c59a7317207cada3b45644
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2ec873c56a2a1e593401f914fbd5f84a038d27d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:088698f4c5de929277c0474eb7b48f4de94187ffe62bccd9d4e29c242f02d7a8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..ecbd1965ee6032cc22644903c7b938523adf5fa6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14a109ab1231de5e257df92ca6227f6545487a8ec9f0c0ac6e78b4f9d9e64abd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..25e98c1ca2c1831e5208648f2a2d07afbd46178c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:035c2b3a39f06f9e8a257c9a292adbcc841cac9adeb8c4a6bae14a4b1472338f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2288c1cbe0116d3d938fb40e817a598650634a98
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/2.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:310ccb7884cfb42a40d10ddb8136bb8c2060bf00035b96856b0653c5686386bc
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..9dcab6dc5f857d3e259b50b7ded015d344fe8102
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c05762efda3b1f1dcccb07dedf50564e4aa202d348800c590366eb12bad31d7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..77021a0d2a77125132ae92f8d0646ffa27bf513f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:df0a1177ad03d3ecd4a336b9516c04ddecbb0c04b7ce51bd10567034be127f69
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..8f7441ec18af9faaf38f124862d904d1c9ad5ad2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be6ac44f4b132039661d16c22d7a78ee9746bc6116ff9dcf65bc1c547c49b646
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..46b751b91f52f653f853a6fe248e92a9db06b5f2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/20.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b20930e30958383766476c1348e0f0a04c864bd4ade7528aa86728cc13f9979
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ad30041b9676b9a165580db19073204b22b2be82
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a13c08bf35de415cd1aa7afc6847e736b9caf72ac7f39b65bb1fd98a68f79ccf
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..acd8657511fd47e4058c5fb627c8ab642c1be852
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf1b1a65dd1be679c84f88dffd5211e30e11885cf1430415ee533c0d34fb7778
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..424c48d1db886d39940eb68c3060556e0287566b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c92e651161091b036ba4e5656a7658ceed21fd945393328b2c89d0490f90f2b2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..40bebdb9ed0069faff251eed28834b56c01e9d05
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/21.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a52748122586cee18f5dd6fea5b8b239ce7310be35307ea6773ce01fdde63da3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0973c047c9e166ddab0ba692aff148d8d74829b3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:816ab1dc2cbfdefcf8375dc58674305f18bdabef3b0ec591058e50778fbc5f49
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6f1f90f1cbaadd3f498fb7c5be74a983061583d3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4f764d78bdfcc956ed52192757315528c86a39001ed64c8ab943edb90381e43
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..741dcaefad361b39bf809f42ebbc0dde67cbbf32
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dc222c236fbe6f99a900de097f4d07d265a2dc65679ca3bdef583a5416398f29
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..f05667de88b21078fc2c6fa5036263cba3a69186
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/22.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4fd755ca06662c767dd6fda6e20a9a7db89a0ea4fc11670100ac665e9b674f02
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ab179a9b2932ea38d4cc0edecbfd585c19ebddbe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8633bfbcd0b43af78f79ebf7ebb4108af1475f62b5332c6fcb50f44882b0ccf6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..7947b6dc26317bfb9d572a74a2164fe2d90a20b3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e75e45867a947553bf66918dd6b9803ecc5d2f66a8e68ebc20622854bafad86
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..0b8c0bfac006e8b89aec06603a9f72b4f22bd2f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd42476d855f692b8bbc12cd2eae3edb35f46a1ba6e0b1e47e2cf3ce30bc060c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..151177d1cf5c7a3b873b8c44c711a5d6f4d9a0e3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/23.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:05d2844ffc2c0fdd8a9a2cc029d6d8b879cb608002de6539a5bdcc3e938fdcf6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..974fd870eeab6c3311f8eaf1695afcb26f7bab44
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d52e935c8da5919ab37c3709dddca8c1a8d7e8c44865de8173df1658ddf48fd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..548ba039c0da788386e55b8fea56fd6400de42e6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33afadf8fbcfa610dd4d52566bf2d4d439d7de2540f0d78e33de1063148188e2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..d8a3e28f12794469126b177fd5e4cf5c24f6ff2c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc5efed8a3d08709c5e68da1757ed5b3318e20c40c937ab0bf9cee2493c4dca0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a72c1484afda31b8b0e35dd63b39285c960fcea5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/24.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:050b96f914d0f7e9614992af9d853dfc7bec75b2bf46a83a64a5f9d58c705351
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..71cdc4e2afa748e82d8231e25e98bd472a847620
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d203e86905799cd00069c2a58127ce7677eb7080c1e7f21c7198326ad255875
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..bc67273330993e2c7d69c46f130a8505f02c0e10
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09d707f1f29dea0cca1b8843e9b8c07f2a6e8924402cf1b6436233d45e397cb9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..2ccb2d2290bddf28652f2bd35bd8d404769cb4fe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:87282b520a1f2b4f02a628a32ca1a840655fcbfaf4bc75dbe1cb8f72e851ba86
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..48a2e06b317886c55a0c4f4dc94c493c01ba1f40
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/25.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:43c7f850f77186257ea61ebcad61785f4dc659f9f8d7ad6ccead2877edea5009
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..502aade4bb60a827d0304c18f3b5fbacd0f8acde
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:865d916112466951a698521cced859ab63119b7e57d509cbc902f71f9421bbc0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..bf254160712147e2756395daa4374d16fef6d9f5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:752c78c8442d5e2b8e57e015e9bb552e6bb2e08471e548efc58969147f9caace
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..a4b62fed87e214514c6dcf55b56daa5068d4e4af
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f3af9e7c596e438872bafe0e3f8837cbad52dee6b824decd30299a97edcbfbaa
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..248155d20a451cea1836a9482d947e55d2412f22
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/26.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7cc3b30e5852e19b2b62f6099c5655a16ed882dae24921b5529c935528596801
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0dab8e36cb840139bad90253e4c64a369de87a12
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:05bbbf6cc670d9dfca9414d78256e740a09bc1a949a5a2bf7715211fb9421dad
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3ec06d7b3eaf52ea9d4b6ca89f2f7bbf0722f8b3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4400ff63837e7ac8d88b4c2c17532cc0d434efe1da257bee295126817e0a979f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..782cbd7f7b6070c570dac97a7fed6f8b19f32a97
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c2861b5a2a5ffe2923be25728ae38c9c53d5069a9e2181f115c1cb6a8a9a86e7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..1fd04b50c3dab4811fdfd22fd5311370258ef3b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/27.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d136343edc397e37ed3f9605dae58ba603edfd54696f2f6c4093f5620c20267
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7c9a9bb4846ac7c588a68d67463bc1b0437305d5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f79ad83a93620d11aca297552498ed79dbac92a749d5bc7adeb7741e9aaa481
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..db7eab37ebeb14605c1ece3af4b6745e8a2a4c0f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa18989637b85cb681f7dd05864a7b963a4322dc189d9439cd93fc09499015df
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f2f9e075406a633918c230116d152aa4ee4760ca
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ca95252ed07d24dd2d80cf999ba2384197a66374b824c703823d493df7d7033
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..5dc35638fcecd699ae4ee9d61f0a658fb5b79a20
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/3.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2994a4f60dbb472a23dfa9492f31c51cb7912a8fd7bbd3b92b54c8ba492027e4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3d2347af5c8a2d37d679ca48c225299e84b11699
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a053fb75b91c32c3a6c96f76a18a7f4f0a6e8371d2ed3633a307b8746bb489d7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..9c50ca3cec0158fea7d4dac3f8dab80d237ff3e1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e74d5d53cfdeb8e5a5fddc61aa61ca3ba11ced2b57c1e04ff78e7496f4f6eefc
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..cd3ace01e91e66c1b0edbeb1db1630eb84471bc6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6bc795d9460ece8fcdc8ccd720f3d3e34e4fb76e3cccb2347f7b66a796002ee
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..6485bb39a0abbb57740764375dd41cb4ec58b9e1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/4.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:75cae4474b4c4f4fe6e18227d84905b2e8ba9c430957f2e50499dfe17305b711
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ab35911467afee22bfe39e7d9eb15e2a88d9235c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bb4d6915c64178555061c33b129bfaf9ede2cfc08f5dbcb5c9b711d31074fcf7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e112ff93b7f05f09a82c308ad81859eb5fec6483
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e88f3fc97a2ddad3f6526b4b370c1b65ba698ee8e43f7374739fc6eb39f2594e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..0aac8ad74f26debb3bc61e1ee359f5814eca288c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:29bfafa6014e7aff5b01307fbcac14137e11f8afaaf61836c48e7e0232cd8173
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..ae739a847b7d8128d42b94eac023939f1c823ced
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/5.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84efdef526d1af1cf6be7ffa49e3509f2cae1a545811bb92c13adb518c9e7039
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..01215c3139c913253f65a07d6fbdf1b861785aa0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5982542ca4606f9e51774b4c2d988d2664912451b0c13b5f1b0514f6db821d5b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6f63b3e07e314c7c3b6e9139098e24642c9d3cfa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9f37ba7df20e74b689cc3ecb7dc360d190256df2b4fbd8658badf60000a73ae
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1e82d220d12de392c02504f876ff31f8be9b7352
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d983c671982fbec648ab9747057f32cf76c8c6b33690ed900aae9c2151c7e2d3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..4cfe59a829ec43d78f9967ef76ed0971d9df7149
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/6.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d83b98a2af249831e278bc6552394be7ac6f748bef8e526b9e8eb947e99dc9d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7e969821e947f05f3e326e82ac00dc2dc5f2f966
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f50ba101cb0712637543f3c029e028e2b9dd4c7541bf5938afb08ab7bc50ecd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..9b1e826611c007323c604f67ab104cdf290ff827
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b751032a34777567a1cf5b2874839958036edbde414ac09e167833d63056fc7e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..3da43667d0c89d1264aedd4ad89081f1b06c55b1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb497bbc3789189ea56d1ce6a57f4754abb666c4811ff9feccc0f6f0bd9485ae
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a43ed7c8489d381f1398abfb7151487a07e42b9a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/7.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4fbf5fa2102c37f9e3e4a1b2dcaca0c21fbb5602c8fc8a3ab474d7feda5ac69c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..195ac44742b0702e3b3ff18de887108859b9116f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:716786305994d8c7bc301605b8f7181d227960ec07102a3dae468d21aefbc223
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..5199d05e09bb17f5d799ab1e294eb24d3a92df1f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:75e8bf48c972b82c1035f1b34125473c56ea2731afd34d28cf41f2d4ace6994f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..958aef07142260d3fec2631fa61e219b27f4cff2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72841f49a2162df9953d2e54c8c9e8fcaffaa060c2ad694d25a2be951ba72c32
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2b1d0806d75b1cfeeba0fd47db7e8ab4d9592a1b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/8.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1ae76a0487276ca83406dafd1879d9ebe4320427111f54d3febaab5ede122d62
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..946bde2d6896191317139ee22d50f1cc43e6b23f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:17c13617c6d8e9138b6302195947e3c9dc3882a86a5ce31228915ec07cae70f4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e1b69916036b84a2dfe4b429f5fdac5e20217638
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d26af34282201117cbb531ab78dbcb987aa19a80acd250ed95eb899e617f2d1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..44a7ddb381eaef590928c78c9983c356e4f301b5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:06a9b89ebdb0f5fb961ee7b97553631b10887b8d8bae8cba664e4987f06c43ec
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..390cca72c1e58a33868359b68132d69226c5fe6d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.mlp.linear_fc2.weight/9.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4aec8c9e83dd7849c33991489d2d2542950e0241e175a28c27572fd791feea3a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_0_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_0_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..bdfd5deaa7cef9ec35e981f5fde6534cb556554c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_0_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:63f63a650a1e81efb1222bec5ea786efd0bfb9a5e80530f442bf91f9acdbf8df
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_10_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_10_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a440038d68af2458a2032eeaf2e1fa79cf5c8333
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_10_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:227c205836c7bbcc512b59dc9008d0c412699bd03df9aebfee0b7bd3c3e329c4
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_11_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_11_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..609ac2f1bdff7c62b652fb7f1d0281a8e154bb08
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_11_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b05ac4f60393e0c09711fc249a87bc2e036047e8dcc5d63402503e7d1d662c31
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_12_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_12_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8417bad1d79124c6d415b688488f813e9aa59250
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_12_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:764ad22a31d074c0951a6a5dbd73f033ca459ecbb5ac362236981e8fe12da56c
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_13_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_13_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e01a6610c2cabfee5ab8f23b7be40f83fa72adfe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_13_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e620f1086ba7f104be16365fc69e8487a32d8bd7acbdf63f87bf802447b6466d
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_14_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_14_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d7dc479dce1cf4d854fed381732cddbded4919da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_14_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6910bdfa718b3600854184a6b1f32a8e9d9be3ce10c17f12fe6db79120786a2f
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_15_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_15_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9dc5d5187f1ec2891ca599e47c932ee715c6842d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_15_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9acd9fb25e6ab8a85b6ab125c958ee5480710dab44592b1fb84a4eb69872a013
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_16_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_16_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9b41c96bd9ae3456f318bd68a6b349bcac76020d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_16_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:885ef049145a29bcdab6fefc355a8e1236bd882c226930cf530a3ba0bd4ee721
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_17_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_17_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4aa15a759da172cd1b03640bc9277aa61350bfaf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_17_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:22bfd3234ccd2293b4de4762d491d064b46cb4558254220f7634545715025838
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_18_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_18_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2881e7895900a5d72eb8a991ee08c58f20f253c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_18_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c02c0faf91090dbe1822a700e9bc7f91f16e835f7f826eab91a0443d48cac46
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_19_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_19_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..49e7902ecb6a4b2823a4714d278459095b09acd6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_19_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf409a5924123568716ca4dcbcd3b5f1ba9624a1713a170c91d025cb035207cc
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_1_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_1_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b0775267108891887248012335887ef50e474889
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_1_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e8b079d0103f30cd750bc238764389ba0c37424878264066e76bfdbe45c0562
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_20_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_20_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..aed8bf7a92522b09c2c6d802baf18c6420c7ab0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_20_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2188e59e72780c58a3acd8e6ff7fe03f373d14a42a0e36c69f1583b349cbc4a7
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_21_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_21_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..54c8e397876158258c7e3d55678ec2b5b76b9ca9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_21_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a5a40ef6b59bc7e2ac745df57f28cc08ba614e13e73c12c7a16ac9e3bb005a74
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_22_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_22_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c74304cc0514ddcbdfda7fc598edaee49f7ca20c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_22_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb827b13ea508701f2eb587f7c075983c97a7aedac472cc63f237756c5961c76
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_23_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_23_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5496445b8f4849c98c75f3e0dc375b647d7e3c04
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_23_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a1927306a894bb424ec9e0ce4a672d7afb28d3bb9d5db1c6e1268c2ec58232a
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_24_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_24_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5c68fd9e24c7965a63ad4bbcfa04638f17d6c974
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_24_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84ab4816acfe4bf4df6814b170665c0b14ff82e64c6a3db350780a5ee58961e1
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_25_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_25_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a1dab169defb9b542680af169499ec57bbc631cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_25_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e0bc28d64fcfc1620f51ba7912eb5f3e6757292e45e4256c2d11914214bbc77
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_26_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_26_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..97bd93532dc4ef87c88fdfb3f5e5e4668e1ce3d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_26_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4e987570aaa427c84d57db99f8a2529370b6bb4bb6e61a5c0a280fc3f8b1f3f
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_27_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_27_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9c3239fcff67bf15ce49e9e79e187324a699095c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_27_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:addb78803cdfa5fcc25acb716a18e71def373b29af9d89294cc8bdda95b3757d
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_2_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_2_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7e8b538fb206407dbb80bc34f1b59c33d352e864
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_2_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce21d6653df4f0be7621f065b58aa61c970bef1c6dbbcbf018391ba742f93e4d
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_3_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_3_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..cb6af6b317ec0581d251e39fc0540030056be26d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_3_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e17ee9ca84caa8e84a29eae3086e03cdcd8242fa586638054520904b7d5811a
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_4_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_4_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..754f4bcfa097f57f7181dee82f61b5288cb5671e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_4_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ceab42286b21b2bc4a581e3b7a3cb3de527ddf20deea8354d87bef6ec9b8b648
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_5_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_5_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..58e175f50a43d4c1deaeb2acbfc26921669fa447
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_5_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c10d49188641f77ed026550da10a961d3e7096ed1c71fcdaf8c4a4964dd5d8b2
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_6_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_6_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7f071d0d9ee8e42d35e1ac4d622c1d71a4ba7906
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_6_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f9b99c08a5951d88fddc30f73527ab22295e4bdc040febc36a47616428f879fc
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_7_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_7_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c301c90b7efddcee8db52cbcfc196386ac6c216e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_7_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65b2a3db54c013bd9849efb2db9c10758012e0f5a5d1f31397e97482756600e6
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_8_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_8_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c7ca746be773968cf1efd88a58dbbc7850baa321
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_8_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9e62e3c64c74eceaaa2bbd8b35484b88271cfe637474693ce93c978f0bed7ad
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_9_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_9_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6b11a1c96a58d2a4085c34fec35f3ac4e9f30524
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj._extra_state/shard_9_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0069d31c4f93e27495b18776b0c2fe67027ca0e663f5174f085b69c0cd60df36
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..8ba9182c49d4d24957ad5a22c7220ce81052cece
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        1024
+    ],
+    "compressor": null,
+    "dtype": "bfloat16",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072,
+        4096
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f7e250194d94aa5927bf11a23610f320f14e56fb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ee045d249f25475364a1513f6352c99b5b208fc6892a05c34668d2fe274d15dc
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..5933355ce093470bba1532d8b6fd790eb9dc1904
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9415a800bb7333eda3f4db77727c6402b192ef4bc62fa87853ee2847ce97eea7
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..fe49f4cdd708fd0cf1f89ddab4b929ee4703f153
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1ab0283d9c2fb310ae92f1b9b8bb37c0a11977fc8d5e63b7d8d2f56eae0a4eca
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..da0daae20dfc20bd63c0b2e81ca904fd9fbd917c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/0.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:37fb07417ca7c9092b939fa0067fd108da16338e6987abb9fb98854e807b757b
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..635ec431cb90e8616c7f6571b909f555887861fe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:956c57902c7733e528e178cee66f0e4c78ebc92fd68a9fe789eae131993c09be
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..17a2d154cd60f19ca919ce6f22597c784cb34fba
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b66ac991b193012a1d8d16cb43b3880898a92aa070e4aefd4a976f613fc2910a
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..97feca077ebdeba6e3d63c18f6ce0241e0d61029
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf3f523e09b2a42dd243411962c90123f57329f2518f604bc50500c224376b04
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..dfd903e91d6625386fd93dbbe02e666c1e9606a8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/1.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cc1ff32f90a37491e9f416b8ee8d3ff1e623188f7ae3252b5a59769b2e37eb48
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7c239ae71798135cf463ba8c4c21b105d0acc5ab
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:934c8389e140beba3673f614f587911fa43ac906677e7f077453074490a56bb2
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..dce017157a09b3b657ae0d218d7df894f08ebf57
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3f417d4b9246467bd79dae51b1922844c80f296091ef875c5af460c77e22f909
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..ffca548055cb8ffecf67f7603320b3c2ca09294a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:650bbf0894f279deed78900e40749a4d9edc3869c013e9df592ddf5974e14383
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..42e4650032e3003c152bedd1aa177139323f92ec
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/10.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:79b3e5158860ea60f1b0c02397bb07e01ab9744d6fd9704eeb55ec64989ffd06
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7e175dd1b559f7f8dfd6a5e1c42fefc56996b053
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8438167871f574987bf310173e5166b7f4021a7f8c865bb34ee31542e3af44ad
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..88e0b00015cb2f30833ab95957c9e3c0f8dffa80
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ac13fbd97cfa9018594dcb9e22b89586c55b18a7844ee59efbe04fae2376513c
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1708800bd377b1c5efec2fa374501b1db08013df
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cff1f06b40ca769ffef206ab4653f9ce3a2b4f664573b64d686170ba17459729
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..290e4f05d4ef0792d5a33f23fd1d363c9eee3cde
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/11.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b3626a17869153c26cdc0ba8a3641521664aa00488dc7e0b465cb2143066ea8a
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..da80050434f4b1d258a4d8ebf3d1aa36fa6b825e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f790aface1f3d097ffe4a2000391df507e2b27ec2723deb8ef5661b74ed9abe
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..1c6827f9b822a6d6c234860cb53b293f92d9ba09
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:172dcf52ee813905d472a51eab8315895be8268f9c12e71565bf6a7dda57fff8
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..2abd52705d716260353e70bc38f84e5222581ddf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ed32f8cb665bcb56fe3023116f96ed299f9d9bd27bcbdf7295ab7341086f9910
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0b5e638d8070664ea5e9c52a963bd335def11ed7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/12.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:66e0aa36f94028e1c6a19a3edd75c702097d4db71ba621131cb3a75039b211f7
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ad9c20a3aa9b20fadabe29b1e88e728e05e56985
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:729aee5cd7a61e8df2dc5d7dea5193e24d6ba7349e84124b51720a1e3635b153
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..26fa1699efb81187e910b67affdb699f92522e20
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a2ee8f0fb8ebbd1de982862280e00f75d7fa7826714655f70ba89a1aa4e42cf3
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..3fd0bee011385e9d0572205c255918e81f952c91
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1d1f9b7a0687d3bec3d3f0a63b60abd3a30a4b3ea6422592ff11ea8895beadc0
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2b4d77a6cfd3d62c14cf69af8fd5a7e0a453c835
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/13.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b95aea906a85eebff9d83f86797db357cd22c617961afdc90909438e14806f0f
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7afb2e7783ba552ad6d97d3c87d0aae0a91df4f1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf069358e9a0076b4311767d05ec2371c403a682c39116d749f6221243fcc834
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..7d9e253dd3a836b0f9cc76b0e5766085f3f94cb6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:82f3bcd0121528e0941a84162f2802bb5acbe822064f9d832ccd827f5191b23a
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..bfd9cb219d196ca1d4cb97d8c0480184b5e9d847
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6ec72e3c9ac98fd82f7419818fcd5d6ac955fb0acd8c90af3739f009f7bddba3
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2ca1dc134489d7059edd4caf7b8ba0bcb47e6676
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/14.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0b83447cd484ec4fe9b88d5c47f4e78c1b7835c735e388c469b0d4c26936983f
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2d9824aa33331eb89bf062b05c78ca33002f402d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:00f3dc8aff742c08310ded840551649348da1dc831c173af9e596cbc7dfac2c1
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6577501adbdd588dab4e2252b3bc5e163f48e933
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2e7458bb483abc7f10a9289f235ecc83df1b9ed4a53f92a8ccef44624d579bc2
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..83788a72d4dd13fff5621eab5832c38b5785b7ba
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf5d02fe4d501c643ff404b59d5c3d0690d329fe890ee7daa152eafe004f054b
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..03fa0676dbfe5245ea21a04351f9060b524a9fce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/15.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a5bb7abb47469e654564ecbd791947fefa2d60f90ae7be8dfa73cd54bbb8295a
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d2c7a86f0af9d81fcac7ab1248e42c7feec0fdda
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:de2d79aaf70050c9e6fa8b980b8aca9ae46b27a0d62d45d40180fddfba1c045e
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2b9a4b91add19ef045f11657af3b60651f1984fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1204be7ca8755477b69df0531220a75de25ae7cbcde0622a5cb69f32e5f4ce59
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..ccc7eac4f1c50b5485ba2bb9965c9d495f0e328a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b05cb37357273d35bbfed55c090a8e0788598e5fccefdf3da3e930f7460be03f
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..f0e059d1da34adb91f5733116616bc7516431a2c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/16.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b01f447546fb34a9426e35be86bb28ea8ae7569ff66c946eba9312d97d6e3b02
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..beb29cd87626645ebe124599c667f55b447e1fc3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b55415c6a3ff373e246ed239223d74b314f4e2f8c6f603dacdfaa80bf438d1a
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..b7d92a36154a49fd54f3bf9ebfedefa291f9b9a5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33c320c4dd107d457308df9e72967c7eaf95b70c2d973225d4e180187b34b061
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..da6035e1da8d11c25fdbb835f87a48113a48d594
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba232c1692fd5b93c0c30fd35620b4a9ddcfefa5549929e201f5ec559eaea049
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c839f9e80dd04efe204328647583507c598d9fde
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/17.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:371bcbcbb3a4e9435c5860a7f999b00a4778221d75d7007d5a94474b0e5847c8
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d9d26fe32e706756598ee53dbb4a0a6af383e64
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88f45fd4855636cb01af77f1b69547c49e4d1e0d791f6f9279cbb2e2647d03e6
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..73c77d462a32a87865b01cdb11d16a422252c22d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:85599cdaf49f8b6f9a32931d781fd1cbabe4039043e897d5632c182c580318cb
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7f1946b14bd1c6ddcc3edb28d2155f86841fe84d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4a45d2f4ee4c3512ba879a397530ed2fc3e0c2a7b7bbc2471664f4f734ff6564
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..8997b8124a93e041393503cb6b6e56a086363faf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/18.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8171cc64a95e08b6b0e24e9497e199d6f7400addb451515612b8f6d074af625f
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ba7e9625d5c45024015ce95af74e402007ff2eec
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:061060e27699d89f520fca6c3b2491f2412769137bfae1bdad4b29ce003f016b
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..938e917f7ff990b78330859a17dce350f15dc820
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2a2d3e23f12ebb67e56abb19d91cd3ff81d0a5d571bc914634e43e3ab01050e
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..41d353b34a65bc861b5f22d66e86ad2dc622dd6b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8723b4aa3fb08c0d45f7abf2fab6d887952dc7c3df02b0976a226292b741976a
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..52e12c47a4e1d65c0df0362463090a71f238d4c1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/19.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2b4351d71016bb23a4658293bd9c791bf1da5772c34a936b010594376f33c611
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1e8a48692257f63ea108601dd7cf0b62af0ea743
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3624640974406354f2ef83967a337e4ffa1817b4051a7d95da7d989eda7b1058
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6c4c9e7e460cd340d2b27eb2115290b8a62d493d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:69ef156d85d158ac88add90ef1caa5f2ed0259fd5450c493584b76ce1b8f3217
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..caebff4501465121d38353809d5e801902b3a44d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:39e0d62c806728927652c3db6ba79715d678e98739a7225c25a2b51f69f5c05c
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..4930b39d6a7744752609adfd151d9c1012d6fd3d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/2.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:69c07d28477dfdd6d00d2e0eae33c702d154ac6a191adbe497813d4d6713af2a
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4dcd4e3eebdf129d82e239ca33623cb808a31962
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1cc659d3c50ab2ab8a0372d429a8737d85f232baf3ae9de0857a1707ce90661f
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..5c52a0a7df6f743ba6337f09d70bb4dd89815ccb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e577cbe103bce675ba45f58e7b936ab3e6d55c43057408a439d7345b8f68ddbb
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..c2a5adeb4f1082bf9cd8a212bbc81823efcd7ff7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e33030ef455adcbfd9437553cae1895277f2427fd271d52c8be688e50ad1a798
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..ff55e5401aef31d72af5280b683f72a8f8a8c3a5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/20.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8ddfbb2952d00224202297a56d1a09ca24d86ca06b18cff354331971cadeeb5
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..37f7fe1590814efdd07c54325894db3ff109d588
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:695a675c5410957a232f4a9c3724df0ffb5a1631ee46e8f9d50d0bfd771c9f05
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..b4872bab37dbeaebd551f1464ba05932dbe779cd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7c28b379868af21aea2bc810c0e5f16d287fc2a87743c1ec7297ec4aca9579b6
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..391f73a40878518a3d5016aee093c4f8c64739d8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:969921f99f7d6faabf99d1879b7fed2691e4c08720a8e9ff1db4e8d174b40be4
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..80c8c0684227289cc29699bb756666f5aaf65ae2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/21.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4338354bd6a2d80622efc27e2365c9871cd437b58ecad9197e715af50f6ed46e
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8b15f46f52201003b1458fc69224fcc458b8ff64
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad9330e62a9ab478bebe875496642484ed423543712e1d47e0a53aa246ac366d
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..f516b5c53c70bcb8fdcb5731f337dc89be5169ac
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2a8d48d5cf9e05d28d12041cff1ce5d6ec2572be7fd57790835bc078c3d64fc4
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..326b0f75739ac28a511c5337cb61976c7bc0585b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8893322f220d33e65ae1722d786cf73e60cc98d1783bb03a5c80d8fa32adc7d5
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..1961d2995fba09914917a3259846ca140d505254
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/22.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4e8aa3dbeda73928bbfbd85fdcd0ca269a84b4d982e65b33d80d8db13254fc75
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4c1640a60117d1e213eb9a0a3e19ca5304ae04ef
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e4396e6b904d531c017bca61b2f04b61b1ffdc7935a39ccd285cabaf83f11192
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..4875867576378026a06af2a4e04faf8f411e6a20
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:62402992e5fb321922f94392b316d4f062e2fdeb8de6c2190c374a40da6a7074
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..c671559ac85335ffe7c89b188f8a71193ac45cb6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d774a401b7537fb2a71f23b8708663e9753bf0297eab735b057be09ab028ff58
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..69228b3b159851c6dd0897664627d5f48198482c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/23.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d74dec5a0506d185789b7fd5366165e63e35016a0a87954c5708e28fa7013bf1
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..77dae03b3afa7cf91b40dd9362812b147f4f386a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ff5ebd40189bab2b6175f5ef7cf531c065cf63aaa9e1667a23705d19a992458
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..4193fa50c2ab5f833b20bf1fb189cfbf55801ea0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:daaa93af9de12196af2555d0a1a885cc0810646b4906bdba8d49dc6411fba1b0
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f3fba5cac2ab6ad7281ae5f164a6b93a3e2553c3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e0e886d3b23bb890d5567430b7c8faf70f6f78a8c570b901a2aeced483bfa73
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..99387ab6707efe0c66e3d9787f9384140b21e45d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/24.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4ec46de3bd1f4661ba6e2322af385e3b469db8d52fdc13b680db7e866473a44d
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d45977e07676d6dcdf223a4bced664a7d46f3c4c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c9cd800f77a8bd50b82b227069279877f822b5a04eef6e0c5a3b93fac39f46fd
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..d7004174cb23bc8b4b7bbd178a9625d772bc1e84
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5ba632be568fac8849cde9b4c7a860f6e5bee3a922d1cd8217e25205b0f2caf1
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..41d58398b55603e0bd602d7f23cffa3bceedd9d3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:172a14890586a93dabe5b757f5f1adad2895a6ca92af8cd4a5ca26eac391d987
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..9f55890a099fbbbe92e74059df3fa9bdd6c113e1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/25.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4d1080d3d50543d627cd165abcc325f760b8d1326c9e816086367253cf17655
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..14cf2b347995679c88378bbbe43ad8335d19c61b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d602d88a71dc86f93f9c979e50379fca75b39e461ca335dea442ccbe03c635da
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..14b77c50b35d4d442e59f05c13c6768ddd7beb11
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dc4fc3f819d9bb43cf3aa963967bf71a732dd476fb8ad511a7c00a3da68949ac
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f1649c9d9d56fa838ed7b922faa52032f2a03089
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:20c3b2f7f8384aca2e1ecdec9ecfe9d4d3ac22baff3a71e66777554343b09b84
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..25882d232d2f3d3bc0b6ba3ebc7f93b35d57f0b3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/26.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c7515ac825869abeeab24f6d58947a4e2fc0e2effbc857dcf304e9399f66a125
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1861a592e3ee159fc9b4c4850d294e573389bc89
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:de1c4b0cadf0d6b2f55ff18761b689319d4893a2fdfd090fd2915ca565e57d5b
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..df8f037b922e1d0a692ab98a53c4362657e93390
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4187ba3e57671da32dbf6beb53740155c0a153c207192a2a6ce97a6e3848c082
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..4b8c76d5abb23e885246594cb93019f5c1ce9e2c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:22bdec8d854e56b73a69930e8da127cc48f26d7f3f5d06a641777633cd62cd44
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..e60da00ddefb0f21538b965265629b356d908308
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/27.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b87bef247e66eedc2e1b38cac464f4f945c42ce2f49a31e04aa376767c4bf445
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..105bee26ae59e02e09a47a492bc057d7903b8097
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:47337f81b45bcdf4c2cacec549083f7c67af1e70fde0a24a969bac471fbf9b5f
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8d3c4009a9b686fce6c7b683fa7aba0c8839c706
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0eff73404e323a01d9bf33daf59b036775c5de936c689447dd110c53152f33e2
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..5edbd09e8bf7014b4a12a284dfb8653262706310
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ebead6d949b99c0422e0daa704feb31e0ce58c3acc5c8658a47b1c41b93079d3
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..aabf4f73bfad13dfbb62853f895c60746e0d47e3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/3.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c2b1beaf1f804578a950e7c711f29e76198ba7bd1c1ddd06ed1a91589677647
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f4ba219189a3a4e5e34f60db9cd3e909b9e8063b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51132acef98116d283dee07fb3d4c6e74ffe023d34b979936a2f0cb198527ac9
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..186f0cee3079b6fdf8df0a969e95b78e45bd1b4c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5aa1d1e3d1604c84c067c485e80730ca3387d000116999dd14181b647a5a62a8
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9c4e823a845e8367ad7a4e4af0406ed1c5eb8cce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c2a33b3f15321916bba987c60857fbf5f9f043e09d9d25a8e14baa638c86963c
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..08d23a6d0101baf5ccf2c4bdb6c5d952f95cdc14
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/4.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f0650c4416db0aef2f4d32d8ce2b24a7c29390cd6286174e68d7e66e7a9ee902
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a190fe333058909407f8f4afbf1e08e56e1bc13a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a191a361bc0f762e243ab95214c68b68e46eaa4ce64fe6325701373e6303a07
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..83aca413142b5940d13f380e70770185d84ac085
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:99db5a3938196ba8a636bd4b39c94b55d66822720ebffc5c3c25a634e301395d
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..41ec3cd3718b3e67c19192a3b26bd91debaed23e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ca43a3345e889c3b269ca42ce2231469c7b8494ec3c4caed6b2e530f7983e7ec
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..34cd53d095697a16a1a169ce36df71a266bafb76
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/5.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8b248369270e59fec8ed82f57b13300852e49e983de8b76ea5cf03ae7f2098da
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fd6adef76ef0f71a24ad279a1d681319a7f6fe47
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:983c6205df98d60c6474edf8181342a0006f86dcaf60111cee1d7f46707e0d23
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..5fed8532f5062063d9116e7688dfeaf7e1ab722a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91a1a1047ada31c216e3b1ff3ee8ad3df8277a2287df8e1f58e11c5053e5dd5b
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..418985a73f6d470767ac1747aefbd117e21fefc5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0086e0985db49f18b8d4ab9fbda360c617e4c9046eee47fa6a67828b6f0979ef
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..bc2009700c5957afd36449503235092efd654805
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/6.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d3ca9643ea9313852d63890d27e700601e56666364c9f98ce2beacb33645081d
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5dba9a0e857b32ffaf0c50037662b20163d12cad
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ef861acfa0649a447e8df6620127c54cffc7d06be8d7005d6cec8189a983876c
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..63f2843a78ef114112f22dae9bfb797e39274b60
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b8356c569cd5534eefa24aa7db49b3b80d34d5c23f33aedab00c5a5207486ff7
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..5fd733bb7f55baaf250e04c36f72b298793b74cb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f4064b402df9179881ce60c568229ba4f3e005e2c421117507b64e82e039da7d
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..d09aad7e3642fa458927237fb8501b8e9d753fea
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/7.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e91a6f842886c51437314fe62f58ab6aa75a7c41bccdc91e6018e90655395f4e
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..73da0207ea369d6379692ea158c4dc40a230b71f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e3ac0e351f01ddab940987dd61673622a20ed5621aecaddecacc2feb1236c13
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..0bb88a1d046b84882b7c063f639e7a670079ebb2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f1c01112754e06a1a0c59229eecb5bd863fda34903597c539e6168b8e9f82e0
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..6ddffa5ad7234c051ac2e3db6d267c608d412646
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c90aabdf8c6f9caec65630ebe8d6eef525db2ec773a05a35dcfd8fcdf7819e33
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..61a934ecb1298208f1825fafa5d4099d22d73435
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/8.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:885c71b324ecc0136ebbcd1e1abdf45064f84176ff7b0acd1b68b46fc840f50f
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0aea80e07f4144adf4638b6f04734842820d90e1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa7fe0fce4e05084ec90e3a0ac29d77d210bfb51c2fe988257ee35da1351f795
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..9c16fc5f3f688084c8f987438cf804dc71acec1d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ac261b2e6e2d932eacbf777c982e5516429591300a53bead5171e4dce065d542
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9a0b43896097fd4225c169e18908d299c9d7d9e1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b20dcb320d9b11d164a17688e94d0afffe08934370b293f88e2c2a7b502d98c
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..23061db9e99133e15cee4fe09243d52731b3685d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_proj.weight/9.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c39ba2d654703f898ad5c721a20926caf689790682c7609e2451f4f9b87375c
+size 6291456
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_0_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_0_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..bdfd5deaa7cef9ec35e981f5fde6534cb556554c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_0_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:63f63a650a1e81efb1222bec5ea786efd0bfb9a5e80530f442bf91f9acdbf8df
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_10_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_10_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a440038d68af2458a2032eeaf2e1fa79cf5c8333
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_10_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:227c205836c7bbcc512b59dc9008d0c412699bd03df9aebfee0b7bd3c3e329c4
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_11_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_11_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..609ac2f1bdff7c62b652fb7f1d0281a8e154bb08
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_11_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b05ac4f60393e0c09711fc249a87bc2e036047e8dcc5d63402503e7d1d662c31
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_12_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_12_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8417bad1d79124c6d415b688488f813e9aa59250
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_12_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:764ad22a31d074c0951a6a5dbd73f033ca459ecbb5ac362236981e8fe12da56c
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_13_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_13_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..e01a6610c2cabfee5ab8f23b7be40f83fa72adfe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_13_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e620f1086ba7f104be16365fc69e8487a32d8bd7acbdf63f87bf802447b6466d
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_14_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_14_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..d7dc479dce1cf4d854fed381732cddbded4919da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_14_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6910bdfa718b3600854184a6b1f32a8e9d9be3ce10c17f12fe6db79120786a2f
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_15_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_15_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9dc5d5187f1ec2891ca599e47c932ee715c6842d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_15_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9acd9fb25e6ab8a85b6ab125c958ee5480710dab44592b1fb84a4eb69872a013
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_16_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_16_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9b41c96bd9ae3456f318bd68a6b349bcac76020d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_16_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:885ef049145a29bcdab6fefc355a8e1236bd882c226930cf530a3ba0bd4ee721
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_17_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_17_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4aa15a759da172cd1b03640bc9277aa61350bfaf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_17_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:22bfd3234ccd2293b4de4762d491d064b46cb4558254220f7634545715025838
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_18_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_18_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..2881e7895900a5d72eb8a991ee08c58f20f253c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_18_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c02c0faf91090dbe1822a700e9bc7f91f16e835f7f826eab91a0443d48cac46
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_19_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_19_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..49e7902ecb6a4b2823a4714d278459095b09acd6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_19_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf409a5924123568716ca4dcbcd3b5f1ba9624a1713a170c91d025cb035207cc
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_1_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_1_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b0775267108891887248012335887ef50e474889
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_1_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e8b079d0103f30cd750bc238764389ba0c37424878264066e76bfdbe45c0562
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_20_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_20_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..aed8bf7a92522b09c2c6d802baf18c6420c7ab0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_20_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2188e59e72780c58a3acd8e6ff7fe03f373d14a42a0e36c69f1583b349cbc4a7
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_21_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_21_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..54c8e397876158258c7e3d55678ec2b5b76b9ca9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_21_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a5a40ef6b59bc7e2ac745df57f28cc08ba614e13e73c12c7a16ac9e3bb005a74
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_22_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_22_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c74304cc0514ddcbdfda7fc598edaee49f7ca20c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_22_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb827b13ea508701f2eb587f7c075983c97a7aedac472cc63f237756c5961c76
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_23_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_23_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5496445b8f4849c98c75f3e0dc375b647d7e3c04
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_23_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a1927306a894bb424ec9e0ce4a672d7afb28d3bb9d5db1c6e1268c2ec58232a
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_24_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_24_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..5c68fd9e24c7965a63ad4bbcfa04638f17d6c974
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_24_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84ab4816acfe4bf4df6814b170665c0b14ff82e64c6a3db350780a5ee58961e1
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_25_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_25_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a1dab169defb9b542680af169499ec57bbc631cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_25_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e0bc28d64fcfc1620f51ba7912eb5f3e6757292e45e4256c2d11914214bbc77
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_26_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_26_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..97bd93532dc4ef87c88fdfb3f5e5e4668e1ce3d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_26_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4e987570aaa427c84d57db99f8a2529370b6bb4bb6e61a5c0a280fc3f8b1f3f
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_27_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_27_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9c3239fcff67bf15ce49e9e79e187324a699095c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_27_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:addb78803cdfa5fcc25acb716a18e71def373b29af9d89294cc8bdda95b3757d
+size 1840
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_2_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_2_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7e8b538fb206407dbb80bc34f1b59c33d352e864
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_2_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce21d6653df4f0be7621f065b58aa61c970bef1c6dbbcbf018391ba742f93e4d
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_3_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_3_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..cb6af6b317ec0581d251e39fc0540030056be26d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_3_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e17ee9ca84caa8e84a29eae3086e03cdcd8242fa586638054520904b7d5811a
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_4_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_4_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..754f4bcfa097f57f7181dee82f61b5288cb5671e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_4_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ceab42286b21b2bc4a581e3b7a3cb3de527ddf20deea8354d87bef6ec9b8b648
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_5_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_5_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..58e175f50a43d4c1deaeb2acbfc26921669fa447
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_5_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c10d49188641f77ed026550da10a961d3e7096ed1c71fcdaf8c4a4964dd5d8b2
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_6_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_6_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..7f071d0d9ee8e42d35e1ac4d622c1d71a4ba7906
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_6_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f9b99c08a5951d88fddc30f73527ab22295e4bdc040febc36a47616428f879fc
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_7_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_7_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c301c90b7efddcee8db52cbcfc196386ac6c216e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_7_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65b2a3db54c013bd9849efb2db9c10758012e0f5a5d1f31397e97482756600e6
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_8_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_8_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c7ca746be773968cf1efd88a58dbbc7850baa321
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_8_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9e62e3c64c74eceaaa2bbd8b35484b88271cfe637474693ce93c978f0bed7ad
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_9_28.pt b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_9_28.pt
new file mode 100644
index 0000000000000000000000000000000000000000..6b11a1c96a58d2a4085c34fec35f3ac4e9f30524
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv._extra_state/shard_9_28.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0069d31c4f93e27495b18776b0c2fe67027ca0e663f5174f085b69c0cd60df36
+size 1836
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..5b98056452be6adf83cd241da1380f6b4effa63b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        1,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "bfloat16",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..9684076f2c581071ba4d714155c2876568c66f42
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c35fc428541d7c237c1542b8ea2c237d397bf4a5
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0
new file mode 100644
index 0000000000000000000000000000000000000000..03178d4291a7b99c39932ec416681db73bfdf40f
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0
new file mode 100644
index 0000000000000000000000000000000000000000..4200e9a5730406d37e4c3d50acbab70b64031012
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0
new file mode 100644
index 0000000000000000000000000000000000000000..d7c920f2394f6f8741cb8bde496e34575940a0cb
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0
new file mode 100644
index 0000000000000000000000000000000000000000..7e877356cb0503ffac645718a71a0b42fb450dc2
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0
new file mode 100644
index 0000000000000000000000000000000000000000..a857131e03e628b9b4c347b4eb9b3a536143c71c
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0
new file mode 100644
index 0000000000000000000000000000000000000000..054da3ad26496e4f7977dd7af07fe80875470c4e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0
new file mode 100644
index 0000000000000000000000000000000000000000..8ac49dc80bd970f896e0dc9596838862181cde25
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0
new file mode 100644
index 0000000000000000000000000000000000000000..fb5c6f8620d12b0589ddb36aa8114a32f3b41703
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0
new file mode 100644
index 0000000000000000000000000000000000000000..9556a9936cce2127a75de97f4971d700176dc9a6
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0
new file mode 100644
index 0000000000000000000000000000000000000000..2abfc9428f926307bbd8a6898ee1e73abcd92e7a
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..af130d21b1cfbba04fe271a67af8bcc8951a0b14
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0
new file mode 100644
index 0000000000000000000000000000000000000000..038adedcbab13f892f273966a6b94de2f4b3a1ec
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0
new file mode 100644
index 0000000000000000000000000000000000000000..21fdd7c588776595a38125fd3dc44fd56f67fc6a
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0
new file mode 100644
index 0000000000000000000000000000000000000000..0817768b3dd92b54ab2cc29e31406444ed1775d6
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0
new file mode 100644
index 0000000000000000000000000000000000000000..a13e994cb3003eb58de9207a12f968649303220c
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0
new file mode 100644
index 0000000000000000000000000000000000000000..1fea97f3b9c67c42a233256e5f5a1376fef3ea8d
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0
new file mode 100644
index 0000000000000000000000000000000000000000..c8ddffd41f7897b487ea1032e53d62819c44790b
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0
new file mode 100644
index 0000000000000000000000000000000000000000..00082a0e9c1b5ab9dc8ae5f4b1b29970585c8da1
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c6d2eb39391c51212cf352d1f973b3d52a146de
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..016b4157c98a261d0db8dbbd1961fc3df7f5a3c2
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0
new file mode 100644
index 0000000000000000000000000000000000000000..4fd103d4c0fcee44955fb381b17377cfeaf3b519
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0
new file mode 100644
index 0000000000000000000000000000000000000000..e6085518e582c6a5dd4367cbdc607713f7022d67
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0
new file mode 100644
index 0000000000000000000000000000000000000000..92711f31a6099a078a4c6188695076fa04ba2b90
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0
new file mode 100644
index 0000000000000000000000000000000000000000..2249b6512143c5746c5c6644e7c5baf570021017
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0
new file mode 100644
index 0000000000000000000000000000000000000000..993cefcfca277f916779f9880c8017283dce9f58
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0
new file mode 100644
index 0000000000000000000000000000000000000000..ce55e0f828baf356b2323649550cf252e90d64b4
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..21a5d6d1208316c2c3c505627484bfaa44255fdd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "bfloat16",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        12288,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..792e843a5fd8cc705dcc55cffc4b2488e77fec56
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:43c7922adddd2a6729d27179cb7237054053d0cdd22c9307916fcbd00e7f81c0
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..fbee0d703832319dfe5d198f041f7fda1c06e1a8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dad46105bd464c3d4d17d93bf5d73d4af0842d19785153a98194a69f5faeecd3
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..89afb9cc3c4bdbafcc191c3b1c703790f815667c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:234323946443cd85f246706722ff872642cf409097bc794a6967994581063b4d
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..04e79a80e16cb33e8db6b5dec5122feece646708
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/0.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:22290040e5582a4f118f74a718b3f14ca7c54d0e4592a7c8d3f0a39a3d6e1266
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a7c4d99253cdb15946fb08a4deb4fea03f26e565
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ada3110e8dc454fce4e00f3b7c6d33110bcee9c70640dcf26992861daead9484
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..edbf7f0ec4913835f5a440e25ea9431a1c6fbff8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2e5de0359253dc8b80b447229e80b9fbdd8bd5b511a546ec1092dacb85776029
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..7750d3d646c80365fe3c76fe0cd758a0662c755d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:336f77cd52ff2317a77df3a89b1230c30bb91c6228556d8720699a6b5829af8d
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..c299cc67193ff79c08efe4d31f20fb1a974a4e54
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/1.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c822cc7afb36c11cfdf69132c94ece02e741b11fa5f4d4b9a4c11290f434fd9
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e9df30e90c7039899b290d2406d274606907883
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ab9be22a49fa528e95aa832e2d2ba5af8bf7a800693af28c1d434eb1ccfac823
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..26228c63d37667af0ec7d61c6e40147be3539919
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:23082c289b320e06c26f98ec80e86ff294524d3c9340b10a469f9ca2e87fd4a6
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..6b5c578647116bffd4b15ac092c9eab50d7aeffc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:11488cf9058f73397a73971efbe2da2dcdb2f3cfbcab32d8d7bf1d567105bcd3
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0957f9cf8c9156095d50ecad4d6d86f13c8c5abe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/10.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8db42b35dc28a33c0527002a5f8f2cef5d1ee4a677990043221a8c9f92991685
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bec5e63aad711e5b150f7bc5c8a872d3f329f90f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:765b4333a66bf9f13407f93cb02ec9256ba516fcb147bfcffc1d92bf745e0314
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..7df4d228329112e0e1c5805742409208bc7a7db5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e0a42c6811be7ba9bd2e6daed3f65db4ad6a85a5aba6bac7cecdbe9066531b5
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..401326afeb05a77868822d00fd9f3a3386ecf259
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b37e1e68370e1f684dce879f2176fc1c2366afa918e70c67122c7024749b647c
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..c8d517c9e8ed7f29d3fd12a32359ac565ba6c0f8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/11.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2647c76c5e95e36a1ac4c9444d156c27cb5b1d984a783c78447dd85b76a54f71
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..df6aacf7f3e0e8f0a6bc8a50ff7c6be5dbc3214d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d3ae8e57c65a99491a6bb97bda3ecaa415f4b6851a3489ff5e62c7de4e0c5944
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c97ab6475de9d83ab30018a63973a910f80316fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f265950c10992170ec27847380ebab30eaabff05bd053a8c82d380eaf1dd5d19
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..2d2f4c4467bd1693ca5b87a4ae80ebddebd23c9f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c2e9c33986a82bee88119ba6f490e780d512c82320ff5c5c2c89bd495c0a7bf3
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4b55bd3d21dc5723fbf31a301e87e1e235c0de89
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/12.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74095793b589ee725cdb2d67d55845c1eb1e799290a81f28aa7d148ba73347cf
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2b237f674ac9614139d6893f5b7c26f736e57c79
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a0b45e139ab0563b83b50b4f90ccf0f3c2fc2e47b6f6cfd07fcc7e8cdedb5b72
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..48fa06963313b032cec9252f0ea95d091b33b05f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0015898255dcab87a85d9ab9c1f110abd1e7ffce623c8f400e7623e54e5350e7
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..e57e0c0caca77dca76261b508b78d1eaf6308e1b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:acaac0307b7b0314785626fedda3644df5be08c0570622e8db38cec90d6249f8
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..912388fba089ee686aa7a981b2057b402f163d99
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/13.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:23855e5dce51af53476a7d8ddb810d33e0944a6be43d3743504dc2108be0358a
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6a4e266d8925239241bc6fe1f399277cb13c9033
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bd0d633f98ad3c564e67520b23a1a64ec217262d9adb3a325aa1e0f0f8f2f898
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..a63e77971c67c5a66c4c9ab240dc787c799802d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eac72fedafa07c8b8e9d689818e7580167ebe83e79deb087a5dca880cac45c59
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..84119ef969cd2c8ceb652e53cd50533f23f90ec5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c048514d93ee952a58e5c47d2a3d026b75c7fe159c30284e0acbef45b06991c1
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0da5cd08741a67e9d3a394698dacdaa86771ba64
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/14.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e5a4f64d0f7e05f05af135c32fac30cb5a6ce48aff3cd1cf94c25eabab17f1b8
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5e1509735386778cc0b7d1a4f1779a9bbc6ebbf0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35e6ff6405052e035a371f65b36b64c95a5ff27f0a93138a832877ba5017ffb1
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..8753535c339be477a35f6cd154db33b4e9c515d7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c62b02294a439951ade399e2743c844552464cc8c42c96b0b370b29e54dee44
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..b3e0f54cc1cb78a3c3047a5365a33a125e353de4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ea0a404b55a30f797283edaa057ba5f6f3a3b7239bb70e30b17c6fd36eaf028
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..7ac8f3196177c3790064c11e75bef4ed61043f25
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/15.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c3e9226b36e6afb5653b1c0a5560ce8629c75bcfa650d418e65afda3fde00986
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e58abce1bad17b800f29500c2e4d6a3f7a252d83
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:096696b2a4f45ce2436ed9c61e705af62f4d65df317cb9b63d7739e0a095d001
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b474e161d37163f242b5dcf12e7211d379794500
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:37ba61ceb7bdbe55e83a24e9f4875c03c5d2c15600685abff54e41eea2c2b4bf
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..c7150ff30b76cb5fb1a58c9a6aad02201d0fef0c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a7988fc45857543788a15d983ed1b23bedbf3ba057b5503eab06c9d91bff7e3
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..e8b1aaeb02b6a849c42a1af94f7e84d85d4583df
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/16.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e90a6a68f76b45fdde8809cc6ae268ea767f3422c212661e8912a4b802d65644
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ff1aa4ffb92616868a6357959b8e8a7124dabdf9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:635730209343fd7ecdbeebe221adfd278f2f548f8946a9bda5f059db75c35755
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e74d655b18e0aabe133921cb57c7516ad8cafba
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c021fc78c3d6007136dcd545a8b1b68a8f48deb0b0369a1563b7810b769be7a0
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..67e3617442be2b1bd31d35d0d35fc1a923f2e332
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:41f3fa158bb8711cf750017ab70622c78da4b30fd1960c2b21a1d1355b3ea442
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..895a48a4a3f030c257a82d791d40bc596f86407a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/17.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d80452bec3e4cc53e54366fabcf409096f12b54c12f788305586d78ca0b6107a
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..94feb51789885234a972eef67d03391a72897b3b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f0991cabad25e6e5110836c4525b5b62e44de870324d5353359af27f3f986169
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..7987e6c8605d157923e1a4c47662c941cac200a8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e277919d36aa277fce27f002c03fd2c08a389bac52850342c1f431b966fe320
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..837c7727aa7cf3447a4a324528c879cb605227cd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f470b43952e09a92baa811feb98b8dbdb31bba88bc525caaa32812cb2082e30
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..5a1ae3b390053be31f99d7261529ca1c424402b9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/18.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb93da8223e7ef1a23358b063d1dabc1c20f18f5f70de415399257fee935b657
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..73d6609e1b19a17ecff6b820d32fca0563d60a86
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0ef67ffb040ea4cf576dc8c823be59b820159d99f80f94a3b199528b8a423a12
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..17d3458868345dd20174dbf1331a50a02c205ebe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2cd844a4a6ebd3d86a0290312875dc4d0ffcca50764563ac5bea38e7f34a1544
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..d22e89e09cca818a72c4618d63a9721d8a038841
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7911ef23bf42a55592c38e9264040df29266e3ab732e01dc8f56a9564841fb60
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..2c4d135b43719042f98293ac9fb9d87821cde6ad
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/19.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aa554ba34a902a2b21825bc6d2cd97ee4036a8dbecf0e75f7eb393482757ed17
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..32a20021cfccaad41e505d595929e8642525dac7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d8b568a6d135f90cb0c9ee71213f803871a78a05a332a32577352362949a23f
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..13b4bfe49a4890c4f5798f8424681e950a2ce323
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09bf297f2693becac4309ad6150780f603b2faeabbb88f670de57f07e02ac463
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..db762de44237a645f76fcbc1ec7950169e0ee6ae
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84342b44d47715263e1a279e70a19709490893b885218744b80d4f6d33cffc9a
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..dc317dd462240d6d5a5ca2abea5c55959bc96129
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/2.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6404c2f43962df1a129f7749f2d3ebe11ef4d347029afd9d214f41d8ad1c99ac
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d7c8c1f5a8be9efcc860a94110d4520c2409b640
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8eb3367fac4b83f8e30984dbe20bbc736f1c41218349ae0e8efb957ca7a0a818
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..567414d133ef177c5e33cf355dcf1b2d62ed596e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:011a7fe37abbc55649edbab93f47fffd13f3ca376201fb3309cca06c8c8b7469
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..8f8fcaf07e5f02ee04201f81b922b6c48fc5989f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:869861ca1d0ddb213aec1bd1c1d8a149fbd91e0551b44cbcc79f876c4868f048
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..776c78db97fb158e6ce312152102e0817e0d6f90
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/20.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7bfe8c457c99a263bdfd79e3d6489d1e25a0fdbd8db937cd68d02a0dcd816c45
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..67e6988709c60d593d82638ab0b081fd95c0b03e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f5ab2ab00752c288921f23cbd8c372dd7e0a5f0f03cabac7152dbfee6aff6a52
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c9c35ea57576bb55b69678b2d36ef5aba03160f2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7716cb23c2dc4e1e0d3d42b6fbfeed15b77696371899029116c728c715370e1c
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..7eaf08c44abbd658163ae69789d47a0d28eae51b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2d9b9bf4b50e54190d44fd064540f67cc2a862781362f9dd6d1d72d5d75de10
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..255c482ef2220f125a64afe8b2dc55a671f2e2aa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/21.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25166d94c46566c11f58e69eaf447857d21cd91233e7710eb728e12a754d790c
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6cf7386c92195e72fcee62cf90ce69a2d172f835
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a56d7d0ff7e4eda8ffbead7f8d811030750ee0a9390abb1d8c81b08fa60ea80
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f3df617cbd5d087ad000dee3db7c38cb5976a76e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:216e3a4b102a55a6ccc2a2907cf237f2061360aa2968460b564130545473dbc7
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3af87af2ef6284db2403052762dd33de2a5de819
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c653c62e751f36cfb66443a5cc62f473310faf9b9bee9784e8f0cf33f2d91e22
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..8c0840fc4670371a6626915c4229466c49c8eea2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/22.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84e33dde310e6ef1d99b1d7a6f16ff1eeb331dfd5070bb0c2715e43be943d13f
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..62a9baa8cf369d4d114a6ba911c50572aa146801
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b6b57053cfbaa800e6657719990ac6054c8aba3d959c53d454ed4b1edae87091
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..a2b8cfb20a199ee20abe1fc1d5b2d9a0f1977152
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b462e7778b96b171eb32224c78413073c68c61d0f76558012204a2e3247915bd
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3f65367a180b9784ebd6b1313aeb205eeec6ed33
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6cbdce057f8e97fa411bb9f8647cc477e687223fb162cbc94a846a06cdbd9c8b
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..6ae2013bd392435e0ecdee3fa9d8ebe4bd983dc8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/23.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:165e77daed3c7585cd526203eabc6c687b9e6fc0e34f26ef25007f320504f569
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..94c113925938b7f6448aa78d99fb27a374493739
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0416eca097e174f7d11c6622116aae19f99aec0b971944957f3dd380758369dd
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0fd08bf285f796ee15e493ca17bea49a474d92d7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:95907cc5e61e43c18d7c912e22935f19bd991fc88e74cc6f6021c217ec30bbab
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d0c1b8ab4fd08625f0572cc441c38ddc7b486bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be8157bc173d2ac604482ff4019f215fb47da3892bedcfaf1cb9879e7ad0da16
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..cc85365ad8781880c8b0bf180d3fd1a7f94d781c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/24.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc772ae6394199cca4a363ada221c29fc17de29b988c53527b7a72c6add06e2a
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4a43e6822093d3fe441a13bceb1f75fd1df7f41d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61eb29f2f670d89006845b0fc6308f23b7ae751bfb9a1927af9cbfb2164efce5
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..79267d9e0f4b4d9dc7ce055c7b09624d8f53dbe4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:344b8af9044839611b8830aecc37894714f4470a1754b8d5573c203aab2822af
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..ce4431b671974538d181502700ed898862d2932c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6f1268e14bf755b1ba8d973c88de60dabe3db957d59ea494585b22e70f3cefdc
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..8ac0f68b949d1cb0accdbc6fef270a2508924c91
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/25.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c4914b431342cfe4dbff969708e3bb4e314c68b35457fdc81b3aaa67eef6ad50
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..331377444479c492b6dc40c3e24c2e92b03ca8f4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ed85a404965a10fa447fb1d965599b38f44c28cff2aa10529ee0b1edafdfc180
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9dd1761388fec712c47d68ab55859b520ff90da0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:603d9b54154f74ac960f3493e3b5da18291f3e5a24dc04bc90080d7de11e0719
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..2db3c8af937945117919e6aa0bd3a097fae0cc67
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff1da24bc9d9182b4401c5180d15cc3d3ecd82a61fdb228dd8ed0f576f0dfa8e
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..345a71e90849fdfcd44fc48d2efd37c79724f864
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/26.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e2155926581602e3b9033e5019847fcf0a13ef359cc25b3bad3b3b6e30433c6b
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..45a2478d88bc9fc6e5b27d397ad288f40a17a71a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b4c147d247da86631f01a8abbae338d803e746b3f20ca34e6b01a35375eebb78
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..15dc6295ec9ab2a178b2867e25a5ccc83b3c90d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74323bccf4f66c2516ec68b592d8b4a454729945067b2e607fd36f4da9f75a29
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..24ddc4603857d71677c2157cc9a1f33af1359e67
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d733e983333c3a921ab675ec0d8279d52398bf14741e064e22a19743547a7a0a
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ac95faa2d316d11ace9a1203b07ad73993c5f234
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/27.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a7abd6e20cdf7c5978150d13de64a437a328f5416aff5a228adc48889a85fa40
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0cfecbe9f54fab095e6daa2a2c40fcdc8fb4e379
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:486dd8f8fd171bff182092adc3c6f7459622bc9578af10e2b2b17fa88f3f89f6
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9677e3bac28f50ca835c21cda0f9f4ce40abe7a6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:03bd7b66ecfc7dfa7da0d7dd2191e6c3ffb0fb23c078e3c92ac0751440c5735b
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9de1c8b6c9b91a16473161a6844f55e9f15d97ab
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae4eebbcb2ddbc5279e84c9b332bff8a92ff855eb94c40ff7e77db5991abe0ef
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..21c0892763ac792c85b154dff8172bec3896a110
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/3.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7923e8925f39c7daa1de848ddb4880b432b77357eab4ca88e68ba9e873c5334d
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..16da6db1ce569b85c375763472cf9f0eed3472cc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e22070a544169498650eb1d99d063e68cad7ba776c0ff4502715292112d4b90
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0a8eb58db83f18f79a243a4a3c5f427ec4b5761a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:38ef18fbdf12f5fb45ed073aae9863be3a58bfd9786fdb1b0884fefdd5804aed
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..f28376d1355772bc426f99ccf03054a64c86ec0c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f92b9dc34d890e9fba30dd070d3331b872844359ea15d2ec6c6d6564699fd4b
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4473568998129c774887851954951b8a43d7cce8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/4.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe6546efc4cb223084ffc772c7be04321ef195e4c811b3025ed0815d924ff46e
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..876dbed01e0a5c23d699740e651eb064e1d47ed3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4127a23ac0600b20e874dc124d410ff498e7f12a88b70bce41a986f09700a038
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..7b3fa167e2447d878ef7b3f9c162ad8059725f7b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff7d16b165d491686e42eb5af5ef8c587e4776ba08a207fd6ac4b67dd38cfa34
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..b63fc3ef186630532c97d5b1dce173080c0c38a6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ed3300749247e597ec172842d58b75de6171d57d10b66340b561f27dafc66978
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..33ce4c847655ba353715b2d7831b5ea3b8b2cefa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/5.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9c99ade95694c756c89558603d0e5ad83ce10dcbc84cb9d73852026ce081cfa1
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..100ba251890304239701df7db5f274f85fce8ef1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5327c356d2d9dec55b7208d7404851938877953c5d1b24bda7a67ae88d2d4583
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..90aca9627f2182764ea263a84567e6cb2e5efffb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e04e7422c8b0d6611893b3143c5694b1d8bf00fcc0637226418f08bad0723ce6
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..89284ffc81f20402fdfc65056129dda6f1c94ad6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e2f3d163a9668e35534a4e139413577049e8dfbb8fcff0ab0bd5dbe418b1816c
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..faf8975a597132e2ccb63c513dd9fe1e9589c7e0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/6.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:54e315d21f68239e588370285a79330beed348aab67adfb63336ed7d0721c45e
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..71eb2aaf0c37366c899ef58b7dae1ca360768f83
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a20a17eb54d284b9cc44a3aa547003c4d9049ad393de8bb6d965b82771094e49
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..8efc304257c13c7021cdd9778d6a6116a9eeba32
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1bf8b19e07196b5508c6851886ce4cf6c40e8e43dad6839fade978451ef8b139
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..a590fb8732d898d38623fe8e609bb6aa7cf15f21
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6da1402a48de5dc11ebbbcc6b6f11e132953f2e61d69cd12d944dd6723863021
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..b4aa682d7d0d949310d2a15541f0ab61919d2db8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/7.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:46cd812f0c552b6d1c5f231b39bee11af8dec8d2c4d679fecb22cc56898792a7
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0c6e3825377e5c5781cde3ce53d70b99f9febe27
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3cbee0e2dae3a938680b3e042966b6ea9a8939e5f7f24b1de2cb556b096a857a
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0995adfadc6e80bc82f5d973183ecd42bbd9c647
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9b967a29ef28328950943f51125bf82e6816b682090bb511c4fbde4dada1fcf7
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..57a656f9f8cde96c7f2964fdc7ca5ee6db7908da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6c91e7e7786572e926647fec06187a9e4ea5934827bf0382372bf8525e0008c
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..6982d07ee2d594014f02f0101fa49eb13af65502
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/8.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:af30b7a2358636e000e1ad45f6f7a3d94c92aa9617d892086641d07d80d345aa
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2be57d821d576dea4174b6d016ccccebc81386e6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f72493faee96ebe1166da06d6a3f795e99d0ce4466b322610a3d00f1f71f60e1
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..ae191933cd3a279fa8d6acfdd580803052498c4f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09e42cc9fe6d56984a7625ad1625fad62f48c18bfb4c15421060315286fd0265
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..fe9d335190f78f74604b8a8f598cb7598a7f0f64
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1dfd0ad9a753b65d31833e8b801b19b3ea88a8a28606d18e3abe0d9ec391d029
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..7c0735c9a4ee1079a653931dd74c86c2cb5cf97f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.decoder.layers.self_attention.linear_qkv.weight/9.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ec856e0e68d0dd7f8d86a18480d429cd96e4edffab1c6fe54eee469e8bec5b4b
+size 18874368
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..4ea1d5f502a52f7c36ea1be822efd4035aa252ae
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        64000,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "bfloat16",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        256000,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ec8d9e1960a13d220aa38b5de0048d0b98dfe0e3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e6e37ff20422f5db68d2678cfa320d1673e8fa4a297cb3ef2ae9fc2a0da990a6
+size 393216000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c9a3c49c8089634464ca2de0a5756206f14aee47
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c37d404e28a7412edf78997eb04ac3460540e61f3e206cab71c20526276475d
+size 393216000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..e2eba2e2dc4f7d4edd71ca7ac6211bcaf78098ff
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:942e80d936d371c500dbacc3389ae7c529c2072ab07f347e90eb102487724a8b
+size 393216000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ec547aa3505cd64cfeb72ac7c77177a718fe199f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/model.embedding.word_embeddings.weight/3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4c743d8e85365aa2c25472b5d13c0c38d798ad79819a5567302951f9a1079828
+size 393216000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.final_layernorm.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.final_layernorm.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..da2ce6f95967ba2d604c30a33803df2fc3263bbf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.final_layernorm.weight/.zarray
@@ -0,0 +1,14 @@
+{
+    "chunks": [
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.final_layernorm.weight/0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.final_layernorm.weight/0
new file mode 100644
index 0000000000000000000000000000000000000000..35468a3274ce4f49419676364b8367a12beb35c9
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.final_layernorm.weight/0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..ad63b2146cb31889c6a746a61ae72d4c619b1802
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        1,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..66cd607fc8afc337eef73204c900e652492682a8
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..d419868499e0515653a9185522079edbe54c0aff
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d8c54c4d77d6f9a454d38bf369d105cc74136fd
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0
new file mode 100644
index 0000000000000000000000000000000000000000..ab2376896a1b6c6a6eff54de4cbd1d333add88f9
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0
new file mode 100644
index 0000000000000000000000000000000000000000..322d3486404d8d9602f206089065c20648fbd046
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0
new file mode 100644
index 0000000000000000000000000000000000000000..9521eaa6c8b80d04361a2feb820c140fa4324131
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0
new file mode 100644
index 0000000000000000000000000000000000000000..fcf0e8565c55a2b4d33b574e465f4ab6356c537b
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0
new file mode 100644
index 0000000000000000000000000000000000000000..96ebcc5a901cc48dbfc72b17cc6a46c7dbcd1dc3
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0
new file mode 100644
index 0000000000000000000000000000000000000000..53bea999282a161527bd41997e4a1cda2a54c250
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0
new file mode 100644
index 0000000000000000000000000000000000000000..c32f388384b0dd2653ff72004cfc5c5f0fca65c0
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0
new file mode 100644
index 0000000000000000000000000000000000000000..6d8253ca9002895db232c645acfe94ef54719101
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0
new file mode 100644
index 0000000000000000000000000000000000000000..6303822309c38640d9e5e9b7498d1a89d874b8b0
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..69c90315e30264f5943ccf3496cbbd9dd3770478
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0
new file mode 100644
index 0000000000000000000000000000000000000000..0871fc2c9a0a258be92e666ab40e8e0cd2b58c05
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0
new file mode 100644
index 0000000000000000000000000000000000000000..ad3ffe36a36f395a523670b2f2d5f42c7806d95e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0
new file mode 100644
index 0000000000000000000000000000000000000000..291c83c436f1499d39c9c4585d9d10448c47bbad
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0
new file mode 100644
index 0000000000000000000000000000000000000000..a960613066e110aec8766b060a922cda4a5e917b
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0
new file mode 100644
index 0000000000000000000000000000000000000000..f3715fd30e6658b420a4735a802dd43e910f6cf6
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0
new file mode 100644
index 0000000000000000000000000000000000000000..0495907b2d3fa3c981ff9128958945f73e8d6485
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0
new file mode 100644
index 0000000000000000000000000000000000000000..28942d5a0abb9e4cfa80ffd8dcc8480d3be9560d
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0
new file mode 100644
index 0000000000000000000000000000000000000000..e616bf65472eafff88dc3e3bff8b8c85742be320
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..73cf3697191783aa7b7a9ecf02f87d32e3114726
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0
new file mode 100644
index 0000000000000000000000000000000000000000..73e5a322774855ca17ad7644b3291b7dbf6e2c21
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0
new file mode 100644
index 0000000000000000000000000000000000000000..e6e245b8010a4054cbd4e87e019f180ef107f052
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0
new file mode 100644
index 0000000000000000000000000000000000000000..0b6209638497171fb447c0e3e6b5c5d73692b2d1
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0
new file mode 100644
index 0000000000000000000000000000000000000000..20e250f27d63039309adb5b9f018db74fa58f484
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0
new file mode 100644
index 0000000000000000000000000000000000000000..b986b2c81568c78fc82178c978578dbeca46fc09
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0
new file mode 100644
index 0000000000000000000000000000000000000000..c112811d3c48f3d9c9af646306e8d46be1c1943a
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..d5e5776db81a86b151e89e4fc8384bc7969de0d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        6144,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        49152,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..73ef2a597a53a832a8a5be24c41d2270c28607f9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5147e5c2e60e79a09ecbe1658aaed6b93ee43fba416e8bcf75c5ca0b6498dc35
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..54f8b4a89919ebd2d6e1731065ffe7a86bf0faf9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4627190d74f7135133d5019b022166a3eb9b89c7830efef9d3a2ad4309e173d8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..363c54db82ac160d0c7e2b418fc240102e887222
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09f4148c7fb758681425cbaadff21e2a41b8828e1d33dc3d1295f756af449aec
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..9a5db756f423d683c223e45f90245bcf9ab5e8d1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f1167dc7ac676363fbc94c38790ed24856a727bffd28fb1a58e77a57465d03d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..fab73d14bf7f45015532533693470665eff33a11
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c501e334498380112a85cf97349e0ba867b1de1ad0af9f9cba39e011c39bfb2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..6a8e4fd9f1887ad86d075ca88694b6a81961f9c2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:adf93f0253bee784c977e056e0ad48e6b04eba28790c7882e36ec7129ac4fd23
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..cefb57820ffaa212e3119feb7737a4649dd3a0d1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e2e8cfec76655d732b435110a527d25ad8bdccd97a15371782a208a4f02fb07
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e859630866b1f03fd9c907439817a0c4c3372b4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/0.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0e79b2275e0b0d227298440001ee0f4840279c6081388726e9fa40462d0ac79
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..698fee9c9975b6c87f97563640ca2bbe0b759ccb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e30108395ea2e95285e39065adb7eb7858e0421f43f974a7faf0d90dde42b0fd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..366eb5c21dccc6a5bf858de06c115d5b445e3d44
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:233d8a6f2606f063a3b796927255ccd7b6feb29a4208bb91fc368c6bd64e8eae
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..ef789c9eb67f6e09dc4b67cc4e5692611e70d2da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:977fe530f0ad0f50def90e6e979ef833a245acb03d4e1b2df95bb7bf9c3b9f8d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..315c231c94fbc04b43cfb414b51aeac173cd468b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf029316b98c7d52e0bdd2a708def21586ececb3f4d0605f960ca01dde20bf2a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..b73321f65f96281a9253e8c8e1a80fb2d39ec0d1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:90d03b8698ed901113775f1549e192e5231071444787726cdb57cb454909fe87
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..b868c9617ae192c525d3715f9a3db2f9b6fe8fd0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:75c6e71c91c7cec819bec4a6c5416975e06e7f4379ac5e2f4d394614fc8509b5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..cae6ea20a625b6e8c306bf9939022fcf05a17d05
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65abad4859321c82c4bab4d32844e3154fb6d0adc918c0e6bd79de3c4576a024
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..d2d8e505d7c03f4fc6e1b63c0eb843636a1c90d3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/1.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4c168f11a294e90b11158952b9dad4db77fd2583984bcd00393b7cb7f9afe09
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..04ac2035e2e2c68e6fd23458f3a354c760e2fae3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e80a89c6984a7e762ba46ce43b8c6aaa0e8ba1ea0580a213f31cab3b5a71bce
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..aab5f9a0e7742c020bd6fef96e8cdd2d96dd3321
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a36d24f04e33855e30827864cc4e99abe93bc8db61f4ab41f0ae7f0aae902f4a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..de4e413ced327fafcd622104d441e23aec4869df
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4ded74e59cdc54dee95213d0df7469940a4864661b439dd5efd6470409e6c8cf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..c978015f02909087a73a5b9e2ed911fb94d4cc6b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e329a4690297daba81e6fdc1afa2b9c8b98110a85e6c7d2710b49d38d62914a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..0d0a57761fa7fe56c95d35f8136339f12cd97fce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:36445bb52eb31c8a6eb08e065004d93482dbf71fc2040c2c4c50e551029ca232
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a31a9df0e7672550683d37395b37bc6c7b079eb8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6232cfa697b562d19806e398505625075b6232c798d9466d9aa6f119e551c760
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..6bc603efd31bbd10591a354872fce1abae21b77a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e218489b6e41dd0e6a78189c5f1122001ad9be3f4f920db75d3e8399780f03ca
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..53f6872f5cc11520eb73a12be450894ab4295cdf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/10.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:306b8145ae6384ca26643bac0a50111638679945feadfe0f247a1245a55b0ced
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d11c39cefe3d1d1bac5f92a5c211f66bd7c48e11
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ef13fabd9b87c5ede1806627e7041b716a68322692a16f4670236bf7d06d2d51
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..6646d00b30cb7b40a49166dac91b1a79f653526d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aab0b48d63669ad40baf41193e25089e3ed90631bd07e62bccef2c28c0bf047f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..c221f9077c87ae93d4a4a90675462218632fe8ea
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e12394c8d22d370ec3fc37cf717b24aaf50eac93553e2ad8e73601e52fe1cd66
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1a282ec02a97316359eaf756f4c2a466f87d68bd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c9c5d43ca373c28ba7376315272c9fccae8dba86da68e0dc0c3b02784dc3bb1e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..2a0c6cb0f003cd713e65fad2edce9f0cc720e5e3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:847e90a726cc61baebf1b9b0bab73638380a15ffc27ba7812eb96e92155d8415
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..bf493e3a98991fd2942ca1efe1399ff91101e065
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a8ae74c5ade034b06577608cc69bc5f26075959f752176ea07eaebc091ac2cf9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..151a179879d7ef2042e99959d9df797311e721f4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0963f843135cd8431eb689e9f02adfed1d2fdebbfcbe12b650040787110f1a3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..24cf6ac80d3a0aac930c82cbc5120af3cf72d744
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/11.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e25bb73b1d1977637211b3ba5452714409ef7b0b37ad80a1f57833d51d67d50f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a0f6c5002eef91411967523c36c3dfc5ae06e740
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9121ee3f8a39b2338cfdd1c1e037dc7d72b9741dab9fd651fd94414bfef3f3b8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..cdab2f4f77ad6836b0e5212b29f96f74122334b1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:36e5ee1ca45cfc6d1aa0ddd6826b6271571104dededdf03cb0d62dfeb6b44de2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..d21fed4d47ba99fe5382dada83df298919c85743
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a8e2fd22517ea1a03568892a1f4ff27e0336a6ef9f5b2b57e5d608a55d6db3d4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..058e1f64b0232d4badee4090d8cd931ee8197a6b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10604ca0bb461d5aa52dde61484acf53a73f862aae781d20e31d76225a1c22c2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..41e585351d4f49a65978840a7b238528f961d028
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:28c94131cc44262e0aadf1469349c390cf6c090bd079c3b069d04fd57cd3b266
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..996f891f846cf6dd639abafa6af5214a963e16ea
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b4538ce8c06e4da6651b50859e6e12f3c2207a1eec46a2d8a221a3800138c792
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..be66290a08651906936087478fc83c69bb441477
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:669408adb381194c635ac39a3838ce5b12c6f71bcaf012fc22f0a5e16455ab41
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..573a186a310cb440b54c4d0744fd49f65f0f2bfb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/12.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ab7f77f012c84c591d71642ff2dca111cc2086748226d6a4337425459d416356
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e714519fc60c4cd65b65b3da2473d8f10736c382
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd4bd5f6075d44611b1451c7b0324938394fec3927fd8320c05192af2a968883
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..91ca508d8293297e95665af8e8e18bd3182443ce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf3e013453244a2a00ddd30b0ecb640aa2383fb797e84d98fdfcf21b3a9cc08d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..97a35567b8642fafbfce83a881b1dfed462334cd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:92b085cded2bade3b99a23fa24ef92cd5ab5f3f9dd246e1f27d503925e76d1b1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..65c3a1abfec14d0749999f9670219c05370dc8c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9422e1e1969a79b2945a515c2c123723a350f42f93fcada3dda97e92210d7498
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..1d064fade9d4d281bf86828276619aba57710c41
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d6d25123a65552f118e2b11541704fda69302c0ab43dea0a47216b9690f38fc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..03927951577dbc3905829830074cb8e3ad2b04df
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cbee3d84618430424ed3598f0fa0fd343413e81f54795fb1879a892dc8e0621a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..1fb49bf31473e0f6d9cb9afb33e48484734eacd7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b800eebdabc244b357dfc60ac5cd2cb135c8f221ca07178e707abb328822b6a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..202de5c4d5c96e4cc911ff8a0eec3f021c2a7b3f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/13.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c97a0889c5daab7e7a3bade013c26279ec8d532a5c8fed4c0d28dc6531c5f8a3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d4fc9409d64859de9c43610f7c923ec2b8b6cd95
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a1072f5a5ca1457d95f84e329776cf3156c3b822b466987285c47f9d440c7998
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..06e308b4a3a52d0eee0f46d86e61b4e07859a96c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f78293465cbcee6e48b539ee156686d3298b36db27a5a4280ec100a5e669d875
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..808c60c3edc117534251e270f5eb701dc79136f9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3ba99623278656a8bc09adc4b5374235c621575d93c4f4db5433aef536378c37
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..fb68fae04e72e1f204e6ac07de9fc6976e855206
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c1a2e4c15895b34df9b174e7a143327aa2c0698d6c2d48f12f0cdb82a3880f0b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..860c559c725454d8920bee6de6adc2e2e0b49118
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f457312dfc74823c6a4144c28382c56267518274cd7313e6628dbed655968da9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..bc2a3b12c5013be21607835f7c14c429778f8342
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32f000dde853e7e196b2f16ba813058954f1c7c48df41752aeb490094d843564
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..89b349ce1ecb06b6dafe166cdef01cc9031bbd5a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c99b62311d478630da1704b20b298afeb272da9e65b44e84394227120e447457
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..30d776a50871a2dc7db76842a6301ef2e8fc0941
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/14.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e2cf5daafbaff45cb5a7d759085a2e2a7a2eef1e32e4491747e69d3c33f029c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c1a611f6b0ce3682a16c4a53c6412f344d557858
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e393982fa2dd047170334796cc291deb03fe47d447d831db0cbe755338b01588
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c1efc15532a383d2096b00e91cb32f56b86feb1c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:66c1f00a8806cc8c3d543679fe9d593298147f996662c5ec71c9a3d8c9ee9790
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..669e980d8fada193f9ae7d4304c6c7a28e8ac784
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4dbf320cbebd526b0f80c882b1508af6d6455ab68cda3ee952b73d1ed22e6be2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..c7bffd39cf668847b01b4ed308802d2a19673663
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9c577ed315ca1a31be0127cadbff3aa38d9cf654be0875b64b869a93602999b8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..42d211cf04bbd4d167d4c0c73709c19be412024c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:40c94a1ab76f8dac9cc9aa55c64954357aa8983f9c246f5aa5322bfaa2e323f4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c487f2a49b2ac16aeb067901b291d51cff51227
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:94f8b4c46ece8d66c91396f36eb2dc5a667a422e1d0f616f2b3070f6c5128725
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..d9febc7f768734b5c10b9ff0e77599ba3d214fa3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eaa74a53686a51115d752331c43676b2ccdcfa3cb1e050627b82cec236cd32b9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..83456554c21176dd51a7df094ac09652028f23ad
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/15.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4989ea240c0e9f40e673eba99360b8dafb0d51e0f982b5a57e555f9d7805dc7f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..13d5b9a341c047d4bd5428ee77e7226a4f5ec51f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:faba4ef85b284280d92bdce63e7aa8e58b0cce86cfc3f2ab36dc96b0977b268f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e3f434c2a0a3e1752b4b58745ca988a135ed26d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c3410956f3865b9e8f10410f041b0e60ee242737fa81402d5ba0446fd343e52
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..8c10b89358f8889852bc3d6b87a3f241925a8377
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b91bc1d42575bb6e4041d42e61fcc6a2b0f3a049f7f95ed29b31eee9159b453f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..64288f1f6afdd4b3ec158c040861dbf35d965290
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d7ccc3af1aa207a1a037fda295546be5ccae27e9735cf3f7994c7ff12958ccf7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..89604e0fedcacc27146ceebfd1bb1424750a67b8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d425968b1f1a39f0c15bc89c4f48bd1b8e08ee20f65a31d77bcb38d1b19a3be
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..007c3ca1ee6a0c08f208e2de2ddb5862fd0e5bef
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aaea1b2bd6283924e293efd047ce0055211af8d80338a708fa3adf3fa3812c64
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..34772f11eaff5b9ec00ae38a384e7347c38da2c7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:24a7108edc1b1c89887ad445564572d2e570016cec849d6c201cba6b4e7d64d7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..3f78d8f3e347a3413995abf9a7a12921d9ae3326
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/16.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ccb630d75aa1764a94d33f383b0de344ad94dfa598d70b2ae7ae3ac68c2fb0ba
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..974150ca658d773fad9c7e7f676be0beee789074
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7662ad0671c5a4cfa26d6dc709165cbc563d7fa0a590e90f88163dbfcb1888f1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..fa9e81b7df1c22f8be326ce09bc6432691a8184d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a7b7e27d851b568d5cf52b22f7160a9875f5db463dee7141d78115ac478fa666
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..bc29ae8c48a5b67c6804022928f48f4305211ec5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:57ab6c8c892680fc9d04fcd12fc0f56a88d8fea2cfda1e17e0084eae333752e6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..3d7ab733780bf3d3b3cebce337839daa82780cfe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e46a9d45224337e1c301baf641eae72807b5c958b2c555b4027d28895e6d09f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..dd7effdd6562d3682dcd00cedd90d90b37be0a28
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6763ec78a21f6875d81379c1a9f809876cf0e848b9e6350ff03d90b635bc368
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a30014b7b2e3bab71ad155c0c86b272aa3c0104c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e76eaff1376742e2b06cd6969e28f66ba0b47c874da1327181d47eefdcad8508
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..1ff18fd88db4e1c6762ba5989a7d7574b25dbb8e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d74d99dcd89386ee83036218ae251092b33d55dcb18d67d057ea2917aadd9264
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..1ffc0b880554cc1d6ff8fa9aba65326c5ad77cb6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/17.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2e3a28a734d6f901bee8243da6711b06321ba96c8f7295589de9010728c47dd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fc5ef6170bce014c636309281c6be8cfeb9f2463
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5b6d89904774732fefcef12cc9a6bf79e4578e96907f3f0d8f862c92da99f722
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..331593eaa55efc1aa64307a86e8c88f79e4b58ec
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa13813113a607a612381da3dda20e4fd89e1aa8e071871acce6719beecad278
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..da3b8c537073817f91648d650c14f1132dce8238
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1caeeeb710cfaa0c0c717375231ae5eef9116d0d72c04f3524fe3be9a05d0c03
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1ea8154b9f834748daad220889fe8b01b4aa1432
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db992665044534ae0c379809ade24381a14c6a5eebff44a7ec5f859aa46cb454
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..226ea915b6eec6c73b95e560ef29009eb054249e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:acb2d9f826f864c5e0055ab88d4fe7d894de38ebea5bdd17c1a2a01bb08416c6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..7389e2c2ab0742c3caabe45a674401557f0e6d23
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:71a4e867234afdab1b86c221486cddde6effb45858025a854bdd8da201e1855e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..7efc2f288a90a59a21142c519cc6c644e4a6b796
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e32e947af971995d55f2717b05b65471828bd8bf60f960e3e58c5e5c35d3030
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..b5f8f5d39e8b49ad7e9761c6219731249079f577
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/18.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:084a50b92c71bbb3fff67ce5f1909bd89dc28c81a662181336230d191434a62d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7aebf90048c570f9a622b670c72c701053c3f276
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9dd14ff47e354bc35f3a8a5dc3b4631f356a9b1924d73a66c4a7851c14913072
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..ee5d8c0ef4d13de4d20931128e362c108deb2210
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:12186d11ffaa39b47d117af613cc73bcdb889c82cd9be0dca1cbac0f15080c70
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..1a7933edb73cfe7306edbfb5885cf50ef2a0ed24
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f3d34cb3affa766c2b59ea4e910f8aad1a5e15dabcc2f57792c7eaf2dc2f6ba5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..9bc494ac467d5220d7bcbea118c2148088dd92b7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6183c40f9781ccb6bb707d59da046c0c1a289fa43a4d0ece25679e9d113ada2a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..5c3cdbb8f05b5606375bd769c3bee7aa907a265e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7bf4b76c5ebf5aa395a99f9d16a2dbb6388f0da97993e6a7db891b9a7c134ca5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..77d15a4d43c2b111f79ea5873a39dde02bb1a847
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b368d2c39de767576d4ff44293320bdc7b33030841f418940f96c81e8c3e95b2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..86e86fd1083b56195b5c1ed20b8f9c13edd1de0c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba2f5ebc91bd3390321faece14d23e1f836f4755f2facc4708967db71a336a0f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..e55a74d6c1441ed352646b62ca441edc88cf71c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/19.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:86d0f715b52aff00b0a27e0bc1ab70e065e93ff3e0dabd9e840ff3f707ca67f9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d7825e96a43959beded6f0a5a1edd9713e8dff38
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:49edda99559634c4cf048f63abd6e1da9e3f086fbd31b9c0130bdf8a92c7426f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0a6e4d2056e8965795f1c171e54f176b818b558e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9526de4d86779dd96e551bc0e2446b8fde04bb17ab49097ccfba986d60a41d59
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..851da7e0875fa9b9586b9533f354b0d5de615da6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74c8e268f787af77454fb486b82552b11418c1dadd2853b033c5ad977b794d2f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ac932fe0f40a2bb3645aba39f0ac7b80d6a71ad4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9b82fbcc59c24176eb3e81e0999c7fc538773670304163a28e6f79670966df39
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..29066a66a9084fbdba428339b9a6212cea055532
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3ba7e2bae3c0af7fa2242966394d4c1c53c8ffa913223ede2f13b31a590d471d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..ec415dc792dc55ade77a4f757783c1faf8a81901
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fce2a6941f6fa24a7eeeb5181258ecac9052f8b4a9ea10e93bfbca2ac04a7e7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..db5bd626ffb92c4113d3d859527ca6da639ef893
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:47a46768c4abd34a89729b2bbe8127de978427b65e6b3cdd8e2fac4738961ecc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..02b316e5768d24563bef3206b1dcb6663502931c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/2.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7522f4f623c0aad3d4f33874acfde0e807ca0a3c4a40bc153e9ad29ea5bb3b99
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1f4504998768a1c56cf4fb4f693f0b74e1685c6d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3d185fe33244d4cb49e9331ef14daafcedd1efd6219e2a2baa575bafb0e1f409
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e6ab92aa6aecfc1d0c6baf16dfce00dd44bd3fd3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:163450b89603c9ffc47f87930b9ba2ebc40984e62ce9a6cd9bb5eaac880f55e6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..e675a87f2023a015ed8739dfc22e099269d1cd96
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:20e99c345c41571720678061f0eb8ac0f28c3d7d757809bb228facfca3d0f9f3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..a05a723170dcc1e8ff70563352505d589e45e99c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e3dc7d5da17bdcd2da0e7069a0bff3b039b05fc621ab83e257b6e4e7166cb049
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..1658a216ece0a2ad62f15d888f890428b8b839d4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:58ff8e5fa43762659d9ce38d651e457ec85c7cd3be7e758e742be84c20da0c88
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..f764e773e9dbe79b15efc06e2a781e3248a085d1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a3ccb2d24bfee15c1ce2dbfbe5385a36f546d6e5a04467f9808fe04adc3a24c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..bef1813ef3e29595e8be6ff9bc80e6a012e6634a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10231e8c38bfb8b16add4ef3dda6b69844229401e01f435b81904de2cde360e0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..0658a4e51e08112c4762c29d0e11e7ffbf61f706
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/20.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45038062ed694d2f8bdbf4dc9b4e0e6db4ce60a591ee584fa8c2cc2489fc4354
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..560871c322ce50e1361757a1bb0b167480253e43
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b7c933239aa51504be3185b46d1c0b0f5b39742b18fb2caf2f302c34d905e06
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9dec67f380cdde0ff24653cb09056c4dd30b9148
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ea09b79da859f98c7598923330bcb44ce49494716a80693b0d16e896012c561
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..216ded46a06992d32d539bd56dba4728f171b24b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:19e078ac1fe9a2009f969cab1fea7e3f4f27fc5bf6c844ae510a190921b0c568
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..44bad1084eeb5d6313968b46159bca2bcc16f296
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f760d53e19dfc63653c297c2dc60469f0d0045d45d2538357d97b3462a9cd6a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..da7c9dd96c5620ef4f1a5c7b78bd3b35aff868d8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d0fac5dbcdbe5d5f0b4695e0729140000056d83ac227ef3d4169781af6f13d19
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..fae17677eaf0561ef64088a3991dea90c0d2d0e9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:215a4f3cfea2959d2f6c7a3e98e9f1fd1d255eb3c91e9c0fe70781b6f66a9b24
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..dee53ad1054bb2cc4bee1a679a3e55d64b31a45a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:55571b3205b5e74f42fe8803595ad2b1c204aa9cc9f7406c3f747d07ce1aa542
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..b8f09de6b1ef9bf5d648e934b203a21933e5283d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/21.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:282dcad1fb376aecd3f00d5c7309049d46b059bf1ef8ff3c5ce2e1d8f952b7d9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bc0da5a6ecd26f094f9582d79510ec3cecf6d8ad
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6a69bc2fdb230bfed12b12e68cc1b930486aed9d5be4ac3a3d9817cebea17934
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f11a977100e2c674f024083afcf9c6fa8254f65c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d5d25f327625b7a96ec26310abd0284318fe0df12670f8473f46cbb5726cc79
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..d07519359025924a68d241fb3c396d6af3c0a334
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0d27eac3abe9ad47b5c2f72587c358be9de5e28254e3ed6181349d88a4dd7ef
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..692d6e4afe9bee41a0a460a4d88a25120fb09b77
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51e50127861d1d20eb9bb5e8f60c6864d54397f5cfa2654a8a04e22da835172d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..f0e224338124961ffefc0e691552a28467ebdcd2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:877f42f8e153a7b8a191f02c4567e8ba6b1324bcdfa6326a0e71223f0fe9517e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..aaa9546a4e6d9d83455dd03ca995875ceb0bb1da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e19bf921c4edcd0995b0cdf46fface8530cfbb24eab87160334510feb57490a4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..311812502768980aa021deaa05d50eac8e95d99d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c66b5033f0360c6c404b7c683aad6ff76f2ba19526a640d65d0e6c48e991f709
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..c182ff82b0f126455296813a9a6ce15b938312b9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/22.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf50635a72e6150ce1009206c99cdaeb8a6cd6f5e90f213f53c93e651ccc0c11
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..13958188ab1984619067da3f21e546a082346357
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8df3573c292227547c0233eef253204e29540198d2604c3e97bd8a52bbccf578
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c87fa56ac376be7ec0392da1846797ebc06621fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9fee42a7d3d538ae165c1d92f29afae9695af8340c0e4f6578963bf3dcf262a1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9329fa040c62addbf75b5b062396925132ff423f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:602e35f3126e17d797da08a0e8e514766e538e53ecd28a5385d2a13942a532c9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..57f49479ffae3199364646c8e3055b843158a1e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aa385312db9852aaee12818581a01c16ea8e6005b412b4b1232c2ca77eb803cd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..599b4606a8d59bdcb9e867638d1ac8dd1e38d959
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e2e669454c23d3e0ddeaadbfa21da1d5f220cd57de659971ff9e6ca12f875523
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..b41ae6dfcebc4a15c6326f0ebf39f4374e3cd7f6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c35301d5aad2b853e16c4077d98a869d30203861985e78fe645757b3a26e2c1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..93e6e07f7a08d39b1b466175921d4261f232293f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e93082bcc66871b56fe6ceb42e55e29caaec9a3a798819ce535ccec6ece0e867
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..dcffe16a534a0d5d62bea9dec74e07c4bd6debc5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/23.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bb8bd6ed5aabda922b5abde85bd5e01fe41529e95eab3a27d4eed2fbffac5244
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d668d9510ab952b3f12772d4810b796fe8637efc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0783fb75aef2991cede7518e389b6d3804706aa2c3f6145df442d8453f732077
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..734798972ee27f8305b7107f5d15b14db19024f5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:39a01333fb8afb70938a86b07387278de0fd628092f7b1d164d43e4e418125b0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3a979918fcacdc459f5e8d936eb797c5c3ae385a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b3e15687c8cc4973502b52831e29ccde77af0ebb4bf5277d179cbff9d9f748b2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1c761170d9fd7a76d66b8ad200637b854765d86d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61f7623e8f8ab2ab0c6078790170616b3419c2657e8ab7f47f062ec5475bd8e7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..793928adface864d31b80855a89481c2282b5043
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c4855134f8a4628fbe66d85dc684d31df506776e1d7500d75079d925add69a59
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..62004cb735c23aa5be02f1a6341bcd53b00ba8a8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:79985c433eeec618955111b5378c6a777e043dcfa5b91db4792fc0ce2c7a420d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..1a31dcbfbf0e7e4d7abedfe2cad3d14cd5aafe7d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30be617271dd0eb34654009e6de1624509caef878f06cdc14b3b6af9de2df70c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..3fe2231c93a0aecfafe6ff8f75f33b03030e7d38
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/24.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1283643eae91563a02b6a92ac0b2f1baa1bc44f6736c9035aa36d1d479036261
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fb1ada10802a2597ceb06282beae58c5bee7e6d5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10f5228e0f13d035339c37ad3e79b6b25970b51cc3d24f5a29381d920f59ef4d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..7fc7257ce0277fdd20c5d10eac68b6f34df6d91d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9dd12b2a29e160587ab932422af6c2d353262927e449d8467d51bb380b306954
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..fa623ffcd52ed7ff423c38253e11f96a4969e0c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e46f930595a9d2e72c4c02ec12267a515d42c765cc331e4dd4feb230734ab884
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..76f45d0ee16a649b91630c1f225c17639522322b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:03f4052f0c34f20afe0e288af9f654f280506567008d425012656ae670a8cb4b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..5542a12c67a0b43fdd6ecde8f37ca153961643bf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7973a5dc820959ef9d2a33f39f29135218a86210e0a9e201f8f228ef9fcf0208
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..6081ae727fbdef2ac1abf62ccebd48a66de33c76
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aa3b03b6873589215df1a059ca20ef10452dfa256355e8f03deb424ed0b57f76
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..8f1086ea3a027d1d063cbd5eefa5a53f365149d5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d22720a92fbc93986d4d40730285956e25542d0588301f2bd095e8120040d608
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..66d5b91a722d90cb3bf460cf44a7bc92ff30ab75
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/25.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d06191674bb0912fa16847ac404ae3d483994f025d221560b12a3cbeb9cda8d9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..76c579c996622b02db2fe97cd7aa6892e8cba2e4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4afd09ecf090ac6d4cfb2552eb15a165781b920563903a9710ddd0bebb08dff5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..cac372cad90c87ba9577b61297ee4e16fef30742
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7336c4228d7abc6f90be405f1248733f0f9535ffc9d17918ebddb50cc39306c7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..ee7733c6b35097fd9c41956a9db6e3d6537c4f3a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1bd2421c5c1aba68995ea9ac3553f0bf222acc11966b44faf99fd9ce62df34eb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..6102535b57a86ee50eabd596cc34a88d2a812f2c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:59f119d5fc89aca08bc6566a9b9cc21f0d945d80639b7b701d8dd82a0f9bfa74
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..61bc00b4be698fb3d85cac7f757f6a91f694457a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6cae0c8896d01474b3645a195c3f2b3f4fc079198977547d3a483e684caaa1eb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..4e25259a6f14287cf7f99a7746e9e76c8ef24cde
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3db5de4d36061fcd562aa7dfe509b28409a354bb81553b72babb4176d640f5b2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..3e2fb6c557cf831f27deb4efd9ec5b24d26e5ff2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f465d959a6d4af799dce969e6146416b3cb35346f38d5ae7560b90736eea638d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..e8d6a16d1901914d7e7414b3124384aa9f6f6485
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/26.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:57c75625aab46a0729c6b7ee047bd8529bb4bf15c27a750f533fa5ae3da35a5a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f6f9c4448b54a767bca77e17096d167dca8b8ea6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:28b4855b2f3b8990fd8355cd07121ef61ad987a2eb4e4bbaffb0e7ec184faa06
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..76bcca5c2d32a1e985899859c254c998d663f55a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:63f81342a38c7ed8689bdca9a4dce428d52841edc48bdc3201848630e45b4e5d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..da565ee38c604e070592e0717e986a42b85e1c7d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dfb35ab763c68afed5a72c2bf62e05d9c39f3f44e06e9fa7deddc51ba4891a28
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..5bba9fe6950a9313c0f03e45464bb3b96483b634
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:47c5a65b082e26ff078ebc57614fb948f8d98a2f75b11fcb166fd46b257f0afe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..6037943bdabd011becb388404f983e0abf1ee27e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14baacc1583f47490f412349c685fba0a7b6af0427697775f53894777919f1cd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a25992edeb475f71fd1283ee3697bc324f02ac3e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c71aae242a8ed153af086fd961c0f7492b39aa9cde19a4fe3789f3fbfb765269
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..ac750b71690fa6979500d820438c65267f5b9f22
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:90528e82f73d2b45d7cd2ac0ce77abb02a31b1351c3aee809e3b4ebca5854a62
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..38899ccfd58e2a2eadc0abc53253792a142a1ba6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/27.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d6927253fbe70f5c991efbff587e02711d5e6a83715d645cc369d05f05b058fa
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8944c54ba060d8242996a5eb3766b988142f1769
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa072a5b8496706e9da7d0985f0bca4bb86c4435e71e27bbb4a074ec2ce7f4ee
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..fdf7da4e27133ba5c54876a8213fa6fa1eb85bf1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8b4714810ccca78b9110d1fb2e937131e707752c6a2edf56f1da20388d76caff
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..e6be4b32854a3951bd11f5b330398c40b132c87b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9c3a22ec04089481ce02083ccba8bb56903ac070ab3bcd5c7480500f906df972
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..5f3f7e4db2cfa205b70228525015b19e11f1f9c2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c443c7fc0384fa8297530d3a9c0fadf78e2a519e2f7258016af611b6ef3e2265
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..b7c0dcc4e01636fbafd05c2ac8660807c137e122
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53486da415eecc85a4684d86e865c077753e7e9bb7ed183ba7f114334d5ecad1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..063fefe29402a0764a35a0fcf6699df7db7132cc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:43726acf74c8c4d33e86f86270f2a559e8a804c982fe087167edf20447d45edc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..9fe40fa6129db76b419e22874cd24c4b32786e45
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e69bd45731690905a1ad4f4879f9700ec134111f3e8cefc0dde28c42433c7322
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..83e8afcef1b1396d6ae502bfdd271676670a1777
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/3.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5906f9ae34616170e43599514728bc0a49ed46ee2bdee6bd5ffa86ba16db14d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b90f810ab4e05ad707d30fc4dd75e41934e13a10
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f2fd2e6b3737df2b0bb41aa23f60a995ec835f3d4158f907ab25e24b8d188c4d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..6fb98b043cd8f6545ae1fa135c8cf71c27df0895
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:810b0cc37fa8bdef1963de5ff1a01fd0f52e457c8e40da4c2929e51bcf3c1d13
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..97be63b482e9b8d1ad144b8045c0808497f3829c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3f303c90862be4478e30f7ed576499d3779b6866bf5c35aedf74ae3a699e8f4d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..e87700fa1ebf6b3a7d94fa1415e890c519fd9aa9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c22c8ca47e28c89b369b92d6abcd23525015c1f909810aa8883fed69e61c5771
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..9bbd86b4e85ec7bf91a0a0aa85986be1cb12b585
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d01308f8408dda0f2dad4cd6d48fd2c71d110a866296d54a499d8e5d796d24fd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..4da52ee48eaa23cea5eab55187928cdec71c3cdb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:34d7ef3ad479ed9815fc2a4718714d67a28dc50bdb5775ff51cbaa99ba8b352e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..d12a6293bd3232e7b062b329ae96019c6bbff90e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91a213de9f6f6ee2d815d05e875c0087b6844028073bf494b348511b92919c6a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..3a8caf6bd3c44a04a4eb021718426f99d1179318
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/4.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0782ad8483b3e62f874f4b2eeaf2d18b323c40b0937e647471d133070b0e97eb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2a109f1ab34cfe51e5ad41ccf4aa8199a71be0b7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f89dad3280087d99872536698d8505d0c88eff79938660724a2743dd0e75b38
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f16b8cea91da5785eeddb10f0acc2f666bd549f6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:56a222d7d2d7b506287e819f0ca109c89d7aa7729c74a3105b5d9297a85c29c4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..4cbbd51f280475ae377c497951dfeb4630eedb0c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ab6c59004edb95d67edf45826d0e4e677aa3096e3c3dfe1fa06add56e299b3e9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4dc108d6eefe8714f47884780188211e137e7441
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:85335aa3995f539da07336dfa2cd4afba456076ba368a786355e49a65710dd41
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..81ddc0cc3fc7e47dbfbfb6598873501b93d3c4f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d6375560cc8919b3acb3d651953ff50c80b8e38c1cae6ac4e1905755645f640
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..3bda848d1e84c7e875c818b0cd6653709012a893
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ee54f8f81aa6f7d56af8a71139cc40a604d55c2694d7cc018d98783008ba9dda
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..c9e126b6de45a197fe37bdfa3ca78779f4b629bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:98d751c53665dda21e79ed7ec993af92581b2122916b45aa77c4ab3642909c4b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..e658ee1a78bac8c6719ece0e80fca288a352f0e4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/5.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc0d75b2937549de97796cf80be31683a24b2e62d121806934c9be700c9137a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b1aec31a16be17cfc6c2631a49c99f94e505e69b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f69e43dcff1a0776807975f552c5300e5433576081685fcf7a802b58067a045b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..378500f4bac9ea1a370c302844a93330a11f698d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dfc1f9988aa0a72d6bc61c072e88d9bd1f63de063e6b320962bebe950dd7db21
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..c684d9c126cc071c76cbf78fb2fe94932847465f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c58327d514779d7962a10f30919a5c90a0256909ccefeb74d12d7181223d11e2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..d6731d81bf45d9aca06d950e43a4756b7bc08ae2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:439f437fb38fc0e688124525a6aad160df15ec950c14c300cd2ba8f627df04bf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..1db7ea21ac38575e136b3c96c64a57dc66491e91
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6818439874fac9613fa5573a0c6b9ed5e7c210928ba3bab9b0b07459dfdbdc2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..bd925d2198d8fa398367543cb8409224524df666
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:040427b75eee5fa30b390ac87943d91ce2d2faaf343b7d75627afda33fe53c42
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..fa01934bd8672d55adb1b47f1c051aedab9b084a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f4937d94e850e275aa134fda2646c3df043a3c05d9756eebe4c333d01c786893
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..8b81e654adcb1cb7da5fc5132d65aca0c692e13c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/6.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c3a06e881a458f8f017a12363de5654b1cc5ccea31d3a79903ef224e5d8f3ed
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3c1a6b2c9f4c7d14141ac639f8e5894303b9931d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc0f7dc4e61c8c4753674b8f960cb794f0d393931abc7874e63d5d45f830b267
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b9afad0823f8593756e49c9d39b29597aa5169de
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c07fe588091e46edbb42255be71ebbfd9e9f41a365d2859f09e5b82c88e6e294
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..a68434171856cef56e76fc56052c2f346aba659f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:46db0fbeded588c878ba8b1d21b4981cdcd27b0a44912c56da5457218fbfc88c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..313b76eb47ffa7b658f739163810528f9d9f60d9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a8d947f1893066dffc7930869bcfb2f615ae83cbe836c1f722175df85ebcba8e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..cd22d2bd528ea0741f3560b3e42d755aade5f4af
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2e56a8d44abcdc3a60e9007d59754e1ad457a87de3ff3be5edc45f130c4ebe6a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a1c12e112511adf7ca01af17892f1b20bc03a2b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad4785d7bfcfcf2cd975fd376eaf16ca771aacad958332a04561ecf31096d909
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..637a973f3cd2b6f4dd1e841f9c6a516e6d6b5ebb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:abca164c141a161f413d5bac9e61b4ebc536d37eb8f1ef3a481f781e72c778fe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..fd87305b4d9d178d57ddee5c1956ea7cffc5d5c2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/7.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c1072a5092330a2cbe630dca78ac38557abc7ab8b229ac203c7e1c43d1ece56
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e4d899e08c32d0d1ce5e3d54dceabf8d6e73df8a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:95ddabf5294af99517111c0550bd721eb8cb3d94b3c1258cbb20d6bc2e6083c8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..a6e2add512ff3b68b50fef456b4640a797f2ddd3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3324b1478efab48c9ca58e1cb08062b5842c248c7528c8421ccc56627fa14025
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..91ee83444cb390ddada7d58b5353e456a06da51f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:83e050b810ea8122b158ff953141a2c74a73dcad40e820ce590e744e952b1102
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..6f5749cc1cc0679d3610938cf7ca5e1df72b535a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:22d7684d00ac24b4d4a9090c9ce1f54d2e3adaa5399fb706bca980209f9f0d4f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..5ca6ca6d25eea8f51034af13f176b651292f484a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7a2dce4dc5cf75fb0db1576d768858204a161adf93352b50235ea6d533d4a364
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a13868a9f0d08c5c6f8ab1faa9230996a334247d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f10af173210995dc0641bfef0ff9e7efa8d4ad02c2c1435dbffd4667035eaed6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..9ff335f237f667acc42cae6514ae8557d41359ed
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e489d3df24f2fce4ca938f55abc844146d9023172865fa4341c5d523d15da8c9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..56c7b3f61c0b0e435dd841d860d063b67d736710
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/8.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:525491a6d38a569eb87e9d2f02fec11a6191248cc8399d6b0584b16fb46a4c10
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..906ef657b78408e309061dc55371415640ebf5c3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:44f731b3745aeffaa0b142f4a8cfe2277ea77d7a03b65eca5f84acc0ae324cd7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..399d0b1f4f6341df5d2518eb7336a0bf820bb60b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b6aa51108aef3665506bc0e78dc416958cbd4bbe1aeec9140211e2b2b7009f88
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..67fc211d646ff40d63dd4810ba561dfb31380f88
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09d1e23050b07bd01256ddbbd1da5ae1172b87ee217d59ec63bf34417997f17d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..45b3bb8e79c46534dd19259e9cf8071c052f5a44
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ca695d53c2c3103c6d70784229e741fb549b57ec2b4dc04ffc37ed5b9c987e52
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..728884da4de89dfc738e65b18264c984af7c7ee5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad3a04dba55064d322dc548bc6d5906886d132d0dbe5817e2781852def061e05
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..3ea47d42db332f7a814b3fa99014f2fb8a585d1d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:caee5248de97a97138f9e5a09c41406834ddf3cf82bf67345f3e3ec6640e2bf0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..701cd92b0e2b7e7373a0e8851791c73ae83a896c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6ab531438efb920408f9d1775cc895f0200082cc6b08df99e85714d101892444
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..0ecf7a752b7f7f14894016819928a1accfba16be
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc1.weight/9.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1799c35694d888c9bad56df61f483cda52401373bd49595b777455e505c3b38c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..eb4b74c312cd10445beea2626cef1af6974295a4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        6144
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072,
+        24576
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3ba7130213c2709779b3cf32ccd6f999f03f9d21
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:375ccd5c465ae7afb1f8314c900f6fe993277d028072b1daed7859e2096220c1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8ffd0c814164480a37f3d5d7ed610fb6e9a0b5bc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35c1832f05db339af4cd96cf3453c420e2d3ed056526651fb1ebdbe09986cd7f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7a8d21aec998d9064691c556d74a8a305ebda91e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:98dd151320045abac702437bcb94e741641a97ce092f960c7b2c849715e91584
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a884e8ea7e5e3a341d244b122727aa434784aa63
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/0.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:70a8735cacf3f36a8fcdb3ffd6d90de1d3aeaa5c5dd5c341b4dfe76bdf331bb8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ec6dabf8e6929b83d012ad616cf814e03de24eef
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b8d11e895f11db0fd2c1bb2d99c0b5a724543fc5389851aa4c8d4ea1897d33f7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..c438aaf7deb6f4462d9f3a3af0e6804add74cb5a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5bed8b779c3b65783b341c285c6b94c76c6fc445c3fa7809523b149aeab4ddff
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..4980b8d8b40f1316aec75260ddabba59510467b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:122bd956d6b4bc063931a44473a4721e196c733b6a6a92aeb0ab032885af759a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..3e993cbf295d1b7d00f30085fc0f90e1124eaaf1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/1.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a987fdc2265a84961615a4a5d1ae6124598cb4e1978a389d0befd129c1831ca1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..03b851b6511fa6b9af44eda121a6b126a99f7f28
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:463411a926acc96cc5e2ebc3de4f646c0de3fca76b23b84f754d387758a26d5b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e5c198e8a11c885f2102486285a80a2d8ffb8441
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c58077b047283b52d13ddd964a6e5dff8e992518f1d96bf7d9961cb73976eaa7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7a3332d2b2a32aa6978882ad959492706ff7df85
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0565dccaf4ee116e83f77686e2a5133646ad27a74f8410f2dec87e8489fb7396
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..edabbd751f9dceabd993b600332f5406261185da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/10.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:83f8df250c66c594f7d31a3f6cad11224e202c539aad3b1c4c681a7ffa2e3d66
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..49c983528b4c3294af02568d4a89e7a106b0f5d9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9b3521f90b9d1d733122d027698acc3f38dd64a95713d5e91817e89cfdec9f43
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..38cbc3101b871693eab7c7901b03f4026f4e7925
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2989a59a4d8da021f80d9ede4d129f4c4fc39f9e29ba4b6d5703b2294bf6f74
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..6d1d3a93a4314c3246ee9cb2783b083ab7ebcccc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7ebb8793c6683e1107354e017f640f77328f6169ac2a5b2a27bcf185d43b50f8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7054a555a82d5d4ecd3318d71edf6404ff06d338
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/11.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:89850444792532275309ff732af4b5368cfea5faae4455d614a6d1f3d33422af
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8cc29a63c089c5411b5f373cae15a9c05a924da6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:50be2c1d144bea28f0b05cf83b9ee540b6b3328fbb5a563a0ede1ed06e4a4450
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..c7e22258516fca14e632508806f0dbbbe59605b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8ebc380ff7c34c33e35b10c13abc4424e4cc6af1056adc706e39e0bf52b19691
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..3335f92ebf9eaa39bb425854d39e5b07585ac575
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e715d172d608d23e97ecc2efdae37985297707449f481950c89f4a22d782676f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..9628405233703679cccd0b9d76119369e351d7d3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/12.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f33735bec171b0aa377f3d0cfba630ff3b45388e82f4058875c633c0880962c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7c99a3c844fe71aba0261524b5045606e7cd563f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e21b5499c8515190a3278dd5270a2e84c63f7086fd7f9cb563131e64ebcb353
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..36a740957e3836bcbb85e232ae70ec05c6ffa03e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6ca657b7e6b4efdba3453774d8b360ae0e981806cf759430bb716f1d6536aeda
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..14043d77c652939463f3cd505492df168b235493
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0ef62de0400f95ac9d794d11739b4e3ab4ec1197666e6eeee20c581cead46c9e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..67bf6dab1d81f2da817dc4e3ec73d1a9a03b823a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/13.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f459422b108823de3df8364f78c649e36a9d5f414fe9e551ff5d71c1673b17b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..57db6d42d01120e80213ca149bfd6f7edbf9f3d9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5834ab09e82c4a38b4851e9a2a0ab11511075e29d4211a824afd619dec4c3a16
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6fdbf6e2b45aaf246fa65c5484f251daa3499b72
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ec2de9df97733bbb72220068c9b0f9961f6007aa2ff7f0b65a963aef646216e1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..19880259a398940b53fb632ec931ca16dacfcbe5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a7c8d3ec56b215fdf34848cddcfad4e7e95d1d0fa820cd0979665e279f90428
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..dd2546c7832f658b479fe4557d01a8a77cfafa40
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/14.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c5b9f58bcc22523c1164ea2c23bda83efb024d1d087be18b78b61f9421e2e5c8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ff2ca2afb8a05c56e28e0f323e2ec8ebb60652ed
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:95630a1ccba05d9567ee5772efbdd1ce91456f4ca56a0c8b4b2108bebe3adaec
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..704cabc61aeeaacfeb8d3c5dd01cb25c9a2a750d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b420c34f490e78fc4c5df1f8170185958bdbb90affd3fa7d0e286ee7737b4d1a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..fe083252b451a7b64bb79283d270991ed64bdbde
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a771a9fed1e31753ff44a453c048ebe94182dbecaeca500d66bc9bc8329d19a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..458eafa6ee765c7edc990e0ea91ebb898c4dbac9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/15.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d6de0cdd63003509b68d45351193c2231c1574d61bad40b3057a1e21b46e6f1e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d9ef80a23360213459f0fc9d288c60384ba4b517
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9146c0dfa09c153983f879fd018c80fa13f324259d38193ffe5b4b013b3c0d52
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..1fc05ccef7e50b1e64de3cac517b00c9997f610c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:26fe8851ea4177c8bac8e91d042758907f671ad4330488121d99de0919073268
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7afd3fb5f4eed324ba48e5c5d8698ca1145bb0e2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e7a6d28e8935234db2c9c35f6135c030e8ed3f10deee31bf290b82e965c931c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..667883a00c9c1950f4535d8a1c04f0866f1e4b28
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/16.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc6fe729e19f13e60d28e31feaac30c6fb2b4c86832625d57a6be50386278e30
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5527112c0aad192836671aec674377903cc3da4c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0c527c5cf7160acac091ccdb9e405a18ae8224639ae556dde068b71c2702d3e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..7c60ab76b11d5ae7a1c2cc11e3f2842680a4cd06
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2704e842ce07c322a437d7d6f270d74a959bda961e6e5121bb23f5b63e81b1b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e4321397fdcf7453988ab9af3e28619dbdb6f5ee
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eff8ffe93ac115d0d4debfede4186b0339e4f548921281f7579a3960420cb2c8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c6f871dcbe865f2614df58a98ce1fff184eaf0db
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/17.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:451cec6afe32019720c8ad5532f0bfb9afd5714cbae66e0243dd1a7e89e20349
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ff97f6a8136cd8e9e64ee1d570b9c4c8c7e3e8be
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4defa2c03228a03344003be8d1b9a8f67dd8b5e2ac752ff928f7d05fa99c035
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..cac27bad44c76b013c56562858646794eb8a50ed
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a79a72c92732760c3612bbdd2426aa64ff6394ee5c0e4464dcfd7b6d3063f05a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..19f97dede4ad65111024e7ce62a67540f890ae50
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e2cc070e924ed20de9d85d32eef6bd990e253d89592a5d258a590e7a20236668
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..bd16ff52d4b6ee07c9aacbf40898b8d5ac07b506
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/18.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ec3d69039b5827e06bac48865ec9270682aa277bc6036c7d918d62ba9604ffae
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fdc96748aa076b78fe1f582da7a81d4070a873fb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9f73e86bba3ad9f2ab6ab5fd1033cf9c5a102347809d8df4d5b39692a00ec914
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..56dfe972b7079eb88e0094fc60fda14f8e406c9f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f2fbcfe51eafe4d9b89ca387d8bc539b92512239d6bcc49bda0424398269758
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..24a4fca954237377634492fb7a5b90d8d3f56ac6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:864297e7b32b1f7a495c4d19f66095ddf2e7f14284deb8bf653f67a441076b17
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..6be79b23778d7ff35c74e7491c92ec33301edc38
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/19.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2768faf32d7a0b58ee7144782aa7604b6c36e18042f58727e7a9c6d86852af1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bef791c4363c36e392100a2a6ee5d39f3cd0a642
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ec22d62cba15042eb564f4414229f6427c964ce8c2225dfe7a9361eb0054b00b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8e3b2a65bb207f54c8a2815bc01263c79a06ab6f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b7ddf79820904c1d2e7041be53eafc4b3656d4bc397745dfedc6a25ffd9f4503
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..8c4e06c962d2f635b597facefdcbd6ad8ccc42f5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae6447e475ee1a3224924c7e2b158d208332b9f606424f73116baf4fe87a5531
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c48fa8b051b276c6dde96e4b6f786a43ce1cd2c0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/2.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:54309e80756372e631c8178fc9d54c9d879596bc33b53798014553aab2453808
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e33349932b170fb8f56dae53b68d8be9530494fa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:12d45b5c7b4f51a1ec7ac07d07dbc3e174e8063e9878411cd8ed883d610e3a9c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..0ebf821cdb81ebb2050d0a520b44b4055cdf57ae
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:957eb8fd56f2383e5738098cafc53c521e61dfd651a09b2e31a696679a03fab6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..29ba714d6b34f85addf27064e87bfbe1a3fc5cc6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7014b2f5b24aa413641bd15468a43086f6e974ff323ee43c9581bb25d048b7b5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c7c0dea771a2489824170702c3352ca3e1c30f11
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/20.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:592985bb67f97b63407a8ac0f67ed24f6187f0e6f296b110e184e05ce942ca84
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..afa95d4b4b8dd57af23f7725812d69d0b0cf54e2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8567719b54d1dea5c7e700af3d9d7a25800727d0d0a7f681a23bfaed1827c0a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e6cdb9561afc042a88ebab47acdcc646590dfd8b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f0cde59ef65ed3d1b446f15123e6a64748da1820b21795022190cda9b0f16fe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..bff3080dcf3dd2a71952d29c419b75530aca5724
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a53b31f110be993837306239c8c33d6369ad0aaf2b38fee451db934c75abc7c8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c79220ade8444244c8b73375e217be3b535b69ca
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/21.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa989084372de0dc3ef42c8a5925c44046ee3f5582f4c893bf67a98866ef8baa
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6d38f9e80f97e5f8546fcf3c2100760fe0c5517c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0bf6602fb91a0b82e5916a935f6cc41bfddf3f46152f69e691c615bc0d8c0d05
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..144d4183cd08c57e667b589d83074daadd7cd92d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:800bfd72717da2dd8b6edaeccd95edd45a7c1ec6ac89152b9bd040c871cc1ba5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..0c7de1f2b7bce8027d0a0a4fae39e443c40ccd2b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a08188483148951deef87e50b0d980b37c6be1833576d22630076e3d8f64ca8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..1046b0b430c98ee3c2aa5369ae87e53dc93f564b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/22.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e6cb3e2a91f080eac93684fbd6347348f50c5e10328e2f42802ee066bc62c23a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..903735885e2e175affffb8b192a9c4d28ef8d491
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:92d449c42ec1b5abeb1b1a4192e659d13cb70d49a4d0f46259e3bae0f51a6406
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..b4a884e68913e1d72ebe1e1c682360195833e585
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72ec27866ef1e86a87598b96ccd6460146ea7da525a0dbbbe169df80935e7ce7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..aa08f9711815c398c91e8f056fb6a14e7428dcd9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9316661e5f5b5b1fca273ef2fef20bfb01bcef58aefa898e01e69b758d1648fe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c1979c72818ae1282f0c9fc01d06367a2a128b00
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/23.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84cf9a1874374efbadf7fb990438e7905773e5b62e3df1430ce4529c1dc04745
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..35a0548b1a2c959ace42fa0a611dd0a91f9d2f4c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1855ddf885b4d6052e430554c368678ae3dbeaeac75e5acacb36655663030471
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..9670fa5c3c20d019af5ca4342a5c88c1c6f54687
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53ff48125988df01c79deff26a6d24c35f16fac8de810740aac884ba08987ab5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..67e10b2b005d7240eecefa4c5cb9323e9f4efee2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b763474345b5e939f687042a88b46ca9a2efc83aff780aab59141f66fe73ea36
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c9d768b1f2fd2574defc901d9054b46761beaefa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/24.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc702a110c1c152198d42613c1e12695a51b4cd19918f16935aa5e9e1028a4e8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0bc82b3e1a50ac38f0115b6a933f9437654771bf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3aa21625d9832e961be3173b36b1c9465699364692dcfa24962aa503a739ac61
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e235fa4bfc8f360a87b663bfd17a2fe9e5b5907e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6affeee26ed463502df539133e05cdb04f1888d94dc0488f93faf0e4965cb492
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..990e3045c1f5c23ec59c91f60f2a0fb3b5ff3bc1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3104023a39ac5fc89964a5552f5d1fd644ef18f654b125f0380e08d027ab81dc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0c94e9b0016ee2abc8d09da53ac9b6f18977778d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/25.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dc0847a45523a1483014cc35c7c6416aa43ee165a8a5987f6fb28f51de378fb9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f3445a4f2778833343c3a926e3a7e1d5e67de203
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3b529ac6584bc5dede6a70781987a35d8838f71991fff79e92b22a8dc2cb57dd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..498c88ec15f088df07b05b91c06b35010871d1d8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1572fe734886c4402af39e6561a5320c9a5c284c824a8b575c7f6e49a4890e81
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..c9f8a2e43bd9ef1152c5e832bb65a722b4614508
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd282dc7b4d02f3596a8ccd037b7e07dcc289d4493336c7e451b1d5016d1c59c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..f629c097f582058c681d30b573307b2bcbe63550
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/26.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e830e7962d509d4d63e8aa2df9cd08271148afb154e5678235372135bf90353c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..619429e95752e6311915fbaae07dc0c589ef4e75
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f36ee37300092d320da6b2bb6880f67474093f88179aeeb0d195f219684f1083
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e47f2ddd0785af65fe2b929bf3903e3f67aa0850
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ec463533746209607c6690b8b6b0ce80c2562181cfd44e9d9e268da628b3c91
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7d2c5a21f23caf5b5e1507ce3154e998c114c311
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad8e9ef404926e7a37d496eeca0ea7eac1a07f039255b4bcd2011ce7e30b3643
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..9f229b1ff2b1de015717a2cbfd569eaa98be01ab
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/27.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ccb5a2b206b2b3b1636be0136a4447a2b49a05430330e29dd5a9324a158f7562
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8cfbea67896827e376a366f72d37775b193e59ae
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fcf33dddce9292f9758724c544ebb50bb55316c3f711492186dd0bf7477b976d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..84c26285d54d12a7be31b491bbe8dc4d119ee81e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f51a095116c906838e3acc94ef115ecee3419819cda0d887f90320bb8336d1cd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..2f1bc2d4f255ec72efd1d906eeff45d2fcf9d899
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c4c37e6c5f54c312540834bd6732e440db1801eb66c06f7620577e621ae23a38
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..aabe0851232848e2e5a80653f16992db66065cd4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/3.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d5ddbaa4042099411047f9c391c842f85aadbda5c6a04863c8c7a8fcdc2fe6b2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ae77e47ad6e7c559e3dd64a5ea994523ac27dfa8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fb2e2fd319036ea58fee0458fa3728a1e4b569bc7a02e3e8dc532548b71124c3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e59275dfec0344abeac804e469688ea157f8b6bd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8504a0213782eb2f89fe640237180b770303ff52eaac795a2e572713a2534cfd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..d1f337f78e259685556862057031cfeec97028d5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5f85e019af419915374b9f75c0dc25a49bfec689a670f8cb5306248bc1eb986
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..122d344306e071efb4683b657028f8b6ecd005ef
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/4.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a2f639952fdfe8cc0b29b78138b3e395fd102e3ac6506bc3dfae01fc44cd1d98
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e5455fcb9c23a28a0e4c5c3c7ad34bfe1c924e85
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:98460e351993344d2db8bc2b5e9491d380f224bdacdd1ff81926cff1d9024d58
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8b5f4c53efcefd320fbc5920a724b735e8dca21b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:38a0638fc1a1b149b2866ca06c7a9e85794549ea6295cb10b26be46de118720f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..176b9afd9ad24ea9667cac4435fe6e8c4d8b2fb0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:01d1b68e0792656614b5e4e10da8cbf927aae95a63bd967fd5b7469d45270422
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..f4c457662e1cae5c6c7de9b2a508d1ab174a1e3d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/5.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fdf85025abea494fe8f8cf846c11a3fc1834b960f0292932ca58a133745d4306
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e09f953fc0edec0cc29b05441dbad0ee53214189
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4520e2092d24e18bb68a346fae9dd84f87afbd1a804a3ebd229d69c528c484fd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8930c89b9c8a37ee8951900a4acca84b7dc02732
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2144c72a4d09749b3eb14bf1e2387d68c1bec51730bfd015e538a098c76320c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9aaf841352fd4e01768749653e82c365542d343e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7ec3ed7777f6a708e9d61f1d15046e92b78132b0f12da4be9aaf09cb28c2eb85
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..ace3c6766b4e8c0e94d4b5425cdb0024c0c3eacb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/6.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9fad4acb12be70ba9fa1b8f3386b3f0fb47b659778e13954f5f27fe9fb52efcd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3251a3ba72fe65adb2247236af49f754d183c7f5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0857666ba5fb8910fb32143672e536385c45ca23bcde3febae4bf10de275198e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3315c3e28483a3df6240a8705c551ae70d36b2c5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d1852241b76420dcb0c71af7b9f5837191fc00387539cefbaa170d1f743ac4e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..5edb04b3ee67db99d795632fe8dd39da306e79bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:29204554657f2f773c3ec7d7960ffc90cdd2608ed3464689268678fca440b272
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..aabc29f0b16745f4ccfe9ac634b5f053461b53c4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/7.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5199102835cc1c6fa67566d612f13fa6a7cc298b34e647428455c1b8b2e3f45c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8ad917979a7a68e03942cbbf0aaeaacfd0d70cb3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7560a76ab67e34860be1e2e1ec1f019ff1dfa98fa153e9a73b5652937bf08d63
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..7d61b0d3e1f88aa0edf6586138964c06b64a7383
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c5b54e9faed90e7bb957e62696b60fed9fc935785cbd418e5c37fa81bf5cf86
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1f99219b47b99a81b4e4718b4bdbb36c937b23bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c12ec41a692988dbe447715a0d6b62a15e64d4b5ae01c9eabdf938bf59488fa2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..d9f55d2f62e6368fef8aa82b01bc328cd3b42906
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/8.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:843ea3bd69a1d14a3035c98b8d745d82eb61190e5ec683abd4338c85d31bf7ef
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8736a05eddcaaa7815da967dbb21153b518e146c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fb726f4cf0e7fe3376a36dd84e46871eafe9b5aa3d6e796ede3ad2d285867549
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..79392403cd1bbc23c7e0cc579cafcaac520f22b1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dcb1fb097f0b3fd502fa8dff0cba9aa1326bd624aac308c22136a4117e3ff6e6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..01ca9a2875a771a90ab4214a0892277bbe66b486
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a4c9a14342b74e7ca4d7cfdd3499a1d422624f2dfafeb96e1b24050bfec7649
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..623c4ad31f31dc5170d8197d5ea79f7bbd12e43f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.mlp.linear_fc2.weight/9.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:792056f106b0ab134d45e434381ad0d2fe9a20093fcd41998615a30dda692221
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..9040e404d6565f783a236d945e5b9c23767b9021
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        1024
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072,
+        4096
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d1d7d568fcf7d9e2dcfc3cbebf240c72a874a929
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f36c0f26c918f3de59bbaf6892d85d74e2d26643cd46dcdf09a98342737b4ce
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..860e03b47c73eb186ea13e196f3401eced82b67d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51e54e80d7bae9f7e897601d639768fd28645ddbe3ea8c19dca200c9c91cc5ee
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..ac6924c6fd3360d689c296fd46795dbc9fdfe0a7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d48a08d1d0764a439671d31afa63b22140c8ef9411e772239266df13cbd4b365
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c32a338bad003cfefc1ffc9caebe48faad08fd51
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/0.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:58199f23f7e3c5960ee8210d228974f6719dda9b452d23c042476473b5f467e1
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..421f2bb8c7007c7e4e56269c9325306041d121a6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30e815f0bc873c85d6ce6ad9bc97278c63701a1ebce2e40dc9e7632fad8b7f41
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..389c0b7c574616103c2b6fd3e3195fb11bbb96c1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d36401dc5bbd8d040e00d881a9da2ed078b28a1fc486e94da6850e3d9023101
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..c909bf4a1b84788b3a464b27587ffe5744d441d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2033ef2d897c682915b4835971690cf9bb621886c9e2cbe8f8e5965bdb411fe7
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..cf3b749159f46ee9563a021ac703e00e408e3599
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/1.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7c1262dc5030d638fb3d674badce05d40ab26f56173b0f522f2dcf5d816d7134
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a72d4c7719a0c851cf93997a2af8fd7f68a083a1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f4adbe62c0d523fddba9247dff720357d36e078c81824f51b4bf3b79001ed790
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..24d7d630753f18b0326e133ac1c5459fb099bb8e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff3f2e6a2a4ef88b4bb63c8fe820d2856400cea726b3ae8c9231407beadce609
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..b064da6d1e7bd4944605bef9e825820c214dae16
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:99b1ef1036b5962557bbc87e39953766391748fe634abd89071131fec3b66852
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..aa18d2302449c0a286a2b39f8b722afc3821d74b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/10.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e1de3c4b6d055b79c75c6082b13654377d0486b6270a2534fad3628dfe014cc2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..da979e2e00ae0efdbca7180729531d5a8ec660f2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:381c0461863a0bd60fb7aa1ae488d2b07996e5f148324da9a9716b8614ba1b65
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..048b8b44b7814f9877368ec5a8267cb834bcaf89
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9288cf48191907ad5a6b91cd1ee1c1bb9a6131864f4e8c5b1ba889a7d844ed3
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1008d6bf0059188a8ee4a8537f87e839973d19c1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3b637532d8b39d0f80ba88cf6ae464e783de69b89fd50451369c4505ad01cad2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a0000a27861157d481feb46e155b705d9dfa9a24
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/11.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:79d5b8f7181f2ac726f66e5ccc45b3072ef29e7ffb23fd8510e21b3e8190c4ff
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e1116b4664d2f689fad803df864ba10793a06b8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a2a4571a8e82005c7b5d04361a75c562d042cb372257337819ac8d0f2f2942a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3bf9d72c02063d82330d75a56267fdfc33a0428d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1b33e22376fdd4575f204809d6a1c6fca88b1eba95285ed15810f8010c8d5716
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..93bfb5a9cf63cbc1a5f7943e043bdcb42b70a861
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:94b005313ae2088631a2564c4b2011599b410de03c6466c7e278a654d0a7b80a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..1b77c4c49328235de5e86623da4ae1ce1aaba9a8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/12.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0cb79374c070c366a7251698a10561e2d30306f775c6c4c08d72c25222ce2606
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0209eb8a7066f1cce193df8f78719adea0fab8e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:541f6c8d55dc75eacb444fe18ffd04cf48e35ba810d8db2d1eddfad7a6c311be
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..27be76fe10579f217fe2b79b3b81eb80f77b70d5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:54beb1f38821b12b5d05642e9206a481890763c6d155d10028dd481afaed0519
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..99b7cf5175428fdafc395b0e6f851108bc964098
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2074394c050e8c733f4088a4e0f93f4ecaa28152725c1fc1c5046ac390fd078c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7819e79f9b5a037d2c6403c3941e39c9185e8233
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/13.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e143939e3260c5610c28c394ff0e9194e945a55ea3c219be8f035c7e6139d4c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b609a1bfce87472da51ca99648546dd863bfd531
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:845ce8462a422d77b6c977ba9fdfd5cf9d635595b1ca9f9c430ec17b8f6552d9
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..29d8388a2d98e977119bba73ad7f20ccc1b84fbd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff3de52fe2b248ea1efae6fbbaa8e82421eaa03ea34fa2bff47f18479bddb02f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..a044d4079d4a17da3b016a1b8907cd15fb5961df
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:edb46ccb113f9b2f1230b5405d6937084068d4f27f5773552eace20e9897df3a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a9c4479a9de2383cf0db1e7ca2b94fe017e5a8a4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/14.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b0557acf17d736dbc8a16175bd86447d154adbffb5b9cfd70edc04727c31559c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a51e577315904dc42555ff65ff0f9dfa7e80470e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:28e7a72058c983196596af6800a17cc4820bb24fd5d60ee3d8e13d2d8118c38f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..d3c8241ce0b2025fcf993df4e9479b4023ff427c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d81465a885e25cbb89ef67e46df344b20f4c30872549adada2f4b22e3a5e29ca
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..2b84280dad2588ce40da6310e66c832ae0cf8c85
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18db9051399af2b83718bc7db41553ded8e08ae688a4722aab15a154c94fc118
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..bbd99eb0380a68ed93b458b82a9944c2f074fa0f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/15.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e25cbbcc96ae43dd3e0db799d0de693043332043a00cfb86bec71482f4b7405
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..99f6218051e3e2e5984fae46802e36a9f8d7795f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba55f17b9ba9c725b523a9c64398c8ffe0fa8eea43b34c6630613c4dcf58ece3
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..23d8db352308bbc8be33df60e7c2527407964c96
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aec29ede2c66bfe3b472a6a43aaf3774a695255fca2c1b21c4ebc0e34dfc25e7
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7edd2c494550b49d19ffe8cbbb0848ff1f6e78f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1680a2aba6e6a713e6cb629c4da80b5e021c601f09e86937d17a45813e908d00
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..53bfb7c98fac41ac3dc37cc97bc2472d38830e26
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/16.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea45cc7396b839b43963bd404b03e9f14856010430517c56bf37afb956f7e58c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4365218dab94896f201162645d0011551f4b5342
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d5ee0330a97bd058917fb87cef6aa5651d71826a3cb491208f858bdf3ac7451a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..ca48a4a2a1af1c8b15bfc41a8fde71b99c09ed07
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ceceae5001a239633a5215c4cc2138a13ad1b90a575acff8e88a02461e76ec84
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e5a8daa3ffb0aa2a5f6f1efa15ff9b26a7ede259
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a81157d0c99511b5d92a66e63bc624fd16ec1b2e1e3589e1df7ab80829a00da
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c0162ff2f6f52682896fde0ced36d54e56c91079
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/17.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4da1422ad30a9a6b58716653ab82edb054136ccc22880edfe8d043401b03ca5e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f8c6b812a345c16bf346ba3cd891d35abe9e0b07
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e8f9822a5f06e17a79d016e2abcef67d8658848aa180362b7e880d53634e77f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..0b5a85d9f4939ce22d3af524ea96637ae8eb95a6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4680074ca7707364cc4ab5ee48f2ceac9294dd3b040ad6af6f310f0e2fc1ac3c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9f31d3745537336a62acfe57e441cf0b72ede878
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:03335525e410beab5acffdd6df2fe04b78165bd74a7d64c462651951e9cf54db
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..401a5889ba12956044cddca9e6261a0b84ead1ea
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/18.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f64bb9ea71e16e70eb8d369f3c3ab940204ad4e2008e213a62f414279b8f5c6c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..08976c9e1b66f596b0367c7d66072b3c51c59388
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9f68f4cc12136f2bdcf70f54fb151b64bf069b2a7ad914fa9f0c522a006f3603
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..45c0efe8639e487f3a7d8c46e23eb61c4c8a3e52
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae8e08bd97d13f5938716cc40ff492224d01ce710e58432bfcebc69f5783a812
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e420ebf1f96f4c4cf1a92933a6f2fa59a2f8613b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bfbfc5a31185c10290d10eb469da8220e4dd34d3514020dd1749ef76529cd507
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..3346faf726e654799f4a99d78fed7482effa5e15
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/19.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9e544bd46951e3b82304a1b38bb02b77721efc1ee01e90e52d455b0067bfa5f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..96f48e1e7a5b2af981009485c6901dcf3c8faafd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:55da3450b13b819113cbb23a771f815ad0494f06544eabadafc284d312b1a92f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..b4c23da321cf7568dd15abfb09531912c4773e5d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c59301a5cc2b815a033b92ba052ce582d7edc5b8522987d4ed399bed3063f0fb
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..3cd2a9b8966ae1cd0e2788b7302b261aaca08f96
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d31bd4059769c2c2304a172653d98b7f02ab94a04ab8ed52639094b79c5a0d01
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..af94e29d2647fb28828d2efc2e1c348b256e6432
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/2.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b48174821bcd391605dbfbdf6c4dcbaf881cef7dfda98d5e8ee0ee40a93b756a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..19156fcbe375310ba0b3c33cc217d888efcd9a02
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7fbc31a90e71c3328f8dcd8501658b9128613b46a3d1ad9ef90fc914217a19a3
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..c5011f5b315b7bb397ac2c9ea6fa3103cbbb6a4c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c980427dc55d8a68126a9b03e56eb0d447f5a01ae14a63af8960ec6e6bff3f2d
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..b55eab6558ea90a4455e03a6bf555bd2386854ec
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:83372f7834d065ed07b827ac07f00519c10880245af95787a067b5f7a2392903
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..4decd33a05687f853a732270eea3a3ca7fdb703a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/20.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f5d2cc36b8d825afee3fbbe409ff246ac769b52fe2af186417cfe6ca112f1e68
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..093ef14d13a878e04dc90f138bcb7d4a900ba0ab
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:344bcf30dbba9f1a9d8398a28c788b38b5e4e12654b1863d518f7b4aced4880b
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..af6c80ccadbb4346d7eb01e1b2cad6281288344d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7041c78e89f78b2457a9ff959a00b363c6b4528d433e9b68aba78687acab22f0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..54191b75d59d40e13c49d311a6e2f2682b9e88c9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4072dce91854d4997ab66fb681c72caf7ec3a8c74788236adb6cbc9fcf82ef4e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..1c007a7c4affcfa3fb469112a3bcfa7cc49193f6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/21.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc76472cde133fa4d6a88beb502b6fcb8777abc0d95a60a025a1bce6226ea2ea
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bd730a3d483bf0fa38a505818bd52bc1b2172c43
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fb146004256445150fbfae5e8f3990747edff05a25cd654f1b88d51a01253976
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..75d7e943c3c2b8c6c1c37b09de1f4961296be62c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a1825a754b76c1f9b235c62f8c9e8a264557b921f7aa5012725ee48a072cf6dc
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..ee6f4d7a9d10e890057ac1550f32536dfd4a72f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a4fbded3dd6039b5a8d9c91d7a666e48ff67f9e9c354381b8dda5d417b696f0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..bbde13477a2c3eccad583ef79e397cf0b05797c9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/22.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6f6edc7ef36e5da43b0d4addff32227d34414c418250990c51e7a70df7483567
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..22c72149f8c42a584aee078fb6844f83ab7fd933
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7fbacc32c2c2def0bb74cfd4335bf5dbab225ab6587abdfe4431d38544f4304
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..f466a6355810faf0b0890109c4a542ec4403bb35
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:436f6bd3948e27ca7d7957213a088ff5ccd64231adb684e2219be554db27ecc2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..49da4e93dc90b9228ed2dd3ea462f471c11fe9a0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c911bf78f16e71fed2feca4dbda54cce6953aced6ebf221ae87c7673bdbfb006
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..fba1138ca4438ca667f2909bcf1fa0df45a28420
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/23.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8004ecf20f123efa3811df10c33d630fcec1b657187e4784f691732b82da40b0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ff70dc5bc52fddfeabcf0782bb31b99d18ce456b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e0be190156cd5c2cabca387b5761ebe37e25a55daa0b2dcbd378cd68c2bf970d
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..fefb270e9448da1be2cfd78f41df4f8e169de8a7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd5afbc0adcc814a8956d2b6419e4e7f2136881d738df7c022a477d47b108f60
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..5c348fa8faaefefa92007d3951d75f74a40fe9da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:19421753dae065a603911cdc8c7608a05264da0b858e371aaf47d2506c3b051a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..266e25082f93ff52e3cc0ff33fc2e845e8d51a69
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/24.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:985c32304f10a087ea882d33434e1deaf820fadc2c6b26962ea3af7f967357e4
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b7476ef7fcd37e02160cadfcb4a63f3b1d09d699
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d97ec2169636c77947530d24351254f1bb81e0346fbccf1cf57f5f0c38d561d7
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..7bf1c1672d355e282c150dfe682b066b0e05667d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c70b7e06464179d1d95101656ed6690ce0aedc84515a71bce66a3f6bc702afd
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7ccc7d7676fc4b2f4e8b15a1490e6e284d769f86
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fd3d447185248380c84e8861d6f075243051930c974e15c9db8caa11f1c3c5b
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c40c19c6832fab2789716b7e137aa98971903218
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/25.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:62c44b73795b22baf0ec1d6bad148bdc9319f711140be4ec2dc8df048c1f2c27
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..14853d2b14ffdae15fb01bb66d5177ff393de6ac
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b0b3a79c4c96cae510b0d3d99ef712b0331e3dabcdf3e0f7eb6538f787eea727
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..bdeda0d761a3c87644fa2cbdff2c180ee33ff3a1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4ab24ae5e46f7530f6e15042dae800181486c911d5178fd0f4802c79e296dbd6
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..5a63498f659e757a9be77f9165f5cfea96a0b60c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1afb637a2636321c2add49dc0807dac98d9d659427ec37ce8ab95269ded83bc8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..13697c09041837c8e3ab14203dc83067ac63840a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/26.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d74ba05fecc456f7c662a712251acf77082c4f07a3ff8d1f6d8edc37a7629b99
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..cc2d504476fc4b1ac5707f1c1a2fa3a50851f505
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d51732a7b4ca36a2dd3de599e21da0a218b1013c1195ae5a7cfe02411d387eab
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e8188b5f978dee568e3432c15964fdd7c3880756
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:682a6e6ce5c8377106856b84964cf0f2fc1ceb6d558aec89251a1e725830aa70
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..01038d46c0d6258c60b7837fdaaa851acd5ffaab
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e800afe4c784f738ecc46ea07484351b560a93f40a08289d7ce0973a902d01d
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..08cf6df1ff23e5b8ef020d8ea740f9119e53d2e9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/27.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4a58a5a1e39705c00a808532564832ca4f9c3b492d85c53b5c85fc222ec3a7aa
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c9cf781f289611e4c6d7fa520aa912c1259f9bd2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:335a9ef406ec7981b60e95fb5eb5c958d51b3f3f9513ee6e994a0036da481f45
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6613c48372e9e53355eefadc45bc99c1227f5dce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a1a3c4a644c1aac9346b5a6aa53ec33a114c64b856fd27edc9043b0cebfb234
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..52b0d8cc6ef63b072f1d468099b154d8b0b6c83f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10460775f4fa2f3bce1e458a70dfa255ee56384a3517a8eb4c2472d5fa3b3bd5
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..68344792f91647b69a37fc82364c7f67fbfeda7b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/3.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08702b67de5d7d97649e73e07e97b6a52607979d3dbcc956c050b6952de9ae0c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f7741b37cc53a7d45d458c03f3f2212046bbfa91
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc3b696eaaac78093a08ef2a2b88e43ad2224d2c7adf698f04bb02dd1ea810e2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8517096beada7a4f0955988d403655de1d4dd648
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5cdcb319d458b5709336537a303019843c3fc5b55c2abcf92ce11df6f03c8c06
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..175ac857908f5c71d6300727457ade799ab0a0e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:75c512b43a1ab72407505b072aca5b7fc1f1cce2152de493722deb9f98eaf046
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..59bc858fb64ed9e0bd8b75bca1fe0f6e6e890867
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/4.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:23da5c50425d13a7b5ff3c30d5ac7e046869b00500e40e39d1c2b40b58c8b8b6
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ec2e64d7cd9fc99269de4564107f541c56714c5a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5cdd62b848fa49246cc01752a0c4820526fcae29f0d928c3b7f237b744fd1bda
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..eadf61e950d14eeb5a33e7695889537d7243b0f3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c2d2ec2585b9f69e495eb2adf4e5f4a587599e8e11dbfd1530acf2cc71d9a21e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..ff4c617502199a5f9128c498dfd121bf94e0e114
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53b5d2b64ab6b677cb1a745ff8f7a18422fb71c06018e013e4e65312430655ba
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0832c97f2f839a407073db28e29d14347db4948f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/5.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d7291face25ad313e1d369a765d6a7f45c8d2c1da65eca481d07b42f7ff1a5d
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ceeb839f37f3930df8f7e2dbbe762aac05b47867
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:04687200b21f987e1111b87182b35eb8aec8f28b7ed60e7c0c551ef0de470e3f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6d09c89b91b657bc57bdbc4af659bd9617f76160
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f4b265f71d7cd8465a7d5ecd7f713d8e3050993091b9f6cb8f6d5585fc536d0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..b7d566d4b3aa12d28f40bd16cac23c026ebe5428
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d7604444ad001c35976e5d09526d6f96b4f354976fde54bbf4dad5f6bb5fe5b9
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..5cee1066bf8025c668e3cd0c3604f6873b147891
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/6.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4d77316bebe2888cd845720d07906ae79102a4234db39f1c06c50a2be9274fce
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c4ec931f59ccccd1a9640aab7e67ad9c12db4830
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a76ce8dfebeca46ff1cddb74166ee8f4adf502e14c7615742da926eed4418b1
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..1feb61d7d401939382e59ba630822bd462cfc284
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:99519f59b984f9df6eb312bd52163d98a7db6ac55e25a7126fc6b0b43425a793
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..c28e90e41c9e2b49f52b8ad1b1dd92906c97215e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e8299a1d73d5f4295291f567bef6d6006e38e9c5b8720b1e8513125fec6457e5
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0cf71e5c6500b707ce0dcf7c9fd9b522a990e104
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/7.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c2063104ed4058a6742bff3f996d8f80715dd280a66ac5ea1bcc7548872b8ad
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f1572b3c7a998b13c12e6876394e02ff5f984956
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:22cb3fa2186cf9fb24ebf7d4ad1820f0099925101a21e5f8d0b7a1e1c3baa9af
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8ad22e845ef08eeefc4a57adbb8593ca4ba603f5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d4e3c97522284fe72ef9abef8c245493455283b4066a06d6ca35cb41a61f469
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..a724b0a1cb29fe7a7a701e9a030d71f8eb45e55b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ffe9137d9998e74897f6769361f76d2a5712a846d98e4ef42a98ea6d3ced7a57
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..5e5eff29f6ed7d54708db10ac0765d341efca9ed
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/8.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:73a7da35eeeb34fb73c55bc0c02ff7128cfc97a6dfc17ffdb922ec3c26a13f7b
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2cc8ee5498bc0c2b6fab1329e3982975956539b8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4be48cc36f4502f2f445127fc7a4d7dbb84722ab65dd8425dfa46332b96a7385
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..f06d10eb3bd9b9a40111d7256cc1658b97049125
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e39a98f8035ed6ab27806f883492f6382c60a2e4247d07030119bad0f2a9347
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..bd7d3c97c66182a36bbda3d8c098c9ce235974fe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9f970974f137a64ab425733119aeae917e410043cabef22407d5056ca3446243
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..51fc17e625178cc547256ce90b8249f996cd4ff7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_proj.weight/9.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d27ca4699eb497017eba4a99c398a852cbbf42e393361160b241f67c6b23ed71
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..ad63b2146cb31889c6a746a61ae72d4c619b1802
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        1,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bf7832123cb10a7e286e4ab4dd66e023e777c7e9
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..a594a84fb85a1eb487f1299e52b6adc9c19a8c98
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0
new file mode 100644
index 0000000000000000000000000000000000000000..65fbdad5e3ab150e332dfa14084c0e49a82302ed
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0
new file mode 100644
index 0000000000000000000000000000000000000000..b22a24ab3385c624a3a705c3a872e85d6703fc82
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0
new file mode 100644
index 0000000000000000000000000000000000000000..681e5b9473968fb2514d2cb660afe1b797868dea
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0
new file mode 100644
index 0000000000000000000000000000000000000000..56d5ceaf6924f4d3d8913af64290912ef30871c8
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0
new file mode 100644
index 0000000000000000000000000000000000000000..c4493a98b5a8c741aced824adb15e595aef83d29
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0
new file mode 100644
index 0000000000000000000000000000000000000000..62b00244a42c9457818e4b26a2929ed181cff952
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0
new file mode 100644
index 0000000000000000000000000000000000000000..f13bcdbfe2e4aa90a08036d620e25e3423bf0898
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0
new file mode 100644
index 0000000000000000000000000000000000000000..697854bafb1ace5db0e0f817505877cb3dc1209a
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0
new file mode 100644
index 0000000000000000000000000000000000000000..fd0ba3254212b8cc3f9830a2b070ca4f7d712027
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0
new file mode 100644
index 0000000000000000000000000000000000000000..de6b57b809c1b47257b23a01c5e83f8376fa69cc
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..644b296fabdbc87939a35f3e1f7e979bce1203c5
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0
new file mode 100644
index 0000000000000000000000000000000000000000..857f70a72f45c6baeaae4d791d46ab6e7d0b532c
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0
new file mode 100644
index 0000000000000000000000000000000000000000..8d1ca21d5259df5020e08058940be15c19a3199f
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0
new file mode 100644
index 0000000000000000000000000000000000000000..3c572520a2ef144603d9cc2ebc34c02b143b8d8e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0
new file mode 100644
index 0000000000000000000000000000000000000000..caeeead1a892affef3f4e9e901fe52ba542081ad
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0
new file mode 100644
index 0000000000000000000000000000000000000000..4bcc01e9180cb702c3b1b3636a471315a7b2666e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0
new file mode 100644
index 0000000000000000000000000000000000000000..d6c055a308782b67d69b4a292a1a34d823a32ee0
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0
new file mode 100644
index 0000000000000000000000000000000000000000..4ddfa7858710dd9dce97d34c4eb36864ca0cb1e3
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0
new file mode 100644
index 0000000000000000000000000000000000000000..91d3b18a34048ffec344f80fe156352efc37f4e0
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..bf0d9a6d1a2f0ee4ba346f52066a0439e8b6fa54
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0
new file mode 100644
index 0000000000000000000000000000000000000000..6ec55422efc0d2ebd9b6d73a2b72d3ccad3a3bd4
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0
new file mode 100644
index 0000000000000000000000000000000000000000..e7829a2c44d945489e18ab4e148e361d2f31f216
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0
new file mode 100644
index 0000000000000000000000000000000000000000..ad1b6367ff24e21f985bb8467ec95f50a95cecdf
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0
new file mode 100644
index 0000000000000000000000000000000000000000..1379992e99522bf355bd2ff987c68f2a5fe9ed25
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0
new file mode 100644
index 0000000000000000000000000000000000000000..2c676016447edc2605bb9f9db774435f13f7b9df
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0
new file mode 100644
index 0000000000000000000000000000000000000000..d06f858e8ec8d6d22bd5744f765ca98536545709
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..347f8615ce9067398122a5a72f37d14b017cac5f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        12288,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a78909d49ec3701a10722056b9c9b52bf8d3ab01
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1bb25e6f191deadd1cfc8cb77881f4e50d49d360f29dc3b9997c4dc72fcdc717
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..5a084c3d557b3497cd6a1bb58daba012eb6b42ac
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f254c69bb38a0fdcd125ee156fd886fa3c6e8c4632442c48f1b83d19bfb2f833
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..615854306da5c7dac3c2ba10b2ee5119c1b9e495
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6af81c0af03615b77734fc8c6c1544f8c25bfae126870e78bb5086ea47c7a62a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..85975076d3b26514d90eeaf85d7745f0f645c386
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:178d50f41bdb0b98e8d29b78b75ecd67c6e74272491ea2ac144b2d2f10ba2cfe
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e3f2f5957cd866f8974a9d8f8666dc48db73c9bd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db89f12b4a2b5f1712355c6e8ec5c95701c313dfb6b60cbe29a40acd82412f6e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..2146fda59f73813bbbdf8c7060502a32117d9294
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:06de38d8116ee942dc5b6d4f9332456cff1eaa8a8548078a2518dad476fb4934
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..4b581421b13fb1d04ce028f33ac7edc904217a03
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:80c2e988b13073d4cbc2ac249e732cf6195c63aef63744983739d791bb6fed07
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..347501e76b42de2f4b8754c2e9e20d43f2f6d811
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c7bfed2a445cbef57923aa15ec80e19799a9e41475a14a62aeb328355a5a3832
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8bc2a233e7264723e68b0f9bbf2456e5c4239a7e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:95679a30adae45bba0763869dc7c00a5e622c3458eb3fce785d2bbc141754697
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f39cc8006d648df7b21be8512f006cb93717b2e6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:768f14da70a0ea80d59ec3a8c66f4b56a1e1e6829da122f02580272aafb7d252
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3a3015040eb953b51af63b1c73d1ab362d9a4de3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d86aab60fc09b2d418047afff5cfd68e6ea9a6ef245e9f46fd1965499650d0d9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..03bdf5fa82232aa418934a6e921f9aaeb01e7d46
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc08beaf68176d82d262221450df27179e389bead0da8ab7a763dd024e396707
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d23ea31b5b5572a84af1f27efa02594a196ea8b7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61ef9a12886771c25cba7b92b029d78b312ad7bb438dd429620e35764180eda1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e6a302e2879aab46a74b1457deef09c2466458b8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3d6fed6ce6d86b50902dd96ae13e85a1b764a1d26c1cb97920fa7b0f39c03581
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9833e3705182f21586bc7085a300d863c2f4831d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0eb264399ed77e4a18bc6035fc35e1aa37aa3a730b4941d202b1d76a01143467
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..becd042161a820640ec37ce3ae2d1d0c580639fe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0785584994d35ca48137b2a8d4642d311ce6af0a981baaad3b7c853b84b1a39b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6a639e2ed7ba0b44ea4f7e33ade0a0818eed4555
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4736a4442e2285189d927288113dc9b9e1ca2f6a6cd4e049201ee71dad452dc8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c172673de83a7aa25c81ea6a847e139a8d4ef944
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9eec46fda3df90335ca5f1e2162ba3bdde46a915d4a0629a31229f94fa77d514
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..98dc373764057f60ca2cb634b03b5134f731e666
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4063e2f8d36e6a05452bb5002c2d920ad837d02bfc698e253e903f758fc9712e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..d9fc6bcf6371a4c6f17d3760bac027ef0086fc2a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa23a44fe79b6432143d7d0b4b95f8be256e696052f62620bc2135720f7ef4d9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0405c98aec6550a36de67e831f711c1cdff1507b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:31cb0b9eb0ffc1207d1f8afeeb8fad14fc616ce5cd747cc09af7fb696ef1bfc1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e2797ec7393f64f24a81e83af9092995024a30b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aaa954bc8bc9f8aecfefbae553058281e488219e3d31fbaed02632b1e8ca89b0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..5ea6f66f6061101aeb3160d7e42a5903cc835012
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d63659778020cd0a172e126821e97fa725443829925218089851c436f98fee1c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..35bb931465573da5823449198a400ac09bdc450e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fb1893318474efe15c47de11d1672ce14515d75d85a85475d6363de116c5c761
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..11a647e9df10a18cca0cb151374dd975afe912ae
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:09162075716e3d52b7bfd1fca62b6a636ca53ff28fb47ee2624d28f5ae3f3d23
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..81af53064e26ef49583c02a20263782c1543e16e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e6286a9ddf85e6d7b23955ae375846fa5c3ebb06c1d3ca361f7804daec2826c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..ce87b68a445e56abb206f78e37f0ada1816c60b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88ee3e7dece28999235ee64f01e63bde9c8a639ce9a23a231d6623eae9069b9a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..00f54108e60316e3b2d47ec54ba2d05ec1a73dc8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6066790393070b3f9020cde8d7ffeabee9b178cd11241698efc98fc9665205ac
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d62ec5cd351ca5dc778d9d29c31ea66c27b1f7a1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb0bd5d2a73464c49cf2c3fbc241244c9134a264a8e3e143d336c16048deda2e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..25a88b8ca22eaf01d8f67b2816da32dc4f16b2cd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:325d497923ab30fe6fc0e96cfe4268210933cbacfca5802408593439ad6fc399
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..a37c2ba88ad7d92a89a58fd8a5abb90903bf515f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2b1a88426d44ede628567bff3a7de1d3818f1302594a615921bdd3ce2559541d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1ca808a0a2cf22207d0234221cdb622fb8bdb58d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d6ccba5d89127eb6d7b70b78f4c92b0211d73c307b7038e52592333f812cbe10
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..80fe22732a1af5513078be61893a840bf64812b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:98f4113f6e859fdbbfa13fce745a2e73aa25c77906a43afff570388541032ec4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..17a78f9216c6355751baec883b580e7f9a4c68be
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:82016c105529c6ac9b450845bd2289f8288bbdb8a9584ea7ad3a8dd8ecfd904d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..52ff21ddfd3ab6620bdfcd269a94183c48ff8926
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6cab7e1ad1d8388a31aea3f406dba872710a39a620ef8d8f5c381c74fd79aff
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..d7df0134f7be6191599fdfa2dc5e0881b5ab0f77
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:af9360a1b17eef09e31f9b19a316ea49c02c40dbcfff48d03a0c5ed330859bcf
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a5c0d8a461d340d4790ec445f51ad4fed9fd417b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65b39cf74a7f6756094da1660ca5828557cab96c2abb2ca1f36e9994024e1d1d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c8741dc2a97bf4bdc32b87856a1fce31d085f616
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8247314a6ac14c5c24191641ce7a60355bd7a79b686e8e34cf5e314c8d3992a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..6f05faaa2957918cafaa332353ae134b5eed6192
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d36865f1b08922c326abf41a9e2e6b98e9d6a8c05fa220f0d26d6a3c3b600aa
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..e76438688b35c28b25eed2d42553865a783601a7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:46512d946ab948ee15375bb05be5b5666c8e7623c479c8bf5e123b4fe5318e77
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ac76cf7d2033b2531b884c6060e094048edaecc6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:84e534512225be39adec8fbce2397aafb010c17a6775990cf5b8b5928c0d5297
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..101f853cf27db073dba072f1671ef2ed7bc1c2ae
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8390bea4a1226995b89e008119567ba59aa1b0776976910f24e7cd296166893e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..8071ef00a3883f3e247c3ea2ae2c8c745dff54be
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72234dea971f64882b4ab4496a781434398e40820408726292cb157139b43f10
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..92b76cb644c7b09171f293bd95eaffb4a4e15515
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea4e66701392d9c4cabaa2231e5b3aa981cdfc51be2ab82152209326c4d4b4db
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8c0cb1998ddbcffb070452fc159793e92e1de0a7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b0f3978d901e81d445a58cd0d2c225c2b503b4b28ce46e13c96ce409849c21a0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e4fa14d49cd6e5fd2c88e65ae952635da160ad02
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cba89e9c3ed4177e2ca208d75888ded6cbfe8b84f2c0f4d5086378cbf9be0c51
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..eff2e08015cf49d4801af7f9740c2ea03073b4c9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b7792a6fa8a5cc32e8445c3a284eadb77a9ed4804fb1f2a263ec12b0659df138
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..51ca3d0969a6608cfec67d07ac8a3ef2a6973734
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:90c6d99e4d7cfdba830248806b933880183da082fe32defa8b07e21c34f571fa
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..03bc97217abd46e6228ca750447a5249bde30543
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72323039310ff12f4110bb14fbfd4ce6961439c96e8763edd7bbb157da8b9e4f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f24d81f3e47928e150246d45fc47f377860733bc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a25f36dae28aa94c35424276c16d27215f162a24a9f48f437aa810f92e0726a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..778d0afa9b0f7662e890ab01c82a99d01583a066
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e026d5152a777e3a631ba8e6b912fc84c8f2d7dbedf7328d47e00412579c358
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0f5638fc1c69153a7a506729566b80e9a8488d1a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88c3bd47dbe1ae5abec0e1557a02da8e5ae048fdcb4db1dd37bd6957bed9c25d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bc02b6b74fa3b9f7e054f3a18bc153e86d056a65
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:68211e65545aa5b078ac11502353b7bd180c447d9e7fdb35de43f094e66adcdd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..92be4a8a2fe63317fb8f323be626709051c3f812
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6e6239da4cc5f96088fdf51ed318ec5227bc736110cad099fe76bf469f880bc
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..7de50fcaba964dda6f124b122dfebd30d0569233
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35c0c3ed01e2484372b2ead6d6705023dd82bd43554d3cc65d1f57c6aeccc06f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..14958160a7e160c28c9cc928266c6fba208ec38b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a4aa23038c3656047eedb0f6193aacd3cd4fce5d9edacacd4c06b68de5ee231
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8d55ce1a9b1ef11160df100eb35fed4da53187ee
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e9a53bd8217e71e7c727f06dd41fc91b90eba8d9760112afcd217718a41d9c5f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..7759c9ad1b05452ba56b7a47d89c59e35e3c0391
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c80fcfd0eac4a64d46870ab23411e0fd36034c4db68fe9fd622d1cbcfaa2d08a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..ba25bed6a9919377ed1824e78ca5136496aef3af
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c70819184023b0a2eebe7f2c9d426829af5090b6371e272e747b3f6fa6580a32
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..5ff806633c083e80f076fd04ca93437c2780e0a3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b25e8c9bbed14a9a6a0852bb41ab56d95d0e729f2ebc65d16572576699c234f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b617c2841920c0f7556598f0880a73be26e775ae
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f388d473a423175322cf11ad61357f1d62364b74ab1cd00607f82ff7c2c6b8f5
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e8daa41852247cb6503b2147603782f500671239
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4aa0b625c82c752dcdbaa79531f25b93f6710910ed119e8098e6977f35d6a21a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..50137dd1e6d8708ecf46d7a0aab6568821f3cb53
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd581ff0ef26ea148a380253cb94d459699425b3bf67fe94eccb1bb88aa8f2ec
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..7ff5fc2d376cccb1a08215240dadd20cd6e01252
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9822713eaffb0b60a7407c4607c52f973e51db6afc41a2f6719e311457d6bf6c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e61e8901390058f0476d9bba872d9b0625049a0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4eec45b2e5e2f44c70c0ce05139c8569d4c712879878f94e2380952922db949e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..22340396d6770cf8cda8e802bf71c245aac0c44c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:867f5de865b21419898c06137a6a7bd5fd8050a2bd91ff31f8eeb1c8130923ab
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..dff649d3e5ee3f55696435307c008d161c8ac439
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e120321d39ab7d4c1fac85486243e3fc3d5e6bf0f5318c17d959adbf797362b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..b0ab8eddf3e4a56976e1c5b1edde64095aa2a020
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ea17b95cd6f5cd5c959552676fd516b191d9f585f0ba82e05703c678f1020c7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..44f49a03eecba5dfc385de1394e14ae7a6a6706e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb8ee604b2d6d846865d1265510150d01f422b7cf95c2e332bfe3db924bfeb2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e04eb6ccdb217a75646e94fa4c7c5825398e5252
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:172418818e13626c3f524f138b4496e5448f5addd1f7a9a422c122cfd096608b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3bb4e05cd1e49208bbb46e7af7f06fb5390d8e8a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f88cf8913aeef58277e4751bfb85db319489d3affa5a81bd9df420dcaed5de3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..e72a05d1cc07fe457424fbb19f1ffc2b0b9b68bf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2b195138d8929289f2acc4c28bc84bb1c9f4c8082c77b468e96e4bcb4779d4e1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fcca9f605bf4ee8564f191d2b3fe30ab94238704
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3ff42b35e2725c8f366da9ecada79fcbcfa21765cd0c97700c6425946bca985f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..bc1f8e75f5ff137e61aa8bff9191d5a35adf41e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93f471c5b6de935a2af6b931f6bd9b39818db95962b929dd12cef26dc2c46951
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..c3b14078d30b2804291e75fa2761e67350ff614f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4d9c173325db93513e944f064408ce3d10bda354b8b51d0823387c82bc5d35f9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..b45bdbeea691561bba6a4aa0ee8d249b81dadb24
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d0927ff71bb2d68fcead7bba6a4900b372207e9b1e8eef9f5a9c19f508212b3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c74acd803b03ffc37a00b75c1a781bf2f88c6544
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6ca094b62238859aad206144df5c9782eea3bf9375c94af8e83f15cfadd0cf1f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..ab7540b5090fd9a774a4241105adb249509912fb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3382d0bb8ca1ed0d4718879213be82376e69892984e24cce0399dfcb4fb6b34c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..f5f8f04bfa4e160c4d6bbbd03433cf4e1a2b6331
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2d7a07502d31d4c283d0d3d3a9dd2ee26641e7fde8222c36eee9c06482c8e09
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..40821e550175ea227cd9d7b6435de7c6c43859f2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9168fc0d52855d2c5027c8f9cfcb634a9ed2cc8287e690db71e5237883e5a16
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0c5a58784bdf38c91ad1dab16f493bdbd5f0b74d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a994f8ada071863ca083483095402ba72fe695a85ae9d893c0d824d200b67542
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..1c97971497a8e484af4aebfb72dfa020a226daee
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6404c15c731b2c2fe541701c8e44e57722c467ccae654243cde9543f6c888ad4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..2d3aa83ff1ea852975a4189d0400688a9c93dc83
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b66b32c434cce821be6d48c8e395197725bb99b0b8e0540d2920d539c570e3a9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..a0623b5e8e01e7711d4ff4f2e2a5cfe32f355fef
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6538cb6e516969c905fddaa347f945cfdbc9902e9c2b4c511c5bc90f96407387
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..042798598f5b886ba45cf7e3f5dacf01ba16f7aa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c13909e72d07aca97ed0e747dd382baf8927a417b2062a922d255e4ac53ee19
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..80020f396c6a553031cae4752570d446e9344e44
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b481150940d24caf8138d5fd35aa01ad3aa75ffc11afab206492538782c9b0c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..c5a3616808d65d9450d171358a6706a9111f88b4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8878164c514ae52ee2fb647c44c12bc62ead91653d398d579acf71196256bbd5
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..a11819fb884f341ffa5d35de64d9598f3b1c5b7a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:48aed52bdde44a34f10a04e58795df7d2ee324d423a030a55db194cd2a4c729f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bcc08d2c7d941ebd0d7b079706db3736062523c0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b221866e635cd44d4312be65c2aa820ba706ae61e714494fb6f3016162e483e6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e4a68effa41e02480d0eef49127fa784bbebb788
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:81c7a6ab30a9622b6ff2557a91f7fa405d12c32f2bf11b410f2b9ab321c099b6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..cd6d9a9800e6722338b6ec36694ef42219a33578
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7a8a3f64e1437dee79b295a8af0c66943d3b8d3b12b8ad5a1e72cdd840074f9a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..06bf3d06206a2cccb194677fe332e17cbc7ee389
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:75eeb3109bab15e271caae619e660667e0d6a9fe62545f7a2a81c0112bb2ab33
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fa4610dad19ad484a91b0eae306505fdd3a874c3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b3bb8d29e3da87712659f77c1a43205fa6af77d62efa1bb21fc030b495e3452b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..754edc7f760ca97f0d18d4940247e9dc9921d48a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d49e8fa9c94662e9464f863b8cc87978b50fcf97c927b8a73bc043b5295ddb1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..dd9b5118d7e38f8802ece27f8d6cf32adefa1af9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d74d59098af9b09a41dca5acd91c65591a8bd247c3afa9ad7942e1a137e75a4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..23acdb37db789f5621abbf33b635c347f4b885fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:da36ee0b07c05bc23841481cb8a08e4ac38ad0f444664aaa5412c092fd8540af
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0101d2a8818d099d33a150e81d65b4b41f30271a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e3f53488668301b1f86e78be0dfe1a3e570eaed124eb81e5e94817983208453
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b4c2aaf5ecbee74374d67457495259df48443a1b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:50d561b3d6a96b1a6ca0d626fa98e731b61ffec84c78a0850a28163e2a03d20d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..33bf5b67fd5334d1bb80b81fa9eab10a041b5b02
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9eb8adab974ae9e556578b9ac07a756e88d23af03400185dc1f0d489cec6879c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..5a5076d2ca39d5312749727c7b9ec9b5ae0a7065
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a5852213bfd5e760b28d95184ddb50ee20c64f9023cb4bacb393ed8c7593f1c3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b2527e94c494fffa406c107491ad516ec3a04f9b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aaff1798d6d1c609b3b5778afb287ab482e327ae73833463dde3d11f085b7171
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b9ad533d6fba83e582ac42724131adc05b9f29d8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6015b1d5aa5b7b91e886cd9e2a8e972b2c5601e3ecf7147f620f267c6fe67128
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..e8da06e371bde17529a49703361faedcd2511e2d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d08968db5f6c941b8723f61ff4a4fb4645139303b52e5f83e67047662ecd80a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..452304f463ecf7b197464b2f0cbbf52e627f7dbf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1974715dffcb8f77a111da3fc6bb1e5d4711aeade100b11b7b79493b45a28ad6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..304650b5cdfd4541145612751132d1dedb1f1db0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:04b77cd71329a9f5bb4088d19682df7bd8d910e7e71076fd69bda853c2034d37
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f37ccab981911aa4df64c7a0625c6ea6eea79e73
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5ced1ac1bf1588fbae5a064575257fd0aa5d819f7711fb1b40fd812dd89130ca
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..444ae536122b963b9679cc0dbf548be6457e87ad
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:abdab29ffd903c4c64db6362b1475e3c99d275896e5a58c017a935216aab3bd8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..fbca91c27bba9e5ff8616630cfe038f0144f82ce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6fd4485060914a8e69f5a3e614be4c720c1b8a7a14d7f1f5c93795713152a529
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a5588a681f5065df22f0433c0edcdd4325f9a655
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:405b724778b701d4522eb1721f2d32d6114515acbaf1066c9c92fe42d677d225
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0e1828cb09587a77436a5dac0289cf9276c6e2c4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9f34ad07426f54a791818c0b608210967e020a85a4c418c04d97f2357daadc7e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..b62ef12c1be80cb2d0544dabe18c7187abc02b79
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b64f3b17dd80a36a50de1cc4cfcdfa607c171eb909dec32b5c5d409295b23467
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ed2828bb59506a69178db775e0db1f82ff2e5f5d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce399d3df8ad55e3257437063f620cf8e5ad29cdaa5e7cb83dd60743aa1e537c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..75f564ce24fe17784bca818be4458677c05baba3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        64000,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        256000,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b06f09224db45595a055139925bb131de9013e1a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e620e9a7854ddbde0dcaee51f9855e5e970eb9caaf5ba434a99d8bfbc6c4c9c4
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..26b87662a266cbf9f5ba4d4d19b421bd59c2110f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e0af6a6be82c59d025c8cb5bec52bcfe837e32b9cf2ed53a0ba4ece8ab83e418
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..fd6b53f64310c4b418d85090cf8569d2be773f52
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b801b45bd5972c6d1b0f35313f4e9299a77f35103462491fee5a8ee4989213ac
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..f45062535bd2ca9e67421d4453cd92e259d773db
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg.model.embedding.word_embeddings.weight/3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a00cbf50658103ada3f05b7f4a6f7206895211fd73593a7193368d866d721d2
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.final_layernorm.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.final_layernorm.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..da2ce6f95967ba2d604c30a33803df2fc3263bbf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.final_layernorm.weight/.zarray
@@ -0,0 +1,14 @@
+{
+    "chunks": [
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.final_layernorm.weight/0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.final_layernorm.weight/0
new file mode 100644
index 0000000000000000000000000000000000000000..888764ba1a182713f410d29771fcc492857051c4
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.final_layernorm.weight/0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..ad63b2146cb31889c6a746a61ae72d4c619b1802
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        1,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e6090e4d16a27caf5ef333007f7dc3a472191231
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..169c3b8c4e131468dcd0fce036be18128563d89d
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0
new file mode 100644
index 0000000000000000000000000000000000000000..fa27c4f911c7356a9490304991149e0ad63685eb
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0
new file mode 100644
index 0000000000000000000000000000000000000000..d88fe6b780e7d55a043c0b3140e8e68b0b2ee05d
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0
new file mode 100644
index 0000000000000000000000000000000000000000..1ab9dbd06f10b02452b4b1e8601cdb621ab17a61
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0
new file mode 100644
index 0000000000000000000000000000000000000000..226d2cf556e5c5df2f011c090f16944c4083825c
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0
new file mode 100644
index 0000000000000000000000000000000000000000..d4c074d92298da98a2799eb2485da3812b3edbeb
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0
new file mode 100644
index 0000000000000000000000000000000000000000..99c7401943654d3b6e0d0cc8b486ea32d4b51880
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0
new file mode 100644
index 0000000000000000000000000000000000000000..60de408c637057c77eb49697405a8a6f77fb4f2c
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0
new file mode 100644
index 0000000000000000000000000000000000000000..04d5d1b7406eb1fc3d7ed107df77ff3e221fcda6
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0
new file mode 100644
index 0000000000000000000000000000000000000000..a6ee18da2f5e3abe3a934cab0907eee7f38aea8e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0
new file mode 100644
index 0000000000000000000000000000000000000000..a05adfe8cc566e295daf9b0d71d1c8f0d1400518
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..bd0c13ae81342e15f0ecd764e77e3d05eef9e9ae
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0
new file mode 100644
index 0000000000000000000000000000000000000000..9b22e0911c191651fb531d92aec4516546fd33c8
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0
new file mode 100644
index 0000000000000000000000000000000000000000..e6a70901aeacd3ca8036781c5421279d83dcfaab
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0
new file mode 100644
index 0000000000000000000000000000000000000000..47e7c96a5ce7262afd5c7bcbb9a7fc5624e3a94e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0
new file mode 100644
index 0000000000000000000000000000000000000000..057bc374dcf26d5f5bb5e8b183ee37302627a569
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0
new file mode 100644
index 0000000000000000000000000000000000000000..929fab0002f558ffa76b1c359d9ac416731c04dd
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0
new file mode 100644
index 0000000000000000000000000000000000000000..3cceb9c4bfd619623d4751f6841129b59e296ac0
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0
new file mode 100644
index 0000000000000000000000000000000000000000..2e76d502af97d2bf6fbcf2a5f1fe013102686175
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0
new file mode 100644
index 0000000000000000000000000000000000000000..7e238e61b57dbcfc28ba652ffa9a5679ca4a9cdc
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..b155d241ae6b25bfbe5673da86fc26dea4d97f3d
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0
new file mode 100644
index 0000000000000000000000000000000000000000..2cb7d79055b25844e547dd46a53576aeb0dff264
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0
new file mode 100644
index 0000000000000000000000000000000000000000..4220ad13feb6b1bbacfa7df644eb8273b975617e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0
new file mode 100644
index 0000000000000000000000000000000000000000..2b98338745c10b15af10779b60172f0482acfab8
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0
new file mode 100644
index 0000000000000000000000000000000000000000..8f4cb935ec623b12ff42c96c81908b5a0414f463
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0
new file mode 100644
index 0000000000000000000000000000000000000000..0631eb8f428d95568b17a2003215e63333b6b8dc
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0
new file mode 100644
index 0000000000000000000000000000000000000000..d463121a68607a80ebb9ce1c2c5e68aeb302eb01
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..d5e5776db81a86b151e89e4fc8384bc7969de0d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        6144,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        49152,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d3585ff8c1e4f76862e76e048e825636b56d122a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d63466f23c8df3906940d9588ada6037a304033d9889c8e53efafa3ff829cca9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..525a695c0ec2f3dc5f75430b2abd6d0c49ab9dff
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9cd57ef75070c11b981c0bf55296b0e785da887ac5f3e637bc15429f98a0acec
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..4f3d8cf78fb70d40d0fe259a546ad6803f760eb0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:828d68075346377e1dc033f2b3a5f0493bf7078ecfe54bd97139616675f20bbb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..dfd6d07add5b92669079a69c3cb36bb5d26ef316
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:94437df6c4892c5360b9a08517f33bedf17540056b2566a8b2998a9f2390d831
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..6d9c383e0f46b134080019d1d73420e66551add2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e5f539c222bc391330fc63446eb6561d1fdf74b51a44d11b1f2636ea0f9d8a25
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..1215cd2b1a8c994094d9cfc9cf445ffe4b3eece6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7ca70da4b32d0dd8dbad126045d1cadc21172a380ebb577a4c9445e11badf030
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..c185f373b64ae7325a38cca04ef78d49d5996e5a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d1914f4373a2d23058d137602eab3a3b63ea5536a6944e5b77223ccddace2e33
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..cbb3d1b4ee20af2b8cd46330e71b09c13ab9f9fb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/0.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d93c2b1d39bfe94f9a90d3305a16b9f9ad2208d6fc7758e39ea064c2a318e73
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..68c4169c5de8b2a85719e4c7fe6a8e34605d85b5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ac4d6fefbaa57fab552c8407c8d4a4213a65ffe75acbb44ce6d42237f67a8c41
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..16ffe8907e1551875bc78247fa41948b89dfe852
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0be12cd7d0e49ff482da60e565f33317ff6f0d012d944ba7aebb70cdd355b438
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..0d956d83eeced4bbac6abf198e1d866a8f4df13f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:19eaeaf0d0eb20a90f5f0769988b08a04530664ff4af289a2b024ded3c1a1650
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..89dc0b222abbf01b9eb4cc34643846ab8a92efbd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:13136e29233436291721a5b58e88a2f6ff5ceb8c163ab0a0e7fa42195cbfefe6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..2553591f7de00c1c50dd77438f1bac6af11c9fde
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:daa7340028da3818c732fa036ef5685c8e85e2fa64f2188af5cd1c5809fb402b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..f039f132ab96333cfd8dc27b20f63d0ba1452d3c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b36f3061221cdd15c10a40ab8974b6b73777a693ea69b773286091b26d6e58fd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..69daf54cc880c2eab63a5d5f4f7d71407593d161
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d11e38534b7ccecbd58091c39873defeacd64ba521c027b5344d1f7aa04ba8da
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..c7474cfd09b6cff52e52d0304e9539bd8f48e8a5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/1.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2ef3eb5c7a7dd975f42d9f5a2880fdc4e2aa00805db6da2d8cc1f21b95bc3b0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5610a5847f21d870be59c9aa2bdd4450a4fa3722
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7cffde6076a4c02cad11caa69457ad0083c23b4d4e3c1f72c12e3b7b67a2acac
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f4cfe8195fcc2f854a079d756b3d5f22968731fa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:01e8bd2a2bab0efd821597e259fe8b05d9da4f117e67a0504e1b88ab000c44aa
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..63ebd4dd43d7728b264f928e653944a089122e7b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5268f0032aa344d4249b22d9406003d7cf234b74763867114421a5274b5dfb7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1fa3076a7eff7e0036456d9ce4d8d53e4f6c486b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8839ffcb56857ce28c9dcac53ce5995001b03eac85301d65ecb55c9596931938
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..e087d38784aab7c35ec3412beb5ef221098dcd9c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d44d23182ea27c557cb00cf816a170d13cd95cdce99822d3c70c0e5bb22f940c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a307c7f47e2166ed56e501b2a2cd032c34fde222
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4d1e454ce6fad5bfb46c1469e207093ccc5c57dbcc3c38bae038b950d3a0752d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..be7474462cdc514a2d158632c72db6057cacd033
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:755e969de189851278a0ea4f16b0f9e47082e76415361c909fc3b9c463f5801b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..74f9fd60cc991c66a427c8fd13981efc4b94431b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/10.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d25e7fd2d07b878a6f64445091631557fcbb0219d354b34f28c6720e5bace29
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..497b70f51b7870e4743a1378f2a5e35996a6f249
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:419de7646116728c593a129a80baeafce68b04c343690ae3bf76208c418842f6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..46478a183593ad2f9e1a1d7cbc731898043f1f06
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d2adac44f8bf938f8abce776f8b407f323ec9b68bedbca0bb3f418e7018f492
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..0230d003a41abf5f29e4bf50431691ca34ec3159
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c5817a982b94364f25eb3f247b17daa2095652cd4def280742fec7321b6bb7d0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..42522ef5902b66bcb51fc1a1cf6c41c3721d6280
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:19d291b46eb0e4ecd554fbda27cd17ba5b5d8f36be2a1497370b8e53654dc0bf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..9d68a2e0b2a114d183953786ff21580d229bc82f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4ffd5da658000d9bea1f9d0e9c74aa585787f4fff3b1d87477626f630f1a28d0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..c0dab7f407d7f19a031e8e34965682698f6975e9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e237c7e4303139fe6422d215d713857dca424d29e7ef8124931e2efc9f7b8090
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..03f63c4a51934e7ed69869ea293ce184e9f9e857
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b2dd9cb576426738ab1484099a2de25bef1e4c1be082611c9c44bb7ed39ce0a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..895fb2909ad3d0e04e2f353aeaedf6ca50de9fd0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/11.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:78800b2845dafd328366c7fb05bc17abc718c3fdf66f7403f7fe4437080f440a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ae0541c0ddee213dff6854189743be7e732fdec7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c3ab295b19427e20751e176e34c0ec8c4335839257e271e55f2dea2430bcd66d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..ff7735355e74bbfc2969bce6675a01d29981a771
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4171b1e48b51841be6046f1d2b5858d9545ee417874742e93f1bae8ff72e00d8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..4f1dded857db5b49f7d95808f399d5105e26394a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91dcf7c67341efc6391bb88a32521c02b526d64741503dcb0f468b161ffe3ef8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1a0c1c24a292813eca62ec06fcc4a956fc852f66
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e10a49763ffb9294c060651ada9d634ca9ce43a5d57f041a309c40c9181717ca
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..6a147892e6091df32f586a32dc038373400fe9bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:23b3b78d679fad0174ef892de3d9436b78411aa050f8a8feab9d8349492c1203
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..17a2261245da1b7b9705e36c01926ebc42a82d2a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:67fd3417e461dd78d6c1f77bbf5cd4b0133116fe556de4d2bfc4088605227a68
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..27c89e0cf6707cfacd9857fb33b5769f78a9a666
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a6b46c67b06c09abc6f10e66293636bce688d655992c62d97db86685cbe91201
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..fb90ac5b203c8163ad6373bc6aecf3a19cf4c7f1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/12.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9b01e96783654c493f9ce47f3d7878744010b8f882ba1a921e11b47d33f8ee62
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d47835be3aede08926d0ae6dcfe77ea339d4cf42
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a4add809ed17c40bd75f63463ae1ee37eb41fd55550aca50cc2a2ce8b36b4c8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..98ea8264fa8aafe3e565dc6880722d25c6eaaf8b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b07da86dedb9b17aee25268e911cb7cc7981d9a078c2a53fc13f07e961511618
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..daac493cbf245f97e833fb2da64d434b6882f02d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e402f9ecbe743246e3977aadfc824b95c9eede85a0b59c0ffa9000a8317dc5bb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..58c27ee33ddd49a47233839e8d6b714328ef99c7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fdc0fa91f5325c52410baf7f8ef1b7df3118271917d68529dc3381e34a7ece64
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..9e3c462a47e5b2e2585918b2651070bcbd4593ce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:311a62a0cfa803f819444f8edb1e30eab171c43f410221951fa326626d14c458
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..eae4e5b5b833237fa6577358767f229dcd006c67
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cd4375abe12188fc5c52a4e25ac3b7809f313eb3619f0c79a6336103e72709ef
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..d655bdf37b44c2af05ac8219a8ad24dc090515f2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b8d7c1ccfe273cf933f74300a23651b6d068445c9548c3fc8a530c11a64f8f34
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..7c3bb5bed51680058226ef6440d50374ec765fb5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/13.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6f5f4a469e9799b0aff1e638832564709a0ba28d7c721e13b15dbe704bac5abc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2e70c37824960fe54f323da5be6cf06ccdb51f92
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8fdad7a3a8e9184fda5889e40e90bdf89d9ee7f2a83d6cdbd772ea4ec52a5ee0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..11d50895cc1b97130aa6390c30e1f1f23d95afc0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e964807291cebd0cb10bc7b7f0635cb77830d5231e661e58b6a954ce4b0e36bf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..5a4ac9396c3a9500920eb9d02aaf9ff3384566df
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:00f7e763a717545c39336974f43a36c8d146c334e9ffaa53b2549a15a111e07b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1aaf6dbb10c09b4bdf9b2588c7e116df7bafde20
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:48e9095a81b4c97e52b81bc1d448f29d5d01bdba3daad7729a302cdfcbc579c1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..f7fe39bb9e90bcb4b96e61b9990028a3c7357335
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:44e2cddeb83261c61abc017a83b917bc64a2760b9238d4ce1f6f5f63416870ca
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..3f6a013c8fafc6bed8a769d76fbee1cf0e69540d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b1193bfb198f5b3c3604c98fe2312b01960ad39db12cf41229ac0673346861d6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..259b0538aa13aedf370762d48e20a00a769a2976
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d33116a02f938e508aedb9acae0018f8cc7c80795de99f4eeb2dddba7c42a8c9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..4e924b5759710af80e973a4ce7371ac6b75deb9b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/14.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e97fd0571b217b67d77827eeb25fc1585c846fb8bd2437ac11c25cc59dc83ae
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8a9d52b4f012267be73aef53213b8aa791d4977c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ef029942044c6497b7d8ee63e357ebe1744a1bf94ba730eb4f5d3b90661005b8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b84e6ac48a4e0fbb12f18a00ce2c155cfbcd3e51
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aa91c1f9b2187eaa6318a5dd505dd05d60cc858f2f7d74ecf4ee4b714bd3120e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..a0607bc9496541663039ccc161792b2c529f2a0a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:67b728b1a63bce6b56be7830a86046ae60658ce6b8b699625e8e9659205caf93
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..d11370fd04366f2301207ed2503352b3afdcdf73
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d63fe01ad8280b7164000c0b5267624aa7520c89a6c0cd567bc87611b0014fd1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..1d762d195b640583035bb368baa91a7257b74425
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18f5d8c36a5b82208a1594fd5a2c4ddc7635924e74ba94b18527c875a2491df0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..4839b66938624310fa419ec3a838d377853a369c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6cbaa39463495b13dbebf5c351c02bd361639569b573e7bbea84e610c31ebcf6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..0898fde7de1ba33954bc907fcae7267bf977978e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:964b5f71bd7ce6d15a36b6ea9fd29df769f199d5aef6400b9f0ac3f8897e0bf8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..55067ea0fdc98a376a426481919b843f463facb1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/15.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a8044e21d2b523659e84876414d235c780fdc04c5ad82d1cff8f51dd516d147
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c42e17473dcef91db6afc7c5688bc0a55e980218
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fa55573343be3a16a1ff6de80b8621875fb6525f17c46db6de46722479018f1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..81023a35a3d69e54fb1aabee97f8fcefd3ebe620
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea6f82bca40a7c043c7731ac6900c965d431fd0ca6e07f6880d42303b609978e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..b4793742a9150cee725da18494fa64c989cfa3a5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:167a368d41917503f36772c2a4fa4ab80c6de3a12ef8574ca56870f66ed842eb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..163e436e586d3ceb4d71756257c0145749289aa2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e6ab8802659e9f6e32106eef15884a8a146b456abe8846ab859e6d8e7c90f6a5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..6eac97fee8fccbc5f5d9e3d85a03dac6842ab81a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:724dcc6632714d87ffdf2bdddc9c6b61555fdd245054d4275935b1f1c42630e6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..5ca04ab8390d1a9a9f31046fca3702f99470f59f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:73383f5982c8f2d841bc87d6bc68fea8d78bfc27d542bbfe948cbc0c88556ce9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..29db75071c244d7f276584c5c73e6f4391a72004
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c3317eb2c41ccb8bf188161c93b58b5dc9d159fcbde9405ae120d4a49fd3bd1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..9e6b90b19706de1c8ed414ae0c82e40175b70fca
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/16.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dee8333483d7278ecbba0dc8e0136f63cd35bd8e333fec232fcd71d7d74d33a9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..10742eae4c4c1b56049547839fbd5dc9595b05d4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:28e811c51f0aa69435be5cfb2c77ad8897acf873cd521daa4a7ca33859020c6e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e00448f2481cff3397e1cc038358abd44f02ff08
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f935516144d4fb47df1a5421c5939562e0f130d290a44d800e23a9da198d210
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..66f0aed30d3dc0f6242cce3e39e032420ffe1f4d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:801df25ac4f57c5c7d16a15778148e13a1b2998bb54af3553bad13d6942674d1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..dda442c4772c95851bc37359313f7757c594e191
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e331a9656ed31d2870bb8fab50d0e908f274ee71520216d11da39520efe102e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..e70c6513f0c3e0013eeec4cb8baf378c83bb0c93
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2acad29ec05757ab169be15bda0d19355cc4b8493a3a78487676176b6077614e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..a95af24dc8ffbd8b3e000e1fd6fb8c9bba9efdf3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ffae2b4b3376f30d2c907550cb9571a2d6b547128432b2a4a7ad3f907c4af6e7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..0833e203d786c2f2b6564e93aca16dde0ee31860
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e9a889c0636ac9e468fcac33c1431907c161e19b70ee7cfae91615f50b5b77d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..e9ed4b5ebf8db2efc4e04fdf45a13fd63e200268
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/17.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7160e81988f13e5fa558de94ecd7b8e64004fe03be9cfccd4aef296c4dc2c4f8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d1027256ab6f0ec43fa58101e31bbc85faf1d345
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:05d563fb66ab97efa31e31cb013a7c03ffde371f8be2aa3a0066d4073e0d3da6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..4196dcbbed3996fb91ec12fb847c49fda64274dc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0079bbc51210a29c540c7daa3e9ff090edad2f274f2867be06db3f2f62c69102
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..f4bd42ffa81b8edbe864a84511f670e996cd53e7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:850a574dd887439d8b8b28f32ac72f6c2a70160413947752d6718dfa74d70cb4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..8307a1c177d390167c602ba61fd616a9a16c9a01
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f11f2f5a43664f79c3135c5d58c165ea27e1aa310a582c9228a06d46f7b7c151
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..dd7568e38cddec0a6bc26e89c2656c1aa11bbeed
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fdbd29f03e4da017641d36d1dd768a56fb19329c32c130c6dd084d350bac9ea1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..0dd06160a11b7f8c30cd0fe55993ec8814ff06f9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:50753f7f837235c9147450ef84f0289bf48319812c8d18659a9e4ec7de07e180
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..dc214b87a1c724ea14cc0ef9eecc98fc92e8f748
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:59513dffd5cadc9be111296ae94aa9a6e8892862aa619e29b4f0398980690586
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..3a27c84baa7a9fc6555a5e62fd569881720a3b53
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/18.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:342d3b88994910fb1181416092aa712cf92d220f5d205e6565cba7584c1edf01
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..285b37d37972c145625401267e449bc2fcfa3ac5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e9e605fc8ab99b78e2a77f685e10594f1baab93bb3fcc61f86fee30b5c2aff9a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..080a88a39365f5e8630c4652272720bd306af912
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d5f47206a674904536f2fcd9d19eddbdc67f3128299c374399b900f815b8ba69
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..bb1d3af0d3b01f238399e5e255f84f8d12a9e43f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8854966f52c0e170bcffee4c3d8afae42c1a3420a0d5dc2d45e57cb6e5c5d7f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..abffb6f86e73ec2b7eaddb92b1b10027cf209df3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:041d378dd9ddf8870a9a0199dca02103326d7f1b059c0a065ab8d0b483f6d3b7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..299788d5cc52637f7c10bdc7d2caf1e8c6b2a18f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5f6c9388fc8047aacaf2d02ffe5b22052c30503f35564afe93edafbc4c6c96c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..3bc8438d7f9b5ad39f44b077b2da00c631fb1990
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:87c3576d3bf96bf281b7ba4fafa4955859b5e1189944e8ed919fe58115b26880
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..bb6c39ae287b414d7b32ddd22a98df4e4fb18f54
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a2bd322cd67b3f98b885b7f83d63f41d2e9e2a350629cde7a1559bef873aee6e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..865a3a06fb542858f28351b15e2b1bc4586ecdb5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/19.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a8b3a52d10292e6f25c4f03b5d33b7c375d3cc259d8a2c644de740912659b50
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8ada33658e3ba5290ed07da70e056c403d9123e4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d67f7f81fb61ef1aba273fcd1acc7d024d8b0ceede7df0f69583926601d960ce
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..5f458890145427f445f07bb330abb5f4a20ae2ea
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c1dbd319aab9eb3929b8471cf24403507abcd6b6b7556b42e9d50588164bc91
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..0a6592252f3236f08d82235c5a99a5b3dca1c240
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e69a644e6f96892039a951834ea99f7c438a684d04054cf3218ec73fb317565
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..5d138185ee10de0c037be6783a558d2d91c1ad0c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:60acf18d520acc815c312f30fc77b8a5d6bb811b6eb1e231d97c2d3024f29404
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..cec6acfdcdebaa163da113c58fab2462719d1c20
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d19b3a0c3a08ed736e9a8a23ab6427623928d13a7b2c0b83fd7a8190dc43ee3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..432325c24f1d9f6cba5a7112443a15f34ad9e3b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bac0c6ebbfca5ca5d6aebfd227e04f6f96420ca846c56c3806266704a50d2b3b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..cecdd1c9d54b7ffda7d89bf3ac972ce2ceacb7d7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d2484bab1ca5d971655f5d10922e59ca22824d47e36671bb168f9f7352df36e4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..2642b1f3f520b37f6a28507739e38f457780ec07
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/2.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9af6e8a755f0cc90a988483c8397b821ace709a07077c6a709416d57a6196017
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6603bc95525ef178c715c416d1c6fe20f67e7e40
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:664d830bd17bbc9c90a7bd74b8b60ab3f102203feba78ba0d5146fbedf25832e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..1a919d6ebc1b786340c76fd0a2b8a2aeb3720a81
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4e6e745cf58df7293f7e161385e661ad6fcd2194b2dfeacf6d331bec2069784b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..7ea068bc3fb1cefae8f8be75ad33f5836c212e14
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:153cf3961e6c60dfb3b48cecffa6b59445e55c7e27462a9414a6af099086befc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..9a93c4cab7993f7f5e233e22926fef78f1ac2bb7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:07177b530cf7741805836dfb0d5cdebd37d2a3dc2446e1e83e9b39c369de2603
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..ae9f1480f57997d10077ef479c1ce8335bafbf7f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:86db920b35b103e6472430cac98942ee8da13b5120c5b9b5c9702267a4908686
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..e12201d24ee447c8d6068028ab02dea98b858628
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4f3c7f16611239f3246677951f81c3c0ba291ded017a112681c62242ab24754
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..d59a643d3cef752fd7d36ff59e372738489a1a9b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:627cdc259ae4601f28053763f3b6af3f3a49f7675546de64b5a8e139c613ab94
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..abc8327e5621a99fe32b82ee853ff7472e2c1951
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/20.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bdd9942659817d286045c9e2352749fc1a4f91b83e3dec8446fa4acfacfaba11
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5d4cb8751ee47800ade4961f81553838b1393f54
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a568a1ea1e053abd26ccca43e2508a2e90221100bbe74a408ac32f0ca9b7be84
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..11f18a9a92ccbcd814cd83c754821e28ed4e8c57
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4a35fe2c265bb4e6c429cf2cf61a735af3169b4a42e31abba73aacbcc1bebf39
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..90cd7d3e3b7e673d1e9f6564e409a9b17a1ad66a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:78ab89b0825c4e0cb5f9ffa0c684dc1024e3ec3c1dd4fcfa9a5e9872a88902c9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..f20760e4edd4ea47c6f43427bc479ce8843e3e60
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f45f9e53df04ce459538f3a291a93f6d222e6e01093c3bef49a9435f6437d57b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..ce36292d3674e7d225930ba476ea2e3610b73426
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8315bdf82ae868eaa72b58b36875db395201830259f995c81cc354defd271df4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..00874aa7fb43aaa141f5661b49261afc5511e4dd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ecb42f270576d8e2581c57ed7bf20baf3b44f8c652de2262ff4a4c7188167e3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..29532cc91d5a4e4fbbd144074102f4f98abdfd32
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d66f4db6de655d86c4c2e2cdaed252ffcb9be75b44149921c7a744dd8125dfdb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..ce4adf03867d0b1dd328dda1044b1ef6cdd8ff92
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/21.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:417edc2796ab985dab868f0100597841dada181833a4180520cf565c1c794ee3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ff73032ca6370deef444dab62e3cf8b2db8caedb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e5e5e894975df9adfcbf0322d0a5cf8a24d5fcd564a4b87b376645f40996c47
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..4cc4a542ded4e3eca1abd68873aabe56ae3e30bd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5139fa8ff3e759f908f15f7204cb541dc07a25f11152ee22827663bd908aa3f3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..4c04180e38109caf6dd87a4701121eafd885906f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a3ac2d498ae5dd3109125c7d0783770beec661463771cc78f5f7181b66ce168
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..213d7146f26093e5f320a82ebc0976b890b5d7e6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14fd7c84ba5f4eb42a8c05839088cbb375c9cca2e2ea71468062a23598dcf743
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..780c9a6cc779e55f6b3ed830671ec2ad61e392f5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30dc6365e9b9a06a05f2313171f78d407388686c00643f565baf760580791316
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..6f630eefd59d4f96f5fd2413c100d1625f5854bf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f97d5349659704db412e042fcaaa4ea7d289c437f4df8c88f660043a98984782
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..90b4d3b32d30bf3226d938850bef0d5f419a15a8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:42e680253e43c40527b6bdeacaecad95b93999bc3c6eb71d51751474d2e91cb7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..e4f42f3ae834173b5a28c8966cb2eded8896d2de
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/22.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a76fc7081e7ed97a757f24c51e3f90cf799136f6e1fd00306826df5231b42361
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4c9d2938e0a59f0e2f46bb458fe9fb4203f69387
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:465e6c7d4429309d15c177516fd24dd2d0cb40f2c70190e668ad3fddc2314fcf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0ac76fac8b205fa4a65094f26266ba47ff1ef0b9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33e0d366f26a5d92684159329f6c7903addd0ca83d1e830e9e088b8b5f73bade
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..63a36a6cbac1dbf8f159dd10ed4c51bdc0c59d2e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d4b3d764ef2171759756ff7a396fa0743690defb1060df5ca0a838b2475c3952
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..81cdb470a91ca11f5e7f268f3a64c47e1f415f6f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51620f79be2c8b697dd19ed68cca3a92f59228731ea6557d90eac18e3019d474
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..ca119a765f5a1e7582fdcd8f73ddb73aa9aa7252
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9af07d92f611fdced5b575aad9ae42b98ae6ddca30c2d3a44dfb31103842ac38
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..5cbe7a8686881154823013578d2293a2cfe00b56
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d204eecf7f6a237534af6747b1d37e1d1f9950aff4b4a00bda05dace060bd57d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..ae6162e06b42c5ec71c13a766a77626e6f824ccf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91e3a290dc620b6afc2e5aabeecf598ec8bcc14830cea1d17f8edf2ddd4dedd6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..d95ec73d6a18b2cb607dd93170052bdfe68f9f87
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/23.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e65cc31436935d1e4359b391932c81e6741db4286b62c8f9465f554b5268103a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ddcc477e04d2ae71077e361deea61dcb1aa0d894
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:401e2a5bc1e1a8e410267a965c7020bca4f7d07f844cbc7f9f2cff9dd9b4e67e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c892c8d6960cf6acd4fa4f6492025d67947ee81b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33975b711a39a19f018ef874441f6316edecb612ec0694dd359e30affd27b740
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..7cffb1944e0213e85b44912ea00438fdc31835b6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf726089f0db3bbaa16252f755987cfed87141cafb0f1af0d44cc1c72bea5e34
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..8c9f58a2312af973cdd7c7717464ff4348532e59
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3789aafe1da8fe1a1fe27a1b35d500f7eb2e1ca97481cefe16520bb4fb1a2437
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..d5b49178eafa3305653177893414b088c11c882b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d1ffa5ab21297ef4026a951690dff65925f8080fb5e4bd1d0d038bc09719af2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..98e2087583e49b64ad2bbccceeea24f9e648bc06
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e304273a4d18c622f32a0657c45986ec01a81d8d652db0ee84e7edc3430d43f7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..bfdbede79b4ca280eabea89b6e4795f0166206b3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:04f78e5c9c6146504acf43ff75844d414824696d7d9cec70b49421df4474981b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..d1e488548899c16bbaeb8b1a1eb79c15ee307fd1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/24.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e79821aa8a0c60bf10afc493753d67d7f8962a9108432427d5e61e6606a33947
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5f3b220466acf333e66ed55aaa96383d6c8a5c03
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:927572d70ee22cad3c720a16a4239e2d2af5449ca1b12886c2e83b9f665f97e4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..d78882dbfdc40c92399a6b9ead0d1a2a07368927
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9761fb5dac7c2c5ef1b8aea50a548ff85777e53bcbf501ea245445fed595a1eb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..11229204fda3f13934b49aca1866d1c396e49a83
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4860dce9a8eb04cd683debf4d4e9fb71ea51e51ec71783b0f0f7ee1d1b14f544
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..300a41815e0dc77a6286a85de6827e600c4d5cf8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:37bb9a0796fac45a67ed3b4d833264eaa5d942e5f29d69a3acb98e4c465f721a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..9bdb2bb3eaa92c59f97f85de53ccdadc793b04a3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cdd6d84602ef9734b57d4957499844eb13222d737f42ac9974764a3265f2fadc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..15acdfbd3889bb1f20e9b30988e5159255a3e4cb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a7ede663e51ab129be3670a6d1ea086e9864c5f54bbf03e363f6b197ab66de89
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..49e6f62bb6fa16791ef382f220fcc2e3dd3124da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bdb588ff1002180b71e7aea32c4f5e46fefce5045c90c73faa4e6885bea5ab9d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..857148ad93b4e178f79aab20fec12d4d723964a6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/25.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf95f087fe911a6eda4e8fcd504da6cf92bb251df090fffadb019db6b2e2869a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..60f753cf355a2567d406d3d1edb23a718d5e8bb4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:27b981fb9984a5b4b4dcee1841b3d0c895548b53c21a1771093efc8a033a9467
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..d4ba6487ddf4559c75295003aa6f43b694b7508c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88cfdd17f8935ef49a39a72d80a401e2c2e4705727b9e3165d3dbff081db8395
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3a298f4661aaa567607a67c5b5bf28c169fd0d83
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e0ca8523f2ba7b84713744cbc80122af957b917050051f4b3a54842df4e61789
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..443d1c0fc7a5b57e6135c09d198aef7ca9545bf0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:366e7f33a92641a75e83e5d13d7a86ed4f754ee6d3f6dbe6f047b88e6b40e000
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..22ab3b08a12f9f2f0d196053292abf65026c6982
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a7366ace55a571b9d3c7252e6274572991794c4c1d8331f8d213f94b33d40757
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..fa472d6ec1cbe1618d659f1ae91dc26fc2f06014
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5334e5b99d3d001938d6652ed2c801ef39c24a2cc8ca2e616d722caf8bddd800
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..793523138ad630a64d1039828c9b0b58df822b79
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6925cb13149a77805106b174590594941fef2dc249ace4daa33d3333d9e6e3e4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..690ac4f156e6c72101b6ee977c45cf0c32c497a7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/26.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e8b9c5e95cd700dfbe59ba94d05f0a633ac0ce035dab7a1a96ebb6d568b6b14
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..30541543dcba6b60251038770f84416f9624b070
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0491d2ac4c1aff03299b3968d244408a619ef2a31bd574819d357e39e9f66e85
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c444d17c49dfac445b6601e575e4e6d52c0d25a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:690385cca7ab8a6fb3732d51e506beb20bb8e57b83c1d4c6adda1552f0556e4e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..374f52d7123896458cb768af3e6f8cb2b94c904e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cabd0918f80b81e736c610514f5ddfa8bcc58a804a277d96517c13e7d03fd357
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..c06fe74dce2530b7be4e845dea0fc621f85ae6bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3d8f189c8806645bd21ba34bc623d7c4a9c1d3aed591272724539548b716dabf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..f2b8eaa7160099b90dbb021d67412ed38ccf7d5c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad13e4e4b9a8e2855518414d3b4692b755c9e41b8d8392305ad465477a7e2fb4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..2d727fbe88058e04376307aa97d7a67d83239eb6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6d7bbe18dd379015edcf36e5bfc8aebd0b4c93b2425abd843f7c61c4b6aa7e22
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..0b71d7cfab93c375dbef21dafb86402905e87240
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:64f8b2a9dee920fb31456512ac9dd0abb14be578089d1556e2b3157e469c88b4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..2e8751132e8e6bd45706bb7ce2abd8f07da3b072
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/27.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02dd9f290ebb77102d0264414d71836322cb1b81de5bb06f539ec9186f6d6f3b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d594c3f6d52419fb2c436576c1bfffe90662845e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:97922d0c3da9072b8268380089a9f083a9c224d22cede9277d9e242a73a610a9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..8a22b54de4241fd4efebd96a56db6aa3ab138786
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ca77a7b846a8818c3445c8fe7a382f07787ccdc82381a424cc08914a48a6bf2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..184d84310bc585aefba00d3463a2388ab211fe09
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32af138fef687cf04fa608321fe3b6f9e83f4ffd3edcf658ddebd7ffeff6f1d8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0b1a0d9ade0615a2d7b2bf486c0fa5d66241af05
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:121c4d512c99f7330f83e09839e3b79e94d343dd38d081b056d0b05323eb6c21
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..c66aa528c9d483c619530030c66919e8bb7cde30
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a751255a8c7e5ffb6dd0a8e7d4108e5c572d27377173340aea377a2083b3b06
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..ab1bf8fbe05e5415ab05e8a6e60832b46e0130d3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d93c5e05be969d0aee6eb627f8ea0af98b4518672e3979a9155b2f54b3b00ec7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..26b64ed65d25a34ba946c75236c52494f2e9e273
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18b457d53a5994b0bb96747e0bd2325629130b54c1b793c4125e8d4d27723c54
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..7b87cae4b9b382b6386cd988d57a77bcf9fe5231
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/3.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:817cd0e6935ad9d51ec3173adb6920b1f7c0f018260592de02f111068ea36d86
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0e759cebc7a059238a5bae6c6480a22180dce5bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:971d44afcd058c74cfe4fae82f1b9520e680c7854da0d754eba7d02868d7dbf4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..d4a1baa2e8c157c22df75719c794640344631afe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0eab68cc716e29124130120ddf99f532583da6abc53c12bb1d10db54e094fcea
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..2a7eb626442f9ca1a9c39d083f6bd7467c5fec53
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c3fb49590846ffc6ab2e57ca4d84b84fe078de5c798c56970e6dbf69b0356fe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4556138b7850fa79b97d1572fa319f3d6b9ba21e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ec5cc0e4f940d4b0341643e8805c98ae04e89e605ccd10c5b8630ef750239167
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..bed62925af8af6a1d3634b64f74149e586b82a9e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:97fe7c2028cecb837deb5da48ac271fed6961d878ddae0a6efcfd1215caa09c8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..3eb1c5bcf0821ecacd6eda87c6da36547b4fee03
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1058c122a4777ad5d30d910bbebce55f535a72a31bf1dd821e5da8e346f51b71
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..52ca99ab3dce274defb90ec3858346ef33b36682
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cb7062188ef93014448e5ddbf8fbfa633a3eb6792462f409a99f7c2da4e7395c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..6342c66ac127f1ae2f48969644b15373925fdeb8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/4.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f4859e9cca75c7c0565c6447f836f223f95db640596efb08120f8a3db7700686
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5b3cfdcaeaaa14e339290368bce1d526de7a31f2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1129332961c184818f74c32d0afab4b43119f448798db2696be7d95d37346103
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..748f60b1e0a1f00f8930c3a13a7fd1e0a41fa577
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c9aa54036ddb869ec2bd92217210faab3ea4a1ef4a63dec29b936251e2d6a74
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..2caa9b4ee6d5103177984c0a893342469f5a37cb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ead2a09c3dd79b80569cc7a84a1415809152328d869125e61b893aadcd447c1a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..852e4bbaf3b2bf722dc0aa0fe701f8371bcb2755
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e979bf3acc374c855faed323a87741a4dc41c30b8c27da42a9a48425ba1da133
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..6268165a0f904f4d29f65317cc4e1ddd337829ae
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c20ed25dc2f1a567e8277d9a344f2c2936aa9d79f47623ccc6fdf161a480319
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..ba3f67627571391483921fba9dbecc8af29c48da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a8bccfc6a62975c7e0a9f18c4f6f3f153e7dd45d31554d351970f82d62735ade
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..4256b852fa455430ed08aefb83f08f4e25b2e564
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5389e09f9c70e6e594ca5fff684fc317c2f008e213fdc1a1b14769a12bcc87b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..dec17324ccdf8bf43d8d6de4adf28a8de7d90464
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/5.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:186aed33c36a6948721bd3d82cea24d208bdbf9944f3da88d3b49c63dd629ff7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3318702354c516672c45015ded459acde3ce2e37
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e01c3a6934dee9d9069296c004331429e3a8c6afe2ebde594b8c79b570e997da
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..2e78fa89d0ba9d22e3cee38c48ad45db726841f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa2604c7a0992538e96e361f6b71453956f1d331128f83d986a6e69dd8dc50bf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..71f3f2cb166da2299c41e456310a94acae0084e2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:05a96f46c63a384b76fcd110e44a9a007ed672e1039eaadb1f2ef5ee42b863e0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1af996ac77e1ab3aa7a87fc471f9b5d2ad183e76
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6af51133fa1e5d949d1ed3311910af3e692c93e4a549df7747319a39706d5c0c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..51b646b42247e07e6afd2ca1c8e6dea789ab1183
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9984ed77f3f1e737b23dc59adda6674991b007c28526bcd5f4d2431771284ab4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..cb46ce9daa67058b8c20d72f2b36dc4cf22d2a75
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b90fd991244589c551c942d0669493413a565eaba79152bf0b2eddb29b6583a7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..cdaf5ca40a05895592871c24dee5cbc789e48507
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:efac095dfe491efffdb60833ccf0afd55f641bb8b0d4b4f49e912b37af8f5de6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..c412efa8f94c3608454dd3ab54160bb1c49da616
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/6.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3af0f9eb288a35b1d2582fb7175bde8ede03918151c3941a2168025216b2819c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6465bba443d9dec4b5c2d35b01290e7f8e49768b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:345bbaac8db8ea36364a88b868129e8c59490d39ebc34e723e70430d31e2b189
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e6a8b5a6b488321341a64aef67b9af058d76f62
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:075b10402eb1c0ac21765cb90c7409256730f49667ebe6546ef8010968da8d84
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..05ad9473c42486889c136b45b3a0e411abfd289d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a68fc351e76b7a09fa806284265bc5968fd494eeceb351accfb9e9be73752dc5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1af46831eb12f3ad5faf37665332a6dfc8508f1d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe34e7104f3beabb7a90ed0e39ccb5e6a6d20c91ddd42780dc8cf2cd095827fc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..c3d9871421e969900a8c1a3ed082ea59579c95a2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72aad3e0ebb931bdce6634002d95820a367e9360adaeff30e951b9729ce69f3b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..ed2f2909529d150e35deb71a09a31f6e04511880
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:694e7dc9a2354fbf4288429aed9f1709e19dcdf77de6092c49c4146a488b8687
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..21a11ceef16fba1c7a311d81d5d1e74253845cec
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b67ec0db5acbae93653747d78a0c476a13fdcb9d5788c177fa70ea441b5f3a88
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..5520c05c02221d1972125b7e7c0729283db257b7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/7.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:620f244404be78e79ecb68b5fdb4302299e53e5ef33e3bf8b38ecfd5a588a246
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..39f45d738792f073632138a2da73b05d5809066a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c6749d6cfb7d5a40f12db9ce6bbc8c7167429a14e524f038e2d5b44f54c69c38
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0dcd214bfcca23799cadea6a5fbeb91cb5ebacdc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e61a9f53811824a12c4d7a79833e723f0694013becad7e25c4bc249bd483aeb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3f395be016b040122c70fc1d9511dcee99aefaa0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0608c506caff69a5795761ec6cbc45755959a1eef01344df2370c71f96beb51d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..2b45dea90c09a878db312ef873c26555cf536974
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d791c8e966237de7035f385e372be06f8674809f93f12fd149c898f74e23b27c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..a617f21dc281ceba584644f12551106895106944
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d70e5d6b90ec0e91950c884e34b937710174e0f42d17f2e2877996ad944de266
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..45f478cb9eba3f36d46a7f20ad16f0f33de6da4e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:571c84b43005fca4ea8f150ce4b832ee294ec6a3fcc0d9f5232b04c6bac5a8d8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e64ee8eaaa3f95cec7294e863136809ec3a520a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e30bc0f7267fa17afd5605896b93c71ea467f4f3410170506ae3e76f6fb86ca2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..496939764c651f604751cce99d0cf7c9fa417b0b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/8.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74fe5b622fec2fc823ffd8755f1bef960ca85a4fbbd64684d380e78ffc6efe78
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5b8cbad1f8528fb40b6a6c50c9b57903547e8720
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2e75b7ae821192ebce0571841044524cf825944836089c5ab4255deb7cf71142
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..4a989448e9f3ac4e0cdf9f75aadd530d26ce6483
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:debe6485ef8b0ba1f46e4e3358669a8eb2bff0ba2eaf3a8946cef9626e49c5b2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..046506d1cc9d5150b67276f72e7e064e7898b0ed
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4096f9a492b79dc535ca81265f57aaaef1d8408e3dcaaa7f85c4d88556ce6ff2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..15b2b2a38c1e7748201d98545d4eee778ef0fc0b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bb442f5e0122acae294f4cff9ffdf697aac9c573fc0eb155bbe2ba5c1ed33325
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..67cdb70343593f448d0256d97724cad15ef41e49
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:df233ba01be127b8b3914baf348fc92b90a2530a6234a5196ea743422d43e132
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..f5cd88c3c146bdcba9306cc5d24a7a73077e706b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6fdb30d4bc61ec393c77a2909003b1e2ad431070babac6b3903c90292503227d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..ec89adc898673f5e5cd78029dad9ae356f733a13
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b1516ad69d789bd5cdc9cf3c13e2da8ff30a088dd1c2b1a8be030c48c4d6323b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..f5e2bb24f76455a583b182f1f84d1aedeb97d384
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc1.weight/9.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c7de5f3b88f6ac2e93847f55f6810f6639039a231655969f1d701f8e437ed3a2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..eb4b74c312cd10445beea2626cef1af6974295a4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        6144
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072,
+        24576
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8d17f1d84fba31077f7adac62d631e0ba7520b4b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a993c021a8768988f2769abd96241ff00b40f63d1afb1760b87a3ca9561dab1c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..7fd86162a0631758e5587e469cb0f3b22da9f2fb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba9b75d96d013ae58053d37b3d99f91e66535cc5a672de5b75b811221b8c1013
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e03cb50dcef7d8ed33bf9fb7c777e107fef7ba6b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:646672d48803c9e2ec42ca9cec5c122049420a88c1c5e2fc7315d0eb17e2d597
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..00dbfc62020cbb421e691435d14843cb5e93aa5f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/0.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b0eed598a62a457174bc83c1f3532f676ad46fad5e543cd75b1c64702e806a9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..34495b087cdcc8ed3985e84825dc3d2c63edb67c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:96d034bca21c3f127ffd70070233d23a517f5a55db26c23c0eb33bfa2b58fbd6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6aafe3102e9672817f6cee8f9b8859f442577c08
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c9d8059146911a55c1866e007ea8d19e2dc1987d58cb885fd4848e2513b3e604
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..301e917341dac91aeec8dd2e1b66359b65aea2bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d1082c374b7223b89a006faac980140b9695e9ebb2d46a188d9399faf3b7b68c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7b6e22b8e7de71bdbc79f11653c43125941ee8c1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/1.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c81f687814655a578eab7388673bf4a8c08cc74c189d11301920abb5714f72e1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d62f5c3c7706e428fc71f77d4f46c12ff56bef0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d8da2d30cb2232aa39bc8f4870b3cbebd3ba2072b8bae4aa5c0ee630db0d26d9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..825191f790b10ab2452e1f794213253c737260b4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fcdd371997e861d020e896fc2df0f3191968448c66eb3fe6692aab12d230fad
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..cc0142aefc848fc42b06f5ec50ac0447b291c860
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3f03614ed378fc21dcd8b81d55c03b87590e266c327395403b6a70c8233955c0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..8f841517d02f58a4d13c8b0cb6f9605ec98d98a0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/10.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7917d7b6e39873d80166fcee0fea1ca9d8ae771ebc104b9a4f7517ac483c747c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d9ab3c7d2a75fd22fd29b34f25a4c263e311ee5a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f0b31059be459678eacea00238e04723a66d0804ecc73158f09db39e23a847bc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2927909c37319e9a6602b22978b4dda4852bfea0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f5e459b6fbca8d5ef01d44d2a85087b9d29a79fd0ccc4463e335e4e64d1da83
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..8b0ef0e12d68d5b05b83417a69733a0d31e55349
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1da593a4213a561de0a3403d76f869d41cbf5cea5e07a572b1350935074c7c8c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7b3d8ed1ab4a52b3e8f68f737447fa49379e73e9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/11.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:81325321e393d8e2d99ae1c67d5a53c1f1da0450049477e19f1023017dae6ee6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..da773df1b77a7d7d54de622e5dc2af6bb58a682b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e6ca19ea0c10de36cb37d54dc2f98ff013f12b4b747fbdb4815c208f958b99fe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..292c2c221748195271429478db31fece45d2f069
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0999e8af3bbcbc811ac40033100037f7f58ef96cb46251636dda688ab93d92b6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..edae6d3851e0d9fc661994429105477d1a4835a6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1b8e111eddb15e7ba48b21a1bfdafae96a756a9a359aa9aa2e4ba18c9d4bf177
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..72a461422848dbfedb363bc937c225bb4ca61f1b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/12.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b0f0ce2f626ff81336e57e28e39730e90874a13ccd3c3d7605da98ff51849062
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..617c2b356cf4e54f644469c06035465a7b5e82d7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf62e581e48e674210d7e20aaf3401c3c872ea19de769a02b36fc22d09e7f1b5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3c06577d1a294a5d941870b03a0b30bc8f60778c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d2b290f1f2d2f70b5cfecf34c83c8bc015a2a5ba1e34f4c4f662be601c0d057
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..4793268356dd67263a5a73f848d7dcf0a3bbbeaa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:601ec1f1ba7aef7ae4456348bb5f6b73bb31675210fe4956b7d0ea63d00fdd54
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..92590ad8a9a9004e9308ea9bb16903b16700f5dc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/13.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:afab2bd812631207b2cf05669a8c5df0aa294d4c4e35faa910499451f6d94730
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ac031167ae18b99b8c18315b7c674e067f655187
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e26dc9715a3a6c0d1425ddc2fa7e14ccb77180a25748bdad4b396f11d2c6679
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..d4c44fdb85a883d7e69718115619c9b6a2ed522e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3e8f52dc24865821d1b4ca215b7e5a097f9ba1978aa093fbf62d3428249b9dcc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..ba3f9319f3ab07ba30e5e0cb2783a426441fa21d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a7fe56a77216716af2093686c961a4dcb22bdf6bd3543d6941a3bc61c47ef857
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..77711877b7b178ead1c5146ba142aa661a9730ba
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/14.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:75574e0357c9d762698d49430a3732c952c0656af67aad64706466390a426777
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1d9eacc4a3f7361ee66bb0b7ca58c00e159924e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e1a0012393c198264cfb4f8b029d2e95a399e4c858f620792ba8ce2c7c0926af
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..248eba9f6e50a67f7d35968cf9db16c072fffe94
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a37a555b69be3f4889916d28e07f25a8b91e5a1650fe276df96d97dc9e2db208
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1bfd8fd838acdb77bac87e93ecbbe19a2fbbc680
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:98ef3a2fa40a3b381b77d257689b45c7a4089b8b56677cb7b51c42a8120934ca
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..44d768cc0a867d3b78925bc4cea28cab8d8d525f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/15.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d81e56f6288009d8e79501254d4ae69b8863cb74df6fef0903600551cbd93d94
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d6b993bc13fe0526598fd3bc90a7a2a04774ddc9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f661207feb016e5a02da1068e6e19720307de6c19286f96a41d6beb91f8b098a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2d119251a926ad6cfabe1d9f0ab01d1d6fe56d53
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e9bc209293ca8c1e831941e8384ff44be567fdbf57f813c9adc26a0d87991664
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e4b2cdbc295710146f97a0b06803bc91d6604519
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:19dc6ce8d33e53911ea408744beda72425038183a53e342e88ae902758f4c21a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..75e47c96376a2923022b3582ff9ab22bc91ba74e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/16.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:683c6fe07320b5052cadc9d04e67cd580f975daac7ef6951cce85ed07d0bd77c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..115d052a17554f647d7e3c56335be514c7e06720
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d747a562d25c5385e6bf7573ab2a722e293270b5a7497eba37ec62a79eef1074
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3565e03e11768960b2f03aacfe949221c15742a8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e66402305f2278114efba55e5c53a4ab1dbd6bdad23e8497e4df1024d1ea523
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..6d381810c07c64717e8c85fe89b500c181ffdbad
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c3031f9109e91e9277adbd6b3adadeee81c8549d539a26aeb81a31df473d17e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..d10d8de81c23de92dfb25a199e3970a7182ffb30
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/17.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7cdd0d210d6fa50d6b20183711199b972ccbbe3045ac5b2bdc4c9aab679a4d7f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0d146306e88580b878f6ee0976601dacbb962c2f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6687ea6206de6b70c6ec67df12f9aeb866634af03b963fe36cc8b276290ae8f2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..1cb9759c032faaf13535bf3eeba4603c1051375e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a1ca722a658060af292a559fd32e32cb4665f4ce150a9e9bfcda65fc44003f69
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..6ef69e0a270b9cb2fba893e5ce362533077009c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d448255f88e40e670052af801cf6eda706487f5d20e512936fb660194c1a440c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..4527b0f80af8dd930d8f20827330ff548a78e770
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/18.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d5328dcc146d4fa03fd4350bcbbe1f7e959348c4264bbb5c26907a3c1310ed7c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e7f13815db4a0114e0b0c9d94e552fb65c1aabd5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:89a965e7e81ef1737d03c90344f2d24930714bd292f133a36c15906177ac6161
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..795f3214892b5e1b658b927ea65317a5b58644c4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e24c0b68f436a446bb6c990af1cb2ffa61247426a873527e55fd600f919980fb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..382b0161e96a8c95a283d46bfc1060aa73192a37
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5f2286f0d939de4a38542f87905a195960e6cc6481879b667c8d0eb6d163347d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..6ec3b07f332bdbb43477c67019b11d6ab693b048
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/19.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:690788fa43aa245d33305402803d37eae94b534f105ee420edb30363347d5df1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..9f0011d8a21cf71a405bc82924e2697739d601b1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3df073a3cdae2ca82db3fe6ffa7fa3bf8c8d4fae2d6b96a7c1a1f0334fafdc73
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..fd134030bb31dd3a395d74eea045e539c71f5578
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:af09b8bd1c39998bdea601462801204129fb92e52c7c8319ad995803134272e1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..24f96b6e67bfb57c1840b96eaf491e903d6a4f62
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cdd94a4a0483cff2806569eddfde656bf9278a7301f6530a049c7f9e78b784f6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a61da2d21c1ffd21894c26320b14ba26bed4f63f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/2.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:57caaa20787a8cb6177294904303b0e6fa42000b0577e708be6d65817ba37904
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2389e00e0caff26b26fa80f795a96235b2edf327
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae48646834395cb850fd628205b7decba5c60c2d0f6984931833adac9d95d59e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2cf59637334cb6917e8dc3f209afa0ae54fa1cb4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:26a7d529e79b03363615e85a4b450710c4e2c1af54cca75edab1bbe40b1877ce
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..a91324c449d27e0cfeb434a7241f72044d2961fe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:64e73da5139f21e903023782fde9470af414bb9e02daa87bc2b055ed6e7ba0ee
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..b7f981efad6f66a19f50979b40bb8cd6208987f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/20.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fcc82ba6d924e01560f024836e88bab888b256dfa1ce06410f25c8158e0d50b5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..57812d1d7884f3666cfe0b0674df0c27ac9cac2e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e9ee960e156505e43f37fa903870067a07655bbb3c26f059242091f763edfcbf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..b1dbae9898aab4446e40a753f85003c4613d7c6e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a7b932dab86e7104ed70a38132fcfacb77e9bb5374065057351f9c4b29cd275
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..8a5c96536b199ade6d737baa12a69a519916ca17
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:42d10f083ba269699a20e3bce8fecd8425fafff5582a27a8a28b5b5651a38dd3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..5beaa34ea6fd4b18afa2e20dedf0c50b6c6ffbe1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/21.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ac3438c51085a345b28cab0a4da8f07976592452ae8fdffc08e755bffefda1f6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..06aebc6c01d7734248de6d79bd4dc9f13435c048
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4a99ddf50a59966ff5297e0b043dee254a9895fdb171d188cb351c3bb4af2b5a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8bd2f540f6d468d9389d9cdb2511546e51606e50
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c87cb6b1bacc625ae67fc836409241487cfa2860f51b9b4a12d11c0f9940b83
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..8ca9bf581d24172848bcc1279759d242868c5c8a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f6acefd434390af3ff0cedfcea4c87368f87c675a161e8ddab7be41eda53ce5f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c095b3d950deb8d62ebe33043575b0f7e8634635
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/22.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3ea337cdb34b90ba73814148937d7941641be949ad3a41c3ac18d7e989c872fa
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..420f515f50bde04da141ce43dd3680798477b8bf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cfdbc3ba2d491207464bbfbb88d2c943d4c07ab32f8b435849df03070d081bec
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..cbd4673afd995edbd3b4dc14b139b4f8676da0f7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:94b3bc301cfc5a78f4b6fad266ab82555a549711cd4a87bd287a5a2912f80ff5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9ec141e9b333f723cbf579b641d8882c3c302cd4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2aea7872f9b026f67f9a1f6c4cbfd9e1e34427ab20befb2630a1ce8055abfab9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..6655995c137950d0f822997bb58fa87a1d858e5b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/23.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b913cbfc631c260fc7acf7a4714eef9bbc4f234145e8c77702ef3a9de34c35a8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f4ed420255f2ad725b7728d8bdd6aac0b041b3e7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f7a52cc1203081ef7d7be4f910f8cf5d4344e74b426fb4f92e38ee2d6ba1116
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..d95a5a9be0fce15cfcd55d58bfb61716ffad2ca9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe8837044385b59b0dad88a82f4a0bbec0c57642180dd4ab2d2c07267f1fe13e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..fd643a7fcd8d11983f9d1f929c1143e833b28d1f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7c012f930a2ae704ad571b379235f2f88f8b19e765c04118306ec70611ab1727
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..ded6e8faa66adbea2aa179bee6fd411a9ba059cc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/24.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2423316f80e331bd64a452b22cc50b4c8aeced990c13da2f8cff4a5e40d3a9d9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0db7acd2b56515b64a081bfc6cda4e7fdfe25a8a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b85b004ba1136917e240419c07771d0c8960cf898388800949abc20fd55374b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..137271c3a47560928b3f95f76b4e8585938b94bd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5a0a2e78a9dd3dcaf0e339d1d2327565b888f0bec9fb62794afd4530a31f0d19
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..53d1550148639da9f8cb344d812bf12c02d160fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:483bf83eb232dee4002e10c828541dd532b3da86969586a1aaf3625fb666696d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7cafb544237c124a20f39e9fce5d49a635919a78
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/25.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5eee9a4aeba7133910b3536d03af9a09c75e5a61f1a3946648f6eb1c8019b6f7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3115c598fa50c5db32f8ccea50e2fb70f5601a14
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d7170248989982f8fcd955d783a92bead4e6f2fc29e2b01907574a65a3db5ed3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..49f178fe9f14424b74c811ae6cba3f421889a45a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:39cf4b6c25a09858b9b78c410cb2be0f470e102cbf91a6fe89b717dff1da9377
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..84929fe64bb35e77bd9688a7c88d25c4a09b8e27
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bb8edbf2ec9733331c7eac569b6a89a3728c0547e885398d69028608c333a874
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..3a0785e8000587debadeb3b744174a2175e9b87d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/26.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:43f14c2c362cc620ee8706aa77422a25d8d4b328bc0dc379ed6efc6f21b17a91
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4b45544e34de796fe9b2e59c28da035318854a16
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:942bf12ab6d6f2bcf5ba66f9e7aba2bc7fbca7a568041ef1a2576921176ea826
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..f5016a9f3cd400778f66405c53e9133a683bca41
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2dd3ab5f0d00621526516dd8682c7056cd9423bf09af94049da2441336764256
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7d7cd665fdcc890ff23d42262a2ba0c13af3bc3d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2685480a24e1f1b253fd8950b6f535de01090e239277d14c607e3c1cb8a7cde0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7743ca1a26ba90a4f7a495b4f9f1f0415e8a0f7a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/27.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4454f97f83c99f9589dd186a60fa88d4241b821bf23719d24911ff52a4e4f110
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5e19a66791a7cd5c3fba339134ced85f20e11ab1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3f178d177d70669328d45225961187effebbed8ff123a1aa94da530b3d54b82c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..5565c8008bfc6890cfe0b91a63f6e1478411687a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d8c7fc0d3ccc041d3c84750e4ec885e602c55862c8d29fdcde367667373d7014
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..d3a04af9dfaa97fdcdb8f946f2fb8d7d387c7536
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf63dd3db1b18c7aa18dfc9e9781a77cdbb5ab9ae4ec6454baaede35c9b81a8b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c382e3f685126478f302561d57ffc6bb27e8debc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/3.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:05ef6c7a3cab2792a8208d4bba84afa78842ec9039b85bd6a550b6d9d7d24f59
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d585c65a4e628a6eeac29d650d8d7cd220861c84
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c42730e4ab64ee45e191f1fb9147a2490754984651270db04d3c6d8ba860b4b5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3d12c030c2f5bfb1d7afdaf0f5efe8c43600a284
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6d60c7db429c0551f0f18888718399ce4dbc30a65afde9cfda88ebabc54de2b5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..6d958f773684dfc8fe430c842d62e0b614dcc603
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0299b91f9b22b3ae20cc5010a606887127a8b52e1f27e33f9bc8a3f987eda81f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..557d4ebe36c32296a25c0bdf19862d90f6d62000
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/4.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d428f19af8e5f7046809a21f786ce4bbdd56d4b2087a55850faa14d2a621da6d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bed2be4c2fa815f99e4d1c7e333e9c69cb8dafd2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:58b6b76b9aabba3c2e34eb2a4b9628875f79cc544a429a01c85670d74ba43a9c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..16e86377b7db26c2d518e8d158e0e4c9bf8338ed
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f679574f7027f8de5451fd11a190b0c900b1eee7e91a6845cfaa7115a638522b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..10152b9b5aba75665a3803d6a2da668a6162e4d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:568a83bcfce62c3deffff68efa1134e1ad3faad1f4cf9d5e0333ad8be3506d5c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a7a2e1cb34c64cd6138a0f47c586eafee9be7d10
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/5.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e8f3d8ec76b7a4e6c61d74b17f535a82d448165f6564d83b4eb04faebb006448
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a6a0fd2295e79f8902dd45e78640ff9325d124a5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:116dcd54ef7d320e6bdd7c2b917c388900cac6be5278fb12d7b150d5d6f971d0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..6eff540b01d5250fd29a7d0e15fe7c6cb4a9f2f7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0596d774ebe00f7f121f19cf030bc1557b2dbc4583c0ed4ca3bf29c5a84135f9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..2465e61931e7fa4870c334120fb6addbe7350edd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc893fd1b93b7de0343b40d105201e6350ae247dcde8eed8234156c625d4b347
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a6f9f23c5939760a9de75fdd244df4fb6a08d735
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/6.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e7432ebd1c7896e3749e25b9344f93e452b70fa20c759baa41ccccbbd9e8845
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..36eac3a6e134de5de24599323f6aadf9faba050b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cbeda989af73f48e999b44588c646419fb6acaa4cc8ba25a625985c5f91fddd6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..20e01136cce91e410412a339bc9b49e9680734cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3ad8de74a119419d9e8c6190434855a1871a0a6ad33a741d7112cde67de6709e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9fd1c049be290add32355ac7fe2f380c8c11eac3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:698492ec9116e2d981567efcdfe17dfb6e1c70c9217ffcd18b83cc89dbca53c0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..71dceeea2cc21e8386d85e182b0b01c5e555bc41
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/7.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61e43db10841f549459817d79dbbde628ef0eda974109143e6f553a0378b6638
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e8904f0578c92535281ecdc9e7ef9afb6cfee782
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e879313a4001f37bc8d47a0fcbb7a5cb6621191427e7335c34fd2c6d4c835daf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..52082ebfbc429262077bcc769adc6e905c53230e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb5e59d4923f5e895367a810bb4e8d15c7873a458c8bfa5bec27cc0ab0c0bef4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f570fd9e9b51e34e0e159dcccc8229c9e1ec49ea
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:327751114de38d7d92e2cfc1f69ce3482968bab5a1116efc7d815b3d7db96a2d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..dcf0a43e132ebaaaf76dda0043995c7ade6b92d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/8.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:de5bad9d4ae44af237da352bb341683def82dd3101c96e8f35493fe15872d6b8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6f60fc7de5a47e706fae43f263a9cdba43fd27d8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3df0abe0c23a9d473603a8f24aade4ab02fda6a35a179e21cf00826a51883a5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..22206d30f27b89389bcae13887ac7492b173aad8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2fdb424d4e435acadb216b6a6562e562d1fdbec3f9a99b1bde411dde73f34626
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..376bda9c06960b68811ac9ea2f7cc701c03e5b78
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3e70389712ce6bd32757abae8f6e5f874fc3d77c81573008feef52f70563b26
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..48d82d4d3036422ff4d90eb8b614cba68b09729e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.mlp.linear_fc2.weight/9.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3aed199982cc477690a82518f6ccf193b9978968c9e438040916987c990a4494
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..9040e404d6565f783a236d945e5b9c23767b9021
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        1024
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072,
+        4096
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..276d8df9217fff2340d306e2bc73f25835ad2c7c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d450435e6b470260484e6a31cbc134fd8109353ce498f7db61b52f5bb4918b9
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..ea258c1edfd5718c31b9516134b2da4c1b511914
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4e408147c37c3f054f10d66257a2d4a06e7f10c27696ec4399fe3dde62fdedf7
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e14f85250966fb6b3ca3230b97f5e3cfbe4b8bf4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:73f5fd1cf9cba93db0827c25af92f2820d1c8caa86c890ddc6d16c47b4cd3009
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c89018a63bbdf4abf48fe2e56b24b8f8f2fc4e0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/0.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:95b8ebc42a648124bcb7b53900103d8ea994c38fbaacb0263654cbb54853efde
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a1ceb4213161067aeb3a595d234c76ea474f5eb6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3859d4dcd007d24c2afa14cd98a809db800a3b3858d0e7846f67c08e252f663e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..fd5fc78117bec01c502232dc40d7801168d2d41a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2873459873e1180225359e1c6c8f3db11cf8d285cccced08d1a0806b05458cf4
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..45b5078e1836da71de513cef6e61d61fced4d65e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a9ec7d7c66d00829c2a5b4d031c6d035cceb9e14c4b2ceadbdcff48b3d447460
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c32e46964bc73d17bcd0352e878bda7cd250d7d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/1.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:06f3d084230dc425ac57d1c908fccea57fd16950f09b9117ae9c9f4ab7ccdf60
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..aca8ce253bcfdcb655847be97f6becdf4323adc8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bfa359fdd1ebf26836d8b4df0f67dc309c31195e3f727ffc248ace65cae9ca1e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..cae3fc1394f6f33dc02f3e6a45a3d6954fbd0629
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:766e9f83e6addcf11dd97df3f2ba60f0e6a077a92fb140a1a2277766102dbcd8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1a2de5bbf5bd33b67efeb741d9998ea62a00a3fd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65e7cd9b7d01505f003ad11bc9d45407742f20cb674fb1d4acb44a10a4523435
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..3fcf48d57a9c6d896f0e7909857945dd358a3784
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/10.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b23b73f56fae9045c16ae3726badd9eb2c030e0580f6ef711dbf82e0ba8108a8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..32e172a5125ee1fde37492ddae6ca8d163d8e9c9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:82dc6f8a990eed1f917980f6fe35b962adebcca26f5be5d39e6a32906f0ee791
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..a996d3df558316d7d4a25d47d1c2964df8973db3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e60051f4af9772702ec04fc01d0923a2f0698e4a1ceefadd5e49886fba52d38
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e28e5f7e892e20d41d0636ba0cbb1f8b95da5655
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f46e9dc10a30f608670d0e814739b1e51ca88c8d1e0b6fd44f73a8cc37733eee
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a196a59533582d895d600f593a438f9e583a8138
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/11.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd8080c8cb9344d45621dbde5707e95ba131f83c43b4496efbb4002d221d6e23
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..bb4a4d7435663007da5a7636e1c86d197434f89e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6779f069b24aa4f1f240367293c5c99326ff36f9786828b5cf278f807425abd7
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..224545105eac8ea6f5bb17c1cfd87346a29ea226
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1b454432f6b1001ca97053dc31e8c08012b2b283da29f337354b17b420aabf42
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..b85b6267aa6bc5b02875e812951efa76c6005223
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6dc8c7e27590a80e6605d8513adb176949d724240cc5b5ee6cdae9215be4d388
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2f5ac66d07d4d9ccdc4eeceddd2736b361192729
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/12.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:969972e5c34451c8ae17f05e006f2e25e41010fc77b4315812ee05d924ea16e2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e9b9a093a3e3753cafab81d21c055697870bfab
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e91718ed95048a6a4141dee973f9b7b56841fcfb442a431f8cff7d57021a54e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8211292844fea91a002bcfa3a3daa1d35f8255d9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b71cce3cf517daa7e173febf60940910b981fd43b21217d4575b233b8c8af395
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..606ae71653bf3bc73a1d99f5e21cc8e27e44298c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1167f57aa4a32d3d87d7c8a5f92a8f363e362e15578efcbe5be9f835fa28637b
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..eb0283a6be17b82af8ba7ee1b4c06994c4f0f3d1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/13.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:af02e32f56f168aa3e5bfa356ad6a02bfc7dc483d68f8ce76fcfed67994d6b5d
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5bb4d39a6f73f454380a1e3123c2eef83eeabfd1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25d9f5d54cf2d1b906fc28245cbdfaa4133edd270fe50994509217cd291d0c3f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..f93a756867091858302e2860d4fab772d72f9310
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f9d41aa07876cac0eb93d4850f189d6c13e8e93157200c8636d5ea75c377e3c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..ab3b979e495100788848f48a29b768d182a03701
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c25d695e26c00c4bfd47993fe3f644be0b9396c536aa172e8c86069430bba82d
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..11929ee0f75b84048bdb06ee01b9cf0c8d5067d5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/14.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cd4699eaa31e5befdce69d1e38f4d77df286b37a8e41404fb5d84984ffcd4809
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ba5baaede4b28610d44ace714ecf5de72e7eda49
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c5fef9ba0162d642e5fafe170881f2065c10465691921b38460555146022770e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..f2a5393f8db3ece4709f2d15f8d2a6d31cfebea5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:99eeb8d46d2fb434893f400585ac2a5e3db39e1209c1e46df725295e46df9ac8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..effb2e86dfb2c03b4d06b6d578e690e634565b4f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fed349b17c8f1b9a67bc6d7d5be23ddd6659d2356704eb3dfc6257da1231d63
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7c0a0d8029dc41c691bcf8889a7115c68fb74c5c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/15.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9be04736f0c4978cd86c52a59e84b4c8a1f23ebedba14b58ab2aabc18b7523da
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2a4a5d858d5d5397c0372fc197be9350aa187ebe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ab74983aca23422cc22d69dadface506dd129f16991bc4627a31e3d457d99c89
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2859538ad1d088a5efcd2fb56151b9b64288631d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:060aa4514d441294edd0d3763ecfe3b889d7b5eb52fc31dcf68309ad11d0f44c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..218f0209c5e1ca3688ac67248f32c0e22096af32
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b336eb9774be5a6c7e4a49b3fad11e1682048ab32536ace56b3c067ad0273914
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..e5e7460304382f70807e72ba7b71336be8b037e7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/16.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f4c296eaeb782c88d8f82a4d0788807e7cf62df8f815c18c489b3d9cd5523df6
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4f54e18722a4ec46cbdaa7cb632943c633baf1b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e0215efa87c7a70a2c2d77ca517e8465c54742120325de81074f694246d1ebf
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..cea9d2a075515173c6a2376903ed29a2e80d3178
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:631f52806f84d5f3d824ed2e65e8f81a22e49a932c74c66095d2b0319da99084
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..6573e7fc52b51a67a7c036f37bc749ec6263227f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0eaa23809483bc57f90ac90fc770ec99a191d30f6f8ad6743580e8caca1c7ac8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..6f03fe15fa27aad446c6495a945d37f4afde93f3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/17.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aadce78eabdea7f360b4b176e1740fea2992e64678c1d816b5c695b9215407e0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..340a6e73f7bad276079a785f47eb6e6bef710c9c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61140b25985d035befd400b292cb561c840a187c01a53e0cdf8adb7a65fe3640
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..412a490ae365ab58b54c155c41db570b063cad22
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f1208bdb2636471aaa817d1b6785ed35d736a174ccef20a48b202616dde8c4a8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..973a062d4b44583aae533154968880aaade860b7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8277c80d45ce896abbdd6c096bd76f390157deda28d5107905714ee324ef5a58
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7775e45f753e69bc33dc9a547891cbd654ffb35d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/18.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:177eabd969cb09e48e911d986555e497553605358ef0b88d7c58ab30a3c691f3
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..63dcbdbda243c54a30f076ad7c2f02ff0622f767
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b1388e576722bfbc07031a6a8a7b0d56e6fe5ad9f7ac761d4e5b349bc913eca0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..c3694332e7e55f936f39677a99f61aac7d628e9a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:578c0d83ccb729041cd780a12b41450fd8db8f06ba3139c90f6a77c3597b7311
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..0cfff3157b977152e40fbf2c5ec3e42c1b34307f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c161dd3c6451b1eb47d8d0ed3c12edae2eb8e84303a7ffad229881662ac95d54
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..6223b9aa62f43fe915cc0bf6fcd2b93c51464bd1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/19.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:99271c7c211ad364037e1877157897794d40e04ce873bf1a24ddc54e378c6082
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..22cdebbda95b2cfe5c7918f4047f16eda4a1a4cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ecf239f254b5240f4c5e8b1afcbda8d0a71c95bc2257f367870d26f7c1cd9b48
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8ce60a5247becdee5cac4baf33f4d826a555839d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c10421c58134960bf9ded1830ea157696db96f2547e62f6a01c566f3ec93c6b8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9ef6bd9c01cc71c0953614b3a183fceb7a108fa4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c2ca509a0e4c95547772e3df78a41ce9c77ddb9d73be0c63b1277410c7a3b74
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0e347a2ae039a4f1d00408bf24de9cde4637977e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/2.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:071072e9e5d0db9d267cf8165e24d6c63460f789cc3920cb75dfb4228d34b299
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fb06cba22889b3cd0c403a4b2fec62ddf9f905d5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bd6318a214f78ed2c2fe2c0064261d3ae9181be6ee1b9831faf15faee65faf12
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..4769c5e1f3496a9711d49c693d957caa0c4e924a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:574a1a6e060797c817eb79dc76cac8e404b1206faaaa99939cf1bb2f3e2f39dc
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..a212ba05ff8e53ba213fa12f4ac3cbe1f006671c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b514d522ec10db9d72d5e885b919893f1f1f5825b6f18ea2048867e1f3c9f4e5
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..3df905a6aa3bc40808c4a02b738e9b99fd06878c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/20.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3967539690fe65a2fd1aece098787f933d827ccf574d878565ce9373ab04247e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..567eaa1ed85bc54dcdcd92754ad550ac16e34737
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1727361ff9ee0216dfbddfaaa4a570a83421f8a321b03827f5efcd2bf4f976c0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..1743788105460dcbc1d3e8fdd187b33f466da00a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e2d70f5f4e14e5330819aef6e63cf4e4a1eb8fa55da7018b048c77257405282a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7c722eabe404ed5fa4b7a68cbc80527dc5276bd4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02fd5b6c9e9d07e49047af7cb6c4102b431ac2744c7669301c45192454e607c0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0060a084eb485c1619a8aea54ae23846899937a3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/21.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9d5db0ccb5efdf087b38dc1d9a07395e5e9dc98056dd95dcdd98254ac629524
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..73296e9bc892b0d27612fbbec4e78f455c86a9a0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc639386f9ec195c6a565e2243af8bc93f3fbfc82df23bde73511da6a73f47c4
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..cc0836e548c26cd719aa1320ad06dbda84f25588
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f58a11952cf80ebab345b613755477386603a815dab5f5bd816a8441b7464aaf
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..2e56d223c13c6e0cebba2c50125fc32cbebfac57
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25f00219856a10e6aa61ec1086fa85f7bbdf581410861f37716b9b9a35e0c386
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c0b761ddaa744f352f2a1c68893cf21aad2f08c7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/22.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a43219b9fd9c0274ccca698131d1d46576f021f9de96407b13be824372487331
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ac214cca9914b5ef211b3f0bb603f61694d686de
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5f41dc10149f0dc1a8713f27dc8cec1c90722bdb48e02168d7a28f01d67b8de0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..c5b356aabb41266c517585b8c3f32439c536d240
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0951115ab5aa8d0bb628a837eaf7f285ce498e7ed4f8ddc5e6a17d732d232da8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1531ee1e3c3c5bae74e365832ecf9dda000ae207
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:356ba820b4faab7a97884c39d1be4fb5eb0786bd45ffefcfb993e49d76b42665
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..12e330f9b58aa8fdaf335badb0b7492ac994901d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/23.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f4d551f03d14d05ddfd5022ca1c3442f2f64e5e2bea1a0a7a84f7dcc1ace9456
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b433f4465fdb1c44be293ce5eb2ac0b896e79112
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7a98f140723b8707f6370e8e5703c3a8987bf1214c7946f28f4597bf7b70f32a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..a1852c25a810da18dad137735e4d78aa98ca4b96
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:57f192d2f3be323994e9ca69149c59b540b1d020afadc1833fbc5a65a47a7ca9
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..2cf1346aae0618bbbc9ec870f5fbdd634a880fd9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4bf7f9a3dc9b259e42a15d5574abe98af47fab3d6ffee79b2fb7f3562c48f316
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0591f4c595342c0d5599b17b3dfd43a9b3a7f75b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/24.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bda1e472f071e0955e7fa271174497fb3e086547cf54c1cd120926cbd2e138f6
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..473c776ebdf529dee15aaf5228c1e3fc3d1e7248
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c139ec4b9bd00fe0c47f4768620bd22106cc0f8db77aec7eeeafa660ea096ea
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..bb6dbc89afba9850d92c03b20926908d0e684f0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea19d1abaa18e5e349d2116125e9597185dc9b35dc701ba5c80fd7de0692b010
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9b47891a7a014c3d90e18a22f64951b385f2318b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bcd5b2953563144581c9f1cd95a12014133b7fbd5261cdde91517014e5e96421
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..3cf38dd02a02cd5794a8c5624017f8782c455c1a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/25.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:29074bc0ea4626c1fecc6a2a4aab2a9039d95ad9ea33fa66fad5444be5b90844
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1f22ca53d6d2648f4502d4f3a9b39d4d6e3d1020
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b4bd8df680aec283790f4b4abccd2a0d207b5c83bb2bd53e11d52275c3d9ea91
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..f7f56d4a5800125c301070ba54fcb68fedef4793
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8364d772cbd7bdccd46fac8a0596d5ce07867c302705365fc414220acb23b866
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..53c51a7d2c85800d7daa7a714baf23de81a35e19
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9fb852770e3d1440af95884e4def9ae6f0cc5d8e998f4ec27de1fc720ef1cd35
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..d7438e76f03c12dff9210e5515cc4aeec6832440
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/26.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aa482b37c6826b3a03a90f729ebfb9601ac88b52e8841320e145c796280ca39e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1f92f898e5221fc48df0e164b8336a15a99c4524
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:615a16691c96980475c8ec4c5f7df1c436b783b61ab767becbd7d260ca7588a6
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..1fcb19439a8c84cc3d56dadae9bc955b57315cf2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:170456400a4135c780dd277d044a269ab700c88e2061c1f82cdd8c2386e7fe2a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..015c739ef4397e158a629f95f868a95338993919
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d36b0c2e4c177674e9a0183e97b6a2321e24986188f9abd8fef1a2b926c388f9
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..ee39693be8924fee072d8cc934f1c3ecf078fdd2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/27.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bd3e3b94b4c8a5dd4fe4072c61c9db2c4f1e8bf1dc004e8b66e9acf4105ecab0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8f408dc76f31921edfa3b58c0b56bc77ce835c0d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae9f3722c250d8c3728d86152db412397bf0f0bba1f1c0ab03a7556b5fbbc3b3
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..88335ec7f551b782300ac37a32430d3d1e6a730b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cfafcde7895b4bfdd05168f5d5fc84e803e34c8f8198f4776a33af46c78a547f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..a134715fced524bd8973aa10e9b6ae648266b125
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:990753479482ad7e180d442ac9a79720c1fa1a8441bedf968bd614723d16cd54
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..76dcde08aeafcc76d2d576780a4592a2f9b2a10d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/3.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c31775eabc9744f799d855bf63a5331d7989443b7eea027476b8c2bdf2e14afc
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6e7b58c8b3d5c445c08435464ad99d212140e8a3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2013e59c2fb81c7651d76bfa5d9a112a5adcaf8c957cc18a37364ae026358dad
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..c49adf67a210a8e5f2817db8fb6b148b89df5956
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:994fdbf17080826893610c4943fa4aa8833de556daa1bb8d0cc60b3af87a53e7
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..3e7038d330cde066e6c46a20a588d8e3269de422
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d822264724818e3ee03bafb07bf119a7c5d497ea40cb47d49bf6852b70029de0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..f398162b0b86423788d6bf0bd8c59bc60ab55f74
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/4.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b739736093a581c5f708d58cb140a4e6179d68066795f58ea618704222485cd
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..48e4ecf0ff6f8a1ca6470222eb15c289a550208f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:028cb3a3b2e75f6127325ddf8410975e9b318abd53f11a58d33d2216ead18474
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..b5414a102c6daa67ef0607e3a95d6dde9d8b3bf6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ff5fbaa1bc57cb3442f1997947c37f16855b0db68bd9c71ea3b6e5dec8c0da0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9df2bd101067ac79e7cdf71a28dbebf7545360f7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:443fdf442ebc8a432cf56ce634003187c396cb8c529555c22e9bd45e0e17aafb
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2036091fb01c92241b9b6939958090a5632ff227
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/5.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2a6fb91038f38a46a6b7af4b05c871098951ade5b03eaa9c32f35f3524147f5f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8491281d4b5d559cd570905401333b8ac8e6d30d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8511ef222f90135bf3f25874c86e80b588f7e1d505a425d4c04ed7f9307bc265
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2258e12c0383939f163c071dc99637018d4e6001
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:70a87bd51881a298afcacefd988fa3c4d2f1754aa563d460a62889b488f34a99
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..08e1ed610162d69d808938eced1919e6ee489add
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:af32629478bcafc8f6c881b482db79bad7711ad44e2cad5b141779f1a92906cd
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..4504ae73b37b72380dc73b34c1d3fd61488b8d3f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/6.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:829b86347f2435d2a49cbfe3d18bd8edca16eb1af430dabba148204526a15184
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fc7d44f3a4571a4c5025bd394f4746511b79fd58
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b6f89abef1a7fd869cca18d71e8a7ff5c796c536244602830fc4303af8f8a0bd
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..672c4fb1b16be716592b88cfca1c35adea5720c0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:90527ecfe82dbe24a8493abd3f1931eb62b731361719e6c2b987c1deb1840d82
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e1e5da4569e7c9ef2f30ff82e572489ec2d16779
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:657ab23974e97fb22fdc5ba92162997deffdcbbcccaa0a5b64e55e1bf092ad17
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..78d40df82e592f79618d914a21f012e360d4dbdb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/7.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8dedebb11ab8f6d9d43c98cf13c575f36f8bf2aea43b200439f82e5d32bb1eed
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..926c0ba02585503cd354b6d83704a4543a36a59f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:013cdfba258b7078cd3547b81dcd6e33d9192788f846a98534088ce8d8fc0ffb
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..687c11c2d74c59e8ba3ef45838747146aef5c2c4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:87602dad022d9721b85be4e5049fc6723e96a4c7b33d9eb35df75ba0568ada8f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..b7668b54e1f2566dbe2656344b595a6d4e8cf360
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7bcff90f676a554dd11def5a6d68a9e85c85d98ce85378d120aebd64fa53c3df
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..9304030b1c0576a33c2f2ff8f2ae19fc1d35d19b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/8.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72608d7e7a46cf668bc7965752a6f7514002d6cec2b664cc4607da6553f26575
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e0c072188f948a10bdd7db703c6326fd4f5cb5b7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b2ce2090a3a3ef6eb4bbc7edc6427b81d32b10356fe4103070428a2b945c071a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..561376bddb52dbba35b7cec1ea65843dfacee1f6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2146a8bd78850e23ea3ea298d94931f46b038becb5b784a2546b5265e986c2a8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..3a06982d65b0b783e654d7ab6890944eb373a808
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e018107f8397d6a1b5e58827140080fbdf9b5eb9fb4f647765be1d023b1d7ea
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..f44fee22146c16ff47ddc5c45ae39dadcef8b4ec
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_proj.weight/9.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9894933aae6f75a4dbeaca705adf13a20d1c51f454580c99869950bc9d204825
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..ad63b2146cb31889c6a746a61ae72d4c619b1802
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        1,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f70bec997a6bc14e8596b9bfdd57afc596cf102c
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b1c627cd26cad4ff4ae239e8e37e1988eb7de113
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0
new file mode 100644
index 0000000000000000000000000000000000000000..77f6abcd4ead5e32d4474d0c82761fca8853d06c
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0
new file mode 100644
index 0000000000000000000000000000000000000000..b3cbe6ceabefab0ad58dc688348e79088daa888a
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0
new file mode 100644
index 0000000000000000000000000000000000000000..ff2a0c4567dde55da3b80c432e270e853df17a9a
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0
new file mode 100644
index 0000000000000000000000000000000000000000..8b57bb9bf309a0bc040856cdfe94c691411768ff
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0
new file mode 100644
index 0000000000000000000000000000000000000000..f2a0f2121ae17e8d8af29c99e2c5562a37e3f97c
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0
new file mode 100644
index 0000000000000000000000000000000000000000..094600b94a51ea4e05720e127e89564f1e8f0294
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0
new file mode 100644
index 0000000000000000000000000000000000000000..7e6bbc420cd74a669eb0ef1c2c5796b375167e18
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0
new file mode 100644
index 0000000000000000000000000000000000000000..c3dab2254d55f50e8be6657d9b0b0b559c4a65d5
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0
new file mode 100644
index 0000000000000000000000000000000000000000..54a2627eede7de24f99079019a686cdfe2d57233
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0
new file mode 100644
index 0000000000000000000000000000000000000000..9e2a8fe85a7bacc3e2527799df2313bf9629750e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..bdd30e9a37455c65ebd3c12d094e7fb875dacedc
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0
new file mode 100644
index 0000000000000000000000000000000000000000..79b3f2c2c33ce99ac209b3205aca47d36dffe2d1
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0
new file mode 100644
index 0000000000000000000000000000000000000000..b6a01054fd1948a60ca0878f9763e27d2a217caf
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0
new file mode 100644
index 0000000000000000000000000000000000000000..4eaf135a676f2fe4b0d9be28ecfeacb80f8a4f17
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0
new file mode 100644
index 0000000000000000000000000000000000000000..1c7e67cbd31ad75779a163f01841cdef9b99b69b
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0
new file mode 100644
index 0000000000000000000000000000000000000000..7b8e9d907e581e2f7b665f49041135bad08effa7
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0
new file mode 100644
index 0000000000000000000000000000000000000000..beefa3da11f0ac78b1696848e6d3cdfa16c52882
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0
new file mode 100644
index 0000000000000000000000000000000000000000..1e3c1168ff7d912451db61f7bf7f18a0a34cbacb
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0
new file mode 100644
index 0000000000000000000000000000000000000000..a997a9792a72747ce02ab561db97fb7d090a81c2
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..fa965867355b7e3a003b721dafcbf7b536f66736
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0
new file mode 100644
index 0000000000000000000000000000000000000000..405e7ed3ea2be855ec3cb0420f2753bb46715d86
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0
new file mode 100644
index 0000000000000000000000000000000000000000..0902e90a701910d68b906c69e60dfa6601fe1cd6
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0
new file mode 100644
index 0000000000000000000000000000000000000000..b04b05b7ec55b8f39c6778c928ffd27da8071cc5
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0
new file mode 100644
index 0000000000000000000000000000000000000000..d5372061deed63c6078d3f1918c92aa8b4c18e61
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0
new file mode 100644
index 0000000000000000000000000000000000000000..3d096ca30240edca051cffe713b421873be46796
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0
new file mode 100644
index 0000000000000000000000000000000000000000..82b912f93c0d71c686ab497a8b711e442c0b2628
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..347f8615ce9067398122a5a72f37d14b017cac5f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        12288,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4ac0acda1a853325d075597ec395841589168271
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e295b082d3fbf7df81f8e5705e3e5f1ff69eb15b69fae806a489678115be31e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..6bb9e9d7a25f513f6f0435319af1f85fbcb7f177
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2877460ba118fa8a451cbe989a2f5b7e36431d138eb224c6fe1caeb24edbbb13
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..c325957c7bdfecaf4c0e749c2bbbf7e34dcc694d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0dbd4ccf19f0b5be6acc2d0a025f35065e0c7fe56cde5c0f6e7b0964430bb70b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..5e171c59325e234d2aceb2e32cbb86959a74cf2c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c84d1b6947d0fbbb0276779ec61dde97873494db1d84fafe30d4e4ca6c7aea8b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..aab9ebeac065f41e01d0526b7af5c92b9efb2bd9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:305b111d41ffadfafc81e4f358610e356aaaf2032c4078018a3fa169706f66cf
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..3f95cf85663a5a1ea429a587e7250250015bce08
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8849a0a04fa42375d3be48dd85728e262e33c9fa8747a73862f1e2479a058034
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..5e6d386730b7d74926a190d3a3417dbddf46ca08
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dade3ae9282205f44498bb04d06c1f55d787b3358a75e943099865ad0ac05f44
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ae11077efa5faf85605816e53f1e91c96e48f163
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:630ec551ff4e4f3d434f3e943c43d64499b719822885fa9e29b698a04b5891d6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..64d349c38d0b0eb7ee160872f776df321dfcd744
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:742f44d7b83de173eab072f24e35d293ce36811817b5165a48fb94ea5634497c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..5c437f8a293b4b6a60b72ffb79df4a656f33fb91
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d377110a72bbf2416ff8141d517f697047c95ac5c6a810066bdb05a54285fad
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3e92fb483b0025bbcbf14d47614c5e333b7ac3d5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:16ec9b76ad7bc38f97fafbf5ca238dca3a08ec4bd8444a92b6acedaedb3fbdff
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..08280c338df0d04f4e40d65e3d0e034d5f52d587
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8786f227d335503a32a8af841b37ebd946ed0d015fc4810c5a02ede9588c90cb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..766e65d62d69c4264be76468c771d565b1cb6c4c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c30024f7cbb9e86b8540c0105d49207448a5e740cf15ba28b5d74fb8013f791
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..88c5ea4b85893b2a8474e459c264bfa122071ace
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a94dc47f09c33cafc3f6f9e02ca52ec456e8a4682a9d6d6a2ce7556e4cf6b27
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9d5835c0b9fb33af1c45cc1896f90c99754edff8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d4f7b9f9fe78c568a7b974bc35578573df59f79b2128a36099139aba3e613c4d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..f9a5a0573f820fce8cf63e506604310e319f776d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:789f71eb1a377404d57c8fecd4698b211b628b78550d8598f8df14993dc8f652
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0f3f26c5ac601b84fbf9f306b3ebd6d70232e11a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:645acba2813e91075fd3289eb65954203188a2f612059a6a2398d9ff68f0af44
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f9236d0f4a20f6146b0cbe87b4f2efa5487837b7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:459e4e2f6128691e2de7faa8bbce0ee54fa14f35ccbb1d11b606ee6a2bd06538
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..93bd885e0c902ad544f472a71d3f7b5c08fe2314
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5fd7aef2860bcb1c5703078ba4202ea4c87b1f9b4d34a28d030b67bf4680910e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..92a419cd365ee548438d9297de7726f3ff733f23
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b0047e4a763c6929bdfa2925446df8a11efad8014ef26a5f1b03c110339de2e8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..06cf953fe3ad7d172561568454f7b4da07c6acc7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5f0e3be656050901b3a277c1ed09ac871d4cadf5aa3b6fa59f8dcff6ff26a22a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b0e263d6a40c309b8dd418c0fd1f340313d4feb9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9aad72e34fafdcf3894313f07aa7f79b7ff05b32b4c998c2d7b7ed51465e341b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..f3eb8d7878b51752195529c23f3a07a599d7e8a9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7145b2b723b9a74a2b982b7be685823cd138d6bed1ea36469ebe649eead647d0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0f78df00293f9466483dbcb3029b720b84f24fc9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9b568e95115edabacce22b58e089faefe22ec432528052c237ecdbefbe46e388
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c7ac714f7882b7a8c51a4a643e23cbdf8e379540
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e9a5afe549e8079ca77de241963a17c393b87e512e5a497c3834d31a2d3fa1a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..1423650e9822f339d495da10b77d0d7356cdeeb6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe65412802c725d25472e6e1a6e7d5c74d97c3de0236d8b8534a4f3e45b9c72b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..6364ce25d466aa1cf511790f2facb90e52761159
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8b7f99c95070f2916b81962f419eb36af9982783cd3788b0b113550208ffbb1f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..332ab5e305ef93a99008f9ff7d8f8afabb21a29d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:47da9e9c92ffff2cdf8351e20c83422bbb2dabb6a9fe71a4184d27ab6172b75a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..16d4150ca07cea0b3b277c87340e5462987e19d7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c3ca8612fdbe85a440b96280176c81839e5ce9e12f1e0f563e7f34076f5f0bc4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..1d852f1b57c936b380619c158f6ddd96a143de99
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c3c54ee4d6fcace46afa785b59c9e3dac7b428bbf898f5bdf34e023a5024b0e2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..dce189cc720ccb5c5d633f34fb882c49d7f08c3b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6d46f356a2209d9e8edd0baacbc885ed73c94178c570be00df183f1359855c3c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4c8321c03484ec73bb5d91e2f1679cf931fa5799
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc268a05603b796aba32c925a0c5691e439d77ae04ed4166c320fa904977a11c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..410e4a505d0824046bcae5122e15246575a8ff08
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:942a9107b681c1fa92a70bedca0c7718c5e857ba948d123ff425845ea489f1e9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0427ac22b462d8ef14c54dba15e3fef5dd12c700
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1243ad9eddcb34c24c0426080e225f455116927487496102b2f0553e841b44c8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..fe6c25a95cf6faa44402e61bf4e6a9710b6a8eb9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8601f85af73c4171a947fc05cc4b710bc3186e97d7211d7f3921d97fad361bdf
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..574298c5c361635b00fbcab067f28bd601b515b0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f23725f4dfefbb607ee1c267e00d5c7e16e175ad9c014124e637927fe8cefffe
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5a48f9d1555ad1e904907391b105485e148b2f13
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f079ae94d3bf14760898fe34f5682e016ffdf42fb8cbd01f4db0f69057d5ee8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..ed229f68d50347faf445a3f80579fd342b9e1a40
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f82adfccb88107c1c89ce352f43650f2797c186a28080b53e430ffe823b1f32
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..77fa87d5d05aa04efcdcfd409956e7f81a735e4f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d74002c79d06a61ae6e3d39608278efa2025526adcd2df44f1e4c2c0edf5a909
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0badb3f079fed023214f656c80b19ee869b6db2d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3f23377071672a3df6510799871186fef8000aaa2694fe8a2902960397cd948a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..9f87dfda3bc5ab0a813cc9fd8dc2f59e83b498c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:491e2860ee724360b89cf127c1f1dc59f6c238042a8dd26aa7178892592bd2f9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f456ffd0e9d6affb71b21213da8167455aa3e917
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bebaaa06e7df7e0421f88909e69c69c029b63d983cebdfd670a592bb94c84795
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..5d4e6b332c683d25360cb9483f54b806b4ee993f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35f57a1976888f223b001f648139bf4ca03961a85d70c1a22235d850de47a119
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..18198d137898c5fabf5056dd620df20b9dcaf6d7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:795289fb64eb9f6258df68008765401032062978bd8002ef6149e8a1cea6f73c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7d521458617ecc10bf90d292fd617ebed2d9b5a0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:646de611b030478eb07d1269f8874f66ec47387a18e65ec6abc8634dfe05c134
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9507361c30e02cd9a12b5d69807804425f58231d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45e4d8036e24eab4cf467acbb346116c52a77fe2a0a5ed886092ef35d7da027f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..2b45e944da5f649dae69ef91401bde9558069634
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:682afc47648525b4c5de0ebf43c5f431a1751d35ff8ae5a1fed93ab063f869b1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..16b4cda5ddd36d707386c01a8157a7b5a56429c5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:116fbaba47d614e22268d1547e79dda5e5dd3cc363e7e2fa1f240854cef5f0c2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..df129efa25b489856163d91461904d564019a476
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:235c4f7494361f7a80ec5ad9d260d81bffdb9a0a85459daf51b83eb2fef55b24
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..cbfa6be25dbcaa6fc49d7d150a8f07c80e1821c2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dc2817ffd81727c677ef0569932737b9e1433d3a871815095a03ff1db6adb1d9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..3f05d1452e0a1fddcba80c731d49d13e0ffb3baa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f2df7f8949f2831e5cc10af94f97f9d10b8e2e817bfdffe81b877e20ae8b097e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..093bada42a438a58545830a69ae13e813b134f32
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:103a8e084f3b8ddf72175a41e6bd0a2cdf352b41c23e49a06870b4b7f4382572
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..dccfad8a047b1a5c97b6720110c6a4d7ac653f43
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a62fe2f3ee0b72b069adaf3bc5d79fdad3beeaa88fdda3faff3cf53b8496dda
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..71a1f6f761ecfbace08c51500615374b065695ff
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c97e65e8677d4840fed05d2fbfb8395c3d53c4e676a98fd4358aa9af12dd3f0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..22f3bf4ed198c55f452aa5fb3d2138dd15f22f52
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e92b827540900f4f968e1149ef35fb575703495e06f8b92d502d42f3e6c02cd1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..778c7b11d206b0c65faac4f8394a3fb07eaaadc5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:deec39603dec0a58f080c38a20a956939d55461b7e3150bee7c18627f2fa9e76
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e893231323ef2eaa4b1a3a5de2c3b7e024ee1868
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:240e5874940ef42c60e0e6f80e354be3fa3be31be4c3739114c5740e2d138335
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..25c1fd8337dc7e872fae57f5f0d3c4a73a379766
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:42a04a928a469420b9a14094a04efd5ea2899823761b82e0744bb864822a8598
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..7967dd908ba3b06a565fd0d4946604aa9ced2136
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:abfcc4f3a269d2321cd52402572ad57ab98098befdf79d897ede621aba1446a7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ababd70941a69e6cd08960dae9110161c628a2c6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93cb59291780a5de2f27e5bbe27d5ce4366122c489c3a1264b29558032b527a2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a3d7376ec932d2a032bfb031887bfd96d8879ff2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:60fc1dc69c12eddf21b2b7945776c08c345e77c25e27b0180ff53dc20d9c8367
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..1836b436f44fd45d45a68bbeb492fedbfb629c57
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:005916afe3d1faccd13d767ffad8497a6cfd554fe8f225989cb00b10939ae3c5
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..6b35ec85eecf8653ad9277c6b2793133bd03d1bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea6fa6afc37557ed54e114d7af05207e19e2a27ce304bf5234cadd03d9674c41
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..559ceeeae63241a84b4f7a96fe53cb73fc906cbb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:53f06c508d43f9f8137380f5b675748147791a17ca453e61640d3f80632b0b9e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2c07af07f3ddf3bd950133003bc0ea312f1ea27c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c84873f39615b600dc1697de387f61ba1783816ec6ab318bcbb095a61f07f4d9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..1ad1ef96392ff924a9bbd0e5caef79fc9ed016c7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:adb53185bdb61e6b95ea5a54ba2de2c86b6ba7407bee1469ee6a3eb4e3835318
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..08f4b4114bd53ee8b59addbbafe8a08e9bbc1347
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:192e0b86b598da247bf378290f3ee160b5810b636624a144d55eed126768f6f5
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..2acc326ec234815e6f890e619b77d86ac9391caf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:729a01fd2ec8dfa37be2bc25d5f25ef48f9edd388a2c7d25f4b052e0823ba81f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f7cce85886e76ca0b3759eee13c47a33da66102d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a842604b089f30da8d39d441735c3307407adad8ffa05bae42213920687776f4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b3902725ef53294647bf8a7cb347244330b0f050
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6148ca905500056392ece5d37bbb98751b797ee0495f7c6239cf4c5e45acacb7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..d8a8473992225e935ae4a99da6480f4eedc6b1a6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:674e95a14c4ca3047073e7186d739ba4c14ea727e3807950d855be2d0b0b61c0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..954e810de0d1a9c27f371a18f846805ebfed5bbb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:975e1058b952e388342fd1fba9a03acfcd576f7e2b5f43726831eff3b1c8b19f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..439623cad47cd35e5aeda5bd1f255b69088b65c7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e484eb41d1841c71e335796ebd27a5305dfcac23fac84a593eb2c12d43ab7a6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0737a3c6fc7935fe5d7a88746af27679cd929b8a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f13474950a934d10505eaf0762d55a05eb6e6b2f2fb9d86da9736a592d78d303
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9834f2a40efe49ba3310e346b4032f36254f6bbe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5ed85b270f3c35c756fa8388d7c6aacb539dabb6d3ebf45101867b809b2f254a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..acc9fa90f2821dd1a75dc0d434bed5b456dec8da
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8df31a2711b780d8aa7174af6497ef1167ae4be7c82df13f30a0972fdb8018f0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a0a3db8d7aac058ff24eccb4d3123e43480c0ff3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:432c47af3e7737f2a8250e4344e3e5d00f2990640dedfbdf3c3860e0dd420fda
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..3d98932cd16f4f23b8b8fce06ae63c6cb7ef81f6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:125af337cf2caf0722e5b76ffddd61a79828d6bc6001ee26b4b86585d3c20f61
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..22a8594ab8f83530648088f047b0da4c40da33ce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7a1fdc5bb490b4a4a40aa631c7eac72fa9e75975857adca95749af3fc79f3d3c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ddfbf5238b09349def93e426271f39326687044b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:23201623987a14e5071820f3f29c3b41853748d22fee8a9009af413bdcd7a361
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..345e1985986f4b56274a92e0ca3c5d72a0392531
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e1e3ba0a4ca5f611db3ffe2299269f8a62af5fef34e190fffa8466d77c744fd5
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..5cf968f4b525dc7d80a272cc35ebad6974993198
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7a9e59eb4ab8d9b1bde8def58d0e72781dd0aa32356d45c03f2530efa75c8a6b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..36dbee0aadebdef0de529c2e8d63e8d728c841c3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2368cd874c06c66c676ec392a6e318e199d078a6b9b9e9385825391cf9a4d18c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..7c52330fee4bba9da6614646db2d9c1c8f3208f2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f9bf38a2521ad1552b359ca590a9bc95031d88eacb1ad3b9c3cff6ea5abb952
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e39bd53613afbcdb2dde037c125350cb4871bd3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:26fc99ddfbd245a8fc298df30905f8da045acffa6fabefa8b4613e5a05e6649e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..a4bf7a86fedfcb03b4b6d6a800213de51c2e65d7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:468a839b49bac3cd7b98d6b94080fb3fb0f4d5c333df5ecbe19fd990b1dc198c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..1a5825a772e8b793224303b59c9a5b90c527b9d4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a37435d7282443a04b4f156a395d3be5ab6582b4d4fcfb8f9c766ac018c9b4ed
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1f0af1ec6c9d127f59d6e712e37932e9b2569da7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:55af4250d89d5a52662467c54a466c23baa28e193173575d8d2f0217b683492c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..558095d40fb29d0144ef441970b8a01c6cd94b2f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7046adcce1ac94f202dfca7eec8053636b1844876f9f3a5d08f41712f1e18b0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..2320adf75acf0b9bbca3e3d53ee8b342928f2bca
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5d20274c6986fc59899bdf06fef096d0563b57d19b699ccf1d0757c07dea296e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..d57399141011a6766ef9a34d11ce675c67158849
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7251df091bea793acc085a2f97dd02615c8a11a8732affcca3e24d7a2a196a52
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..a756370b2e66e8344936137dd29ddc6c9cd40f3d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:13617de5a73ee3d22163616440de782419ca7fcc7173c59d30048834669255b9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..946ad1dee98d838931996b34b4f6994a8614d5a2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5aa1dca123567b7f38ed63da3aaf4405abc67da188bfc11cb82e029b8dd4f430
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..41ecec9ffae11556c56642537e1a80df1d3aeca6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e29ab4ff90a97027fdbc19d47b934bd0f7d34ff1b18b974fcb3b33fa515883bd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..4dd21a28c20c5ecfdb2a522df8c41a79061307d8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30069880017b14ede3304a4e9b434fe4d2168fbb3ffe6151ae7a799b6112e625
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..e7bcad9e78bfdef3cf9d2b2592c92b62deb3ec24
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fbaa2900c5feb17658e4bed3ecc7109547c0b6726617ad3b0b91e10ec1332035
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d0fe27cd8236a40e7b0e44a135c1804c53cbfbd9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:60f94551310a4a1746fd2a1f8de2afb0da825536841b1c48ca63a6e2c5e149a5
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9a1b7ea12b284a074059ce423772c1712a4c5deb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a1774e13ff6076aeae225aa89038e6fcbf1b0bc17c7cd16242eb8763d530ce1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..7ad6eae2714fbe91e584be58f0e7239303d3304b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:acaa9ed80f6435ffbae9016b2217a25b6afc60f23188de9495cd057d75b85f88
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..466e03cfeeb20d2191e2d9554c10aefe7432ea99
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bcc8e4b3aed51fd34b826aabdcdbcdfa0b4caed71e3a9a4d6fdb9aba4d1d6c00
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2488f57c9091ea2939e714bb0e0e6f904402290b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e0dfa5483474d951cabbc4a6508771297b071104c9ba3428e1fb71d4d41607d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9175ebb5697b04dda5540ffcaf32aaf1688f54fd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd492cef8b85de37a877d7bff31d0c05b04580c2f133c194c08d4913fb8a4fbd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..abac616a56833496f7e926cd84d0084239698743
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a207456f7ebf24c13d697503538095048576ee30258a443b34dc53ec844b799c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..372480bce579ecdaa68732b41a632dac2164e6fd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fe8ba8a6c1d8b6693c04198bf790619903b83ec7e5882bc09ff324ff345d07e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5a80160d723458825f2b0af9e39e2676d8f1c068
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:20432a649157acb201058cc69e1051637ddc047b50f8f701f4ca1110a89e7c33
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b6eeac6c4258c9e21401fdc82c49d8a3da1e42cb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7c7c603975b099cb7b8bcf659832268bdb087b41ed0b4f25df3655f7e43e617b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..6b66a4b118ceb7422c267fc82acf231f9ffe02f7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d85670a79e8084d95cd6a6708ff947180640babe8503b113bcbd3f9158b826e6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..27f3aef96e4875cd27b52294fcb6e85d9bf148ce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:83dbbbec36b5fda4f36d2ef8a31617e160dd74dbdbdf71271c395c76126aec25
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0aa324c9bd472e8449f492c0d46f9bfebd461d72
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:50c2fd81b6c22cd0059e53a6227815b30e2c36129b3f12880a1abdc293ac3303
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..968b4e39dd6b30b5f56fdd1038aa1d82296b51c1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4e4de5a032482e230b5da80560aa4edc7fb243c3a072dfbb7ce90afc6e790313
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..c4b3fd02776a0d3b6310fcd6a3b9322b7749dcd9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:42c1496e4c73c14a709960c4fd4ee4d8dcdabcfcd541636014ed7ff5ecf923af
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4e1078abc3eff9185c4c39c6ae61f879f13d7278
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:80fccc4f8ffdfee0aba9f7c99d93d05789f1fa3d8c1ecb62dd09edaf50c7e3a9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..75f564ce24fe17784bca818be4458677c05baba3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        64000,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        256000,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c61804844b0b1c1306b6536513fa690b3f8a5767
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d5086ad5f635e3ab454fae223570b1b62a07baf5778908929b3d6c2cbb24741
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..32f2a5d6ab266c3b0ed8a966b2973a9b410567e6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cea1a21a2c0f01c9c8c17b9f3779dea97aed0ec5c44db4c7dccb89ad9300e9ac
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..87a7fcd310a1e4d68a564545718826965f2bf008
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:041bc8c08096cd7470136f3d0745cbdc17eda103a8c59d743f6b9add6f075cf2
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..aa9e2f6df59515edec87a7522ae63d6f85d9b98c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.exp_avg_sq.model.embedding.word_embeddings.weight/3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7994c60c5003450f4aee606a9578511bd8e5954afee16f89137ec86c17b033f5
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.final_layernorm.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.final_layernorm.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..da2ce6f95967ba2d604c30a33803df2fc3263bbf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.final_layernorm.weight/.zarray
@@ -0,0 +1,14 @@
+{
+    "chunks": [
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.final_layernorm.weight/0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.final_layernorm.weight/0
new file mode 100644
index 0000000000000000000000000000000000000000..d535c4134989c857640ece9067d2d6e6c0ef7d94
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.final_layernorm.weight/0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..ad63b2146cb31889c6a746a61ae72d4c619b1802
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        1,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..33a24cfd27e9a80082e0bc434e5882b8ae3cc132
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/0.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..d3ae70e1b14d2b6ce779c32335cbc2119adcdfef
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/1.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0
new file mode 100644
index 0000000000000000000000000000000000000000..729447458198fdbefee07e8240529c15d9560308
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/10.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0
new file mode 100644
index 0000000000000000000000000000000000000000..01e5fb8016873c5bf62bf614481a55e992d08684
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/11.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0
new file mode 100644
index 0000000000000000000000000000000000000000..4c21a861a335a149047262af9931ce342e3f17e6
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/12.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0
new file mode 100644
index 0000000000000000000000000000000000000000..c49403835996e78fdc6b6e64e4836b46f3c11430
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/13.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0
new file mode 100644
index 0000000000000000000000000000000000000000..788b6cf90b29d62127cf5c4199ce235e07335ee3
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/14.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0
new file mode 100644
index 0000000000000000000000000000000000000000..32f467028ce362822bc1be80f8a28df116e6919e
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/15.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0
new file mode 100644
index 0000000000000000000000000000000000000000..d29cc563d4b924e90d4f2f75b454b8742321ef3f
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/16.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0
new file mode 100644
index 0000000000000000000000000000000000000000..d58314c19bbe64c43fe1ce60890977daaece9063
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/17.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0
new file mode 100644
index 0000000000000000000000000000000000000000..68ac0dd272a9cfa9e5afd2c45078bb56943e8c5f
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/18.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0
new file mode 100644
index 0000000000000000000000000000000000000000..0307441a36940283d4c338263961fc9d36033928
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/19.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..20133175718ab874c260caadd9e0d2607d6bce06
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/2.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0
new file mode 100644
index 0000000000000000000000000000000000000000..418318609c2338663d041dfbd56ff521ad6703bd
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/20.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0
new file mode 100644
index 0000000000000000000000000000000000000000..05702009bec6706f71ced726b34f1f58650c4565
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/21.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0
new file mode 100644
index 0000000000000000000000000000000000000000..7cb76e43aa165babb1314fc511761252f69f821b
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/22.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0
new file mode 100644
index 0000000000000000000000000000000000000000..6840f43eb9d800c87da6258f15bb526825dc8096
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/23.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0
new file mode 100644
index 0000000000000000000000000000000000000000..82cfdc2a2d20e4f9a0105a5f8f09580e3fe7e68a
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/24.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0
new file mode 100644
index 0000000000000000000000000000000000000000..0ad5730e7742209892fd14ae434190e71618dcd9
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/25.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0
new file mode 100644
index 0000000000000000000000000000000000000000..4b6bee4f06aadd62a7fa425d6d0824f82a0bee8a
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/26.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0
new file mode 100644
index 0000000000000000000000000000000000000000..3cafdc12a444addf11c3d86cacf87a464635fe8c
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/27.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ff1af9b0c2f779b1860ec0c7ffc0f1b716b34202
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/3.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0
new file mode 100644
index 0000000000000000000000000000000000000000..44fb1012fc67ab52b7da2e0ee5319e2d72ef28ab
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/4.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0
new file mode 100644
index 0000000000000000000000000000000000000000..648d933e82148efef3c83d5dc17e53f9c9c11897
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/5.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0
new file mode 100644
index 0000000000000000000000000000000000000000..c039e126b1a54d1a58a37eee5ebe24400bf8e75d
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/6.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0
new file mode 100644
index 0000000000000000000000000000000000000000..b1d87ff8d0eb62944ab3aeb2df321d57afcf2b6b
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/7.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0
new file mode 100644
index 0000000000000000000000000000000000000000..05c924339ae96f1277d77588037c0a21af7e0eb8
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/8.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0
new file mode 100644
index 0000000000000000000000000000000000000000..a778a836ed0643335f5532849db35e833f944eb8
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc1.layer_norm_weight/9.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..eb4b74c312cd10445beea2626cef1af6974295a4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        6144
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072,
+        24576
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..acc0ab6431e242ca3d86c79c9fa284ce932fb0fa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0251d62616ceff3dd94e3c8451b07e2fc737dfb96c83435bfde3648fcd79c98e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e8f58ef24b221986a80b53756cdd78efa08fc328
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3d7db72795b4027cdb4da313f2ee2f534aed4b6c60f513fffeed2663b43c53fb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..6a8537dffd1e5916801d019c1ed879b6875927c5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f9e832be3d91b1a074eb6901e820e371289729333e2354c5afd4a54e40c522f2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2b19e3aab80e5f8e3e272006cf3af233b4249d98
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/0.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8822d5024b92490a2f6d5e7fa8722ba43e1436c71b0a52a5fb9c65798bc230ac
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d442e7c4631570f449ef3ad40ac1b50d551351fb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:074f607195e39d134e2a7b93a185331ae5a75e74947727e7085b6c7cb5a63a45
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..62e564d1ac2f80356dd454644d54d44ae5d2613a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:99f21262c4beb99a1e0fe3623fce5264c19c5cfecaca251659a4b21da3dee19e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..91694da673e3d8e28d3245accf44d479d1a472ec
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:df7cc41406dff1c3593ba4f8a44986509d29498f112771ea9d78877a53f394b6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7138428c56d7d023a2bfd32a0db368e0112a594a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/1.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a39b3fb538e64fca3734a590fefedd41b0cbc2652de72d94ed12d1c08370923a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..371d1492dceefc03a4f3fca21779bc578e9078e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d052eaffaf7e3c0101cf63b1f9f8bb5f624a5bc5a70b3dea01cdd3ee2f485a1a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..50b34b26253db8992bb334eb3b5e97a37bc25187
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b98e8ff48ad336c52e8e283a886753c997298b7a67d0ca085a95650a52cdccbf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..4214fd7382918626766e4bd028a3fe31336b7b74
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3ad2f526c529aa51a34e9549365c2f1bdc44625890be0e1712788efe1b40ae0e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..fd3768a33e7a8c204f157b6e6cb7cc581afe04ca
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/10.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e44a4e467e55571a951dd722a22877ff4d56507d971754f07df9f9aefccdff74
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3b67e8da35cacde0bc9febb0016c67cb6f651a6e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b3769b72160edcfb051a74d3934e60b1837f0d8b99c5eb82800d94ba2de27012
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..312334fa66e3d66751bf89eeca1e32932a1917ef
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa34ac0f2a37c65ee6cf749f48b7f56254e0dba7c3f70514beef077cbb387342
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..cdbe291168962deed4063db04d3968b437961ffd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1c0e59240c58da3549e79cf27244e221d6c2c7105c77b475e1cb0e5b725fd1f4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..07fdcd9242dc521d6a158d12d5e81724e82be240
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/11.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dff85d4d325b32bda812a62d01c020d3d5b27cacc11629b2ca465dd6a4e46a43
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0b815d5730bd1645f3371683dc9345044d259e67
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c57340013d281fc9d8735f6579e362d06cb3598e37dde27aa2d2135d4f0a0063
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..4fcb9a0b0f2c181e0f4c9a7fa51d581438af3ed1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f8036fe59628ac69888b592f90efdc9e56e18e35c0fc709f39f671acaf9025f6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..15cf557b9c7234cf5c08d8df13089b0ec78b5713
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc57780260d2e91a4332848f52e211ec14497589c1a914773989304255339aa6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..fe6ed0a5a37bb4291540dccd09587500d475dd71
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/12.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93696a584ad065afdee5f0187ec8b286068c9e590da11825195c5b58355ed849
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c1ed300eefc7cb871152f4ee5c72f2f8f28ab550
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b42883c546a8627e7fff9015d5bbd3bac9142fb3dd328b33d22bb1f15b163048
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2f04c381123ae23df1eeba7af45a880970fd522c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1ad9f79dedb8a06cc8d825565885c108bd5a294d0d6f0d75f5204d6cddf2941c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..4f461702ab223c5ffffe9919483e71436b1feef2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e2fbf4138b575b7ace6400c302dff8ba97931a2e20a16973c29aefcc03c44055
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2af74f17c3a8c9258163dc2d2371b69e2181f86d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/13.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe7096958277a0f8102233611bbf8e4141d70e7805686560ffe6781cc9cbcdd2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8a7d531fbb43969249ec2a9dd8d5cde49597a49f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e2685fb3c58dbaa6f0d048d42157aa270e3349d7d5edf870c624f43ab9fe88c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..15ed741e27dc9c6cfb57abf7ba5f0c6454c0b06f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:89164ec724740b84341f8afa537934f95bb4c06e3a583264b027900f9208fb76
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..923545091e06e7d62ed9fffb2480e6edc1821dd2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a5a32cbb8e23d41058d30ce4629f85ed568d4d7c318b784dd6fd587b5793c551
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..55fa8df7f926e25d511ae03a1f028bfb13780b11
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/14.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:723020ed7d57d0b256b46b90aca2cc6db2903dd9405d5ff31ccde657e2106edd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d09ec87f8ce4dfd6f67be4534137ace2627876bd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a7300826d3563330e427e8e849111b95bfd10237ccb606e22c5ce23d3c19625c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e8a0127a2f70468e6ab13cff48aba73a239facb7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:449bf8fa18272a9462f497d72ee326478800853ed054b1410eaef1e5e8fc1265
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..7f923ee6639612180c7f56861670380f962d5609
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b493224b50807730af87c7af209956de83c34ac67620b6ef1c7755b1b72068ca
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..54b07e6ff060f6211314e301e747196f44620539
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/15.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cf196feb00a5d089e41c98418e91903021a97279083627d593e70fbd13cc383c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ac3354c0189e30774ca6310f95651468176fa2fd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1829442ed3baaf36c3a87de8ce3090c992a7eff59f5dd2a6c439c75ce1217b2a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8ae0dc52431f6ecbce25c401a495e0bb4e2327c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:99dd58dac6116e252ae94f2f219623a8e4165b60ffad0f31a17f90e8e819bc82
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..63bf40326a927fc1484a13f92e85c458b159517c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b89e64d78a5200e94ad19b250eb16188bbb0b12d911f42d29af723e17219acd3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..031ed57bffe1b26a6fc87379b5309d189866f967
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/16.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e4147fe842dc94c2a26f7a2c48d8ef6ed64f1a8e9025ed14cf212bda2515b0a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a93109452c2cb90c4777225a0c276db1025fc75a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e10e370347314d344cbd2a05d3cb0c5be2aa658fcd7da855e4dd9dc3ecbbc12f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..757418b542c1e873164f7171615140e46f13a206
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:64e15a025851f580934ab5f1dbc856ab9012bfae3c9fc6b0b5d7cf05ae57d8aa
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..aaf37f1f2704919587535fe6ba6126a5ce4298cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b6c7bab972afd9c77fde6c92f92c27a0c6fcc8dae161d9ada0776a7f58139c03
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..9968c726eaf5c483df5c9098119387d7894e6891
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/17.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:21e3ca9ecb9f8a846a1391e854057b61973fcfe9c527e818175abd152dd4c068
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..698c14fb003685dcedbf2b08fca88f2e62f7d0d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d98b18e15120aca792d19d78801c753797e9468d873f0008e1c9de501a4397e3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e581addacdaa5f922b68c9943d8accd112dfefc3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8acb0d568fda2155c921271c1e2c2637f1502c4de27d702d21b0c905259df032
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..574ac8652de9cfd2e7c05885d7d81de1eb3c9552
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:98d875f941710b9be9d77aa9e9a1c4d615941676b318e33597d899f3fd29d1b6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..eb43315a08017d84598cddce1794a3234e3670f8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/18.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ddc230c24911abedcc19fe0acb20f66b838012d912e368cde6c9707d8e2384f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f8a07e51dba1a9abeaa2e9095721e52d82f82ecd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a28b16ac050ac101a3df57cb7fc7b75feb7ebdf73c1a596111168591f359e82
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..407529d7d98a1beda56cda4c8efd5b98d376fdb7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ed4e6e375487485724cc09d0a7acedef4381436ae3921560f400c644ddf85bdc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..32545849a84a5b9ca0d5bcf7bb7567a548912177
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8c2d0ade39cdaf84556cb4c55a010555f7c5c8c82e8e3f6410828361900a10a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..18d73cf7de7e0e3c866f1a3b67820fd57fbf7c36
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/19.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4ca88ef16ba5c90b9878aea27f74a4678796c9115e15b07bb58d33e9512f9383
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8408daabf693064888c0cad45c475ce2b17496f8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:92c0456b421ea11a54d95417caac738e799479daa668daa29417fa16a69d52c3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..bedc33a651ade2f18b4b1f0bf3ffacac07d528a5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:441d4068cf911bfffcdea952ef6def5902156c675c9152eb7f6ed260d8720b67
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e54137e014d4bca4c01bb595d206d812df28cf95
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:210d1fe7fe418808696f4b63070d41e3ba79894cb63441fb94d3c2df92923658
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..a63ffca80a0649f260bb93490cdd917531c91d00
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/2.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8cad315d86ef3de47849fdeed6da7d2cd596951ddeba37ff919aa222cf3ee03c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..410459428776d3ab5ea4eb02d906ed7c883dd770
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d2aca9373c28c05398eca4a3630898a6993e7de81f1892fa39844d6b5e11263
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3ceabec034840eac4c5c9a70570d60cf3aab4e50
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51cafa455327f8e843f92713e2e9b2c7a12490663bca07106f5268089ef0df5e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f0990807145497d4a2830ed1b1685e2cef064e63
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ab76905920ee3fd4b1b1d14eb120a7cbf1d46766adbdd682164baa075aad80f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..51d7de79dc7919a1e734ee771f6ecfe4d4b4fd5c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/20.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0da6a8b6d77638867d60311805872dd985bd9cb2c6bd2c5b4a1a88b495d57b68
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f75714db71edbd305a708bcd11fc12bab84b01f4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eebae127c34c8d90b8ac1c11537563b0f227f92534660e577f93654177d13dad
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..b9b1e3e742c2c86fd6d690219f76220170f41908
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f901f9b77203a189741a4c45ebf1df66c20cfb9d632a2839bf9b5f038802ded
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..af9fd69106d5629509d288a4cdc3ac22a1555be5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:95d004322da4b8da54b9e2184424c1ba1322b0870755adbbabd78b15a607e1dd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..413734e83460e2d34a54c637efe74d68ea0cfad0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/21.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a837e3db00822df58b04c5447761bf9dd0877d064a1893d06e5cc2a79cc90cfe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2908027c0da441f2228993edb6adb3a9ca32f903
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c823e73112309664a30c670ef15febdac7db86216b46e625759b3db900a68ae7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3732bb4834c4b2c8d6bffd9b2bb9d097f7a13e10
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3fffd9737e71e3276552060519e847edb258793cfd697957e0137334315eeb9e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9644287b34079563a7db2f6e819617d55c8f64e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9ae30f265be2b7932bb922eb07b590bfaff9ba902be6cf68d018aa352ac0de13
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..3169a5e2ef9174626855406c830381ea973fdd78
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/22.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dce6ad46be9ba965f4fb336597465f8048a95e840c7960f7f8629fb6e5d47695
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..dd217c3887544f4e81073d56bb3df657923f5aa4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4957dc3bc5852de557b9c4bf77a19e3ac5bedd0166ed5056049b3e0906b073ef
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..ad3f58a375232b36e397642b684aead662fe7937
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4769863dba134c812588dae1d9ac00dc858e3d691b1cd4197bc8fd8da6e6fbe7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..bc92accd55d64dc52b6e66cd7e7a2071b5fc41d3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:103cf67d0d48f79f1c12813ec76a4d2c58f5039d7c5002d571b1524086c259e7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..11eb5950a25be3f6646098ad39fdc4f34987b0b3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/23.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9eb5323c2809995b905658ca6e0944b4e3a87e2faeb19dfecefa9c99c7063f06
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..50c4cfc425eb6888172430117c3b9aeaeec53fbe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:19a03541b3b19e50f44bf3327bc4e1bed308fe7f776b580f3c11d8dea2eab4af
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..22a77452ee5299ad4195615c176de07989e20454
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f2be701ad28ad162498532a6d3e67684c659b8f8e7dafb5fbe2269481701fc17
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1a33d0c83f47f9d22fa9861117bd1079d0ebbea4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e734e09342979203040391cc5dfc90eb3f982f562d4f72bd64503400ae596e17
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..ffac53e54772325745ebf9e8992942097ce37889
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/24.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b8c1b6825ab6117f7934f425840aaf60c781b6f088e0c8740e8c7a20b6ad3364
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fcee067e313f191ce831574f78325e5307299081
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8cc73e2fa0e66d4e7a4d330d5d8b49ca71285402faa40879e922c2f4b1b613fa
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..1112f052b4981a1fafe3114497974852b4d62b3a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18d295a2b85d7e20008e80f82694413f5083e79889f94bcb21a5d86694f99e02
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1c6a5ac38aaae4db805deff84e6a43d413dd5638
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b4e515c9816526c467a527bfda2f44eb5b3fe870d5c3bc96dfd6b20538f8392e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..d3eb9d860246698942b696d7b0a0c2a7f6c53fa3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/25.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6c4fa27f38fb5ffd7d1045984d595768b4ed64868e1e99b2d7f8dc504e1f9490
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d1a4f462c26f2465b81e07d7545de2c826a2becd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0bfa2ff4526206adba630e762e0aa22a6bd0d80900674270f0f5d1d5dcd21331
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..e3540cb536b38d15184773f0719d354c616df4a6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:856ceaa01f6fc8905d1ef13c7bd7b2f2110fb4aa9f871c0bb3a893019a16de4f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..801938b166cd0bb932fb1a83d663654e2fff6284
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8ed9ceb1c3e1d789c56bc04831607df51a8bfd29f7b384c63eb2a028b67e4843
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0ad99f294691df13a32580ad84c298146e47a0c6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/26.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:96411fbd1e9f82f499c5595873d3021caab721fd6cde22e11c5062dfae212ff3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ffed40309766b5495b132ee7044679d2955a1274
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7bb49e832f86bed69267b99ca92ef4b3193b5fb87c0444115136334f1c7e2f8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8c08ad8e77112cad035fa2c6f93db47bbefc54c9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5cd59c95a67275a485dd42409511a5ed245a6d3180c43521ace5f0cce69e6fa1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e9785fd9c18e5f51d2caa9f597fc9504f9bbf558
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d751d6f3c0348151afd960b2e62af7dd489afdd47963efa7f6b8f38aa067d216
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..feceb7abc29666601a01bd06b17a734b26baf432
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/27.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:addbadbc3ecce122912a7521190047958418b57612cfbcc4a7b16e1a64a8f5c8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..73333fd7ab8899cc5ec269fad186c7faf64a1caa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d8defc753a78b18c1fb98ec01e1f87b67f81bc4169124abb5f65f7a76614d953
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..02db5a20d267326e7cfaa21ea5b3fd957787278e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:374c6d21ea6bf34dfa4f6b3e0d6a4d363ee04edb1734e360701c4d92ed3e210c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f5a465f4a60a0454102ea573fd9035f450d730a7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a2758c73dd68ac7906f0b7a93985d75f5902caa9217ad2eef2157ae549542050
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c3180ede9cfdb6204b18bf01d2405d63f418aa21
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/3.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f1c4837ea3f257a10e4f60eb3021d00e07384c230397360b5843fb172726003c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5e807b62d34c64abb810d2c6b67e0d0fe8b604eb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f154db601c3d9687b9241ec2b78ee6e5914f057aab20c428ce61e3c2b20f1e79
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..a51a0caa9b8cf036a5f301a30a88305ad3565e67
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e4bf59eb9d2b0cdf3d7df4f00a67de1c735fbecd2af8e2de9da6d71fe9d055b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..72dc0c255ee06d4956a9fcce2a281ae8e62647de
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:183bd62e016fa41fae0899e69f60070929901f6b647694749f028f9dd742dcc0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..b6dddd1349ee5f68e8a36efa8bb17bd4e1e37252
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/4.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:39badb2ce5a7657e0787509efd9ff6e6ae5a41752d04bb7ced5b4655faf021d4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5046eff5ca9ab5a6de24029cf876f9ff8a1d9096
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:85cb199f7081e9e3ec69acf42ffe7b5a93add33abb74b1de23d27172b9261bd6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..558ed601d34d48345a186b61b23d0b8dbbd3570c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc9268af2071976c06beb5b94f1ead3b8f767ee6352ab44bb8195b0fa478bc3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..6c7f94b7923fd10915ef7884e937172b17cf0be2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0a7384984de8c8c55ae0213738f45e0e231eda2ce0affc1c9afde84653c9bab
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..dfdce80b364fdd39a7610665ac704d7ed3c88921
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/5.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:23949802a94901d9ed5aea701cf0c42dde762f17d35a382f9807b98f39405622
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..291cbc76a2f29bd31fe1fd51c5517f86e9d589f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d1fe461dde1faf69436882305398b93e5ce7960ec4f61dd91a8e212041f720f7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..0105d9d3a20fa8e4e265bd01d250d6d546782d85
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:27aeecade5bb16529402f1c5f78187d033ffba8be4444e7b1804cb4f31304c7e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..139343cede0c9447df20b502e87c38f5ec6c4a82
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a6453d0e36f104ea01f4b14ff6206caa0118de291a317d7fba3dacb9680c7f6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2d925a5b5a051ac0f4c28afb2946ff91684ed612
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/6.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b57db66c023433604fe1cfb15bb61b0c41fa082ea3ff2d69980128d6c5f299e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0db2f1f07b31ebf243182a21cf62b7df8fb7c670
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe602bb07240c9d70ae4e027da650796b31c0359d302f647b7ecde55180f9e1f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..201e147b53121c36085800c2bbb1b19955226e87
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:52a757e63e8944007baa8feb79d61d99a02a7fd47f56e13ec0fde12232004ba4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..290a012eff302169d58631fa251ba520283f7d7f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3179e6e8f4d54a810470b60b91ed1534464f19506859fc9b6ea289655b7a980b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..ac0b70f688d308359f81a57a5f3dd8c445cc5bd4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/7.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d5fde5b06649efdb16c87fab7201b4319dfb3c0408dc30bec5ccbdd9a28d835a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..896de177f4005042c14d54db8326fe2af20e37f5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db1da118af78b69c275d138f882f5f9b2931f3d9dc471c823f696aa76851dd12
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..c98d1f1477a11a06de7e94e6179659112f5a0ba9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cdf978f989859967fcf975185d3fb95ed19f48787d2a92da1786365d083d90a7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..89462e8f66d6ac42032cfd43dafe363c8760f75d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1cf0a1759383e1d64599c219f87141c9fb44b03e30688dc608682940a1ed63dd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..748ebcd5d2dc5b84099d173fb745dff771d97689
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/8.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5938dd93c82d4336f5686b91a944fa34fef943c6278f6c61c4c6d7917cf3ab77
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6428928f3a7086a4ab8c35832b59905027fe8a29
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc77bcb0bf9aebb13c39f3727dc139ff9d30141d5cb261b47152148b27a24e72
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..96e621b5a634ea3bef030f83e8de6aa7d6e64402
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:60ee851ed1d6d2c3180f7fd37b6f6d004fba317ca87d94d7b71d6d1a29fbbebe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..61a1eaa3c030d0dd8f0c3e699daa2076b4488049
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5edc86469f3b9f88c7304f7f02f4db97b02220bf1833acfd83a1c070183893
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0093ce340792fad07c7afe2d1a83e89c0c3e3c77
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.mlp.linear_fc2.weight/9.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91d1bc4ff843cce29056a67da49c5abdf0caaad252b99d122c6aba5850835798
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..9040e404d6565f783a236d945e5b9c23767b9021
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        1024
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072,
+        4096
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7b3f723842d77fadc602adf7195f2f44713717bc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:384c976683fcb667d355313ec07f25aba2a9a6df480464ab733b9eaa5933ae08
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..8678854881d2a66462c96c17e411412f31771a1c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3d306050e7a1447df3ac6c4d53f788260c967e66dea5d4baf49e6b894ff6880c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..839a187fb5c8be64d6032f24ed73f80a48f82b7d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8e769b2a41abb349beb22fb3bba97ab77373ab04e7e1a514efca00897e79b47e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..106220b15099985c0e713485a7cc7c936e67364d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/0.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2fde5c15baa33e21262e4565b2c6f98170efcb6bebe2dd0b93d8e8be5aae3202
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3da59df98eec1e78fc3c9cafaf01268fbb2c0e31
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d6eea29688fe49d3fa5902c84054ec66f24ab6d6a98c29b97e89e0d4d102136
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..55b42ed3cc880e8cc5118ca0a1743a372e2d8d1f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fbb12d80621c72968d699609f9248c4aef851110b8348031a2c95b622d7e97d0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..68cfa97b9f9f5e971f5bf9ed1e3bac528d1f493f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:095a6d31c73b8ec4a0bd96f87101a4bf1cb98e33738584f17da8c43b01ce8bee
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..878a0b410cb8904243aea3e5c2e1d82e19382682
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/1.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a2c077ff92880cb6bad7e860845a00788431a9e1d8394711a68285df6c96a9b2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0ccb0d9fa1849c3ae97eeca28e64e3552bf2cb62
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3ce343d04b80548973d3ceb440e6bf295f1af8c44b5c35a157970c20e62e39a6
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..232dca1b17a6dcb880cd4dee2c6c8dd373e38bd2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35599fbd132730e94067ab8f6ac7f51cc3de2d7cd4151ef5630eeb16b91f2629
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..088f2d4acc638bc02d3f379a7028c9f482294a06
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:08a81150a14b036e17e2c2d065a7a3461f7d7c1fae2fa705646e514565e408db
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2a9acee5e362da610e17a9be111650b20656e05f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/10.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2485392cde680b677b668f1cf56cf8db5e8ad94d68d6a97118958cb77e41eacc
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4a08cb4affe30cb650290abea79940cc175e14c9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:63558499769b0737f27ddb1ea2c90d9f5ca223022c0ed7bbf8d53394ee6bbad6
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2f36a94b01415051b6930d8c69360d02bf888413
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1d66b553a2efa7c09042e7e945c494c396c08315bc692978a69b1dc8c110e190
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f284aa6da33e22a693dd347e21078219740c98fd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:77c52fffcf796b0415b75a6210417fd7628afbedf2945b21a6ea03bb51633110
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..1237a1fb72787217a18286a8e473025f6acbd9b7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/11.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:36817cecd55f81fcdd252982e8f631ccc9442a03b918c62b4a1b6e3a91a48e58
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..94f934861beb6f3fa9bb09b5f4595a416d7c39e2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4b70c889fd7f913dc8979bd104db1860e013b46fa55dda1b90372d9d9d7e7669
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..12baa026fecffe2f41bf1b27edee06ef55416a63
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:916514887da71be79c3b6196af4eaeefc98704094289ddd832dbaee468e7fb08
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..5af82bedb3eed005541ee9bb88299ec8fde2cec2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a85cd9cd59b586dc9daba61a3bcb767344a349e81dee60cbde4402fdc4e53dd
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..03210a2dc156270bc6426bcc8b04ab869c5de85d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/12.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:890f5f8b6a77c4e17281871b24abfc5deb971c065aaea49555de30b58869f518
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..174dabf596d281c693896d025fba24f1e7ed5af3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:81ad4d1e504311d79ebce65d146daa18d3ff9291b70e5464b5f1a311930473f6
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..2e01de41611696d95150be459e7cf537ca1a53fb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:771cec145ea6e385c896058d62ab5c59acde85116fcb26a9a4d19665fb8b58a2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9e0aefc998d09461212a06366995860d28430891
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e283aacf7b772bee13d182783f15b0adc5099ebd68f9900a73d73d64e00c6c0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..51bf3cdf16c5ded1038a0ac11e78a18e778c9068
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/13.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9c9ee712b29bac0e24e2c42798fef57aecab324cdd69d6daa4b450659d5eb4b2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3f543585726c6e7d70cf0a1c6c148d5efd1dcf67
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14f50312e9325fc30b09608d82236153dde5b5c765de68a26ea2647f31fa1fdc
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..d6c08292ff61efdc29e80d813f1c669d94d76f0d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02f0a73499e9b21aab96ebe88a65302dd73a36eddb57212ff7fa7dd680190a64
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..93ab5dcd7288fec1c9ecd4f0891a23b7e46e2106
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:842019a371cbf6f52353dd08dc7d7af202da018bf7b65126c2e9bd6ee09edae5
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..046fa5fdd4d0a3b6335a83b0ce566aacc43fbdd8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/14.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:904410bca0c32c32425a7864445712ccc4dadbe11e40c49dbd966e5305e8ce3e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7ad0e3dd23fcf553aaa3da673eee0012d25dc41f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d22ae52ad59d98fff4a880e6769231a8d74f7f9a765e818f4b4536d49b49c8ad
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3fd44ea8ef9f419d726e9975b4999570342af230
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7d6b7ad4d1e9013d6d4d4a98b77d95b9f3d6be71fd6935d7e146d5537d5d279f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..2de3e230316a2ca017fb2b4a28fd6f22e724fbeb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c83e2774d0c639dfb9b22f31d9b426bfaf116d6c46f1bb55e586a2d446c8a3f1
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..89dc034cc10ea8e66909587d393d8637d32465e3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/15.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b02f441016e7ba2592368fc5aef8cfa1dd694a8396a74ba2c0c5a1a686e1f21f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a3e9475442597d672a38fc528c9bbba688125cb5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0058567676e3c48fd3b5f3331ef9204e9c5a90dab531d21bd31bdb84882b6148
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..f7f94e2702e9a681a397a5dfd9037dfcabe54eb1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:05d23afdf8c6f187f66c5b96a6cb6b567cb10feb3a956a5db4d49fbeca181f06
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..dfbe135abb323615adb38f756113d3161f1e50ca
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b1b2bb3ec6e9c34a4502923930f3ed57840628ae8975ab5070e2c9e45c8b2a75
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..b0a8369a314b76ce7cc5d0757ba7149e1b9940ec
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/16.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:31db647b66161c4fca7fc67c0f7deca54883d75a1bb149d15b693ed490eee76b
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..af61a9f7d242bfe92e2cc4e22dd49b4e646422d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2b29e571e6f757e4ceebfa0017962cc46e01caded3c99eeb28a28c14fe3e08c8
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..98b21951c6396194381b1a39a183f434594e66e5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1330102e05a4a3ed3897498b9c408527e4a4097d7745094f1878f51b22080a1e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..9f9e74cc971818925017dbfab3e254a9fc41a014
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10e50bf512d6052c417f396b9a54a41f1d309ab01f42f8a1a9736b30c786aaa2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..2a2bec7b4b763e4d2fc7c3ff3e44ffe11a00a262
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/17.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1008e4e3a69c74d3977a69bb64ae747fb083171352b777d7dd9f9e0e19c234bc
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..167521cb0cba38b046cc8b7b5a64073972bcb226
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:13ef2a42df27913c29b50da1bb809ff2566b87672a53dc9af6e14faeb0776ca4
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..a049de6232a003704f9260118fc7dd0c432a0b05
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:36a4ad3912917f65acd158ee3ff3aa90f69638ab14d79a1502a8ef7ec14720e0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..1fd18577f680758b9d2965ec3b293cdf45616bce
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e3e2c06475305c5226c12343e7fd2662814952047b9066f2e4a3bbb04e3da9f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c988ecd8f7c1d01336bdf41aa93cdca3bc92b779
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/18.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff94f8a5b86b210392c7554f6833e50996c1b0dc321d10f73fa374116dfd456b
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..918fa9c5d5e9d8f3c0220032a6cf660242163915
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cee6b16679731881556a9723943e567482b9cc2fc6be53bf875f70f571da9674
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..ef288b6b033e9d1d365ec17fb5a80684c1d748d5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:796705da3c2c6d9281912592746a1949f9587c040dacb6c9f58b13a7037d27b9
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..3b7c5fae3231481fa6cd1772cae0e8cda885cd82
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e5b1e4fef0d88209262f0fbee5b08664684073460796929cdf13ae990574248d
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7456b2129ed100941d3d16ec28162f462641613e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/19.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6acf808fb4f48cae376bbad8e427d44f8b98ce3abaa723a0a45e33121f80945e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..49bd64602e6dbf9807531dca5b17db5ef6265f7a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:699679b4517b44894a1ddaee06747cdcd5a5435e01baefdc932be64aecccb1b0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..0bf9207fb24be5562a97f30d2e9ad64e51e96a7c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c75679948223be6a5b3a677a159ac1650b15101c36808f44448ece105cecc523
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..202e026747c915ff030f88a4adf75b6321a1a225
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9021bd71e20a1e35347e23cb2a9cdc38bdd10212ce6c52d9b329fb38096bf949
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..168f6ad5b5f262f2940e94a444e75744c3d44529
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/2.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32477caabe0373edf9b0af0e7c8a3951ac61126fc2450e3ab6fee5e610afe497
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..90b876b64fcc4ae126fa94487cdc484d9d140d79
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3093569a87cd4cd3e7de25fa9697381ed87315c97bea9ba092a381776db21ee2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..b667cb6fed41d91f61fc17afae1fbb2e755758f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7dc693e76e76630635d822b6d8a89fdd786018a2959dafbf68623c424c1eae37
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..a53638590998e5f3616c892945a468c6d3875934
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:94c9f87a9420187e7f9383fe5ace1a9f7d8d0e5b76466b8ab5508b0fca7850cc
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..8b53b864fd18b733dfe72c5cf46dc148ec39c7f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/20.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e46e02f7216d92bf2d9957c49af59e1a3875669ba145441850052087c316f705
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1167b95b201e575684ca409d093674c46627321d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4673f115e2dfe13c408acdd355bb696895a8196dc3be13c5b785990f01e8c717
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..afa878226613caaa6caf30f7d4bc4f118037ddb6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:67380460c2ab2bc036b96c47a9f312c7f094c12d89e9bc4c54c3765d38ef59e9
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..4487c26d678d377fdbaf32f626481088cf5ca98d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6370e169fdc975119003b1689040ba5176ab71684dd0ea2d1b2d60278b214605
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..8a7b4e1157f4414560a01c224b72eaf522712ffb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/21.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2747833c5cb7b57997b7711d6ed7576c8a6244f712c894c5e70353fe3ff0566e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5909becaadfb88005c1488a6c4c0d96d4f759a19
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eef36fc9da67bef2ebaf5d5ec717103b1a9ed1b4de3b098c48c4b2932e8d0459
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..533bca354200f09343355d26796ea4c2f48022f5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:371140c050cb16e22d402d37db42d3338bdaffb8c9fde3cc97a5194a0eb2d63d
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..3ec35b3dc27fd709b2435f30a2c8e814b1c89be1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45e15f423e90d68fee1954f1cb1971072edc71d6175bfb84c48c670e6155cd83
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..403f145aec1517ead434800ea5afb811f5596b73
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/22.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b7a7090e7f207bb3d013bf5817bf40033a6240a47c7b08f24f2756f570bd1aad
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f3b413ae7dc169c8e304578b5c7598ccbeb17e1c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7725e26552740b8f0779591e72c4ae78455019e451f42843c4beb99ad54a89a0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..af4e2ccc56c112b76d346ce1e2f59c7528b9fdaa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0203bc4ba50255011950b7234c3b5605b48c7437b3de8d611823ad00e00c6e3c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f19d922a6e23ba3c7fe4935258abb88f9cc51290
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61bfdd2abe45e2f0d4e2c8649508a479e47eb3de609aec62770b46974af4407b
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..704498b1651514f6ae5689c212fcc1b5f5c71a61
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/23.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e9647ae2fcaeaa892b03e30104766a110acb03061a4c85212f0b0b2ec08d7ea
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d767bceea12c18df78e1dcb9a04a6b5c68b20fa6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e834a596646c9a1f2ba3d701227230bffdc9e3cce99f9934c4bec302dd426790
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..076069f7c9835d134ec6f2d91603970a2c850333
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:539ba3a95296acb9e8d343682c69eb0bd89a62dc8faf615b0b564f92217a277f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..6b7e66150d162c3a08138968fb60492d3693311a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ac9043eabb4c9b1cd9810b6a8eb63bf7e155134e9a12728afaceb657f14212aa
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..77521ccc23305199742c1f984cfd72deb514ed41
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/24.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1477aa9f13510e3007d7d090409164ff74303e3ebaced4c2472e49f7097b47d5
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..701216cf5911468027874230cd8c6217d85601d7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f06d247257575b1b081fbbeb5b00f8a44a72549830ca351e60e6db2058f246ed
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..a456be478f52b18f59dd8b2526f17ec8a790878d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45e0d735839f3cbb0e8862941e7d08d33e6e851f2e55d3c21613ea3c74cd3a85
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..cf953b82af7be741a3802774079b889df5220011
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:746ed1d29bbe20e02e8a6231c8b4a1525df50234f0a20d0228956bc1a5d61fb1
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..cc8d43875494e3db1d4c813964b5704a5e4b769b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/25.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3ad55dcb4d5176a6c8810cb50e8d46b51f97845d9d765befb27a20f4b49e4ae2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3c62575c0b28d4823648b748318bde81d80b4db7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5aa231f5f213d984607f966d8ba8159b814176459a4473abab930dc6cb9b8e5
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..ecc0155aaecf75d456f255bbf054e71d0560f497
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e9994d390a1f614bd22f967e17676a9e61d7997900eed16178ce12fb7c7e02e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..ef5c1882aa9bff04cb1075158543b05ad9066e99
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea3b1527ccd802ac74c4de6d6a636bf5b80d7a2c581cd40871e7bb9d9596a300
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..89d0d4886a904119befddf9112a320eea62dbdc8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/26.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d0c5084b8690d44e22631360831e7b60ac9a85566954503d7fc7c10a67a59272
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b0fc9871244122651324c4640f368d7ee26f936a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91f15d2151e98c08f97cbbd75a7a0d9f1dd7ce235acc0bffcfbb933d759f0442
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..bc4e1e088ea5c52ca3d23f081201599b500c111c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:34125c9dad1152e8cc6ad563ec1908bef8bdb5d23627959431ef130be3eeb7d3
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..8301185d21e7d9d9edb4505d26ebd7dde69cb4d4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e281c267c628d92434f805173229fecb1be639279cec55a78e4a2a871fa1b5e7
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..7b69f40139dfea7a77bfb3498de2fb8b38340848
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/27.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eee12f0ea97af19cacdb1d160522ef66240e9344cac9ce0b38c6b1106030e093
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..45eec9922c10f2981ed6ba5e9821ef2af94e8183
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9395e3be337e3cd8398b6685dc8d6442f58a572aad21dc119565b6fe23c4c1e7
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..4a40a9a612d39645304fbe8e321442561e0fac80
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d7f5b1bd387974190ca4ff63a560bbb4ea339395d6fb222a64fc16c62a8e5ba1
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..34cad211a401286ebed7f14e290185b9592eb1f7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:028daef611464613688f4d861c173d86a0fcbe871f1ebcd9472dab6b368b0c6b
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..73ffef98d6fcc60c8758dbe0cc2ea49137878d9f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/3.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:97a3019e78598113f2201369c7129da30da37b1714c8dda307d79855878ccada
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4733e3e9f460ed7bf7684ba52a8c17d60124206e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5990726f3b6049326dcf381dbeafd7176eb7b300f9475228fca093a6c976349c
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..3aa52d44c51db4255039acedea8fd8ae61f308db
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e44c1690868c25b3e25a22fbf800017e4b56ade9144b5af8cc865e3ad81d53b5
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..3a08dc844b3669dbc3130bd0cb661a5daf441b3a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2de840d3ee87cad548720d98187517723107e4d6ea7c2b16c157e3b2dccfc707
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..08d8f5e47771f301742beb93a6743c20bf2e53b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/4.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:88e677da9148f04d9bd10e472f80be84b49937df04850be698777b6412f26629
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..9d77b3a6ac58ac6557fdeb499a98825395352e35
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:91459285fd109f14f3cc7c6870a2d8c7ef6ebd737764f34b4560ebf5b5867f7a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..ae7e7aa4b54de5676bff918389c8166d3ed622be
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:94b6d3fe8bf0a2d0ae5968500da78a6ba219f85ab3baa751af66ab4d1ca641e2
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..d50708570843053d2e6fb51fb34aa922ffbade0a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:796d7a66e118dd9d1774449cd1ca76c1445bd8acdba506f7d08d8362b1748641
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..ee01a2443733dfeca75727698c421fff358fce69
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/5.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:04edc304e52f31204832bc997bc9c2b90eb6b4446e1f75dd9f9db8adc77361ef
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f856aa116abed39822b4e0571abea3b01a38d1ee
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4fb48704724944476df659898b7b28c8a608ffdaac62778b0ab61cfb6de74961
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..db07b640f5465278ca1d61670ec1c95e93a38050
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4be1835ecf0125e109a54e716cd9d10c6c351f2f9b69221151c0cb74a8a96afa
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..bb54da15c663c2a8d131ce7651fd3cdf8454ede6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1e93f4f39d1b594fe7eab558349269ffa913212a11f7bce63b1d6db8f44bbcd3
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..0d76f25d85f96fd18636a3f55cbd1c2a10cf0b53
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/6.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9774fbcbb0b67fed07e0992179b7cbd5c4edb507ae311eea34e5f94085bfe9e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b255a251ab1bd47ddbb06bc9fb5fb9668ca770b3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cec77c0bfa0a486b6e1be99d3e009923ec142759f371559bb74f93e2f6b3bf1e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..9fbe26f0952d5e2de11a49c26e9412e6b901431b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:58a6275add36e4e07a56fd9c6b8760a3c2ed770459daa37385f9dac8845e8dde
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..e6ba82a3a2ddd343c9b426c57dcff456cee1419d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1ba9ae3bae271bfb095537ae5abb0758a059c52871a5dbf9cc891b444957dacb
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..59fafee769b0a9a95ac6104db0d895dffc5071b1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/7.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33b994ec14f1b06c7ccb756847a515f95b29d70c53e68448816df45600435fa6
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..b07e31a874fb99ceb35c920a383824d1c5637208
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5fb84df0d6d3cd1ceeb1dd2bfdc6eba41b6cd9b99494009032257f95ae015e7a
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..920bde8029452f218e61815da9b7f98c581f8bd2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:468b769512f9118d556b93e95903c3c4e9edf0e32d98283074ffdcafd1ec5849
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f4c9ea775525e137421a372ba50ebc6cb34358c4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f48017acc8cf993b1ff6edb408d0aa68805d0e220e44b393216bd9de12b033a0
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..5d517cfc6eb98da06979b5ad7f21ffeb5ab1b339
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/8.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c0806cf67567db6de7907cf54c1629249cf8b8576b325d11db0c589ac0363ee
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..21c4a40ae8f63f8877930634004f36c61cc471bc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1bb93128590aa02326be49c3b683fc18cdebf03eadfd0cff280a1484bb7f366e
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.1 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.1
new file mode 100644
index 0000000000000000000000000000000000000000..0f44e758604824aa00cb43ac31aadfb23c85529c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.1
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6f43527ac3d9eb682d5d449a82a3b1b7fd991b0e095bb1502a1ab0e7c7bc27c3
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.2 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.2
new file mode 100644
index 0000000000000000000000000000000000000000..f654c8d2d476ee86246477e5b597a0ad3eaaada6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.2
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a64990cef84e8c1091d40455bde957ad810eaee5e8e2928ccaac412329c571f
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.3 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.3
new file mode 100644
index 0000000000000000000000000000000000000000..c4620fc9453df0bf2a7b2671640c11966be23128
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_proj.weight/9.0.3
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d4abf3c700d1c8aceaa45d3aee8b977eb962d844c3e978ec8b31f54d8161f2e7
+size 12582912
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..ad63b2146cb31889c6a746a61ae72d4c619b1802
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        1,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..34104c852491415537cd0496a5e149f645ee4feb
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/0.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0dd74fa85865bf1063ea2d675dae0a097fbcf7ff
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/1.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0
new file mode 100644
index 0000000000000000000000000000000000000000..73503a0cf74740c01cb9f143174da46a200d1ecc
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/10.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0
new file mode 100644
index 0000000000000000000000000000000000000000..b01b66a939efec55394b7c22dc607b2bd78bcd70
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/11.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0
new file mode 100644
index 0000000000000000000000000000000000000000..b74b7b23cdabc0bf6ec8fcc765cd50ad929ff7ab
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/12.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0
new file mode 100644
index 0000000000000000000000000000000000000000..e8e03a11898c335301f3d0f1f787ce15ea8d79fc
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/13.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0
new file mode 100644
index 0000000000000000000000000000000000000000..e98d1fa889bbb3e2b6e0fa45e843bb9d918e9fc6
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/14.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0
new file mode 100644
index 0000000000000000000000000000000000000000..908cc188b3b8269e072519ea906a3e47abbba010
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/15.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0
new file mode 100644
index 0000000000000000000000000000000000000000..16d833db253d4751d2b091cda2327da474f0072f
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/16.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0
new file mode 100644
index 0000000000000000000000000000000000000000..d4f8a62d23fe709c302f7cb2c1beb6d74ef18aba
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/17.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0
new file mode 100644
index 0000000000000000000000000000000000000000..d53afbce9a634a96520e69de1af4d9ebfaa27be1
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/18.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0
new file mode 100644
index 0000000000000000000000000000000000000000..29343f4f9b0c0276c76be7d3301a91fbea06f096
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/19.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..1100ef92e87e54c5bf1561fa63afd0ee9f3ffa02
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/2.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0
new file mode 100644
index 0000000000000000000000000000000000000000..fa36e34affa8f3b3f4704499097df7145f5b0695
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/20.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0
new file mode 100644
index 0000000000000000000000000000000000000000..bef3e4180d844dcf8f25807d15526a021542e81f
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/21.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0
new file mode 100644
index 0000000000000000000000000000000000000000..c2b5a9a6836a50e9fda1e3b61d6c9350b8c9d819
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/22.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0
new file mode 100644
index 0000000000000000000000000000000000000000..3f590972c19dfc0057004378997a827e38297b42
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/23.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0
new file mode 100644
index 0000000000000000000000000000000000000000..ed58dfc28ea6b250a0abafae074fdf4187fe2da8
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/24.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0
new file mode 100644
index 0000000000000000000000000000000000000000..41204f8357a33abf652151cd2fa6426a570e53f1
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/25.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0
new file mode 100644
index 0000000000000000000000000000000000000000..72d4acb414590e869d38d2857a4067b5c047ae9d
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/26.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0
new file mode 100644
index 0000000000000000000000000000000000000000..5a2670d86d7e7a1ab0c737f607aa8004debc26a9
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/27.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..e2a530f195621ae299545837bc114fc9d5c3bbb0
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/3.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0
new file mode 100644
index 0000000000000000000000000000000000000000..08b7edaf1ca1267111606aa047fa95bb6e905557
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/4.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0
new file mode 100644
index 0000000000000000000000000000000000000000..2e5b0cb94e3429882f1037109ae915eb3d85deb9
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/5.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0
new file mode 100644
index 0000000000000000000000000000000000000000..cb3e868f21c88f3aa27a84c60e57d5c3926ba970
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/6.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0
new file mode 100644
index 0000000000000000000000000000000000000000..f380c9187635680eaf2cceb73dd17015ba8302c8
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/7.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0
new file mode 100644
index 0000000000000000000000000000000000000000..f4e098f711248f8e334bfca150ccfaab5627e182
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/8.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0
new file mode 100644
index 0000000000000000000000000000000000000000..a43db6d2b32bdfbfdf4975731aca03b993e68ba2
Binary files /dev/null and b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.layer_norm_weight/9.0 differ
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..347f8615ce9067398122a5a72f37d14b017cac5f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        3072,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        12288,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5cf3a970f55b3638f2ada39b2ede78816e2b312c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3b41ecba0071b2376d0df371b7a4d127e5fbbb2b39d7158ec824ba1dc5c96eb9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..800b973cc7fc07ec8675e67c9fc2fdead5c64440
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:39c4f37703bb38cba191741e5a9606605d58db19940926b6af7cf83b51c043f4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..b25db94a455163f17e43c716cd0f1b6d2b2586b1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25f9b6545b04740b711e6e4d6aca1932e27daadd05ed7adfaf654c0553c8e8e7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..2e104f119a15d177e212436a8cacff13291bef3c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/0.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3f06baa169d07d16132fb7aaa854dc98d8b23dcd30ab43482195c19ed61892a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1059eb966457ea918964201b6b01f3bcd269f956
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:52889539d3c3842c937976ceb0dadb25770d6bb3477c0d39ed50c1d9a72c41d4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..a0cfe4fc032838833847709cfe527e4ff1076bd7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d6d791637333e05b104bdce4d8f8d5b0cf255c4e04040d276ed38a296247d6d2
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..641504a02f0ee1c6146a626cf2fd2d8ca15c51b5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2201af804609c7f86b2b7142a1a800f6daccc9a796893edaca05530c129fda98
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..05b32c4e0dd25a4d3fb130016ed6e9c13d2b2bea
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/1.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:441300c57ff41f8eb77e224b1b534682acbec4159c3c899cdf94ffc0ed935815
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6138d32209a8e067d1427c3eb50d15ccfabaaee3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:574109816c2dfa237bc40ec479853e31613ace1f5528d5b342afad9cb3274ba7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..d71d55ad55619796177400878f04a1e69170e7f6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:60b19f02c8751e9ee76b902d34c386c8309de005cef7d940cb810081dbcdc9c0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..36bb709946e8007b2269aaaa26d6e9079b41aad5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b9ec5b4e45ef31baa1ec6a5e28a840a7f966fb2465ad41ddf9cf31c0f764f9c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..464d24d6b7b1767df41495816a1cc152c6fa2102
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/10.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a03324f2fdf2ae9865cd20f5cf916c381966ac312e67c4331ff74f28f5c8d08
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..2284b26cd0e6e79bcacd7f1fc5a1adab5e37be39
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f00e20ae8fd031d750d6e749239c42524f53796d3c571c824fcf2c6388350e3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..462dd919757e9d776f48bd01811ac6fd92aa6f58
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:13ce4e9711b4778cc6622d3d207e616e715c666054383d117668f29c0fa5c57e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..02446f8b81fad18e79e05e174a586a7dbde9a51d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:14c48344b8a240a7f16e70662dba030cda887d5716f28a5ae63766ed9c7a4209
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..c74e2b156c6a61e4e9c8806b99d4d5b43d336eb4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/11.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:57cf48efff6a7cdbbc091c78992c2c8f690d6a28bbede5fe01257f4d83ef54fe
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a7e6294f689653764de444a6e69b0292b27baa90
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d54bd2196c4d6ae0960e5bee331069ef64c795ad241d849a8cb04dc95b677a25
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..01fd1a45106b2467257e0ab72a9cfc407457c64d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c4a0f65d8b86fb39065da089d3dbba23598353e79e607b74c920c249264087c4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..766b87c8adb7ef9a5e8210916e547ca8b5da9b7b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a383c8a83afcc3edde310297619edfb0b668f80729610aad5477f250c83216de
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0f8e82a34ec09f88306db4dc22751609ba408675
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/12.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4fe32bf407d8f2be5a25eb586b81091e5d08b5696223d9055a1bc5b15a3c5f2d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e316532998460483ec37e760aabf9eb2d72bd22
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4310ca3e88255ec6b354c1c79dea945b63f3476b5815bd7df46577ee819a75fa
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..de87dcd056b3c5fe5309bfead278ac7c66520d6f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e42b6b66eeb94cb1b90e50fa628a5793824eb1ed324f57524b6291195bfa990d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9222e0a9f29931674a74e27cc5c420b9310c8639
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9aed608437b7eaa9cbf72b00c34ae6fb58143dd9cd2c97e143cd57ee66fca03a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..977ba52cfe42cbe63fa527b972ba6448febbfd32
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/13.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:86fc1c92460ba3d9289a4abb017539e7ed19bc0d228974950dbe747dff175da4
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..7ab4e9c211cc3fbe82b3215b849f6bd736c53766
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c3a29fb807b848372d6947bb532a9742f25b73a73bae3756fe8fdbc27005513d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9769131f5d5829ba73071aab97f263aa4f231440
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:206bc57b1671299e51176bdf23ff637e267ebdff4a1dd7402998af7d4693793d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..07e2bf68414c029d63fb358fb6d1b9257bbe1979
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a400adc03990e6bfc77fc0aa5eec8d4a2e21ef0459aa1a1bb01a49c7942d9be
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..849f6069b592ebfe4371bb9d1b474630839e6ac3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/14.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:738ca3eb884edb385e944d54740ed5022a0c6d6077ffeea623e306f6491d0e7f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0e9a918cdaa48b158f3489ac2f1e6e1fcc4a62a0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f7d0534a33c962629e1e1f402e61ed97366182b278eb120f97702aadc20015c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..626ce9d1b90f5d6cb91db6a696f8274f1566760b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:01e11e8aae5b96cbf5edd8caff257464398cc3d80e4ae51c55bbb5394646acba
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..70359ef1f49406738ba05a156c88aa2f3c34ed7c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6db095ba0f040de8bfae3a892bb600454096a2df2af0f57a476995f4c9dd6296
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0a2f35ddbfde6632ae64ca79d052c732fb4faf6c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/15.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce7e82a44709de822276cb9caff1707d13ddb331ad08df28bd040de981365f76
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c29c7ec02f998abd1b5b0d7469e9b00218e7b211
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d9d24281285a6d4718eca5c5e30b9f9af7f333f3e82f41812b3901148951287
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..7ca082c38aa5f2c1670e9a5e32d6fef1ba2f93dd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:86e650fd0e80e30eaa7be4098730de73c110acdebe65280e4367f3efa82e349a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..7857cf172e446ab06d99bf75aa66a2fbab4e9e64
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:16069963d546f2e4f7795b2a509b0588bb02aae8fa2b24f3f7c56c6012823cb3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0906f59252e899d01eaed2d621d84025876e959c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/16.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d4cb465a400d348c8d897ca6ef7cbb5a1b16b7fee7f4929bb1e76ca135ef02c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..575cc842c553ebc77e7821022044c1d176775001
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6b7382da29686f024d4dec5c94de380ae4a97b526fa41ef5c2b750c680c436ef
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..63eaa86e0dd1102e17eaec9bf24f40607ebdeb85
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3e50b557099f9d563fe9fa3c3dafaa55839a9740554590e076a284ebe0038be3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..21fe220a1f7c567d3ea7f9053c2b76784ad8be0c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b199d2d5743ab3d557fe4e1fea81ddaf46322ac84b48651abf861bcde1861dbb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..681d390bb56079956f734178fa78161f3dad0f0d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/17.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:74660fd33a9526369a8bc47164f35ecbf75852d050ea4f3c841d87d10804c7fb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..80cda2f7a8ade503917e183c6a2fc5d3a2703618
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61eda751791e07e758fad3bfee627a7e03bd857e6519237ac6d1ce212712abe9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..8d871913c7f994f1bb4120916601ddda4e88024e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5f87a7ea00a91a6229d8a3673c8463fb10fcd90628c367cae70b75c0c5b9311
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..b8404fdcf9353b11d0e2afd99108f784fe17e2cf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6ffb41df851333b0e64542b6448e9515615f5110129755e607143b49c1833820
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..3a85a72225b5c7bcdf441712d4a4ed5e07aee07a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/18.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bf8369361be6db6a05f3917e9afe73bafe27fd5c61c8f5bd265f661902daadeb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..caceb9d75fedcb6539f109d33d2731da8de067f1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f458bd7cb34f28deebe41f18e3224bfd8156fb81d6f0dcb90212506f4745522e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..3b42cc3b2edce8e9cdc6efebe2be2391679d695f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce4f63f05bf074363fe67c217b72d8a43f398e69e43c23dc3653a0000d7e9319
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c242938eaf3688d51ea7641eece10f155c7a21e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ade227a791573fd86ef5207ce0c4491299550833cf068ac4cc32bc8e0765eb77
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..81592dcdeba3e1c139383cc3badcfd368cd40bc5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/19.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3b05c7bc6384aba7c68292ba601f548d4e33c83137d31c9a00009f1b3f9aeb50
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1b4eb9e4a56af020efe668e36f8569e6c96fbcd3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0844f4ee0901068794faa56aa0f7257c80d1571cd4a1843fb4b7134fa9ff9d20
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..5f06b15a78a21c9b15bfe0b6bdac8eae9ffc1540
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f122f0eb1746798f56b5b66b8ce9625556e9194af2b7f59cd7678cbe87327408
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..a44611b878cb1f17164eb1dd27e5966bb8527d7f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea5859a5322a8de71ca4e3c79e2d8181c8ff49b4fd43a9c97cce4644264c091f
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..43d76921d1229e3dc9f9660d3488de85ebf3fe6d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/2.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5a65f8a920f6c23cd706460c9291718b504417d7244163192388efdf5d02806
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..81d421ddf2e5d1c9a1266639cf8ac0f31505a4a4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8174bc9420e2f1a7d31265714de041325a53a86698512f64d26d9d255521d64e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..03c73ee6bb0aac37995a54cff000a37fc0d4fc1c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ca48b3929136821face9df4ab43b9e48077428a80c8a7255ba5749dda9b512ca
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e289f43f4f9a246a4cbba27689fd67d984b3a70
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f28a0525f4243833c76554f77e452e4fb080e424cfe29c6a38c8d17743c1ef13
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..a4ad64c73cd80d30ce3514ba90dd7635ca8488e1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/20.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e39e0299eee1eeb373665bfeec3551c4d249a4150fc6991c031cc4ce431e8454
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c076231ea7fb10203b3df85f77a36dbcc1e37847
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3bf28b1b83f42681b5093bfcabb4b4c04c45c82774bc6df8c0cafe12bf06e2ba
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..1aaa9e308d4c12a42b7f9137ec9bd93511225d55
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0c59aa360058ecde0f4d06696c8a8ee42fef04135800085272856010a61e83c8
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..de3c3daca3390e681b7671809387f9863aaf7367
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3cde36729cdc2106963285942e034b93075e9afa07e03aabaf183dac8b69e0d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..47865c5a3d3ca2a151f5e25fb4c2f63f64538be9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/21.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:802e733d3dcc360540f442f3457cdfb2f56ab439905d3c0152da0d6dd60f304c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..85a8eee21a22ae82a4c4050878e3ab970ad6cdb1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fec6c6008e006ece4a42e493b28effcca0ab719202f0034f5dcde474d9bb3c9d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..407b22bd14e93f293dea1b9d450235a6dc4ab140
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fa647fef6fab6bcaa0ca3132952a5e36abee080ffd8708ad3c61ceb4c3a2e125
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..4afc0a6d2a1b850482f32fb48d3ebd95674004d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bc369dee661cf0130f8496673ff13ecbfc94ed2b2b9683fffde09a7f6c9eb54d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..d34ceb6571057fcf2a51222f110dd477a965c884
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/22.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ee2fe1fd393e0b53e359da40f391b59f1b49d49bd480b148dbea9a43591ea821
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..aecb31dbd5b62eda938ecb9d3070cdc1c5ac1e23
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e59c24f301533d1f1ee7fdede2ef04a258538970e14a3102eed8147d7b246bf
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..4eb3188392626ed668c531302ba902303d7eb0f4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8f2e1384464c5081a8cf24fa200cdc16061a13e4a60984c6de21843e07a8b709
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..184fdf1004e7a1f8fe44c464d9f248c836039876
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30d587299bfccf07bfb59052aa43df3139568eed8e350b766dd0cd1198888477
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..bead3bf182458e943e05208eab48a20b46bb8a90
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/23.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25174c07172d121c053651002aaa89d8e8f37a4509db3e95c9651a40b4183ad3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3255102922e6b5c1818951350f90e07db880a6c2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:77683bdb5f30d7a3a0b613920306f536aeb40df788c06e4563b9b0b7d3703db3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..57483b61af0bc8cd719db21777361ff6ca8436be
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:639f7b01bb7d63606191f4a22ed3c4e0a820a9e2992a4997fd5576713be0b625
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..01ad0c41dbf61417d70dae0476bf11af11cef408
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:85c5c90507f8aee2021bb4fb331a039c8cd430e7ecd427dc9575849018b45436
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..c201062069399e0c082a81ff53feb4fd27349203
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/24.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5640ee697ca337dcc9b20d907690ac8244938228f6ad5aac4177f8914140e2e9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..d9c3fd56ab3bd8f0550b94d21a7f99b8e714cbb9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:66e6a6448aa24ec0afc21407efec9404a9772f3de327e0c099dcc51b67dde141
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9d5a5e3cba391176763ff71a38a627a5f705ed20
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ee9126ec65fd600a1497a572b748246eb5e72da27b9b686f209f17795733a5e1
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..61119dea1a282a8f1b9085ad4c13b5a662df35dd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:43051ebd2d05a29491ef279e3af94d90f4ab4635a9d9bb379a6fb3a60a735ca5
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..8fde31c5d1767961c98a55ddc4a6e1284f8ae719
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/25.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e36d31552164a62944c3a980e1d2c07b860d1ad886ba03aa4863b1a85ff1d8b6
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..823f9fead0d91541213026b8ee52244da3f39dd6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3419dae577b08a621fae2b96d71dd65392439a98a2fd0b32def4c1463bbc22cb
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..0575ad697a123935dfb481b7b23173ed38b19a39
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9a6585ba688f2aff12e77201b67d7587d1152dd00671cc52821fc4a525825338
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..565d51328b15aab94a8057445cdf8619f5177f65
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:485378b43dfb71f1b2a838cf69828efe0cc8c34e4d4bcf3615e670ba9c28241c
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..192abecad1f6cbaf7323a5e981fcace0161d027a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/26.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:314610f23a4e4958d4bb49f27b8c5053c8136f362530bfee06b169cdb53cbe2d
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f705d934266ca19ef22851835f18279f24125b4a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02c5605007016f590702fecee7b3c45ead76c23da907c42bef04b73ee2ccb288
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..f4344effa8c9811e3262be31765cc1a12aa4a034
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f084f513d3a320fbdc935543a3d617b581b3857822f39e89e723bca129f9c4e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..2da603b6885de4e3636b05a4069625cc62b0718e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e31ceeb40acb831835bcd7c8e0a81bd3390e26dd6b0c2a5fa6dafee7a18daced
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1f3e00610d91b74e2a7d83941f21f7b6cd534759
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/27.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f3e703f03a150360335c7a4c47b89e35efe5bcc0afa83cc984b4a97d6c59429
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..e83ec0090b1ffa6cbcd61ae16b896d27fe2c79c1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9edaee0d7bafc8a561665576f27a572c9b1eeef6c77d30b93860420a2a3f27ac
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..92a6d949ed571f5c9f9b5fd75d21cd03ed99e57b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:baae707a93967b49e3bbfef2bb33ea1f4ffe2fa24140548e8b9f902b8d61191e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..5661e072997cb6fdbfa0352b08082f501932d0b0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a23e7e3ae6f25a9327089f0c647642e378f7da825d47531458706d8cb2bb6169
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..b2bff686ad2aff6b4cd6a23e28c63ddc50271b09
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/3.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad1550e4cd6283acf3abf04c29296c6c2c9c02e4b43148e9ceb944613dde87bd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..24b4f9a34029c036ce87231efb7ccfabe3dd1e1f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:208d8d70e3b32fee909bf123544a9255c71b558fa67a5b2e44d8d4c50dc76b0a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..54c1badf03d7057114f96a93d940de3aae430593
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:baf05b51ffb1423625d00d029d9184f0aad9f2691b94022ee3fa95dd0df64fa7
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..785224bac16b510dd692f4d6311de2966490e739
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d5b68cd6dff54e3c58376d51b8e807a1e84bf32c7f72bdbf6c801678a6286d42
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..f0b48f5fda676400e6339d6482dfa862aeb3655c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/4.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ba8a8b77081e3989fe84bc2edcb7536d0dd962b9f33bce5eb8add0a3afcd158a
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..581a8e141709544b78da4b1b20fea698b87ae045
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d786e70f395c2abb103d53505ee4a337ab0edc3fd11a35142a96b79ab54e11af
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e33a261c312e969e12096375486cd17f3dca6cac
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0aa22237e4ad256fb3aa6215d1fc460cd3c8ab573d8067ee528327bda78a0b0
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9ae772f78e20322c8e7d2c548a60a6b31df4719f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c6c3f96e369108f20240ab02e9edb484d79bc6a7e04797c43b4af32ebb7fe9e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..2987ce452daad5bb963c55aa78b8b74f48386ab4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/5.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c868eb21bb55631f924c19b30419656d6f26e6e97665890b4cc41b40af133ada
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..578bc3790369de64980f2f7ae73961579a6952ed
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:52d36da5222f5a28fc9445d5d17ed0dc7298743c72262dcde170064cb016f6dd
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..5eaf60fe6775a112363458f6b264455fbf5aa1a1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9f452156fdbe0f1aabb31aa2b77f8d934443f30a750262888370ca43ccd4053
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..530ad4c90120412e803458e50bd0d4b02de82a62
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8b72559d690482c0903877d24f2666102f416a4e360b9d69b0235424aee06254
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..06fa132206aaa5167a336faf4f178133cb9e48d0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/6.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:911a11fdddf7d91709ab99dabc1ab8e95de15223eaaa5275e4acf2d0d4991420
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..0d6f2eaf1b6568f877a919c1143ade02cba3923a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2953145bc7bc44a00bb4dab1829c569602ee2d55627ab6dec963baf0713df575
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..11c97d4df1951c20fb4158d0e988d5ea348c51f9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4bff00cd9b126ce5b9383d71c50c77751d9b6015cf155ac83bbeb5d6e78ed7b3
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..36806d56306b218c409b8166e64889cb55488226
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4ece93c174f022c46276091d4ae508e0e08cbdc771a60424652f33f509e0eded
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..9dae5b251a7d2d9a7af3cdf8b6e8ca2aa809fa9a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/7.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:575a740827fff76ea99e45893b027cb6ed9fe4414dd17ac0819fd53eaa507116
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..6459bb1802e3d14bf72dc289746950f27cba577b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea2240c0e8dd11febacd3e788d9536d26f27132db036a6c963910dd469332038
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..95fe1de4d37fe52e933ed54bf56cc8c0d388d8ff
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b0f508ad291121055b061c9996936b5c5be9da862c89baabdddd27e3b50ea34e
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..a9b03f34e887faebbbbdec7d60ce8496153250bf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3b22bcd1fbde437e214459ea022fd4a6ad7b47521866fc00fab4a5cb4446844b
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..c507db76accdb61498f574e2efe17db83aedd4ba
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/8.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7df537b9e22d3d1c4cb23616893abb2ad809494f8ddace620b83a29cb2d95629
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..496c743927f3d96b781c8d4356d3e5a2730d6770
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6db2c10e4bda2bb56fcbf5443d3110b084ed8de1d6828ce2427fbf73321096c5
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..d72217b9521585b0eb19430fc17c0fd364e52d61
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:197f3a4a42ef1e912c69b24648cf0ba9a16014a9226bbd768f841b47c7e2e804
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..2309069915812208e35f64519a3e2268abca3da5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e8aafbd87c090ad6db1c9237ce386bc761badecaf525a18e36f54fdb6020f7e5
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4cb04eab4720fcc7057016a2acde0ce932655db1
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.decoder.layers.self_attention.linear_qkv.weight/9.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f2157d16ca507c5880076520c226ff3a14a331bcea011b97d3be95a869b30b9
+size 37748736
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..75f564ce24fe17784bca818be4458677c05baba3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/.zarray
@@ -0,0 +1,16 @@
+{
+    "chunks": [
+        64000,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        256000,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/0.0
new file mode 100644
index 0000000000000000000000000000000000000000..24cfea20018ffa23418989144e01ebc39aadd9b2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5c179d26abb710fb7a069fa9d4dc245555af80ce65290cb48261dc155fb23279
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/1.0
new file mode 100644
index 0000000000000000000000000000000000000000..1d28ac1b357fce223130f82f5095115416d1a994
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:67e13d109f79daa552a2365c2d6a750cd35da7fcc4bf17aa7cb8014e87d46062
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9e6125cdf10b683c1724e92800ec1a724b7550f6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:812de3d197b26f75327c32efb7cdca809dc61f32bc410e5607cc4edbad9b7cb7
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/3.0
new file mode 100644
index 0000000000000000000000000000000000000000..0bbf7d6f2fa12ed3720f3c300de28b4216cc3ff8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.fp32_param.model.embedding.word_embeddings.weight/3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ed0ecf21d04f303313d438fe4226553872dd04fab2c8418823ffa3aed9cfd0a7
+size 786432000
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/.zarray b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/.zarray
new file mode 100644
index 0000000000000000000000000000000000000000..d5e5776db81a86b151e89e4fc8384bc7969de0d6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/.zarray
@@ -0,0 +1,18 @@
+{
+    "chunks": [
+        1,
+        6144,
+        3072
+    ],
+    "compressor": null,
+    "dtype": "<f4",
+    "fill_value": null,
+    "filters": null,
+    "order": "C",
+    "shape": [
+        28,
+        49152,
+        3072
+    ],
+    "zarr_format": 2
+}
\ No newline at end of file
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d172b7af63c3caebdb0982b35321fdf94489c83
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a4edf007728a39828f5768be64d5f07acd634dc6b499292ad32ea74b16e3f650
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..86a41497eff4f69df75acc6b724eb8bf9726a20d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6bc62f44a93bb3a5a4552dfa3f48c002dfc8f2a3921b21e6c3e4499263acd5b6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..99dd3fcafc2644046ad989554a290abf0f18b9cc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:28bd26419fc196d964d297aceec1f40e00753f806e17068ebf70e75b32a2a341
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ed32de8f7e94add27df63b65220251a7a317d00c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1201fc2e41892f8c41543702e58a16be8068af7391608ac55e58631b467a4643
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..78ef3d55b021208067620a8dba858d697d794ecc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:56007a1986119df2195e651f3b4554bf93653ec2c563603388ca5238f1933f3f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..525f600772e7dc1701bfe9488908b5df9a361ab9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9dae2a4adb66d61e6e26bac7d92ce37dc953ef270233a86ff8487e552d0b766
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..17a6bf0aa9f95d434363ed33cc592877eedcdccd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:841cb9e6a0a169908ed9c981dd0d65e19899199ea76633f5cf7fc0ca22634e86
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..4038060bfa1135c9091c548a9aa6b949c8dc1cae
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/0.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:94b3667109bdc89ac1301c7eb52beef794040a26dbfa39f5b2b304b73860fe4f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..f6809c1f47889b7641a09632e2138acbafe8ed49
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9111da02c8d466d7dc7d873ea2f4a945e1db12c3e88316a62ee117b04baef448
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..be8793cbac485b92611ac968e516689abb2e7daa
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:782e321728fd13b23fce5f0676d4c529bae6a6c42b4ba9f91cc1273c814109d6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c6490a9c0058fd4c1d30eaed0c94f26b9641035
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ebbdb27203011c5a93ca85b8e0713a44fe6c7fcd2578dc2368322098618f3693
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..eac76d3000f9111dc791e8038bd69e9d89f48b8f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02f0a0eeada6ff4e39041f0fe56cd568728f822184dec795becb2b3e8c7ed9ec
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..bd674a95e02586e29723713077519a237d7c0992
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:988a53c8dafa2366afba5736e520b81aa4b49d253d366f7a76b5489abd1d2725
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..9047362887e0072fdf7d1ec3f327a828345fd93e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cac363d1a44cabc8b1c75f66016dad7bc1d47a65caf1b078b0d972342a538f1d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..f733a79d9828d791986f9ec529903951140fb7d2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e3e6af3d85a07cd38f9996df0a1dd8c1b1806d11836249a01dab1c142c0d74c6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..8854424d8399899a7851dded374129f13888d1d2
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/1.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d39485672eb964d27ae97ee52ab9221042d364077651b60921aa40be3b349b50
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..09a122aa5d2da9b536fa17734deda2ffa66bff86
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30b97fc90baf6c79b7800a7935a5077986bfdd5df8ed657e0f07849fe8b41cc3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..e70129e1717f758ce9df224fdf8e804400b9f0eb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35109bdbdc88eaf65dfe85def9d2730e0a4c5812371d8f71480aee2d915a2327
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..ff90bf36830618d426169a5b0353bca0940b114f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9eb4b4b0e03fee28043472d411767460ee21838a138afbbbb757876f4a76a656
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1972ba5cca174795f2638318c30f65e24d075b6b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7a58698f25f62fdafcca74e654e4b01f0ec3a08555e091cc7c3aa9c314088bc0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..20bf7d9336fe8ab4cdcb5d5bd9f48cb2309a90be
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:93650c3e62586eb28df04b12a185b969efaf6b4afe4794960a5b5911b0bb8190
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..e6f583beae8b4c90ab1c9658a52f6d58be1a41db
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd52d611128be7501b163db90e22934841bb8628a7e90b3acef03dfdffaed957
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..51a13dc3f2f28c68830dde8e3c08346b3cd58412
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:76e491aeb3fd2bcb37f1a0f32057dd84594650a43c7a36235c07d7ecc4853e69
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..57844570b82d225a67b75f777de5f965ea2836b3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/10.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:48069ebea40cb96ca832c9381bdf17ef0af0919dc6241b2f84632fe2a7dab2af
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..84b81f8edf4e72c1e35ed040e500de53eef2ce6d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e13d3272141df38d238dc20f418529a5b496a4f4c562675df9b87a70561c359f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..eae06ed39cea8178483549c90131041597e3e1d3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:58d3656f8cf6938011abb3f56c728dcd569480566f1f202cb0fd3832e3d7b797
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..6e00f4fb6a7707de3e8780280fd63ea29f6dfc99
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b6fd70b5f1d5553d37b661c423d610673dffea981f55549c305db31eed5fb193
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..33d96ae2ece8d837a3ad0b78b6da8679073eb969
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f946898816e8521a05e805a401ab05c1ef9d9aeb573db1fab7728207cedb65a1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..7ed86e0ad1d4773539726ed7fb5406666c63ec63
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c3d1ab9b2c998f223d0f04308c68c94e37df85e83b554970fd1e74210c61385
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..33facc281320e00567baf8a2f8aab9770edcc1a0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2f2b8e59dd25c5e6054ba387bb5f93fdf69b82452baf8a6eacc8957529a930bf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..047ac7191a4ebfee894c4e97c9ea19359a463a3f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32430618547206ae885ef8ab20dab7db71af1b912154445dd4109e7c4d4e1a43
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..0436031ff5fcb5d0fe7c6ec4657520cfee2cf7ac
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/11.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4d432b0e3a07af2a8def115b65132d0b0a4db43d44d7e9b10ed6046b24a0c94e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..c93cf2f3477511ef23ed8b3760fe0cd413a168b7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f63d454cf27515c45fe279482294f0182668e69ea4a8ec17be047066e88ca7d5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c86eec0485d254e763096df7d3c569c150ab6abb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:51016dfd6c7289e35e0523608639d63cfe489b5636a2f74936dd6e58bc7b42e2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..5f181a6d84983e260c0c9947904074888cb0f190
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6c1acc0ee6fc9458ef32958a244095321a71058c8db9f6319a13cb2e36c29fa1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..8313f8610e7e837f33e36ae200dbf2b3333beff6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:562916d334f5c4159dbf63d0cd7015a0d24b19309d4a75306c238bc774a86af0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..c2a37cce29f4ffb5120b3fc5d4c204fb66ae8323
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f7a66259938320244bd07c491e06f90306ebe8e5970cb8c6f024726e7a966809
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..ca0900f28bbbe9a248d499fae6db0e01e1d66eba
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a25b8f487559c76795e13a75a432ad873802491e7aca0e553a332bc307196256
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..cdb8f4a045e31ac6e0729c8b97341998339ac71f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3e883d1f1843992df6f998313ec12b5548205a63e071db841fd0efe4173aa17a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c419debbf34b78f4f58f135d9c257880c023b0d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/12.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0e49e93ec716eaeb5fcf12ec956e1b013c2c1a53b31fa2e7ef676c095a3842f7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..1c17a3aa290035ce97df21c78fed5353c210eaad
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d484b0b0f68c103fc749b8290c8b16d3539bd48234c767314974bdebca58e63
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9fb23612bfa6aaaee94b167dd0d76486e8d42af3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a83f52c07a228f03a631e23582833f3a2b66f236001ac7cdec26d00a445021f8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..167aa77a6e1ab1e0ca7701cccc5b5b8c0ecea8b8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:76f9daffa1ba09a25eadc7f921b652006273aa76ff92298039149a9e8e7218a2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..08fd077ac257e1a4b54f8f9a54c572fb74a7262c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e926bb3eb008370f36c5d4dc5c88dea627d3b5667d6681454d73fc918e3fa88
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..be0e9cb52700401c930e690cfb1079444e378c49
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a8ba3a83147e86384f786ada2371aa6de6d731d0a959dcd357ce6ebc1cd515bc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..b407a572f161dd3b2bbadeef2f81792c1427529c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:29b5074239c211f5f27af643eec09d93ecd223c24cd6c63b1ee605bfc4574dcc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..7f696a36d938b7c76ff8b827f72ee9c8be53d03c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6adc64fc33c92457a4238ad43d3dd3835e0435817d684606713664463a798410
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..84e18e92ed5e82da09c0216198c1ce72ad9bb4a4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/13.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c0a5dd5dca8bc1f07e1c471e3dc941b3c4caf1a6c6fabb2c7e050888b23f10b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c7b2ab6f7d59401b9d5374665dce58b7dfa893c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a48afbb001ece5fcecc03046601be7de0db23d2ee06cda51e5d7930e3fa8c42
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..107e2a3022cce045eef8abaeae12cce990a6a862
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c1494316094780f35032689382d3c7a6e90d2354080f5b1a3584566925e1da1b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..fc16810c25321f066bbcaa601aee1bc3e95ff59a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9e571315de997e32c1acf09099da0ed26d2ccc1c7f85ab330ee5b00b1ca4e84a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1f297a1177376a5d0314fa7e3b6a6dcb0df6a406
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:792488c037b9505f0a2b35a6c669b1d70d7af8d4e4e34cc572c47767af2213e0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..acd4504189c7e3d887819e62593222835829e07f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ad94e44f205fbffae7fe4e34d8ad3a07db1eb0c0e3bd66b6588479400f2181f7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..e95a2534bdd3cdd87245dba1ede1e2d614ea08c9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a78a07bcb0ace2c055267291a6273260d0dfb2fa49b4b11a6b0285013b71dcda
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..f11db9298f4bc6f344fd0cb76c56f4e8b431fbcd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f32b7532d38b0fc876d05753a2621442e18d3c1d5cef768c98c1691ed65adbb8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..b5b84f71621f3cc449bfa4b28ca5ab01851c91c3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/14.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7511eee11a7e6675f2ec676ef25b8fda692f4f33ef8383549180d345b40bfb1d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..274287f63b16581d25bccb34c6c9706af66facc3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2e4cc27ee7dc01cc89418a857ad79b712af37aed0c37786808e52f676d4c0012
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c717ac3258d5aa0e2d1451b3a564b2aaf6fbb1b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4c67665310597b8f302e39520a0ded2c9ef870b619b74c565b6297f67674f183
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..15dc7ec899167c0d2103736f8f85cac1aecf4a31
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8160c2f8d7517d5605b89b57e03b9df12a3cf70cdf45b84ddfd751647aaf87f1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..6498cc61c6c606e29309123140f32fc503304f3c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02ddc317b4fd1e212c54403880524b34c8c8f6fa2e84e87116d669db06db0bfe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..29f309e2e4c6d45c5c18f0f3dc35999e851892f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10cdeb5554257991281c9e2dde694dd39048c33a2c9f75bbadcd823d06bc6dc9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..097439d00a0adaf86bd9229e682ca4b892e6d215
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e0f7ad13de2a6730001f28d3749f08d0a78d41b3b209246da37219ecb93d3484
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..5d4018dc62382019a4389c93912e4e596f637e61
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ee87565bd3385f6b7d5c7a7a7e7c5329bbef1dc0f7f736838c50d6687d8e2cfc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..1d5669b9ae2e70628df261ffe1bb130b6a92b391
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/15.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5960554d66d8e2a39d2d868495a8cf48c6c78781ccb848887ab6ef83d865d49f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8e44872bfe3228b3d795bfcce71fc538b3c50631
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c96e6c4dd81874ee627733b2fbd3f2dd0fed9eae63d4d1924a7e2d24b2506f50
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..3b9d07a05a11fa086cac6f35ff76569823e0865b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a42747f6b9b72f2e32a8032157db0200c91064baa38e60af9e5337e909c9cdcf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..cf865bb158423c2ea6ccbdd9636dc97b97898fff
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6e38652987c8713013f22886cf9bc719e1b40a83022a700678b4acb150783c98
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..f0fa0db2db9d37f690dc30163500d71aba87f2f4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02bf20d03430d9e54b1c23cd99b0f28c1b8b1f75bc74f23a570c5e33872e18af
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..1d2a446ef69a21598cc5663e9d53fe6672112c4d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a5b18d36822fb0ef87f30d748110a491a5ab8857f90be2f8c7667149b9a9b03
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..c43458dafc8b6acf4e15ccc8ee7a9f2215372539
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d5066663e151c2eea15677d48317d95b99efd0dca080ed3d3426b60ab1ce00b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..6cab48f239bfb07dddfafd9adda8aa50e94e29a0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b578d46fa225f164faa0ece8619e711bb37b1768510adf583a513534cfc0f84e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..6dea9ad519aa31f2c2cfe585023f6befb91531c7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/16.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5ebfe2000dcbe79313003bdd91344a8c74300bb22d0abf52ae8796960c5fe881
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..fca824679965051c647b20c7ef74dad9a3a0d05b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:77f84540388cb8b39bfc838738d3f6fad59e2d4c86e9f3d1e667e326f9a2fe1f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..d0b27340460d03e19de966ed163555f0c8995f7b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1fc0a4ba831857316c587c313ae91cca2eb47def0164162e29861751cbd84ba8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..099c90a8686395845cad36a344daceeeb5337e0f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f782b9eb1bdb1db380df4b0906bdc6e3046ba28b3e8a43b96f0506d41ecccb96
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..7d9f0dd85d2199ccf06a000a277e75e71cc6d594
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2c95230ceb8dddab0b4381319b8e357ff7920de73063999fefccff229959a6aa
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..3cf498873cd0f04b42950d427097db2ea80dce5d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8d5812688269e4208631b7bbd690d5b9175e39f616d94bc287f4ec42f55b4aac
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..3e281669cbba8b6a3dd250f89d6a924a3dfa3a89
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0395a2fc32f2756d9d308702b5c23abb9043df9e059760f9963b6e3697dab842
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..0f82f2c50222b7e78509e8c99fa1c6d96be7894c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bddf00fdf3db3b98b16c993c0365c3d7770e2e2eff6f618f2b7391c83f615252
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..e45d60046b2bee35285c39fc4b7d5d993c989693
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/17.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2d7f450fe2603583f8c3d2f0131855552fcd526b3835d8c8b4168ad493efa231
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..a85a97adf1b0f6c4ef42254bf8234bf0d8ec3429
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:73fb92c235a48767e0851c49dbeabeeb6759ea1e8b621150cbe4e5c6aa58b697
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..d0667a7603ca813e6737f7d4d899cb602644a595
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:da69ca7427e5246495ff76b5b37dd224edeaa3bbddf383c44302b187aaa5215f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..0982dfeff64124544467858642b6652d991059d4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f12946bbfb4e928ebaad839441d894fa8502d1cc67bfac0ae5c6258d2ae77d2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..e4b184d76a90d9f90f83ea8b0524f1d99332a72c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:adbb6ef84086bb4bc7f5196529d935413dc86f22c3811babc9e7eaeb0a902d00
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..cb9b038ad185d2e09ee68c15d0c7aa91f502cf09
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0592a3cb4bf826ff76973ade1a440df161af67bcb0bb2cbfb06b617cd4027749
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..61f46eb9d3e127cb22e43fab31e47e762407ac3d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:69d1827ad32ea9f9f19983ac7e8fdcb526ada3ab95b986993d5cf75f494aadbc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..412f820eb8140a4eab7808897314efca9155066c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d73ecbc8d39ad9099bd12fc01d44b336ef8206f89c97dbed0d6f37d8422c0657
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..960fe7cb660a8995911b3ad357c88e5501ec3e3f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/18.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ac00cdb9e6ee4a927c9ba3cd130ee630d89e8c9e786465edaed8f54e9cf0ffc4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8fbeafa332f441db2fb521b3091613f7edd1822e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5da5f1aeced3c4ed178874b60146ba96fe20cd7821e88ee77d18e0b3526f7766
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..3ae97e8ca9dcb9b57775c5b4995a8bc404e9c0bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f1b8a4573fdfcfca4f1e801cd299a372e4999ef318bf730b43187087e4fcf823
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..73fe93b4124b97788c110dd0b7bc18fa5ce405ea
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:72ce84a62b70d0b39c6637bd0963ebeb9e6a990127dcfdd0ae7a25641a8ed806
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..1365bd1576a0a4acf21f13176a1864bc6da8f187
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6bd48e4c7e69be7226a0ff505e8d82f4442a0822e73896a7325b3f0501ad82d7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..3b7d95f6c3abf14a6f42291e25a64d4f33eb5729
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8478a1778b3d2bfc1111acb4b2a5e2d21aed046db215d19e16edd2133d8cd22f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..d305b0342d89e42a51ee5a92c83efddab2c2c81c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:23eb94b317b2e1866ba12f03594c3b28c59941d8361d2b838fce6de51ed37bf1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..4abf071fbb980361b72ea31519cce1003219f815
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f55c39e2f0c8214708803878ed23c3b2c45b84f50229e285bd99f622bab71686
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..eab504f30f1297b2e749c2ce0444edd37d3afdf6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/19.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ae72e56ec5ca29a1c9721721dcb5c3b24002e800cce2df23c35de70f8df61152
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..04ad9f1a8cc5c99e1a920c7737e0848f62e418c7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0c89fc5d0b6b275148c5e322a074d9f8d5f5b90efcce127341279a4b5903b28a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9f9816e09d8764958ad1b83a008cef3992a41b4b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:630238466cc86cb781e8c9024dfb6bd15cc4f6e9a5c1dc17c8d9b6516924d203
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..7462e7430f5ac4b33969b70464e2089b54170290
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c02d4a229c000b134546652018bb935b9dd01056aa915d0ddc824856018f3f91
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..f15616af4087fb5f1af550f8ba70145741856422
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c047ce883ff6afa62097daee27d5b80ef5a6667d4b9e9f5d3aaf215fa437f7e5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..dc3e25a30d049fed58ae10cb3038a3be220c7719
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a0c79724cc4a579df32a877e460672767e3136b776d560dd3de450df7510dfc8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..5849a5e9b058b4d8b6b8446588cd438859e41cbe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:661d57b6248560115672cf5a3e2393a08787e4ec6909dc9e41ec54549ecaef8c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..fe8011928db2b51fe32255cd8769bb71ee1d1b0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f57361257c5ecedcf544b9331137581ee851ee751fe02ef33033d19014b3fbe6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..8efe370d72e60b3a6d67ca5d9622a0cf11f73112
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/2.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:13b9d3e1aa251747af20c7be7005ea0a7bd465b56339190efa9ea9245ab97c3e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..34935e150e1dfd9f19a717079a108c96d2d4e75e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6921873e436cac7e2a77b40a6fd79b16477857793f1b76f82c03d0338b98a8df
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..489b8a459a36be10a3fda0266e3bd9b1960e57a9
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:57f496d8e84925429601bd0025405d5a0c8d1d06c38e6491f78a024190143ab4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..9237a4fac3c3d58b09246cb5bb849cc09d58a1fc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a428f9f9f12758bb77c7638dd1145a0065ddff185e7786788ec281646070caba
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..76e015703904f947e42327b9e53165b93be988b4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:346540a97a26221238a2cf61cb7db5ddef84e10628ef6a702b5c972aade9ee17
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..52f69da63f965404f719042e98a45e5298f46259
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:db80c49af88862c9e8c3a9c557868b146e87e93c5393c4c6c84f514574515fcf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..470d1e10e631a07237cb224f44b37689c20e520b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:af7ee1437a31b555a7a2634e6f9a7d42543f718cccc1bdfffd22036bc9391f61
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..2477f337bb38668313e3fe15d174abb4fa68d652
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d83f3fcbd76c58c9a4095e68b71d582fb539b512a4883b979228cf3380996994
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..31223a9ad0bd8fad30075a7f83db5d11ad5233e6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/20.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:122668a117e2faddea9ef7a7282981cfbb4deb0a44ae6428c0851659bb975ebb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..19d0447d697dcd08e9d6391b3f1858455f0d4d3b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c7af425fdc6db47f9f7444685f7c6d18aa696783920522d6fad3c0a2488d519
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b323e182825b6b7e32ca9fb43aff0670d2465952
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:31de57ffcea38a519738c08b18d1e77d34ee98ddf522598a0f0a1099072c4875
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..984bdfd226f557a1a5a73ddf860e9d658067d4d3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18a457d64019dcb7dbca45e1cdc112fcfe1318ebe7b67c14e5e9772ada514650
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..62db10b5862af8dbef459e171f51620c50f07cf0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4863e5209a0e82102873b0469c5ca819f8d97e00fba2a2ddb907b28e11c2478b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d99117b02c3e17720954c9315b03243e900ab8d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:969b3de8f241ec8ab3a1b5809b1db8732655d9234fe15e67a0a35f2d1dcabd1b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..799805d406311dd89d05373ec1a26dab270a2688
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:050061bc0b389feb11fa3a27150a27c7e3eb0abdd06376051bf6980be9d4d380
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..9c626c47a3a6777779b0f14bdf13a9f8f4f4c51a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:915cdc180d3d8aabaf6bbe3a5d81e08d4ed3d3e2f64b136c08516ee4aa57452e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..417199184016fa14a3adf1fed8c21e9fd4dfc36b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/21.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:52febfad58fb8dcec2ec9516743b48eb5dafd8ce5f9a049b218f4abb1f9ac3a8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5a5aa051b895bd3d2eb428f88a603c9426c1da5f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a718fc226e5794985f1eacfd1abef69f92614db045f749e64393628bb5bd8741
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..890382170e1bacf4b5737a4929efebd1db137ef7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e784c2ff4f6af0da6bec5487c610be75de41e7930a8dbec99874aae40097f1dc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..d38076e503ef75d063cb3b3287c2d1d48d8b3be4
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b766b6bc5d39c994870cee810a05c0f326d8abce497972225df13899b459fe82
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..12ee9c999f7fae9fe78f2a5243980794906f8665
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d0410a69e04212c526946ac4a39990d0cba8b4bfdf0940c2f77399b9dfe6f02
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..7a89d57880f16d48f96265c19b4a4e36d1676476
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2ec06ef43b66e183789b095af16da53e52f71b1d46d6ac6815335dae8c7fc4b9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..782b4427dc3d71049c6e33d61aa8b330070b6139
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6852e834de54f408b422cca8f00d293c3aecc1da5efdc2c9c16716b30849f97c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..7a09ed3f35cfe24717e8538243948e2bae146ee3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2afc92b3b1e2d77df7737ad193677a8437c84d60e12348451c703491ea101a34
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..3896098a743dc3ba6311ec69087d57bf15184d33
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/22.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ea42a63ae20ddc419795568b629ada0ced03d3881421ef9f878d684e44409529
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..18a3efd3d013aea588c9801c4c67f5f195ed9b35
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:35f97f5b1bca32d961e1b853ee5c8884d864441babf9606a8aacde35d74d9ede
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..9f5b560f7bf9f2ef5356b0cacbd9d9e10e853662
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:04195a35b24d25fea3b4607fd179f41a9b7d3b035c83670e462e33415803e3bd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..ebe278d4eeefa25316543783d9fe6bfc0a279f92
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d9e5dbdea66befed99654187395d026675566d84ead8466940d29669b199af30
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..fcbb2c91ec4eb5dfc2ddddf6bf2ed00395cb45c3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8bdbeeed0beacd3ad580e42432e42bb309436649cc6d7d9463235fa36de02e11
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..637007000a44aa906d25dd9a1a844039c760acc6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:653fbfebc1aec7e9258abda6ae83b8db2b6ea90351fc18d8c7fd85b8ffe26538
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..e9590664c9b277f728cb7ed4e3907a4075f3563b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:415755108857d0bcb0d034b3d6260ec17b79ee34c210b5ae6517c1333fe48c07
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..2325ac3ae02d67703464e72c87f6129d31c69693
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8fda3827944602cc789721c94ddcbeda27fba018554aa788c748e71307c0930f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..a3b64df24ed508e272ebc59f29a6235755972a0f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/23.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c3fce2bd36e4356243afcc45d1cefd1cf90b5ef75c08674ee3570dc0881c4ae
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ebef2f3467b9ac08e92e8d341f27dc5f5eb5d44c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f5af91fbb5d667f18617345828962ce28192c91eedc73d56d9ffeebc263a19e8
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..4e5c22dd2bac59f24e152f56289757d5a56c123a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b6c0ac7caf7be8e9b6ba1e1c3881623c6c342d0582099dc7891e5f751e8bbd3e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..cded811965d92d15eee5982751b505436efd8474
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4bb6a7f98ae749c4d3a3ff81d55d44638f0e83820d92b09b13456615cb3d43cf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..06ea7710f7673c9a72522230df442beccba467a8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cb648cfc3c195eaef42e6a01ca89060bf5202341c6daca09ad8fade56d7f3cf7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..0cbadaf982b3b69ddb23bb4481e3f0b2e786bb49
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:767b35023c352cfa14f8354eae66e416e35aaeb2940a0435951a2fe5b3e8147d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..23f24c8b776ed31a29c2a1101ec8956f17a3d400
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d1888e8691a356585aff3ff6fce5f78fb686c12bf2326ad7b7da9c6154c5f07
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..4a0b20aa2e3bd7dd7c7043b5e519373ba8ab9903
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f786e91d7127080633de00b948381791665a298775d8d0c538efc207238876e5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..0f37aaa3c663d7b133b7906a03f6b12ada964244
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/24.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d382545a0f2df4b53b9674086eb0b8b12a2e16e4104d526c8667391d5d8335f9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..5e665512500c37cae3aa981497f8431186569320
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8ee08847205d6ba6061fa33d1b09e7797cc22330b8caec96a56c1ee0689bd459
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..a96d926180a6c869b11f2851c6d1ca5d6b56a3f0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:210a3c8102f8ce2355d8f7254e169ede0be9b14c9810ea89cb5478e9738e932c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..002460a52b2be94c2fb62addc39be0787e16d887
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:30e3b07ba65e95f2ad6c7b7bcf937ec164d8cc5457270c4d344c3259e67069eb
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..3fe0e817e173ed4197e5fb30ced0d03ea6b7882a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a036b977f44d8b16efd32a1b39afe98c7bd5d12a07c0e17cc3a010147a91a99
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..79ca1321d79ec3e5bd433d72e17b19d0484befa5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7b1ce2dd0827cb9121d7c91ad1131baf473b5e4d762b00f700d5664084a25999
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..07cca9d198534310e4af4c137be2c0ec00f78299
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:422b5869fe5cf98f626f158f56b163aee096b0b335d87d9df25255db7af2d0fe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..572bae25fff15fe501554cd24a35de78a9c0418b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:525b1b6e2bcb9b72e1f4a85c7ac1b89611b60b5577f2cb5d2549318208fbefd9
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..f1167511f8a3a7441158463d87ef89d86a9da46f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/25.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0c2a790919dcaa35c072b75d72ac27d668348049d058f88ceefb4a641261bf13
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8aadb057df4b32e4bf0b711b559999cbc3c871ff
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be336f50b6474faf044a4ad2900c799e0853ec5aef145d11f9538c5f6855f71f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..cabfdd22c3fd762b8a2e88b1041a05828beb9127
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3ae6f1c18d7353f29b7e8cc27f17f0dad995c048391bef52ec127509b4422e1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..fc67a9151efc15c415192ad1b12f9ac35968f791
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b98cd9e80068f8a93fe0342e629596b2f18d783f509a37505f061677c8535f98
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..6fe3dd4921935cbe7e96dd9531560c78c1b97af5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f21e019311be34285a682c06fce6b5ed0eff5a90d83afe9a1223718d500648f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..49c7a6349cf12b33b06bf6e252cd700a9d2d476e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:18c63cc62523531480fac5a56af9aa92cfd55de63a1e1f38e2e40a084ca2795b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..ca85e6283c3d79304e6b25e1b75f82e984785b52
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d5207e39feddaaacaf0ddf4b2a8e15d7d69d05cdd0fbfd3ab3ade8fb3f45162
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..6cb07cebe4421233745573352ad30690b76d864e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c1298f002c61fe2c1ee4c2f97f6703c229968cd1a59450b64da3ca8c0238285b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..4eac8bfa86b0475ead41b9b89461fa9eb02a0a40
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/26.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1057b528c42042f996c819078c08e54705a676c56df7dbb8cbe968450ecd35bc
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..ea70ab6449ba40f83f62e65bfe29cb7b51341df8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fe62093486a14db012034d70509da4baac9447b34fafacb6edb04c41af964090
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..3a04777e6acfddcbdbaa06420f2edc51222f9b0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:24da4587bc772bf8a8715e3e835e2457a1d6950e21a37790c06a8a4f220db736
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..49a462b230e8ab865387bcb8409ee6f6e31c37ee
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:568a22fdc7885338ef1f429725c49dbdfcb7463239ed0728973817698a50170b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..7d698524d9ecc2f1adf4f1b067f0559b033e383a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8ec98d31ffc36a34e60ff66d07ee42d60e0fd012416e3c10f7267d4259b4e7a0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..e21bd0adf7a1f9bda152a81444f868d4d403723f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bea3f009a9b66eaf29f55877365952f42f5405901f925096d52ce1a3da4380f7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..c5502294669e5c4d2d4ec5469e7cce922111db3f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:96b64d81e0453e01c4f7896e54f3191dab870edd2b6c9278225565ce7f350f5c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..d133d8fb98b1c061274992b525b69b8729afcea8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2b40c44d20d74e2a1b32ca86c11f5e53cef475316bdef195ef8abcebe344782a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..7e5fc15007e36c1cffc93119862787a78cc8cc0e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/27.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a2ffa3722c93ea58807e194e4b8e611b9211f8200f433b9646242c85be2b8d51
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4698232e1d0b2cbbf89006d656322ab1c9e10bcc
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:10483a7cb2a47f41e06a56845a9b72de87284e312f65e875570a6ac4b6f98d1e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..2b5d4899aa88685c2c8359a947d55b5436523440
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:67c3eb67d36bcf8db2a991fb3dcf8dbdef2a115ac5bd46842a263ba164c22554
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..bbd7666ffc73708d6c9a6590ad1e80eb813f4ec3
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f0dff76b8be0775894d6fd37f033c3e3e31cbf7310e7a553b79824ddcab2a1e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..69c4a26e06c8e6bc16ce3d381f5f1c4f2b2ba35e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:813d8e8aa4dcdee9032925cde4fbd85a5f9e921605aa00e60171634528253f81
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..90cc301bfdc6f2660cfc3b4b702eed1f2b83849e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a93554c0869d39e6717bbad3dcd8a7a1e788bfc0927a030e9a44852c25e7df5d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..5d6d26c8c314912b4da83e9b9996684bf6514057
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:90eaf3d3460a371a8dc04f1dd6f9f8f4a60571448eae10085686bb6241ac01bf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..31cb959d77b5d3be8ea8a5a659849b76b709e328
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:efa9ddff96c221e5324445b0ddbcd7a4a58f02341ccae9aae6f9c6bbbe977da7
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..9de7ee1f8e02561eec5656c78c4b9344fa315140
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/3.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dabebf2a3ec967d84fee5db525df99e69000ec0248ec736251ce6a78d43267a2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..9cfc942890bc99a43ea9888a5687b4f65e66a6ee
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:01e25841a967b26b032bbb4e73b9b5a678f803a27c15ab711086b3e09fb16266
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..de64136bc5792afd8d39faf46cab5c64450592b0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4889aef8350f501a249635b8b5baadbf4893070876131e4dc89f8480673a1ed2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..820194c96ac115eca80d92835d9f7be5de74a9b6
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7bc1eea5bd914fee62b07a81ea7d309fe532d4c151b2002ab38ec1e82290dd96
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..fbf68d07bfef0e3d73726b6eac17261ecf2cd49e
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:48f0c6692a82b9ee881e142ee6b5c929f5c492dde85c3ed20d0d72463342e510
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..2d1c5100555d77b92ab154d111b717f14b215bbe
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:11e1cad8bd57501ec2aa0750a787c42a7fe23193a1f2523a15509d69b6eaa3fd
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..5979fdc9e64c9474d9c6d914eeae5bc29c8a12bb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:04aa205b0ebbb54d4592ba2e716453177c3bc7cc30382fd890dcad7b4ff53c8b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..c898f9d545e329cacdefef1611b93bbc191f3113
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:68f6388d2aedc8ff7bcd27d2ad8e0993f9c1dc3455f42c65ea828ced9e169c8a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..1465079c7051a7631abde43afb596e644fc66402
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/4.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c5488578abfb412b37e8127b407aa88ac30d3430e2ee1f13638b9fa374f0c31b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..39e18205128fb0f88ab582daee80d11dfa815160
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0a1e0edd70ad458025ec823765494d1e8b31639f458dc80f5e91962f22497737
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..c582d75d5d6e8f0722a6cf0c531df9bb5154d171
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f1dd7b5968070457ab2e0ed2e3390f54734f6e9b7fc6263b857d7597b21d19e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..ad20af1627f13806c9eeefac788fc151b8fd6edf
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0f6eb67d452f1c25d6b7e35a991b314b981c58af97451692c81951e159cf81ce
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..97c47f4d5db510260785564a6b3d0fc982773cf0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ebe7c78b28b8047c92f490f3c72d8a9ec48f50463636134b15c973f4dce4a13d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..372c77089c5a65cf5e8b2789434ed0869b8da015
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a08e50c824329033370116e20ad937292b4e4d04f198bae4c246bab15fd821a3
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..93890560394495df8308f5c64e6b21040f4e69d7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:eb349e0e992cf007acd6e859c41c7171929a53b0df7334b7bb4ab2802ecb8fcf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..79522d53cdbfacd848a441e36e8124add3dcdc1b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:45a48d76754a4cde11227b03c31c76456b00ca00c4a6406c745ab57a99eba755
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..a37c3f9c09ab0ba3370cda34790f0f4f3e30291b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/5.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7f97530fcb7cb5c58cc5b3a5410c925e11d7a1241cb026f2b3f6e8c8dfe60457
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..4cf3d918211c14ae21475b50c0a4bfca04554494
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ddf8f7a25de8ad54ab24ccc72a1e98230a9432a075d74a051272729be16f7bc0
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..bfb23b0f481dd62de924e7d5e85b21d83b7cda26
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:faf25491c0a92612c622b88ae1cc43a5f980cd54748b4c67321ad5e53e52e097
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..48ad8500e961f91e9bdb6626e0eba6d80acd9c0a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:923d616858fb6bcf46a78a37bbad83741679459bf0b7ce63674b454a99176421
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..978d00cb1ecfc8d2f35dc4c0179ce444467954e8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c028f98d773df9b490fdf49c01576c50f28993821b90e1584c6a54604487c88d
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..62094d3f0be53350a799a78a2e49a5a03085661c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:80edbd218ac4ea7b906ced896903dd904f96b4e4bf92b24b6b044a33face1b8f
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..76eec2500a65158b892d2d8f8ef8d1f3031f7e39
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:196b61991f40874345017960fb18603e8f8d01c820295550b3001421fd97877b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..1e4727e8bd3cd7fdd7f1d80ec92f4fcec81a932b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33fcde01d69a4f8ea71e3f2dd3a9222383ae3e3bc5bf3293770d2672b08e7fce
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..40905b00205907f452249a54a55f6e4b59da5529
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/6.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33952c9781c9bd8733782494eb6d7c6d8f600535d2544ca3f0d35844494faaa5
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..3bf4a3921eb6d73957677c23c09f8fa171bc2c16
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bb991b0e9e8b1963ce6ad79d85d9a99b9c2a8b00ca62d90a26e8485842b7e0d1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..b894f50ee989ddc1e5b2a59c9cb6d73320b44e16
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:32c06f1ec2c36bc3f47001d9250fea3825c977556faf6fe25472ead5c397b803
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..66f6485dcf9e3664fb115e8825826abe735bf951
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1de68a670606aae971574797f6c5770c360f96845caa297af150d72315a5cebe
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..ed0da816f3e93d1dd7015168d7ad77bc149cea4c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:892859f470fc83943267cf59d408edb0ae96360b1fa392eca3b5cdf7459702ac
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..3f5e72af2f61c1752be80da51e2d2e7f6347297a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9937ced4d3f9a0ed2c4269cb3921dfdd2e2942710db12b796ab191156b44eda4
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..b20e41b3451bbdbbf0e01526343b296722aa3d9b
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c0789db441d752f04b18cbf361cb5e1b8324aabdcf5db02e99fbfc6b6c59383c
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..569d9f79d093b4cfa2934eee7b792cf08d4959d8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3e891732983ca832aad851198ef08ea6a38e6c4b2281d866b19eb8564e232225
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..7b9cfbf8101396f823eb09253dc63c4e95e5002f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/7.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7eab08900adfa403f770f780217664e6fcf05a985fcfbe24295178e7a4c96ca6
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..8596e0b74cb99ac402c23df149c6d5bff2248342
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ff6fe28b96aa2902489da20de4fe81f0f2d5bb226112f91b194a07fa3098ce19
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..1dfde4ef5e5355e0ecf4b02134c2e6629bf36a72
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1bb7d4d8da7dc0f9629d0f54ac74fccf4fc0bb8aefbd252639e31d67a4529a51
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..e5405b86048555b1ff554f4b6a94f8f58a3b73c8
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dc294b4354cf7a3663d775f0b9f17ab12642c811236e303450e20a42ff36af3b
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..4d53d71a2aa20f002c2c6d223a33299991089d0c
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:57bb9ddabeffb61a298c59a3557fe198159fdbc977c64410b4b522a2cab737aa
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..610cc44e5b83b81cf034a928506daafc8eac01f5
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:802582a979aa0e114d6606e4f37c9f81996b9064c75d07d822d3480ef00f14ff
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..73319dcea83ad1fcbd46618c8665aff9ed0baedb
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aee655596538027554353f336d09b04833b59fe914894d9175364dd8aff3e0b2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..49dedf75ebc08edaffadaab7ca6a9f46e709240a
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bdae49b1d7b4ef0b89cbc7b7a0bbf08a719aab16cd7a81ced7f9b1a7e3f9881a
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..da2d39f3d9aa17eb6e7b37578ceca63a8787a2cd
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/8.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:33a2488deb3515df1785f5dd8e123ee38da692c8b846d778291541bd5b6cd5c2
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.0.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.0.0
new file mode 100644
index 0000000000000000000000000000000000000000..193441bb3f654b5df7e82cd019cfd57704c1ee05
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.0.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d97bd51b2a9993732c3e4de23eb90468f7cd11f066903f05d314794ca1fea82e
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.1.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.1.0
new file mode 100644
index 0000000000000000000000000000000000000000..37354a1474a439e505c146273c00d2237d6d5bc7
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.1.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:403fc087f19ac5f96e73012e5157dd38fe20bfb29cd3bdea0d6b91647efb4dc1
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.2.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.2.0
new file mode 100644
index 0000000000000000000000000000000000000000..987ddf3c5a4732ee1d437bb0d5e05ebbafa44a5d
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.2.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:41d9f38c5cabc0c30edd123881317ea5aa91f07f90a1a6b70e60d58aaacda106
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.3.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.3.0
new file mode 100644
index 0000000000000000000000000000000000000000..5b9b749e82aeaa0bc07ecb33928f4eb0dc965e68
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.3.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4a44f8170ad39ecf7a445000be9687fbaffa8d343552c177317f19cba841d0cf
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.4.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.4.0
new file mode 100644
index 0000000000000000000000000000000000000000..2ea478ccaf5bfebb50b9df49763454c51a11ce02
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.4.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:62f6f3d6ea18aa535fe4d75198275149aeabd9d054152a44eca587e9f5a22588
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.5.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.5.0
new file mode 100644
index 0000000000000000000000000000000000000000..faf6692d7b4360970aa4dd6abe05da04d97c3f78
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.5.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f61ce46d991a8d6b0aa256785ef55c906bbac4936dff3390a597ff908e605f40
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.6.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.6.0
new file mode 100644
index 0000000000000000000000000000000000000000..71baf45cc20992df80c54eb4dd1f3de4553ab6b0
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.6.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5691f949c61406538fb8b90cb85244081d9e4f7bd5884a0e156dde928960ca40
+size 75497472
diff --git a/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.7.0 b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.7.0
new file mode 100644
index 0000000000000000000000000000000000000000..ccd0b35fe0507681e3b01a0ba3baefd9eab8d00f
--- /dev/null
+++ b/nemo/checkpoints/megatron_gpt_sft--validation_loss=0.000-step=613-consumed_samples=78464-epoch=1-last/optimizer.state.param.model.decoder.layers.mlp.linear_fc1.weight/9.7.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f95db633e16ba75b6b6cf7a23ee5928da36721709e6dccddc56fd4a978c8e885
+size 75497472
diff --git a/nemo/cmd-args.log b/nemo/cmd-args.log
new file mode 100644
index 0000000000000000000000000000000000000000..26b9a5354a4cc0bd59438d014e6fc4937c0a8098
--- /dev/null
+++ b/nemo/cmd-args.log
@@ -0,0 +1 @@
+NeMo-Aligner/examples/nlp/gpt/train_gpt_sft.py name=gemma-7b-sql-nemo trainer.precision=bf16 trainer.num_nodes=1 trainer.devices=8 trainer.sft.max_steps=-1 trainer.sft.limit_val_batches=40 trainer.sft.val_check_interval=1000 model.tensor_model_parallel_size=4 model.pipeline_model_parallel_size=1 model.megatron_amp_O2=True model.restore_from_path=/workspace/models/pytorch-7b-pt.nemo model.optim.lr=5e-6 model.answer_only_loss=True ++model.bias_activation_fusion=true model.data.num_workers=0 model.data.train_ds.micro_batch_size=1 model.data.train_ds.global_batch_size=128 model.data.train_ds.max_seq_length=8192 model.data.train_ds.file_path=nsql.jsonl model.data.validation_ds.micro_batch_size=1 model.data.validation_ds.global_batch_size=128 model.data.validation_ds.drop_last=True model.data.validation_ds.file_path=nsql.jsonl exp_manager.explicit_log_dir=models/gemma-7b-sql-nemo exp_manager.checkpoint_callback_params.save_nemo_on_train_end=True exp_manager.resume_if_exists=True exp_manager.resume_ignore_no_checkpoint=True exp_manager.create_checkpoint_callback=True exp_manager.checkpoint_callback_params.monitor=validation_loss
\ No newline at end of file
diff --git a/nemo/events.out.tfevents.1710739654.jupyter-pod.79654.0 b/nemo/events.out.tfevents.1710739654.jupyter-pod.79654.0
new file mode 100644
index 0000000000000000000000000000000000000000..220eed2205513f38770a3e3fe83daa11151f9aee
--- /dev/null
+++ b/nemo/events.out.tfevents.1710739654.jupyter-pod.79654.0
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:967754c0c366859fa8dc086b20b17a035718e6da58ac637f7e9d947b4f026f8f
+size 202684
diff --git a/nemo/hparams.yaml b/nemo/hparams.yaml
new file mode 100644
index 0000000000000000000000000000000000000000..307ffdb1002772cfd1b39fee771b066134baeb92
--- /dev/null
+++ b/nemo/hparams.yaml
@@ -0,0 +1,139 @@
+name: gemma-7b-sql-nemo
+trainer:
+  num_nodes: 1
+  devices: 8
+  accelerator: gpu
+  precision: bf16
+  logger: false
+  enable_checkpointing: false
+  use_distributed_sampler: false
+  max_time: null
+  max_epochs: 1
+  max_steps: -1
+  sft:
+    max_epochs: 1
+    max_steps: -1
+    val_check_interval: 1000
+    save_interval: 1000
+    limit_val_batches: 40
+    gradient_clip_val: 1.0
+exp_manager:
+  explicit_log_dir: models/gemma-7b-sql-nemo
+  exp_dir: null
+  name: gemma-7b-sql-nemo
+  create_wandb_logger: false
+  wandb_logger_kwargs:
+    project: null
+    name: null
+  resume_if_exists: true
+  resume_ignore_no_checkpoint: true
+  create_checkpoint_callback: true
+  checkpoint_callback_params:
+    monitor: validation_loss
+    save_top_k: 5
+    mode: min
+    save_nemo_on_train_end: true
+    filename: megatron_gpt_sft--{validation_loss:.3f}-{step}-{consumed_samples}-{epoch}
+    model_parallel_size: 4
+    save_best_model: false
+model:
+  seed: 1234
+  tensor_model_parallel_size: 4
+  pipeline_model_parallel_size: 1
+  restore_from_path: /workspace/models/pytorch-7b-pt.nemo
+  resume_from_checkpoint: null
+  save_nemo_on_validation_end: true
+  sync_batch_comm: false
+  megatron_amp_O2: true
+  encoder_seq_length: 8192
+  sequence_parallel: false
+  activations_checkpoint_granularity: null
+  activations_checkpoint_method: null
+  activations_checkpoint_num_layers: null
+  activations_checkpoint_layers_per_pipeline: null
+  answer_only_loss: true
+  gradient_as_bucket_view: false
+  seq_len_interpolation_factor: null
+  use_flash_attention: null
+  hidden_dropout: 0.0
+  attention_dropout: 0.0
+  ffn_dropout: 0.0
+  peft:
+    peft_scheme: none
+    restore_from_path: null
+    lora_tuning:
+      target_modules:
+      - attention_qkv
+      adapter_dim: 32
+      adapter_dropout: 0.0
+      column_init_method: xavier
+      row_init_method: zero
+      layer_selection: null
+      weight_tying: false
+      position_embedding_strategy: null
+  data:
+    chat: false
+    chat_prompt_tokens:
+      system_turn_start: "\0"
+      turn_start: "\x11"
+      label_start: "\x12"
+      end_of_turn: '
+
+        '
+      end_of_name: '
+
+        '
+    sample: false
+    num_workers: 0
+    dataloader_type: single
+    train_ds:
+      file_path: nsql.jsonl
+      global_batch_size: 128
+      micro_batch_size: 1
+      shuffle: true
+      memmap_workers: null
+      max_seq_length: 8192
+      min_seq_length: 1
+      drop_last: true
+      label_key: output
+      add_eos: true
+      add_sep: false
+      add_bos: false
+      truncation_field: input
+      index_mapping_dir: null
+      prompt_template: '{input} {output}'
+      hf_dataset: false
+      truncation_method: right
+    validation_ds:
+      file_path: nsql.jsonl
+      global_batch_size: 128
+      micro_batch_size: 1
+      shuffle: false
+      memmap_workers: null
+      max_seq_length: 8192
+      min_seq_length: 1
+      drop_last: true
+      label_key: output
+      add_eos: true
+      add_sep: false
+      add_bos: false
+      truncation_field: input
+      index_mapping_dir: null
+      prompt_template: '{input} {output}'
+      hf_dataset: false
+      truncation_method: right
+      output_original_text: true
+  optim:
+    name: distributed_fused_adam
+    lr: 5.0e-06
+    weight_decay: 0.01
+    betas:
+    - 0.9
+    - 0.98
+    sched:
+      name: CosineAnnealing
+      warmup_steps: 10
+      constant_steps: 1000
+      min_lr: 9.0e-07
+  bias_activation_fusion: true
+  precision: bf16
diff --git a/nemo/lightning_logs.txt b/nemo/lightning_logs.txt
new file mode 100644
index 0000000000000000000000000000000000000000..6c6695457907211d82243ee0b525550d0604cb77
--- /dev/null
+++ b/nemo/lightning_logs.txt
@@ -0,0 +1,20 @@
+GPU available: True (cuda), used: True
+TPU available: False, using: 0 TPU cores
+IPU available: False, using: 0 IPUs
+HPU available: False, using: 0 HPUs
+----------------------------------------------------------------------------------------------------
+distributed_backend=nccl
+All distributed processes registered. Starting with 8 processes
+----------------------------------------------------------------------------------------------------
+
+LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0,1,2,3,4,5,6,7]
+
+  | Name  | Type          | Params
+----------------------------------------
+0 | model | Float16Module | 2.1 B 
+----------------------------------------
+2.1 B     Trainable params
+0         Non-trainable params
+2.1 B     Total params
+8,538.206 Total estimated model params size (MB)
+Epoch 1, global step 613: 'validation_loss' was not in top 5
diff --git a/nemo/nemo_error_log.txt b/nemo/nemo_error_log.txt
new file mode 100644
index 0000000000000000000000000000000000000000..3aef4df2ba193c3cf46c6d23a260949e490b206d
--- /dev/null
+++ b/nemo/nemo_error_log.txt
@@ -0,0 +1,51 @@
+[NeMo W 2024-03-18 05:24:26 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/hydra/_internal/hydra.py:119: UserWarning: Future Hydra versions will no longer change working directory at job runtime by default.
+    See https://hydra.cc/docs/1.2/upgrades/1.1_to_1.2/changes_to_job_working_dir/ for more information.
+      ret = run_job(
+    
+[NeMo W 2024-03-18 05:24:26 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/lightning_fabric/connector.py:554: UserWarning: bf16 is supported for historical reasons but its usage is discouraged. Please set your precision to bf16-mixed instead!
+      rank_zero_warn(
+    
+[NeMo W 2024-03-18 05:24:26 exp_manager:708] Exp_manager is logging to models/gemma-7b-sql-nemo, but it already exists.
+[NeMo W 2024-03-18 05:24:26 exp_manager:630] There were no checkpoints found in checkpoint_dir or no checkpoint folder at checkpoint_dir :models/gemma-7b-sql-nemo/checkpoints. Training from scratch.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: num_moe_experts in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: bias_gelu_fusion in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: fp8_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: clone_scatter_output_in_embedding in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:55 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/transformer_engine/pytorch/module/base.py:611: UserWarning: To guarantee overlapping TP and SP collectives with the backwardGEMMs, set environment variable CUDA_DEVICE_MAX_CONNECTIONS = 1
+      warnings.warn(
+    
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo W 2024-03-18 07:47:22 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/apex/transformer/pipeline_parallel/utils.py:81: UserWarning: This function is only for unittest
+      warnings.warn("This function is only for unittest")
+    
+[NeMo W 2024-03-18 07:53:39 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/pytorch_lightning/callbacks/model_checkpoint.py:359: UserWarning: `ModelCheckpoint(monitor='validation_loss')` could not find the monitored key in the returned metrics: ['step', 'consumed_samples', 'epoch', 'train_grad_norm', 'train_lr', 'train_loss', 'train_consumed_samples', 'train_step_time', 'train_epoch', 'val_loss', 'val_validation_step_time']. HINT: Did you call `log('validation_loss', value)` in the `LightningModule`?
+      warning_cache.warn(m)
+    
diff --git a/nemo/nemo_log_globalrank-0_localrank-0.txt b/nemo/nemo_log_globalrank-0_localrank-0.txt
new file mode 100644
index 0000000000000000000000000000000000000000..836df8ba03f8e299b82ec8cee966182146d23847
--- /dev/null
+++ b/nemo/nemo_log_globalrank-0_localrank-0.txt
@@ -0,0 +1,270 @@
+[NeMo W 2024-03-18 05:24:26 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/hydra/_internal/hydra.py:119: UserWarning: Future Hydra versions will no longer change working directory at job runtime by default.
+    See https://hydra.cc/docs/1.2/upgrades/1.1_to_1.2/changes_to_job_working_dir/ for more information.
+      ret = run_job(
+    
+[NeMo I 2024-03-18 05:24:26 train_gpt_sft:118] 
+    
+    ************** Experiment configuration ***********
+[NeMo I 2024-03-18 05:24:26 train_gpt_sft:119] 
+    name: gemma-7b-sql-nemo
+    trainer:
+      num_nodes: 1
+      devices: 8
+      accelerator: gpu
+      precision: bf16
+      sft:
+        max_epochs: 1
+        max_steps: -1
+        val_check_interval: 1000
+        save_interval: ${.val_check_interval}
+        limit_val_batches: 40
+        gradient_clip_val: 1.0
+      logger: false
+      enable_checkpointing: false
+      use_distributed_sampler: false
+      max_time: null
+      max_epochs: ${.sft.max_epochs}
+      max_steps: ${.sft.max_steps}
+    exp_manager:
+      explicit_log_dir: models/gemma-7b-sql-nemo
+      exp_dir: null
+      name: ${name}
+      create_wandb_logger: false
+      wandb_logger_kwargs:
+        project: null
+        name: null
+      resume_if_exists: true
+      resume_ignore_no_checkpoint: true
+      create_checkpoint_callback: true
+      checkpoint_callback_params:
+        monitor: validation_loss
+        save_top_k: 5
+        mode: min
+        save_nemo_on_train_end: true
+        filename: megatron_gpt_sft--{${.monitor}:.3f}-{step}-{consumed_samples}-{epoch}
+        model_parallel_size: ${model.tensor_model_parallel_size}
+        save_best_model: false
+    model:
+      seed: 1234
+      tensor_model_parallel_size: 4
+      pipeline_model_parallel_size: 1
+      restore_from_path: /workspace/models/pytorch-7b-pt.nemo
+      resume_from_checkpoint: null
+      save_nemo_on_validation_end: true
+      sync_batch_comm: false
+      megatron_amp_O2: true
+      encoder_seq_length: 4096
+      sequence_parallel: false
+      activations_checkpoint_granularity: null
+      activations_checkpoint_method: null
+      activations_checkpoint_num_layers: null
+      activations_checkpoint_layers_per_pipeline: null
+      answer_only_loss: true
+      gradient_as_bucket_view: false
+      seq_len_interpolation_factor: null
+      use_flash_attention: null
+      hidden_dropout: 0.0
+      attention_dropout: 0.0
+      ffn_dropout: 0.0
+      peft:
+        peft_scheme: none
+        restore_from_path: null
+        lora_tuning:
+          target_modules:
+          - attention_qkv
+          adapter_dim: 32
+          adapter_dropout: 0.0
+          column_init_method: xavier
+          row_init_method: zero
+          layer_selection: null
+          weight_tying: false
+          position_embedding_strategy: null
+      data:
+        chat: false
+        chat_prompt_tokens:
+          system_turn_start: "\0"
+          turn_start: "\x11"
+          label_start: "\x12"
+          end_of_turn: '
+    
+            '
+          end_of_name: '
+    
+            '
+        sample: false
+        num_workers: 0
+        dataloader_type: single
+        train_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: true
+          memmap_workers: null
+          max_seq_length: 8192
+          min_seq_length: 1
+          drop_last: true
+          label_key: output
+          add_eos: true
+          add_sep: false
+          add_bos: false
+          truncation_field: input
+          index_mapping_dir: null
+          prompt_template: '{input} {output}'
+          hf_dataset: false
+          truncation_method: right
+        validation_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: false
+          memmap_workers: ${model.data.train_ds.memmap_workers}
+          max_seq_length: ${model.data.train_ds.max_seq_length}
+          min_seq_length: 1
+          drop_last: true
+          label_key: ${model.data.train_ds.label_key}
+          add_eos: ${model.data.train_ds.add_eos}
+          add_sep: ${model.data.train_ds.add_sep}
+          add_bos: ${model.data.train_ds.add_bos}
+          truncation_field: ${model.data.train_ds.truncation_field}
+          index_mapping_dir: null
+          prompt_template: ${model.data.train_ds.prompt_template}
+          hf_dataset: false
+          truncation_method: right
+          output_original_text: true
+      optim:
+        name: distributed_fused_adam
+        lr: 5.0e-06
+        weight_decay: 0.01
+        betas:
+        - 0.9
+        - 0.98
+        sched:
+          name: CosineAnnealing
+          warmup_steps: 10
+          constant_steps: 1000
+          min_lr: 9.0e-07
+      bias_activation_fusion: true
+    
+[NeMo W 2024-03-18 05:24:26 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/lightning_fabric/connector.py:554: UserWarning: bf16 is supported for historical reasons but its usage is discouraged. Please set your precision to bf16-mixed instead!
+      rank_zero_warn(
+    
+[NeMo W 2024-03-18 05:24:26 exp_manager:708] Exp_manager is logging to models/gemma-7b-sql-nemo, but it already exists.
+[NeMo W 2024-03-18 05:24:26 exp_manager:630] There were no checkpoints found in checkpoint_dir or no checkpoint folder at checkpoint_dir :models/gemma-7b-sql-nemo/checkpoints. Training from scratch.
+[NeMo I 2024-03-18 05:24:26 exp_manager:396] Experiments will be logged at models/gemma-7b-sql-nemo
+[NeMo I 2024-03-18 05:24:27 exp_manager:856] TensorboardLogger has been set up
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:24:54 megatron_init:241] Rank 0 has data parallel group : [0, 4]
+[NeMo I 2024-03-18 05:24:54 megatron_init:247] Rank 0 has combined group of data parallel and context parallel : [0, 4]
+[NeMo I 2024-03-18 05:24:54 megatron_init:252] All data parallel group ranks with context parallel combined: [[0, 4], [1, 5], [2, 6], [3, 7]]
+[NeMo I 2024-03-18 05:24:54 megatron_init:255] Ranks 0 has data parallel rank: 0
+[NeMo I 2024-03-18 05:24:54 megatron_init:272] Rank 0 has context parallel group: [0]
+[NeMo I 2024-03-18 05:24:54 megatron_init:275] All context parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:24:54 megatron_init:276] Ranks 0 has context parallel rank: 0
+[NeMo I 2024-03-18 05:24:54 megatron_init:287] Rank 0 has model parallel group: [0, 1, 2, 3]
+[NeMo I 2024-03-18 05:24:54 megatron_init:288] All model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:24:54 megatron_init:298] Rank 0 has tensor model parallel group: [0, 1, 2, 3]
+[NeMo I 2024-03-18 05:24:54 megatron_init:302] All tensor model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:24:54 megatron_init:303] Rank 0 has tensor model parallel rank: 0
+[NeMo I 2024-03-18 05:24:54 megatron_init:317] Rank 0 has pipeline model parallel group: [0]
+[NeMo I 2024-03-18 05:24:54 megatron_init:329] Rank 0 has embedding group: [0]
+[NeMo I 2024-03-18 05:24:54 megatron_init:335] All pipeline model parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:24:54 megatron_init:336] Rank 0 has pipeline model parallel rank 0
+[NeMo I 2024-03-18 05:24:54 megatron_init:337] All embedding group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:24:54 megatron_init:338] Rank 0 has embedding rank: 0
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:24:54 tokenizer_utils:191] Getting SentencePiece with model: /tmp/tmpjkayda0k/c1f49ba929c24b7e95b7219ca958f881_tokenizer-final.model
+[NeMo I 2024-03-18 05:24:54 megatron_base_model:520] Padded vocab_size: 256000, original vocab_size: 256000, dummy tokens: 0.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: num_moe_experts in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: bias_gelu_fusion in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: fp8_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: clone_scatter_output_in_embedding in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:24:55 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/transformer_engine/pytorch/module/base.py:611: UserWarning: To guarantee overlapping TP and SP collectives with the backwardGEMMs, set environment variable CUDA_DEVICE_MAX_CONNECTIONS = 1
+      warnings.warn(
+    
+[NeMo I 2024-03-18 05:27:27 nlp_overrides:1100] Model GPTSFTModel was successfully restored from /workspace/models/pytorch-7b-pt.nemo.
+[NeMo I 2024-03-18 05:27:27 train_script_utils:169] Running full finetuning since no peft scheme is given.
+      | Name  | Type          | Params
+    ----------------------------------------
+    0 | model | Float16Module | 2.1 B 
+    ----------------------------------------
+    2.1 B     Trainable params
+    0         Non-trainable params
+    2.1 B     Total params
+    8,538.206 Total estimated model params size (MB)
+[NeMo I 2024-03-18 05:27:27 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:27 text_memmap_dataset:525] Processing 1 data files using 104 workers
+[NeMo I 2024-03-18 05:27:29 text_memmap_dataset:535] Time building 0 / 1 mem-mapped files: 0:00:01.612749
+[NeMo I 2024-03-18 05:27:30 text_memmap_dataset:525] Processing 1 data files using 104 workers
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:535] Time building 0 / 1 mem-mapped files: 0:00:01.441462
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000906
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:525] Processing 1 data files using 104 workers
+[NeMo I 2024-03-18 05:27:33 text_memmap_dataset:535] Time building 0 / 1 mem-mapped files: 0:00:01.411864
+[NeMo I 2024-03-18 05:27:33 text_memmap_dataset:525] Processing 1 data files using 104 workers
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:535] Time building 0 / 1 mem-mapped files: 0:00:01.369279
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000861
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:40 megatron_gpt_model:1296] Pipeline model parallel rank: 0, Tensor model parallel rank: 0, Number of model parameters on device: 2.13e+09. Total number of model parameters: 8.54e+09.
+[NeMo I 2024-03-18 05:27:40 modelPT:723] Optimizer config = MegatronDistributedFusedAdam (
+    Parameter Group 0
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.01
+    
+    Parameter Group 1
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.0
+    )
+[NeMo I 2024-03-18 05:27:40 lr_scheduler:915] Scheduler "<nemo.core.optim.lr_scheduler.CosineAnnealing object at 0x793b24a42350>" 
+    will be used during training (effective maximum steps = 613) - 
+    Parameters : 
+    (warmup_steps: 10
+    constant_steps: 1000
+    min_lr: 9.0e-07
+    max_steps: 613
+    )
+[NeMo W 2024-03-18 07:47:22 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/apex/transformer/pipeline_parallel/utils.py:81: UserWarning: This function is only for unittest
+      warnings.warn("This function is only for unittest")
+    
+[NeMo W 2024-03-18 07:53:39 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/pytorch_lightning/callbacks/model_checkpoint.py:359: UserWarning: `ModelCheckpoint(monitor='validation_loss')` could not find the monitored key in the returned metrics: ['step', 'consumed_samples', 'epoch', 'train_grad_norm', 'train_lr', 'train_loss', 'train_consumed_samples', 'train_step_time', 'train_epoch', 'val_loss', 'val_validation_step_time']. HINT: Did you call `log('validation_loss', value)` in the `LightningModule`?
+      warning_cache.warn(m)
+    
diff --git a/nemo/nemo_log_globalrank-1_localrank-1.txt b/nemo/nemo_log_globalrank-1_localrank-1.txt
new file mode 100644
index 0000000000000000000000000000000000000000..624eaa6c39cd4afec55acae0291e3541849f983d
--- /dev/null
+++ b/nemo/nemo_log_globalrank-1_localrank-1.txt
@@ -0,0 +1,252 @@
+[NeMo W 2024-03-18 05:25:14 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/hydra/_internal/hydra.py:119: UserWarning: Future Hydra versions will no longer change working directory at job runtime by default.
+    See https://hydra.cc/docs/1.2/upgrades/1.1_to_1.2/changes_to_job_working_dir/ for more information.
+      ret = run_job(
+    
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:118] 
+    
+    ************** Experiment configuration ***********
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:119] 
+    name: gemma-7b-sql-nemo
+    trainer:
+      num_nodes: 1
+      devices: 8
+      accelerator: gpu
+      precision: bf16
+      sft:
+        max_epochs: 1
+        max_steps: -1
+        val_check_interval: 1000
+        save_interval: ${.val_check_interval}
+        limit_val_batches: 40
+        gradient_clip_val: 1.0
+      logger: false
+      enable_checkpointing: false
+      use_distributed_sampler: false
+      max_time: null
+      max_epochs: ${.sft.max_epochs}
+      max_steps: ${.sft.max_steps}
+    exp_manager:
+      explicit_log_dir: models/gemma-7b-sql-nemo
+      exp_dir: null
+      name: ${name}
+      create_wandb_logger: false
+      wandb_logger_kwargs:
+        project: null
+        name: null
+      resume_if_exists: true
+      resume_ignore_no_checkpoint: true
+      create_checkpoint_callback: true
+      checkpoint_callback_params:
+        monitor: validation_loss
+        save_top_k: 5
+        mode: min
+        save_nemo_on_train_end: true
+        filename: megatron_gpt_sft--{${.monitor}:.3f}-{step}-{consumed_samples}-{epoch}
+        model_parallel_size: ${model.tensor_model_parallel_size}
+        save_best_model: false
+    model:
+      seed: 1234
+      tensor_model_parallel_size: 4
+      pipeline_model_parallel_size: 1
+      restore_from_path: /workspace/models/pytorch-7b-pt.nemo
+      resume_from_checkpoint: null
+      save_nemo_on_validation_end: true
+      sync_batch_comm: false
+      megatron_amp_O2: true
+      encoder_seq_length: 4096
+      sequence_parallel: false
+      activations_checkpoint_granularity: null
+      activations_checkpoint_method: null
+      activations_checkpoint_num_layers: null
+      activations_checkpoint_layers_per_pipeline: null
+      answer_only_loss: true
+      gradient_as_bucket_view: false
+      seq_len_interpolation_factor: null
+      use_flash_attention: null
+      hidden_dropout: 0.0
+      attention_dropout: 0.0
+      ffn_dropout: 0.0
+      peft:
+        peft_scheme: none
+        restore_from_path: null
+        lora_tuning:
+          target_modules:
+          - attention_qkv
+          adapter_dim: 32
+          adapter_dropout: 0.0
+          column_init_method: xavier
+          row_init_method: zero
+          layer_selection: null
+          weight_tying: false
+          position_embedding_strategy: null
+      data:
+        chat: false
+        chat_prompt_tokens:
+          system_turn_start: "\0"
+          turn_start: "\x11"
+          label_start: "\x12"
+          end_of_turn: '
+    
+            '
+          end_of_name: '
+    
+            '
+        sample: false
+        num_workers: 0
+        dataloader_type: single
+        train_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: true
+          memmap_workers: null
+          max_seq_length: 8192
+          min_seq_length: 1
+          drop_last: true
+          label_key: output
+          add_eos: true
+          add_sep: false
+          add_bos: false
+          truncation_field: input
+          index_mapping_dir: null
+          prompt_template: '{input} {output}'
+          hf_dataset: false
+          truncation_method: right
+        validation_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: false
+          memmap_workers: ${model.data.train_ds.memmap_workers}
+          max_seq_length: ${model.data.train_ds.max_seq_length}
+          min_seq_length: 1
+          drop_last: true
+          label_key: ${model.data.train_ds.label_key}
+          add_eos: ${model.data.train_ds.add_eos}
+          add_sep: ${model.data.train_ds.add_sep}
+          add_bos: ${model.data.train_ds.add_bos}
+          truncation_field: ${model.data.train_ds.truncation_field}
+          index_mapping_dir: null
+          prompt_template: ${model.data.train_ds.prompt_template}
+          hf_dataset: false
+          truncation_method: right
+          output_original_text: true
+      optim:
+        name: distributed_fused_adam
+        lr: 5.0e-06
+        weight_decay: 0.01
+        betas:
+        - 0.9
+        - 0.98
+        sched:
+          name: CosineAnnealing
+          warmup_steps: 10
+          constant_steps: 1000
+          min_lr: 9.0e-07
+      bias_activation_fusion: true
+    
+[NeMo W 2024-03-18 05:25:14 exp_manager:630] There were no checkpoints found in checkpoint_dir or no checkpoint folder at checkpoint_dir :models/gemma-7b-sql-nemo/checkpoints. Training from scratch.
+[NeMo I 2024-03-18 05:25:14 exp_manager:396] Experiments will be logged at models/gemma-7b-sql-nemo
+[NeMo I 2024-03-18 05:25:14 exp_manager:856] TensorboardLogger has been set up
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 megatron_init:241] Rank 1 has data parallel group : [1, 5]
+[NeMo I 2024-03-18 05:25:56 megatron_init:247] Rank 1 has combined group of data parallel and context parallel : [1, 5]
+[NeMo I 2024-03-18 05:25:56 megatron_init:252] All data parallel group ranks with context parallel combined: [[0, 4], [1, 5], [2, 6], [3, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:255] Ranks 1 has data parallel rank: 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:272] Rank 1 has context parallel group: [1]
+[NeMo I 2024-03-18 05:25:56 megatron_init:275] All context parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:276] Ranks 1 has context parallel rank: 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:287] Rank 1 has model parallel group: [0, 1, 2, 3]
+[NeMo I 2024-03-18 05:25:56 megatron_init:288] All model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:298] Rank 1 has tensor model parallel group: [0, 1, 2, 3]
+[NeMo I 2024-03-18 05:25:56 megatron_init:302] All tensor model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:303] Rank 1 has tensor model parallel rank: 1
+[NeMo I 2024-03-18 05:25:56 megatron_init:317] Rank 1 has pipeline model parallel group: [1]
+[NeMo I 2024-03-18 05:25:56 megatron_init:329] Rank 1 has embedding group: [1]
+[NeMo I 2024-03-18 05:25:56 megatron_init:335] All pipeline model parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:336] Rank 1 has pipeline model parallel rank 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:337] All embedding group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:338] Rank 1 has embedding rank: 0
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 tokenizer_utils:191] Getting SentencePiece with model: /tmp/tmpqymm0qxt/c1f49ba929c24b7e95b7219ca958f881_tokenizer-final.model
+[NeMo I 2024-03-18 05:25:56 megatron_base_model:520] Padded vocab_size: 256000, original vocab_size: 256000, dummy tokens: 0.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: num_moe_experts in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: bias_gelu_fusion in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: fp8_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: clone_scatter_output_in_embedding in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/transformer_engine/pytorch/module/base.py:611: UserWarning: To guarantee overlapping TP and SP collectives with the backwardGEMMs, set environment variable CUDA_DEVICE_MAX_CONNECTIONS = 1
+      warnings.warn(
+    
+[NeMo I 2024-03-18 05:27:30 nlp_overrides:1100] Model GPTSFTModel was successfully restored from /workspace/models/pytorch-7b-pt.nemo.
+[NeMo I 2024-03-18 05:27:30 train_script_utils:169] Running full finetuning since no peft scheme is given.
+      | Name  | Type          | Params
+    ----------------------------------------
+    0 | model | Float16Module | 2.1 B 
+    ----------------------------------------
+    2.1 B     Trainable params
+    0         Non-trainable params
+    2.1 B     Total params
+    8,538.206 Total estimated model params size (MB)
+[NeMo I 2024-03-18 05:27:30 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000896
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000631
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:40 megatron_gpt_model:1296] Pipeline model parallel rank: 0, Tensor model parallel rank: 1, Number of model parameters on device: 2.13e+09. Total number of model parameters: 8.54e+09.
+[NeMo I 2024-03-18 05:27:40 modelPT:723] Optimizer config = MegatronDistributedFusedAdam (
+    Parameter Group 0
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.01
+    
+    Parameter Group 1
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.0
+    )
+[NeMo I 2024-03-18 05:27:40 lr_scheduler:915] Scheduler "<nemo.core.optim.lr_scheduler.CosineAnnealing object at 0x7f723cf11270>" 
+    will be used during training (effective maximum steps = 613) - 
+    Parameters : 
+    (warmup_steps: 10
+    constant_steps: 1000
+    min_lr: 9.0e-07
+    max_steps: 613
+    )
diff --git a/nemo/nemo_log_globalrank-2_localrank-2.txt b/nemo/nemo_log_globalrank-2_localrank-2.txt
new file mode 100644
index 0000000000000000000000000000000000000000..3d2a3082758b1a978ec249f1ea7c05dd27f0677b
--- /dev/null
+++ b/nemo/nemo_log_globalrank-2_localrank-2.txt
@@ -0,0 +1,252 @@
+[NeMo W 2024-03-18 05:25:14 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/hydra/_internal/hydra.py:119: UserWarning: Future Hydra versions will no longer change working directory at job runtime by default.
+    See https://hydra.cc/docs/1.2/upgrades/1.1_to_1.2/changes_to_job_working_dir/ for more information.
+      ret = run_job(
+    
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:118] 
+    
+    ************** Experiment configuration ***********
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:119] 
+    name: gemma-7b-sql-nemo
+    trainer:
+      num_nodes: 1
+      devices: 8
+      accelerator: gpu
+      precision: bf16
+      sft:
+        max_epochs: 1
+        max_steps: -1
+        val_check_interval: 1000
+        save_interval: ${.val_check_interval}
+        limit_val_batches: 40
+        gradient_clip_val: 1.0
+      logger: false
+      enable_checkpointing: false
+      use_distributed_sampler: false
+      max_time: null
+      max_epochs: ${.sft.max_epochs}
+      max_steps: ${.sft.max_steps}
+    exp_manager:
+      explicit_log_dir: models/gemma-7b-sql-nemo
+      exp_dir: null
+      name: ${name}
+      create_wandb_logger: false
+      wandb_logger_kwargs:
+        project: null
+        name: null
+      resume_if_exists: true
+      resume_ignore_no_checkpoint: true
+      create_checkpoint_callback: true
+      checkpoint_callback_params:
+        monitor: validation_loss
+        save_top_k: 5
+        mode: min
+        save_nemo_on_train_end: true
+        filename: megatron_gpt_sft--{${.monitor}:.3f}-{step}-{consumed_samples}-{epoch}
+        model_parallel_size: ${model.tensor_model_parallel_size}
+        save_best_model: false
+    model:
+      seed: 1234
+      tensor_model_parallel_size: 4
+      pipeline_model_parallel_size: 1
+      restore_from_path: /workspace/models/pytorch-7b-pt.nemo
+      resume_from_checkpoint: null
+      save_nemo_on_validation_end: true
+      sync_batch_comm: false
+      megatron_amp_O2: true
+      encoder_seq_length: 4096
+      sequence_parallel: false
+      activations_checkpoint_granularity: null
+      activations_checkpoint_method: null
+      activations_checkpoint_num_layers: null
+      activations_checkpoint_layers_per_pipeline: null
+      answer_only_loss: true
+      gradient_as_bucket_view: false
+      seq_len_interpolation_factor: null
+      use_flash_attention: null
+      hidden_dropout: 0.0
+      attention_dropout: 0.0
+      ffn_dropout: 0.0
+      peft:
+        peft_scheme: none
+        restore_from_path: null
+        lora_tuning:
+          target_modules:
+          - attention_qkv
+          adapter_dim: 32
+          adapter_dropout: 0.0
+          column_init_method: xavier
+          row_init_method: zero
+          layer_selection: null
+          weight_tying: false
+          position_embedding_strategy: null
+      data:
+        chat: false
+        chat_prompt_tokens:
+          system_turn_start: "\0"
+          turn_start: "\x11"
+          label_start: "\x12"
+          end_of_turn: '
+    
+            '
+          end_of_name: '
+    
+            '
+        sample: false
+        num_workers: 0
+        dataloader_type: single
+        train_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: true
+          memmap_workers: null
+          max_seq_length: 8192
+          min_seq_length: 1
+          drop_last: true
+          label_key: output
+          add_eos: true
+          add_sep: false
+          add_bos: false
+          truncation_field: input
+          index_mapping_dir: null
+          prompt_template: '{input} {output}'
+          hf_dataset: false
+          truncation_method: right
+        validation_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: false
+          memmap_workers: ${model.data.train_ds.memmap_workers}
+          max_seq_length: ${model.data.train_ds.max_seq_length}
+          min_seq_length: 1
+          drop_last: true
+          label_key: ${model.data.train_ds.label_key}
+          add_eos: ${model.data.train_ds.add_eos}
+          add_sep: ${model.data.train_ds.add_sep}
+          add_bos: ${model.data.train_ds.add_bos}
+          truncation_field: ${model.data.train_ds.truncation_field}
+          index_mapping_dir: null
+          prompt_template: ${model.data.train_ds.prompt_template}
+          hf_dataset: false
+          truncation_method: right
+          output_original_text: true
+      optim:
+        name: distributed_fused_adam
+        lr: 5.0e-06
+        weight_decay: 0.01
+        betas:
+        - 0.9
+        - 0.98
+        sched:
+          name: CosineAnnealing
+          warmup_steps: 10
+          constant_steps: 1000
+          min_lr: 9.0e-07
+      bias_activation_fusion: true
+    
+[NeMo W 2024-03-18 05:25:14 exp_manager:630] There were no checkpoints found in checkpoint_dir or no checkpoint folder at checkpoint_dir :models/gemma-7b-sql-nemo/checkpoints. Training from scratch.
+[NeMo I 2024-03-18 05:25:14 exp_manager:396] Experiments will be logged at models/gemma-7b-sql-nemo
+[NeMo I 2024-03-18 05:25:14 exp_manager:856] TensorboardLogger has been set up
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 megatron_init:241] Rank 2 has data parallel group : [2, 6]
+[NeMo I 2024-03-18 05:25:56 megatron_init:247] Rank 2 has combined group of data parallel and context parallel : [2, 6]
+[NeMo I 2024-03-18 05:25:56 megatron_init:252] All data parallel group ranks with context parallel combined: [[0, 4], [1, 5], [2, 6], [3, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:255] Ranks 2 has data parallel rank: 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:272] Rank 2 has context parallel group: [2]
+[NeMo I 2024-03-18 05:25:56 megatron_init:275] All context parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:276] Ranks 2 has context parallel rank: 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:287] Rank 2 has model parallel group: [0, 1, 2, 3]
+[NeMo I 2024-03-18 05:25:56 megatron_init:288] All model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:298] Rank 2 has tensor model parallel group: [0, 1, 2, 3]
+[NeMo I 2024-03-18 05:25:56 megatron_init:302] All tensor model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:303] Rank 2 has tensor model parallel rank: 2
+[NeMo I 2024-03-18 05:25:56 megatron_init:317] Rank 2 has pipeline model parallel group: [2]
+[NeMo I 2024-03-18 05:25:56 megatron_init:329] Rank 2 has embedding group: [2]
+[NeMo I 2024-03-18 05:25:56 megatron_init:335] All pipeline model parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:336] Rank 2 has pipeline model parallel rank 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:337] All embedding group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:338] Rank 2 has embedding rank: 0
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 tokenizer_utils:191] Getting SentencePiece with model: /tmp/tmphn9tv6o9/c1f49ba929c24b7e95b7219ca958f881_tokenizer-final.model
+[NeMo I 2024-03-18 05:25:56 megatron_base_model:520] Padded vocab_size: 256000, original vocab_size: 256000, dummy tokens: 0.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: num_moe_experts in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: bias_gelu_fusion in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: fp8_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: clone_scatter_output_in_embedding in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/transformer_engine/pytorch/module/base.py:611: UserWarning: To guarantee overlapping TP and SP collectives with the backwardGEMMs, set environment variable CUDA_DEVICE_MAX_CONNECTIONS = 1
+      warnings.warn(
+    
+[NeMo I 2024-03-18 05:27:30 nlp_overrides:1100] Model GPTSFTModel was successfully restored from /workspace/models/pytorch-7b-pt.nemo.
+[NeMo I 2024-03-18 05:27:30 train_script_utils:169] Running full finetuning since no peft scheme is given.
+      | Name  | Type          | Params
+    ----------------------------------------
+    0 | model | Float16Module | 2.1 B 
+    ----------------------------------------
+    2.1 B     Trainable params
+    0         Non-trainable params
+    2.1 B     Total params
+    8,538.206 Total estimated model params size (MB)
+[NeMo I 2024-03-18 05:27:30 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000776
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000614
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:40 megatron_gpt_model:1296] Pipeline model parallel rank: 0, Tensor model parallel rank: 2, Number of model parameters on device: 2.13e+09. Total number of model parameters: 8.54e+09.
+[NeMo I 2024-03-18 05:27:40 modelPT:723] Optimizer config = MegatronDistributedFusedAdam (
+    Parameter Group 0
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.01
+    
+    Parameter Group 1
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.0
+    )
+[NeMo I 2024-03-18 05:27:40 lr_scheduler:915] Scheduler "<nemo.core.optim.lr_scheduler.CosineAnnealing object at 0x7b0c0573d540>" 
+    will be used during training (effective maximum steps = 613) - 
+    Parameters : 
+    (warmup_steps: 10
+    constant_steps: 1000
+    min_lr: 9.0e-07
+    max_steps: 613
+    )
diff --git a/nemo/nemo_log_globalrank-3_localrank-3.txt b/nemo/nemo_log_globalrank-3_localrank-3.txt
new file mode 100644
index 0000000000000000000000000000000000000000..c929abf0e382424b8d5b12320a37fdda903d83ca
--- /dev/null
+++ b/nemo/nemo_log_globalrank-3_localrank-3.txt
@@ -0,0 +1,252 @@
+[NeMo W 2024-03-18 05:25:14 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/hydra/_internal/hydra.py:119: UserWarning: Future Hydra versions will no longer change working directory at job runtime by default.
+    See https://hydra.cc/docs/1.2/upgrades/1.1_to_1.2/changes_to_job_working_dir/ for more information.
+      ret = run_job(
+    
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:118] 
+    
+    ************** Experiment configuration ***********
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:119] 
+    name: gemma-7b-sql-nemo
+    trainer:
+      num_nodes: 1
+      devices: 8
+      accelerator: gpu
+      precision: bf16
+      sft:
+        max_epochs: 1
+        max_steps: -1
+        val_check_interval: 1000
+        save_interval: ${.val_check_interval}
+        limit_val_batches: 40
+        gradient_clip_val: 1.0
+      logger: false
+      enable_checkpointing: false
+      use_distributed_sampler: false
+      max_time: null
+      max_epochs: ${.sft.max_epochs}
+      max_steps: ${.sft.max_steps}
+    exp_manager:
+      explicit_log_dir: models/gemma-7b-sql-nemo
+      exp_dir: null
+      name: ${name}
+      create_wandb_logger: false
+      wandb_logger_kwargs:
+        project: null
+        name: null
+      resume_if_exists: true
+      resume_ignore_no_checkpoint: true
+      create_checkpoint_callback: true
+      checkpoint_callback_params:
+        monitor: validation_loss
+        save_top_k: 5
+        mode: min
+        save_nemo_on_train_end: true
+        filename: megatron_gpt_sft--{${.monitor}:.3f}-{step}-{consumed_samples}-{epoch}
+        model_parallel_size: ${model.tensor_model_parallel_size}
+        save_best_model: false
+    model:
+      seed: 1234
+      tensor_model_parallel_size: 4
+      pipeline_model_parallel_size: 1
+      restore_from_path: /workspace/models/pytorch-7b-pt.nemo
+      resume_from_checkpoint: null
+      save_nemo_on_validation_end: true
+      sync_batch_comm: false
+      megatron_amp_O2: true
+      encoder_seq_length: 4096
+      sequence_parallel: false
+      activations_checkpoint_granularity: null
+      activations_checkpoint_method: null
+      activations_checkpoint_num_layers: null
+      activations_checkpoint_layers_per_pipeline: null
+      answer_only_loss: true
+      gradient_as_bucket_view: false
+      seq_len_interpolation_factor: null
+      use_flash_attention: null
+      hidden_dropout: 0.0
+      attention_dropout: 0.0
+      ffn_dropout: 0.0
+      peft:
+        peft_scheme: none
+        restore_from_path: null
+        lora_tuning:
+          target_modules:
+          - attention_qkv
+          adapter_dim: 32
+          adapter_dropout: 0.0
+          column_init_method: xavier
+          row_init_method: zero
+          layer_selection: null
+          weight_tying: false
+          position_embedding_strategy: null
+      data:
+        chat: false
+        chat_prompt_tokens:
+          system_turn_start: "\0"
+          turn_start: "\x11"
+          label_start: "\x12"
+          end_of_turn: '
+    
+            '
+          end_of_name: '
+    
+            '
+        sample: false
+        num_workers: 0
+        dataloader_type: single
+        train_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: true
+          memmap_workers: null
+          max_seq_length: 8192
+          min_seq_length: 1
+          drop_last: true
+          label_key: output
+          add_eos: true
+          add_sep: false
+          add_bos: false
+          truncation_field: input
+          index_mapping_dir: null
+          prompt_template: '{input} {output}'
+          hf_dataset: false
+          truncation_method: right
+        validation_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: false
+          memmap_workers: ${model.data.train_ds.memmap_workers}
+          max_seq_length: ${model.data.train_ds.max_seq_length}
+          min_seq_length: 1
+          drop_last: true
+          label_key: ${model.data.train_ds.label_key}
+          add_eos: ${model.data.train_ds.add_eos}
+          add_sep: ${model.data.train_ds.add_sep}
+          add_bos: ${model.data.train_ds.add_bos}
+          truncation_field: ${model.data.train_ds.truncation_field}
+          index_mapping_dir: null
+          prompt_template: ${model.data.train_ds.prompt_template}
+          hf_dataset: false
+          truncation_method: right
+          output_original_text: true
+      optim:
+        name: distributed_fused_adam
+        lr: 5.0e-06
+        weight_decay: 0.01
+        betas:
+        - 0.9
+        - 0.98
+        sched:
+          name: CosineAnnealing
+          warmup_steps: 10
+          constant_steps: 1000
+          min_lr: 9.0e-07
+      bias_activation_fusion: true
+    
+[NeMo W 2024-03-18 05:25:14 exp_manager:630] There were no checkpoints found in checkpoint_dir or no checkpoint folder at checkpoint_dir :models/gemma-7b-sql-nemo/checkpoints. Training from scratch.
+[NeMo I 2024-03-18 05:25:14 exp_manager:396] Experiments will be logged at models/gemma-7b-sql-nemo
+[NeMo I 2024-03-18 05:25:14 exp_manager:856] TensorboardLogger has been set up
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:57 megatron_init:241] Rank 3 has data parallel group : [3, 7]
+[NeMo I 2024-03-18 05:25:57 megatron_init:247] Rank 3 has combined group of data parallel and context parallel : [3, 7]
+[NeMo I 2024-03-18 05:25:57 megatron_init:252] All data parallel group ranks with context parallel combined: [[0, 4], [1, 5], [2, 6], [3, 7]]
+[NeMo I 2024-03-18 05:25:57 megatron_init:255] Ranks 3 has data parallel rank: 0
+[NeMo I 2024-03-18 05:25:57 megatron_init:272] Rank 3 has context parallel group: [3]
+[NeMo I 2024-03-18 05:25:57 megatron_init:275] All context parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:57 megatron_init:276] Ranks 3 has context parallel rank: 0
+[NeMo I 2024-03-18 05:25:57 megatron_init:287] Rank 3 has model parallel group: [0, 1, 2, 3]
+[NeMo I 2024-03-18 05:25:57 megatron_init:288] All model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:57 megatron_init:298] Rank 3 has tensor model parallel group: [0, 1, 2, 3]
+[NeMo I 2024-03-18 05:25:57 megatron_init:302] All tensor model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:57 megatron_init:303] Rank 3 has tensor model parallel rank: 3
+[NeMo I 2024-03-18 05:25:57 megatron_init:317] Rank 3 has pipeline model parallel group: [3]
+[NeMo I 2024-03-18 05:25:57 megatron_init:329] Rank 3 has embedding group: [3]
+[NeMo I 2024-03-18 05:25:57 megatron_init:335] All pipeline model parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:57 megatron_init:336] Rank 3 has pipeline model parallel rank 0
+[NeMo I 2024-03-18 05:25:57 megatron_init:337] All embedding group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:57 megatron_init:338] Rank 3 has embedding rank: 0
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:57 tokenizer_utils:191] Getting SentencePiece with model: /tmp/tmpe7phpf8c/c1f49ba929c24b7e95b7219ca958f881_tokenizer-final.model
+[NeMo I 2024-03-18 05:25:57 megatron_base_model:520] Padded vocab_size: 256000, original vocab_size: 256000, dummy tokens: 0.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: num_moe_experts in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: bias_gelu_fusion in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: fp8_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: clone_scatter_output_in_embedding in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:57 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/transformer_engine/pytorch/module/base.py:611: UserWarning: To guarantee overlapping TP and SP collectives with the backwardGEMMs, set environment variable CUDA_DEVICE_MAX_CONNECTIONS = 1
+      warnings.warn(
+    
+[NeMo I 2024-03-18 05:27:29 nlp_overrides:1100] Model GPTSFTModel was successfully restored from /workspace/models/pytorch-7b-pt.nemo.
+[NeMo I 2024-03-18 05:27:29 train_script_utils:169] Running full finetuning since no peft scheme is given.
+      | Name  | Type          | Params
+    ----------------------------------------
+    0 | model | Float16Module | 2.1 B 
+    ----------------------------------------
+    2.1 B     Trainable params
+    0         Non-trainable params
+    2.1 B     Total params
+    8,538.206 Total estimated model params size (MB)
+[NeMo I 2024-03-18 05:27:29 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000700
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000550
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:40 megatron_gpt_model:1296] Pipeline model parallel rank: 0, Tensor model parallel rank: 3, Number of model parameters on device: 2.13e+09. Total number of model parameters: 8.54e+09.
+[NeMo I 2024-03-18 05:27:40 modelPT:723] Optimizer config = MegatronDistributedFusedAdam (
+    Parameter Group 0
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.01
+    
+    Parameter Group 1
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.0
+    )
+[NeMo I 2024-03-18 05:27:40 lr_scheduler:915] Scheduler "<nemo.core.optim.lr_scheduler.CosineAnnealing object at 0x7ec8c934d8d0>" 
+    will be used during training (effective maximum steps = 613) - 
+    Parameters : 
+    (warmup_steps: 10
+    constant_steps: 1000
+    min_lr: 9.0e-07
+    max_steps: 613
+    )
diff --git a/nemo/nemo_log_globalrank-4_localrank-4.txt b/nemo/nemo_log_globalrank-4_localrank-4.txt
new file mode 100644
index 0000000000000000000000000000000000000000..e0be1e338c7e82c28c6d8fe3a8b170766b35eb47
--- /dev/null
+++ b/nemo/nemo_log_globalrank-4_localrank-4.txt
@@ -0,0 +1,252 @@
+[NeMo W 2024-03-18 05:25:12 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/hydra/_internal/hydra.py:119: UserWarning: Future Hydra versions will no longer change working directory at job runtime by default.
+    See https://hydra.cc/docs/1.2/upgrades/1.1_to_1.2/changes_to_job_working_dir/ for more information.
+      ret = run_job(
+    
+[NeMo I 2024-03-18 05:25:12 train_gpt_sft:118] 
+    
+    ************** Experiment configuration ***********
+[NeMo I 2024-03-18 05:25:12 train_gpt_sft:119] 
+    name: gemma-7b-sql-nemo
+    trainer:
+      num_nodes: 1
+      devices: 8
+      accelerator: gpu
+      precision: bf16
+      sft:
+        max_epochs: 1
+        max_steps: -1
+        val_check_interval: 1000
+        save_interval: ${.val_check_interval}
+        limit_val_batches: 40
+        gradient_clip_val: 1.0
+      logger: false
+      enable_checkpointing: false
+      use_distributed_sampler: false
+      max_time: null
+      max_epochs: ${.sft.max_epochs}
+      max_steps: ${.sft.max_steps}
+    exp_manager:
+      explicit_log_dir: models/gemma-7b-sql-nemo
+      exp_dir: null
+      name: ${name}
+      create_wandb_logger: false
+      wandb_logger_kwargs:
+        project: null
+        name: null
+      resume_if_exists: true
+      resume_ignore_no_checkpoint: true
+      create_checkpoint_callback: true
+      checkpoint_callback_params:
+        monitor: validation_loss
+        save_top_k: 5
+        mode: min
+        save_nemo_on_train_end: true
+        filename: megatron_gpt_sft--{${.monitor}:.3f}-{step}-{consumed_samples}-{epoch}
+        model_parallel_size: ${model.tensor_model_parallel_size}
+        save_best_model: false
+    model:
+      seed: 1234
+      tensor_model_parallel_size: 4
+      pipeline_model_parallel_size: 1
+      restore_from_path: /workspace/models/pytorch-7b-pt.nemo
+      resume_from_checkpoint: null
+      save_nemo_on_validation_end: true
+      sync_batch_comm: false
+      megatron_amp_O2: true
+      encoder_seq_length: 4096
+      sequence_parallel: false
+      activations_checkpoint_granularity: null
+      activations_checkpoint_method: null
+      activations_checkpoint_num_layers: null
+      activations_checkpoint_layers_per_pipeline: null
+      answer_only_loss: true
+      gradient_as_bucket_view: false
+      seq_len_interpolation_factor: null
+      use_flash_attention: null
+      hidden_dropout: 0.0
+      attention_dropout: 0.0
+      ffn_dropout: 0.0
+      peft:
+        peft_scheme: none
+        restore_from_path: null
+        lora_tuning:
+          target_modules:
+          - attention_qkv
+          adapter_dim: 32
+          adapter_dropout: 0.0
+          column_init_method: xavier
+          row_init_method: zero
+          layer_selection: null
+          weight_tying: false
+          position_embedding_strategy: null
+      data:
+        chat: false
+        chat_prompt_tokens:
+          system_turn_start: "\0"
+          turn_start: "\x11"
+          label_start: "\x12"
+          end_of_turn: '
+    
+            '
+          end_of_name: '
+    
+            '
+        sample: false
+        num_workers: 0
+        dataloader_type: single
+        train_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: true
+          memmap_workers: null
+          max_seq_length: 8192
+          min_seq_length: 1
+          drop_last: true
+          label_key: output
+          add_eos: true
+          add_sep: false
+          add_bos: false
+          truncation_field: input
+          index_mapping_dir: null
+          prompt_template: '{input} {output}'
+          hf_dataset: false
+          truncation_method: right
+        validation_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: false
+          memmap_workers: ${model.data.train_ds.memmap_workers}
+          max_seq_length: ${model.data.train_ds.max_seq_length}
+          min_seq_length: 1
+          drop_last: true
+          label_key: ${model.data.train_ds.label_key}
+          add_eos: ${model.data.train_ds.add_eos}
+          add_sep: ${model.data.train_ds.add_sep}
+          add_bos: ${model.data.train_ds.add_bos}
+          truncation_field: ${model.data.train_ds.truncation_field}
+          index_mapping_dir: null
+          prompt_template: ${model.data.train_ds.prompt_template}
+          hf_dataset: false
+          truncation_method: right
+          output_original_text: true
+      optim:
+        name: distributed_fused_adam
+        lr: 5.0e-06
+        weight_decay: 0.01
+        betas:
+        - 0.9
+        - 0.98
+        sched:
+          name: CosineAnnealing
+          warmup_steps: 10
+          constant_steps: 1000
+          min_lr: 9.0e-07
+      bias_activation_fusion: true
+    
+[NeMo W 2024-03-18 05:25:13 exp_manager:630] There were no checkpoints found in checkpoint_dir or no checkpoint folder at checkpoint_dir :models/gemma-7b-sql-nemo/checkpoints. Training from scratch.
+[NeMo I 2024-03-18 05:25:13 exp_manager:396] Experiments will be logged at models/gemma-7b-sql-nemo
+[NeMo I 2024-03-18 05:25:13 exp_manager:856] TensorboardLogger has been set up
+[NeMo W 2024-03-18 05:25:53 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:53 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:53 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:53 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:53 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:53 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:53 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:53 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:53 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:54 megatron_init:241] Rank 4 has data parallel group : [0, 4]
+[NeMo I 2024-03-18 05:25:54 megatron_init:247] Rank 4 has combined group of data parallel and context parallel : [0, 4]
+[NeMo I 2024-03-18 05:25:54 megatron_init:252] All data parallel group ranks with context parallel combined: [[0, 4], [1, 5], [2, 6], [3, 7]]
+[NeMo I 2024-03-18 05:25:54 megatron_init:255] Ranks 4 has data parallel rank: 1
+[NeMo I 2024-03-18 05:25:54 megatron_init:272] Rank 4 has context parallel group: [4]
+[NeMo I 2024-03-18 05:25:54 megatron_init:275] All context parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:54 megatron_init:276] Ranks 4 has context parallel rank: 0
+[NeMo I 2024-03-18 05:25:54 megatron_init:287] Rank 4 has model parallel group: [4, 5, 6, 7]
+[NeMo I 2024-03-18 05:25:54 megatron_init:288] All model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:54 megatron_init:298] Rank 4 has tensor model parallel group: [4, 5, 6, 7]
+[NeMo I 2024-03-18 05:25:54 megatron_init:302] All tensor model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:54 megatron_init:303] Rank 4 has tensor model parallel rank: 0
+[NeMo I 2024-03-18 05:25:54 megatron_init:317] Rank 4 has pipeline model parallel group: [4]
+[NeMo I 2024-03-18 05:25:54 megatron_init:329] Rank 4 has embedding group: [4]
+[NeMo I 2024-03-18 05:25:54 megatron_init:335] All pipeline model parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:54 megatron_init:336] Rank 4 has pipeline model parallel rank 0
+[NeMo I 2024-03-18 05:25:54 megatron_init:337] All embedding group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:54 megatron_init:338] Rank 4 has embedding rank: 0
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:54 tokenizer_utils:191] Getting SentencePiece with model: /tmp/tmpxl0xev51/c1f49ba929c24b7e95b7219ca958f881_tokenizer-final.model
+[NeMo I 2024-03-18 05:25:54 megatron_base_model:520] Padded vocab_size: 256000, original vocab_size: 256000, dummy tokens: 0.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: num_moe_experts in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: bias_gelu_fusion in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: fp8_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: clone_scatter_output_in_embedding in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:54 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/transformer_engine/pytorch/module/base.py:611: UserWarning: To guarantee overlapping TP and SP collectives with the backwardGEMMs, set environment variable CUDA_DEVICE_MAX_CONNECTIONS = 1
+      warnings.warn(
+    
+[NeMo I 2024-03-18 05:27:28 nlp_overrides:1100] Model GPTSFTModel was successfully restored from /workspace/models/pytorch-7b-pt.nemo.
+[NeMo I 2024-03-18 05:27:28 train_script_utils:169] Running full finetuning since no peft scheme is given.
+      | Name  | Type          | Params
+    ----------------------------------------
+    0 | model | Float16Module | 2.1 B 
+    ----------------------------------------
+    2.1 B     Trainable params
+    0         Non-trainable params
+    2.1 B     Total params
+    8,538.206 Total estimated model params size (MB)
+[NeMo I 2024-03-18 05:27:28 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000759
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000591
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:40 megatron_gpt_model:1296] Pipeline model parallel rank: 0, Tensor model parallel rank: 0, Number of model parameters on device: 2.13e+09. Total number of model parameters: 8.54e+09.
+[NeMo I 2024-03-18 05:27:40 modelPT:723] Optimizer config = MegatronDistributedFusedAdam (
+    Parameter Group 0
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.01
+    
+    Parameter Group 1
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.0
+    )
+[NeMo I 2024-03-18 05:27:40 lr_scheduler:915] Scheduler "<nemo.core.optim.lr_scheduler.CosineAnnealing object at 0x7c345edfd7b0>" 
+    will be used during training (effective maximum steps = 613) - 
+    Parameters : 
+    (warmup_steps: 10
+    constant_steps: 1000
+    min_lr: 9.0e-07
+    max_steps: 613
+    )
diff --git a/nemo/nemo_log_globalrank-5_localrank-5.txt b/nemo/nemo_log_globalrank-5_localrank-5.txt
new file mode 100644
index 0000000000000000000000000000000000000000..a3adbd2f62b86552a12a426be61affc0d428ce54
--- /dev/null
+++ b/nemo/nemo_log_globalrank-5_localrank-5.txt
@@ -0,0 +1,252 @@
+[NeMo W 2024-03-18 05:25:14 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/hydra/_internal/hydra.py:119: UserWarning: Future Hydra versions will no longer change working directory at job runtime by default.
+    See https://hydra.cc/docs/1.2/upgrades/1.1_to_1.2/changes_to_job_working_dir/ for more information.
+      ret = run_job(
+    
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:118] 
+    
+    ************** Experiment configuration ***********
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:119] 
+    name: gemma-7b-sql-nemo
+    trainer:
+      num_nodes: 1
+      devices: 8
+      accelerator: gpu
+      precision: bf16
+      sft:
+        max_epochs: 1
+        max_steps: -1
+        val_check_interval: 1000
+        save_interval: ${.val_check_interval}
+        limit_val_batches: 40
+        gradient_clip_val: 1.0
+      logger: false
+      enable_checkpointing: false
+      use_distributed_sampler: false
+      max_time: null
+      max_epochs: ${.sft.max_epochs}
+      max_steps: ${.sft.max_steps}
+    exp_manager:
+      explicit_log_dir: models/gemma-7b-sql-nemo
+      exp_dir: null
+      name: ${name}
+      create_wandb_logger: false
+      wandb_logger_kwargs:
+        project: null
+        name: null
+      resume_if_exists: true
+      resume_ignore_no_checkpoint: true
+      create_checkpoint_callback: true
+      checkpoint_callback_params:
+        monitor: validation_loss
+        save_top_k: 5
+        mode: min
+        save_nemo_on_train_end: true
+        filename: megatron_gpt_sft--{${.monitor}:.3f}-{step}-{consumed_samples}-{epoch}
+        model_parallel_size: ${model.tensor_model_parallel_size}
+        save_best_model: false
+    model:
+      seed: 1234
+      tensor_model_parallel_size: 4
+      pipeline_model_parallel_size: 1
+      restore_from_path: /workspace/models/pytorch-7b-pt.nemo
+      resume_from_checkpoint: null
+      save_nemo_on_validation_end: true
+      sync_batch_comm: false
+      megatron_amp_O2: true
+      encoder_seq_length: 4096
+      sequence_parallel: false
+      activations_checkpoint_granularity: null
+      activations_checkpoint_method: null
+      activations_checkpoint_num_layers: null
+      activations_checkpoint_layers_per_pipeline: null
+      answer_only_loss: true
+      gradient_as_bucket_view: false
+      seq_len_interpolation_factor: null
+      use_flash_attention: null
+      hidden_dropout: 0.0
+      attention_dropout: 0.0
+      ffn_dropout: 0.0
+      peft:
+        peft_scheme: none
+        restore_from_path: null
+        lora_tuning:
+          target_modules:
+          - attention_qkv
+          adapter_dim: 32
+          adapter_dropout: 0.0
+          column_init_method: xavier
+          row_init_method: zero
+          layer_selection: null
+          weight_tying: false
+          position_embedding_strategy: null
+      data:
+        chat: false
+        chat_prompt_tokens:
+          system_turn_start: "\0"
+          turn_start: "\x11"
+          label_start: "\x12"
+          end_of_turn: '
+    
+            '
+          end_of_name: '
+    
+            '
+        sample: false
+        num_workers: 0
+        dataloader_type: single
+        train_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: true
+          memmap_workers: null
+          max_seq_length: 8192
+          min_seq_length: 1
+          drop_last: true
+          label_key: output
+          add_eos: true
+          add_sep: false
+          add_bos: false
+          truncation_field: input
+          index_mapping_dir: null
+          prompt_template: '{input} {output}'
+          hf_dataset: false
+          truncation_method: right
+        validation_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: false
+          memmap_workers: ${model.data.train_ds.memmap_workers}
+          max_seq_length: ${model.data.train_ds.max_seq_length}
+          min_seq_length: 1
+          drop_last: true
+          label_key: ${model.data.train_ds.label_key}
+          add_eos: ${model.data.train_ds.add_eos}
+          add_sep: ${model.data.train_ds.add_sep}
+          add_bos: ${model.data.train_ds.add_bos}
+          truncation_field: ${model.data.train_ds.truncation_field}
+          index_mapping_dir: null
+          prompt_template: ${model.data.train_ds.prompt_template}
+          hf_dataset: false
+          truncation_method: right
+          output_original_text: true
+      optim:
+        name: distributed_fused_adam
+        lr: 5.0e-06
+        weight_decay: 0.01
+        betas:
+        - 0.9
+        - 0.98
+        sched:
+          name: CosineAnnealing
+          warmup_steps: 10
+          constant_steps: 1000
+          min_lr: 9.0e-07
+      bias_activation_fusion: true
+    
+[NeMo W 2024-03-18 05:25:14 exp_manager:630] There were no checkpoints found in checkpoint_dir or no checkpoint folder at checkpoint_dir :models/gemma-7b-sql-nemo/checkpoints. Training from scratch.
+[NeMo I 2024-03-18 05:25:14 exp_manager:396] Experiments will be logged at models/gemma-7b-sql-nemo
+[NeMo I 2024-03-18 05:25:14 exp_manager:856] TensorboardLogger has been set up
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 megatron_init:241] Rank 5 has data parallel group : [1, 5]
+[NeMo I 2024-03-18 05:25:56 megatron_init:247] Rank 5 has combined group of data parallel and context parallel : [1, 5]
+[NeMo I 2024-03-18 05:25:56 megatron_init:252] All data parallel group ranks with context parallel combined: [[0, 4], [1, 5], [2, 6], [3, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:255] Ranks 5 has data parallel rank: 1
+[NeMo I 2024-03-18 05:25:56 megatron_init:272] Rank 5 has context parallel group: [5]
+[NeMo I 2024-03-18 05:25:56 megatron_init:275] All context parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:276] Ranks 5 has context parallel rank: 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:287] Rank 5 has model parallel group: [4, 5, 6, 7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:288] All model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:298] Rank 5 has tensor model parallel group: [4, 5, 6, 7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:302] All tensor model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:303] Rank 5 has tensor model parallel rank: 1
+[NeMo I 2024-03-18 05:25:56 megatron_init:317] Rank 5 has pipeline model parallel group: [5]
+[NeMo I 2024-03-18 05:25:56 megatron_init:329] Rank 5 has embedding group: [5]
+[NeMo I 2024-03-18 05:25:56 megatron_init:335] All pipeline model parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:336] Rank 5 has pipeline model parallel rank 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:337] All embedding group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:338] Rank 5 has embedding rank: 0
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 tokenizer_utils:191] Getting SentencePiece with model: /tmp/tmpbmpxr8ky/c1f49ba929c24b7e95b7219ca958f881_tokenizer-final.model
+[NeMo I 2024-03-18 05:25:56 megatron_base_model:520] Padded vocab_size: 256000, original vocab_size: 256000, dummy tokens: 0.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: num_moe_experts in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: bias_gelu_fusion in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: fp8_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: clone_scatter_output_in_embedding in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/transformer_engine/pytorch/module/base.py:611: UserWarning: To guarantee overlapping TP and SP collectives with the backwardGEMMs, set environment variable CUDA_DEVICE_MAX_CONNECTIONS = 1
+      warnings.warn(
+    
+[NeMo I 2024-03-18 05:27:30 nlp_overrides:1100] Model GPTSFTModel was successfully restored from /workspace/models/pytorch-7b-pt.nemo.
+[NeMo I 2024-03-18 05:27:30 train_script_utils:169] Running full finetuning since no peft scheme is given.
+      | Name  | Type          | Params
+    ----------------------------------------
+    0 | model | Float16Module | 2.1 B 
+    ----------------------------------------
+    2.1 B     Trainable params
+    0         Non-trainable params
+    2.1 B     Total params
+    8,538.206 Total estimated model params size (MB)
+[NeMo I 2024-03-18 05:27:30 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000825
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000659
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:40 megatron_gpt_model:1296] Pipeline model parallel rank: 0, Tensor model parallel rank: 1, Number of model parameters on device: 2.13e+09. Total number of model parameters: 8.54e+09.
+[NeMo I 2024-03-18 05:27:40 modelPT:723] Optimizer config = MegatronDistributedFusedAdam (
+    Parameter Group 0
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.01
+    
+    Parameter Group 1
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.0
+    )
+[NeMo I 2024-03-18 05:27:40 lr_scheduler:915] Scheduler "<nemo.core.optim.lr_scheduler.CosineAnnealing object at 0x78eedbd856c0>" 
+    will be used during training (effective maximum steps = 613) - 
+    Parameters : 
+    (warmup_steps: 10
+    constant_steps: 1000
+    min_lr: 9.0e-07
+    max_steps: 613
+    )
diff --git a/nemo/nemo_log_globalrank-6_localrank-6.txt b/nemo/nemo_log_globalrank-6_localrank-6.txt
new file mode 100644
index 0000000000000000000000000000000000000000..16e4c9d99a21f08bf9fb2f65dd45f834e2399b56
--- /dev/null
+++ b/nemo/nemo_log_globalrank-6_localrank-6.txt
@@ -0,0 +1,252 @@
+[NeMo W 2024-03-18 05:25:14 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/hydra/_internal/hydra.py:119: UserWarning: Future Hydra versions will no longer change working directory at job runtime by default.
+    See https://hydra.cc/docs/1.2/upgrades/1.1_to_1.2/changes_to_job_working_dir/ for more information.
+      ret = run_job(
+    
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:118] 
+    
+    ************** Experiment configuration ***********
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:119] 
+    name: gemma-7b-sql-nemo
+    trainer:
+      num_nodes: 1
+      devices: 8
+      accelerator: gpu
+      precision: bf16
+      sft:
+        max_epochs: 1
+        max_steps: -1
+        val_check_interval: 1000
+        save_interval: ${.val_check_interval}
+        limit_val_batches: 40
+        gradient_clip_val: 1.0
+      logger: false
+      enable_checkpointing: false
+      use_distributed_sampler: false
+      max_time: null
+      max_epochs: ${.sft.max_epochs}
+      max_steps: ${.sft.max_steps}
+    exp_manager:
+      explicit_log_dir: models/gemma-7b-sql-nemo
+      exp_dir: null
+      name: ${name}
+      create_wandb_logger: false
+      wandb_logger_kwargs:
+        project: null
+        name: null
+      resume_if_exists: true
+      resume_ignore_no_checkpoint: true
+      create_checkpoint_callback: true
+      checkpoint_callback_params:
+        monitor: validation_loss
+        save_top_k: 5
+        mode: min
+        save_nemo_on_train_end: true
+        filename: megatron_gpt_sft--{${.monitor}:.3f}-{step}-{consumed_samples}-{epoch}
+        model_parallel_size: ${model.tensor_model_parallel_size}
+        save_best_model: false
+    model:
+      seed: 1234
+      tensor_model_parallel_size: 4
+      pipeline_model_parallel_size: 1
+      restore_from_path: /workspace/models/pytorch-7b-pt.nemo
+      resume_from_checkpoint: null
+      save_nemo_on_validation_end: true
+      sync_batch_comm: false
+      megatron_amp_O2: true
+      encoder_seq_length: 4096
+      sequence_parallel: false
+      activations_checkpoint_granularity: null
+      activations_checkpoint_method: null
+      activations_checkpoint_num_layers: null
+      activations_checkpoint_layers_per_pipeline: null
+      answer_only_loss: true
+      gradient_as_bucket_view: false
+      seq_len_interpolation_factor: null
+      use_flash_attention: null
+      hidden_dropout: 0.0
+      attention_dropout: 0.0
+      ffn_dropout: 0.0
+      peft:
+        peft_scheme: none
+        restore_from_path: null
+        lora_tuning:
+          target_modules:
+          - attention_qkv
+          adapter_dim: 32
+          adapter_dropout: 0.0
+          column_init_method: xavier
+          row_init_method: zero
+          layer_selection: null
+          weight_tying: false
+          position_embedding_strategy: null
+      data:
+        chat: false
+        chat_prompt_tokens:
+          system_turn_start: "\0"
+          turn_start: "\x11"
+          label_start: "\x12"
+          end_of_turn: '
+    
+            '
+          end_of_name: '
+    
+            '
+        sample: false
+        num_workers: 0
+        dataloader_type: single
+        train_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: true
+          memmap_workers: null
+          max_seq_length: 8192
+          min_seq_length: 1
+          drop_last: true
+          label_key: output
+          add_eos: true
+          add_sep: false
+          add_bos: false
+          truncation_field: input
+          index_mapping_dir: null
+          prompt_template: '{input} {output}'
+          hf_dataset: false
+          truncation_method: right
+        validation_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: false
+          memmap_workers: ${model.data.train_ds.memmap_workers}
+          max_seq_length: ${model.data.train_ds.max_seq_length}
+          min_seq_length: 1
+          drop_last: true
+          label_key: ${model.data.train_ds.label_key}
+          add_eos: ${model.data.train_ds.add_eos}
+          add_sep: ${model.data.train_ds.add_sep}
+          add_bos: ${model.data.train_ds.add_bos}
+          truncation_field: ${model.data.train_ds.truncation_field}
+          index_mapping_dir: null
+          prompt_template: ${model.data.train_ds.prompt_template}
+          hf_dataset: false
+          truncation_method: right
+          output_original_text: true
+      optim:
+        name: distributed_fused_adam
+        lr: 5.0e-06
+        weight_decay: 0.01
+        betas:
+        - 0.9
+        - 0.98
+        sched:
+          name: CosineAnnealing
+          warmup_steps: 10
+          constant_steps: 1000
+          min_lr: 9.0e-07
+      bias_activation_fusion: true
+    
+[NeMo W 2024-03-18 05:25:14 exp_manager:630] There were no checkpoints found in checkpoint_dir or no checkpoint folder at checkpoint_dir :models/gemma-7b-sql-nemo/checkpoints. Training from scratch.
+[NeMo I 2024-03-18 05:25:14 exp_manager:396] Experiments will be logged at models/gemma-7b-sql-nemo
+[NeMo I 2024-03-18 05:25:14 exp_manager:856] TensorboardLogger has been set up
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 megatron_init:241] Rank 6 has data parallel group : [2, 6]
+[NeMo I 2024-03-18 05:25:56 megatron_init:247] Rank 6 has combined group of data parallel and context parallel : [2, 6]
+[NeMo I 2024-03-18 05:25:56 megatron_init:252] All data parallel group ranks with context parallel combined: [[0, 4], [1, 5], [2, 6], [3, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:255] Ranks 6 has data parallel rank: 1
+[NeMo I 2024-03-18 05:25:56 megatron_init:272] Rank 6 has context parallel group: [6]
+[NeMo I 2024-03-18 05:25:56 megatron_init:275] All context parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:276] Ranks 6 has context parallel rank: 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:287] Rank 6 has model parallel group: [4, 5, 6, 7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:288] All model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:298] Rank 6 has tensor model parallel group: [4, 5, 6, 7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:302] All tensor model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:303] Rank 6 has tensor model parallel rank: 2
+[NeMo I 2024-03-18 05:25:56 megatron_init:317] Rank 6 has pipeline model parallel group: [6]
+[NeMo I 2024-03-18 05:25:56 megatron_init:329] Rank 6 has embedding group: [6]
+[NeMo I 2024-03-18 05:25:56 megatron_init:335] All pipeline model parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:336] Rank 6 has pipeline model parallel rank 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:337] All embedding group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:338] Rank 6 has embedding rank: 0
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 tokenizer_utils:191] Getting SentencePiece with model: /tmp/tmpnw5cea4l/c1f49ba929c24b7e95b7219ca958f881_tokenizer-final.model
+[NeMo I 2024-03-18 05:25:56 megatron_base_model:520] Padded vocab_size: 256000, original vocab_size: 256000, dummy tokens: 0.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: num_moe_experts in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: bias_gelu_fusion in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: fp8_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: clone_scatter_output_in_embedding in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/transformer_engine/pytorch/module/base.py:611: UserWarning: To guarantee overlapping TP and SP collectives with the backwardGEMMs, set environment variable CUDA_DEVICE_MAX_CONNECTIONS = 1
+      warnings.warn(
+    
+[NeMo I 2024-03-18 05:27:29 nlp_overrides:1100] Model GPTSFTModel was successfully restored from /workspace/models/pytorch-7b-pt.nemo.
+[NeMo I 2024-03-18 05:27:29 train_script_utils:169] Running full finetuning since no peft scheme is given.
+      | Name  | Type          | Params
+    ----------------------------------------
+    0 | model | Float16Module | 2.1 B 
+    ----------------------------------------
+    2.1 B     Trainable params
+    0         Non-trainable params
+    2.1 B     Total params
+    8,538.206 Total estimated model params size (MB)
+[NeMo I 2024-03-18 05:27:29 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000681
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000545
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:40 megatron_gpt_model:1296] Pipeline model parallel rank: 0, Tensor model parallel rank: 2, Number of model parameters on device: 2.13e+09. Total number of model parameters: 8.54e+09.
+[NeMo I 2024-03-18 05:27:40 modelPT:723] Optimizer config = MegatronDistributedFusedAdam (
+    Parameter Group 0
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.01
+    
+    Parameter Group 1
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.0
+    )
+[NeMo I 2024-03-18 05:27:40 lr_scheduler:915] Scheduler "<nemo.core.optim.lr_scheduler.CosineAnnealing object at 0x7d73833f9690>" 
+    will be used during training (effective maximum steps = 613) - 
+    Parameters : 
+    (warmup_steps: 10
+    constant_steps: 1000
+    min_lr: 9.0e-07
+    max_steps: 613
+    )
diff --git a/nemo/nemo_log_globalrank-7_localrank-7.txt b/nemo/nemo_log_globalrank-7_localrank-7.txt
new file mode 100644
index 0000000000000000000000000000000000000000..4a4f425cfc7be4db3cda8729f82c0f9ec580f440
--- /dev/null
+++ b/nemo/nemo_log_globalrank-7_localrank-7.txt
@@ -0,0 +1,252 @@
+[NeMo W 2024-03-18 05:25:14 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/hydra/_internal/hydra.py:119: UserWarning: Future Hydra versions will no longer change working directory at job runtime by default.
+    See https://hydra.cc/docs/1.2/upgrades/1.1_to_1.2/changes_to_job_working_dir/ for more information.
+      ret = run_job(
+    
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:118] 
+    
+    ************** Experiment configuration ***********
+[NeMo I 2024-03-18 05:25:14 train_gpt_sft:119] 
+    name: gemma-7b-sql-nemo
+    trainer:
+      num_nodes: 1
+      devices: 8
+      accelerator: gpu
+      precision: bf16
+      sft:
+        max_epochs: 1
+        max_steps: -1
+        val_check_interval: 1000
+        save_interval: ${.val_check_interval}
+        limit_val_batches: 40
+        gradient_clip_val: 1.0
+      logger: false
+      enable_checkpointing: false
+      use_distributed_sampler: false
+      max_time: null
+      max_epochs: ${.sft.max_epochs}
+      max_steps: ${.sft.max_steps}
+    exp_manager:
+      explicit_log_dir: models/gemma-7b-sql-nemo
+      exp_dir: null
+      name: ${name}
+      create_wandb_logger: false
+      wandb_logger_kwargs:
+        project: null
+        name: null
+      resume_if_exists: true
+      resume_ignore_no_checkpoint: true
+      create_checkpoint_callback: true
+      checkpoint_callback_params:
+        monitor: validation_loss
+        save_top_k: 5
+        mode: min
+        save_nemo_on_train_end: true
+        filename: megatron_gpt_sft--{${.monitor}:.3f}-{step}-{consumed_samples}-{epoch}
+        model_parallel_size: ${model.tensor_model_parallel_size}
+        save_best_model: false
+    model:
+      seed: 1234
+      tensor_model_parallel_size: 4
+      pipeline_model_parallel_size: 1
+      restore_from_path: /workspace/models/pytorch-7b-pt.nemo
+      resume_from_checkpoint: null
+      save_nemo_on_validation_end: true
+      sync_batch_comm: false
+      megatron_amp_O2: true
+      encoder_seq_length: 4096
+      sequence_parallel: false
+      activations_checkpoint_granularity: null
+      activations_checkpoint_method: null
+      activations_checkpoint_num_layers: null
+      activations_checkpoint_layers_per_pipeline: null
+      answer_only_loss: true
+      gradient_as_bucket_view: false
+      seq_len_interpolation_factor: null
+      use_flash_attention: null
+      hidden_dropout: 0.0
+      attention_dropout: 0.0
+      ffn_dropout: 0.0
+      peft:
+        peft_scheme: none
+        restore_from_path: null
+        lora_tuning:
+          target_modules:
+          - attention_qkv
+          adapter_dim: 32
+          adapter_dropout: 0.0
+          column_init_method: xavier
+          row_init_method: zero
+          layer_selection: null
+          weight_tying: false
+          position_embedding_strategy: null
+      data:
+        chat: false
+        chat_prompt_tokens:
+          system_turn_start: "\0"
+          turn_start: "\x11"
+          label_start: "\x12"
+          end_of_turn: '
+    
+            '
+          end_of_name: '
+    
+            '
+        sample: false
+        num_workers: 0
+        dataloader_type: single
+        train_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: true
+          memmap_workers: null
+          max_seq_length: 8192
+          min_seq_length: 1
+          drop_last: true
+          label_key: output
+          add_eos: true
+          add_sep: false
+          add_bos: false
+          truncation_field: input
+          index_mapping_dir: null
+          prompt_template: '{input} {output}'
+          hf_dataset: false
+          truncation_method: right
+        validation_ds:
+          file_path: nsql.jsonl
+          global_batch_size: 128
+          micro_batch_size: 1
+          shuffle: false
+          memmap_workers: ${model.data.train_ds.memmap_workers}
+          max_seq_length: ${model.data.train_ds.max_seq_length}
+          min_seq_length: 1
+          drop_last: true
+          label_key: ${model.data.train_ds.label_key}
+          add_eos: ${model.data.train_ds.add_eos}
+          add_sep: ${model.data.train_ds.add_sep}
+          add_bos: ${model.data.train_ds.add_bos}
+          truncation_field: ${model.data.train_ds.truncation_field}
+          index_mapping_dir: null
+          prompt_template: ${model.data.train_ds.prompt_template}
+          hf_dataset: false
+          truncation_method: right
+          output_original_text: true
+      optim:
+        name: distributed_fused_adam
+        lr: 5.0e-06
+        weight_decay: 0.01
+        betas:
+        - 0.9
+        - 0.98
+        sched:
+          name: CosineAnnealing
+          warmup_steps: 10
+          constant_steps: 1000
+          min_lr: 9.0e-07
+      bias_activation_fusion: true
+    
+[NeMo W 2024-03-18 05:25:14 exp_manager:630] There were no checkpoints found in checkpoint_dir or no checkpoint folder at checkpoint_dir :models/gemma-7b-sql-nemo/checkpoints. Training from scratch.
+[NeMo I 2024-03-18 05:25:14 exp_manager:396] Experiments will be logged at models/gemma-7b-sql-nemo
+[NeMo I 2024-03-18 05:25:14 exp_manager:856] TensorboardLogger has been set up
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:55 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 megatron_init:241] Rank 7 has data parallel group : [3, 7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:247] Rank 7 has combined group of data parallel and context parallel : [3, 7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:252] All data parallel group ranks with context parallel combined: [[0, 4], [1, 5], [2, 6], [3, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:255] Ranks 7 has data parallel rank: 1
+[NeMo I 2024-03-18 05:25:56 megatron_init:272] Rank 7 has context parallel group: [7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:275] All context parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:276] Ranks 7 has context parallel rank: 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:287] Rank 7 has model parallel group: [4, 5, 6, 7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:288] All model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:298] Rank 7 has tensor model parallel group: [4, 5, 6, 7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:302] All tensor model parallel group ranks: [[0, 1, 2, 3], [4, 5, 6, 7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:303] Rank 7 has tensor model parallel rank: 3
+[NeMo I 2024-03-18 05:25:56 megatron_init:317] Rank 7 has pipeline model parallel group: [7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:329] Rank 7 has embedding group: [7]
+[NeMo I 2024-03-18 05:25:56 megatron_init:335] All pipeline model parallel group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:336] Rank 7 has pipeline model parallel rank 0
+[NeMo I 2024-03-18 05:25:56 megatron_init:337] All embedding group ranks: [[0], [1], [2], [3], [4], [5], [6], [7]]
+[NeMo I 2024-03-18 05:25:56 megatron_init:338] Rank 7 has embedding rank: 0
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo I 2024-03-18 05:25:56 tokenizer_utils:191] Getting SentencePiece with model: /tmp/tmpus1ap94c/c1f49ba929c24b7e95b7219ca958f881_tokenizer-final.model
+[NeMo I 2024-03-18 05:25:56 megatron_base_model:520] Padded vocab_size: 256000, original vocab_size: 256000, dummy tokens: 0.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: context_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: expert_model_parallel_size in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_overlap in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_ag in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_split_rs in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: tp_comm_bulk_dgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: finalize_model_grads_func in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:1078] The model: GPTSFTModel() does not have field.name: barrier_with_L1_time in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: num_moe_experts in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: bias_gelu_fusion in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: fp8_wgrad in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 megatron_base_model:492] The model: GPTSFTModel() does not have field.name: clone_scatter_output_in_embedding in its cfg. Add this key to cfg or config_mapping to make to make it configurable.
+[NeMo W 2024-03-18 05:25:56 nemo_logging:349] /usr/local/lib/python3.10/dist-packages/transformer_engine/pytorch/module/base.py:611: UserWarning: To guarantee overlapping TP and SP collectives with the backwardGEMMs, set environment variable CUDA_DEVICE_MAX_CONNECTIONS = 1
+      warnings.warn(
+    
+[NeMo I 2024-03-18 05:27:28 nlp_overrides:1100] Model GPTSFTModel was successfully restored from /workspace/models/pytorch-7b-pt.nemo.
+[NeMo I 2024-03-18 05:27:28 train_script_utils:169] Running full finetuning since no peft scheme is given.
+      | Name  | Type          | Params
+    ----------------------------------------
+    0 | model | Float16Module | 2.1 B 
+    ----------------------------------------
+    2.1 B     Trainable params
+    0         Non-trainable params
+    2.1 B     Total params
+    8,538.206 Total estimated model params size (MB)
+[NeMo I 2024-03-18 05:27:28 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000792
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:31 text_memmap_dataset:116] Building data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:158] Loading data files
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:249] Loading nsql.jsonl
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:161] Time loading 1 mem-mapped files: 0:00:00.000646
+[NeMo I 2024-03-18 05:27:34 text_memmap_dataset:165] Computing global indices
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:34 builders:327] Building dataloader with consumed samples: 0
+[NeMo W 2024-03-18 05:27:34 experimental:26] `<class 'nemo.collections.nlp.data.language_modeling.megatron.megatron_batch_samplers.MegatronPretrainingRandomBatchSampler'>` is experimental and not ready for production yet. Use at your own risk.
+[NeMo I 2024-03-18 05:27:40 megatron_gpt_model:1296] Pipeline model parallel rank: 0, Tensor model parallel rank: 3, Number of model parameters on device: 2.13e+09. Total number of model parameters: 8.54e+09.
+[NeMo I 2024-03-18 05:27:40 modelPT:723] Optimizer config = MegatronDistributedFusedAdam (
+    Parameter Group 0
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.01
+    
+    Parameter Group 1
+        betas: [0.9, 0.98]
+        bias_correction: True
+        eps: 1e-08
+        lr: 5e-06
+        weight_decay: 0.0
+    )
+[NeMo I 2024-03-18 05:27:40 lr_scheduler:915] Scheduler "<nemo.core.optim.lr_scheduler.CosineAnnealing object at 0x7e923ca21210>" 
+    will be used during training (effective maximum steps = 613) - 
+    Parameters : 
+    (warmup_steps: 10
+    constant_steps: 1000
+    min_lr: 9.0e-07
+    max_steps: 613
+    )