chancharikm commited on Nov 29, 2025

Commit

bf2a4fa

verified ·

1 Parent(s): 848eea8

Training in progress, step 600, checkpoint

Browse files

Files changed (23) hide show

last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:575afa6a1f625837deb97d36829cf83613db5bb28dc430891e46d774f162da21
+size 1558836997

last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c4881d23fee62fd5b4a6cf936f0ebdefef57ec07e3dfa31282f2284359fa2aa
+size 1558836997

last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f07e487580b850d30a35017e718a7c6a89f993a051d12afec2e13a1a44e9f50
+size 1558836997

last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d510aed0ef34d764fd1ba01feea798f08fedba50778bdfde1270df4ea16faa5b
+size 1558836997

last-checkpoint/global_step600/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:466f59c3f29bcd334552bfe6f82c293e1067254ddcbed8bfee74bf81ccb7726e
+size 1558836997

last-checkpoint/global_step600/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4fa80af3fe7a16b69b321622bfdedc367ec98e6eb6f5e2e5846332cfb261ac5
+size 1558836997

last-checkpoint/global_step600/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27d08a0327bd85ec61184f8d12fc0a2b6c18681f3604a1e1f2de2f66fa528c17
+size 1558836997

last-checkpoint/global_step600/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b7e88fb8044af0641fdcc8aad302a9ba1cbc6ff04f364abf943bbd55c5815f1
+size 1558836997

last-checkpoint/global_step600/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf1bef5b13beed9d51facb4d5f618f12d61db66d3498b160498e3ac414cd8606
+size 14663005

last-checkpoint/global_step600/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed405ce2ac5336d8b940632dc024427513763d5cc0808a368d1c00ebe343a75e
+size 14663005

last-checkpoint/global_step600/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74ab8baecfc881c3d04100f693bbb730b1956715b7553999d2f9cc9bee7a154a
+size 14663005

last-checkpoint/global_step600/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ce78c768cfc550ddb1e0e89d7c609e056e6b7f680fbd3ccbd7eb175772f37ce
+size 14663005

last-checkpoint/global_step600/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdbcbdd3965c37a0136af46a2e2bc6e39f344de6d142fcd228e91217ca7d8555
+size 14663005

last-checkpoint/global_step600/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75a428081055ad9e47b3a7c5e927d063ff25362a3ac32b3ab5410bcf438a7f3e
+size 14663005

last-checkpoint/global_step600/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8619b0c57795776e245f2f2a334b994f3566ee67a81fbc2a1621d70d5dbaebaf
+size 14663005

last-checkpoint/global_step600/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5e440df922365762744af5fde272e85434cc5189d153e06413c4cce034bd488
+size 14663005

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step550~~


1	+ global_step600

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eeffacdc935efb322f1c9780ab304b2632dec0ff6538a73ca8eaea9b017aabeb
 size 4998056552

 version https://git-lfs.github.com/spec/v1
+oid sha256:03c7328d9e1f45351312f0574ab9b50cc0739c85c9a860a7ef8ec98e51a13393
 size 4998056552

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d950f49cb1d1231086ec05e5758fae16a233257120f5fc67af9bf590bdc768f
 size 4915962464

 version https://git-lfs.github.com/spec/v1
+oid sha256:7bfb52488190ea3cf4ded5e45301f704ebd5bf10eb7b5b465f8d553e5090d505
 size 4915962464

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b16f671b09b713bd2bce1808ec381833c0574ba6161b3e138386c2fd590ee36f
 size 4915962496

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca3d879bfaf76c6064fd3dabe79ff3a9f374c38f77f4a00d18e34cedfbabfd55
 size 4915962496

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e87f1b1b8452e84386b7bf7b159bc2dbb1e6436187751d6cf74c9dce93938556
 size 2704357976

 version https://git-lfs.github.com/spec/v1
+oid sha256:76fed592470092909399a550e3bf05f250cb2e02fe17c96e925b503becd41b31
 size 2704357976

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f416bb4a919630b2c32cc5413580af9cacf31b056e07273d56a5521be468e0e2
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:e80278f55e8d70153299e2706453208b1be7c51ade602e3812c4d61736a1757b
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.227180527383367,
   "eval_steps": 500,
-  "global_step": 550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3858,6 +3858,356 @@
       "learning_rate": 5.190912599873818e-06,
       "loss": 0.0126,
       "step": 550
     }
   ],
   "logging_steps": 1,
@@ -3877,7 +4227,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3721971103170560.0,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.4300202839756593,
   "eval_steps": 500,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5.190912599873818e-06,
       "loss": 0.0126,
       "step": 550
+    },
+    {
+      "epoch": 2.231237322515213,
+      "grad_norm": 0.24802505785116624,
+      "learning_rate": 5.14029742304441e-06,
+      "loss": 0.0108,
+      "step": 551
+    },
+    {
+      "epoch": 2.235294117647059,
+      "grad_norm": 0.2595006809811974,
+      "learning_rate": 5.089879149148781e-06,
+      "loss": 0.0117,
+      "step": 552
+    },
+    {
+      "epoch": 2.239350912778905,
+      "grad_norm": 0.25411628526886854,
+      "learning_rate": 5.0396587850637554e-06,
+      "loss": 0.0091,
+      "step": 553
+    },
+    {
+      "epoch": 2.2434077079107504,
+      "grad_norm": 0.2612915952356164,
+      "learning_rate": 4.989637333713814e-06,
+      "loss": 0.01,
+      "step": 554
+    },
+    {
+      "epoch": 2.2474645030425964,
+      "grad_norm": 0.26843182159434964,
+      "learning_rate": 4.93981579405105e-06,
+      "loss": 0.0111,
+      "step": 555
+    },
+    {
+      "epoch": 2.2515212981744424,
+      "grad_norm": 0.21565821566578344,
+      "learning_rate": 4.89019516103522e-06,
+      "loss": 0.0093,
+      "step": 556
+    },
+    {
+      "epoch": 2.255578093306288,
+      "grad_norm": 0.257015977515393,
+      "learning_rate": 4.840776425613887e-06,
+      "loss": 0.014,
+      "step": 557
+    },
+    {
+      "epoch": 2.259634888438134,
+      "grad_norm": 0.20799379451848776,
+      "learning_rate": 4.791560574702614e-06,
+      "loss": 0.0082,
+      "step": 558
+    },
+    {
+      "epoch": 2.26369168356998,
+      "grad_norm": 0.31771401066766947,
+      "learning_rate": 4.742548591165289e-06,
+      "loss": 0.0145,
+      "step": 559
+    },
+    {
+      "epoch": 2.2677484787018254,
+      "grad_norm": 0.2951694121169533,
+      "learning_rate": 4.693741453794433e-06,
+      "loss": 0.0133,
+      "step": 560
+    },
+    {
+      "epoch": 2.2718052738336714,
+      "grad_norm": 0.2628861243112249,
+      "learning_rate": 4.6451401372917275e-06,
+      "loss": 0.0099,
+      "step": 561
+    },
+    {
+      "epoch": 2.2758620689655173,
+      "grad_norm": 0.22269435944973373,
+      "learning_rate": 4.596745612248488e-06,
+      "loss": 0.01,
+      "step": 562
+    },
+    {
+      "epoch": 2.279918864097363,
+      "grad_norm": 0.28704577522446245,
+      "learning_rate": 4.548558845126334e-06,
+      "loss": 0.0133,
+      "step": 563
+    },
+    {
+      "epoch": 2.283975659229209,
+      "grad_norm": 0.26309253454993753,
+      "learning_rate": 4.500580798237831e-06,
+      "loss": 0.0112,
+      "step": 564
+    },
+    {
+      "epoch": 2.288032454361055,
+      "grad_norm": 0.36204770339604975,
+      "learning_rate": 4.452812429727313e-06,
+      "loss": 0.0102,
+      "step": 565
+    },
+    {
+      "epoch": 2.292089249492901,
+      "grad_norm": 0.27129867464793533,
+      "learning_rate": 4.405254693551754e-06,
+      "loss": 0.0129,
+      "step": 566
+    },
+    {
+      "epoch": 2.2961460446247464,
+      "grad_norm": 0.22000281062189,
+      "learning_rate": 4.357908539461679e-06,
+      "loss": 0.008,
+      "step": 567
+    },
+    {
+      "epoch": 2.3002028397565923,
+      "grad_norm": 0.29624602171723224,
+      "learning_rate": 4.310774912982227e-06,
+      "loss": 0.0144,
+      "step": 568
+    },
+    {
+      "epoch": 2.3042596348884383,
+      "grad_norm": 0.22414337252422092,
+      "learning_rate": 4.263854755394256e-06,
+      "loss": 0.0089,
+      "step": 569
+    },
+    {
+      "epoch": 2.308316430020284,
+      "grad_norm": 0.28474418070215113,
+      "learning_rate": 4.21714900371556e-06,
+      "loss": 0.012,
+      "step": 570
+    },
+    {
+      "epoch": 2.31237322515213,
+      "grad_norm": 0.210326196860165,
+      "learning_rate": 4.170658590682134e-06,
+      "loss": 0.0082,
+      "step": 571
+    },
+    {
+      "epoch": 2.316430020283976,
+      "grad_norm": 0.25084743918519153,
+      "learning_rate": 4.124384444729561e-06,
+      "loss": 0.0089,
+      "step": 572
+    },
+    {
+      "epoch": 2.3204868154158214,
+      "grad_norm": 0.28537259628253975,
+      "learning_rate": 4.078327489974466e-06,
+      "loss": 0.0113,
+      "step": 573
+    },
+    {
+      "epoch": 2.3245436105476673,
+      "grad_norm": 0.22908276842060815,
+      "learning_rate": 4.032488646196077e-06,
+      "loss": 0.0101,
+      "step": 574
+    },
+    {
+      "epoch": 2.3286004056795133,
+      "grad_norm": 0.23845424830115683,
+      "learning_rate": 3.986868828817818e-06,
+      "loss": 0.0082,
+      "step": 575
+    },
+    {
+      "epoch": 2.332657200811359,
+      "grad_norm": 0.184143153098664,
+      "learning_rate": 3.941468948889067e-06,
+      "loss": 0.0068,
+      "step": 576
+    },
+    {
+      "epoch": 2.336713995943205,
+      "grad_norm": 0.6122313601455306,
+      "learning_rate": 3.8962899130669525e-06,
+      "loss": 0.0108,
+      "step": 577
+    },
+    {
+      "epoch": 2.340770791075051,
+      "grad_norm": 0.28166906523725416,
+      "learning_rate": 3.851332623598227e-06,
+      "loss": 0.0123,
+      "step": 578
+    },
+    {
+      "epoch": 2.344827586206897,
+      "grad_norm": 0.25383591722677934,
+      "learning_rate": 3.8065979783012746e-06,
+      "loss": 0.0112,
+      "step": 579
+    },
+    {
+      "epoch": 2.3488843813387423,
+      "grad_norm": 0.19603119074642442,
+      "learning_rate": 3.7620868705481586e-06,
+      "loss": 0.0079,
+      "step": 580
+    },
+    {
+      "epoch": 2.3529411764705883,
+      "grad_norm": 0.6430341184106714,
+      "learning_rate": 3.717800189246807e-06,
+      "loss": 0.0079,
+      "step": 581
+    },
+    {
+      "epoch": 2.356997971602434,
+      "grad_norm": 0.18811787242514347,
+      "learning_rate": 3.6737388188232305e-06,
+      "loss": 0.0083,
+      "step": 582
+    },
+    {
+      "epoch": 2.36105476673428,
+      "grad_norm": 0.20181404498766184,
+      "learning_rate": 3.629903639203884e-06,
+      "loss": 0.0083,
+      "step": 583
+    },
+    {
+      "epoch": 2.365111561866126,
+      "grad_norm": 0.277342849633144,
+      "learning_rate": 3.5862955257980813e-06,
+      "loss": 0.0117,
+      "step": 584
+    },
+    {
+      "epoch": 2.369168356997972,
+      "grad_norm": 0.33333350892821556,
+      "learning_rate": 3.5429153494805087e-06,
+      "loss": 0.0123,
+      "step": 585
+    },
+    {
+      "epoch": 2.3732251521298173,
+      "grad_norm": 0.23513638472728224,
+      "learning_rate": 3.499763976573866e-06,
+      "loss": 0.0108,
+      "step": 586
+    },
+    {
+      "epoch": 2.3772819472616633,
+      "grad_norm": 0.9093270963617072,
+      "learning_rate": 3.4568422688315027e-06,
+      "loss": 0.0142,
+      "step": 587
+    },
+    {
+      "epoch": 2.3813387423935093,
+      "grad_norm": 0.34746001689384526,
+      "learning_rate": 3.41415108342028e-06,
+      "loss": 0.0091,
+      "step": 588
+    },
+    {
+      "epoch": 2.385395537525355,
+      "grad_norm": 0.2173220084157316,
+      "learning_rate": 3.371691272903398e-06,
+      "loss": 0.0072,
+      "step": 589
+    },
+    {
+      "epoch": 2.389452332657201,
+      "grad_norm": 0.24334697959441584,
+      "learning_rate": 3.329463685223411e-06,
+      "loss": 0.01,
+      "step": 590
+    },
+    {
+      "epoch": 2.393509127789047,
+      "grad_norm": 0.17003427758882395,
+      "learning_rate": 3.287469163685241e-06,
+      "loss": 0.0078,
+      "step": 591
+    },
+    {
+      "epoch": 2.3975659229208923,
+      "grad_norm": 0.275983232519286,
+      "learning_rate": 3.2457085469394015e-06,
+      "loss": 0.0098,
+      "step": 592
+    },
+    {
+      "epoch": 2.4016227180527383,
+      "grad_norm": 0.2634629301055357,
+      "learning_rate": 3.204182668965198e-06,
+      "loss": 0.0093,
+      "step": 593
+    },
+    {
+      "epoch": 2.4056795131845843,
+      "grad_norm": 0.22325919432645464,
+      "learning_rate": 3.162892359054098e-06,
+      "loss": 0.0102,
+      "step": 594
+    },
+    {
+      "epoch": 2.40973630831643,
+      "grad_norm": 0.18144358371062383,
+      "learning_rate": 3.12183844179316e-06,
+      "loss": 0.0072,
+      "step": 595
+    },
+    {
+      "epoch": 2.413793103448276,
+      "grad_norm": 0.19726131763241822,
+      "learning_rate": 3.081021737048565e-06,
+      "loss": 0.0079,
+      "step": 596
+    },
+    {
+      "epoch": 2.417849898580122,
+      "grad_norm": 0.2681563404805776,
+      "learning_rate": 3.040443059949264e-06,
+      "loss": 0.0124,
+      "step": 597
+    },
+    {
+      "epoch": 2.4219066937119678,
+      "grad_norm": 2.0846202190030847,
+      "learning_rate": 3.0001032208706653e-06,
+      "loss": 0.0108,
+      "step": 598
+    },
+    {
+      "epoch": 2.4259634888438133,
+      "grad_norm": 0.20806969883961424,
+      "learning_rate": 2.960003025418478e-06,
+      "loss": 0.0082,
+      "step": 599
+    },
+    {
+      "epoch": 2.4300202839756593,
+      "grad_norm": 0.21726326567282914,
+      "learning_rate": 2.9201432744126074e-06,
+      "loss": 0.0114,
+      "step": 600
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4063291632517120.0,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null