chancharikm commited on Nov 29, 2025

Commit

45863cd

verified ·

1 Parent(s): 6267cd7

Training in progress, step 741, checkpoint

Browse files

Files changed (23) hide show

last-checkpoint/global_step741/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step741/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step741/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step741/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step741/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step741/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step741/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step741/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step741/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step741/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step741/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step741/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step741/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step741/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step741/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step741/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +291 -4

last-checkpoint/global_step741/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fda13d029ab0f9c8edee071d87b09a7de5b5804e4fecda73db1e5afd454bc4d
+size 1558836997

last-checkpoint/global_step741/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f31fd81fedd8a51b114d1ce307479f12286b843b8d0bf0218078fa38aa1e597
+size 1558836997

last-checkpoint/global_step741/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3747894a963f5a7a402f64de90807dfb74ad2a9948ee1630297df5e5fa704a50
+size 1558836997

last-checkpoint/global_step741/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6b1612c1e037b02a903d5c8f8d9c1bd8b50e9ee640fedd013404bb340f4732e
+size 1558836997

last-checkpoint/global_step741/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcfea27c535ab3cd36d881ec247de2c72d6bdfb73796b1bffbb08730c519d24a
+size 1558836997

last-checkpoint/global_step741/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25677e0605fc00cf4f9c0c667e34e22187c0b3909186e1864d3e602cb910d56f
+size 1558836997

last-checkpoint/global_step741/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae0f271ecdbb8b5030de0b834c7942d9253857873739457f97d1961852a28333
+size 1558836997

last-checkpoint/global_step741/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ec54bcd226b366ac40312b32230f8b9e70a90020625973a8b07f38510726399
+size 1558836997

last-checkpoint/global_step741/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd56729d92ecff4d18c51f3585cdffc2fadb7e4e3094dd9bef8e99ce72e29f45
+size 14663005

last-checkpoint/global_step741/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9b430189b114033f0425c7954abfe335a78443ea8e21a184f882ed3399fd3ca
+size 14663005

last-checkpoint/global_step741/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46a10535d49418aa0458dd81a5114cdcccbd9b9b640eafb4f37de100b0eb5023
+size 14663005

last-checkpoint/global_step741/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:017dc1f9478fc98b96271b64c504487112c7ced098cd5d62d4f5fe6cc6076e8d
+size 14663005

last-checkpoint/global_step741/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22ab0b6d2d7b6c850a9c225498fb3c402921a4d40a72ae452f0c7671b61688d6
+size 14663005

last-checkpoint/global_step741/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89c5225ce5da36546c551d76404ba07edd5fa906dfab5b6e486b9b93a3f239ca
+size 14663005

last-checkpoint/global_step741/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2205bc88c456ff61beb21bc4ad6a3e8627bb9ad1d2875dd2dd3a0bb3fda4727
+size 14663005

last-checkpoint/global_step741/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37a2b835829b0e26aa8937b8c52f028b4e899def3bbf86088709661d1a727c74
+size 14663005

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step700~~


1	+ global_step741

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4801dfb1de5603d9fd86e66233f71fd69b7514a405be533d0560a10ac2232701
 size 4998056552

 version https://git-lfs.github.com/spec/v1
+oid sha256:49e7042302ff6a729c45385680fa4cb4a81f634dd19c11c9b11146b0c5077077
 size 4998056552

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae2e98b4e0719324774a26fb6680623e8fc7671467315c0748ef1e7d0b4119ba
 size 4915962464

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea7e84e8433c1602ab31b03c77c594a11a03c5b96dbe716e1ea3be92cd66bf8e
 size 4915962464

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65839ff8d08fd3e1453b2209252309b7ea1b5d1d54c3d0005a4d9ff668c67d99
 size 4915962496

 version https://git-lfs.github.com/spec/v1
+oid sha256:519c9fc303c91360165e09254c2a98449fa60ad64e0c0b5a61775dfbabe1ac1c
 size 4915962496

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e606573eedf3be0faded56cd50dd9d1206aada29ef5973f67584c3bbf371fc0d
 size 2704357976

 version https://git-lfs.github.com/spec/v1
+oid sha256:f963c93178755b9faccbda482f1d1bb31346e09b0a583ae7ea0cf2dcc99034d2
 size 2704357976

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52c60310c79aedc98d1b85ec51f9670b286af151f72286d16d7d60189e2aebd3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:d33f1b5fcc0e2b43e77e522f70fde811afa6c0c979f0ac4bc190eb32c0e39007
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.8356997971602436,
   "eval_steps": 500,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4908,6 +4908,293 @@
       "learning_rate": 2.6343508932521243e-07,
       "loss": 0.0086,
       "step": 700
     }
   ],
   "logging_steps": 1,
@@ -4922,12 +5209,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4740780390875136.0,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 741,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.6343508932521243e-07,
       "loss": 0.0086,
       "step": 700
+    },
+    {
+      "epoch": 2.839756592292089,
+      "grad_norm": 0.1847332447135413,
+      "learning_rate": 2.510745991525992e-07,
+      "loss": 0.0069,
+      "step": 701
+    },
+    {
+      "epoch": 2.843813387423935,
+      "grad_norm": 0.21938966536504567,
+      "learning_rate": 2.39008652010963e-07,
+      "loss": 0.0086,
+      "step": 702
+    },
+    {
+      "epoch": 2.847870182555781,
+      "grad_norm": 0.23134459803966625,
+      "learning_rate": 2.2723748886298523e-07,
+      "loss": 0.009,
+      "step": 703
+    },
+    {
+      "epoch": 2.8519269776876266,
+      "grad_norm": 0.26561602719544714,
+      "learning_rate": 2.1576134478437315e-07,
+      "loss": 0.0102,
+      "step": 704
+    },
+    {
+      "epoch": 2.8559837728194726,
+      "grad_norm": 1.1071488735425152,
+      "learning_rate": 2.0458044895916516e-07,
+      "loss": 0.0084,
+      "step": 705
+    },
+    {
+      "epoch": 2.8600405679513186,
+      "grad_norm": 0.27265875970319914,
+      "learning_rate": 1.9369502467514788e-07,
+      "loss": 0.0111,
+      "step": 706
+    },
+    {
+      "epoch": 2.8640973630831645,
+      "grad_norm": 0.22724233458925192,
+      "learning_rate": 1.831052893194063e-07,
+      "loss": 0.0089,
+      "step": 707
+    },
+    {
+      "epoch": 2.86815415821501,
+      "grad_norm": 0.26572957456388885,
+      "learning_rate": 1.7281145437397394e-07,
+      "loss": 0.0102,
+      "step": 708
+    },
+    {
+      "epoch": 2.872210953346856,
+      "grad_norm": 0.21131153496136418,
+      "learning_rate": 1.62813725411613e-07,
+      "loss": 0.0081,
+      "step": 709
+    },
+    {
+      "epoch": 2.8762677484787016,
+      "grad_norm": 0.2164022001956463,
+      "learning_rate": 1.5311230209171078e-07,
+      "loss": 0.0115,
+      "step": 710
+    },
+    {
+      "epoch": 2.8803245436105476,
+      "grad_norm": 0.18362776733451797,
+      "learning_rate": 1.4370737815628809e-07,
+      "loss": 0.0068,
+      "step": 711
+    },
+    {
+      "epoch": 2.8843813387423936,
+      "grad_norm": 0.22201535643027853,
+      "learning_rate": 1.3459914142613384e-07,
+      "loss": 0.0093,
+      "step": 712
+    },
+    {
+      "epoch": 2.8884381338742395,
+      "grad_norm": 0.23084858527126895,
+      "learning_rate": 1.2578777379705476e-07,
+      "loss": 0.0084,
+      "step": 713
+    },
+    {
+      "epoch": 2.892494929006085,
+      "grad_norm": 0.33392265560180945,
+      "learning_rate": 1.1727345123623667e-07,
+      "loss": 0.0108,
+      "step": 714
+    },
+    {
+      "epoch": 2.896551724137931,
+      "grad_norm": 0.2883283240758792,
+      "learning_rate": 1.0905634377873563e-07,
+      "loss": 0.0092,
+      "step": 715
+    },
+    {
+      "epoch": 2.900608519269777,
+      "grad_norm": 0.2686572168243743,
+      "learning_rate": 1.011366155240856e-07,
+      "loss": 0.0131,
+      "step": 716
+    },
+    {
+      "epoch": 2.9046653144016226,
+      "grad_norm": 0.2101145436417912,
+      "learning_rate": 9.351442463301274e-08,
+      "loss": 0.0073,
+      "step": 717
+    },
+    {
+      "epoch": 2.9087221095334685,
+      "grad_norm": 0.18153151909382642,
+      "learning_rate": 8.618992332427966e-08,
+      "loss": 0.0054,
+      "step": 718
+    },
+    {
+      "epoch": 2.9127789046653145,
+      "grad_norm": 0.1970262952306368,
+      "learning_rate": 7.916325787164947e-08,
+      "loss": 0.0073,
+      "step": 719
+    },
+    {
+      "epoch": 2.9168356997971605,
+      "grad_norm": 0.23074904705177698,
+      "learning_rate": 7.243456860096476e-08,
+      "loss": 0.0079,
+      "step": 720
+    },
+    {
+      "epoch": 2.920892494929006,
+      "grad_norm": 0.2628324630369001,
+      "learning_rate": 6.600398988733824e-08,
+      "loss": 0.0085,
+      "step": 721
+    },
+    {
+      "epoch": 2.924949290060852,
+      "grad_norm": 0.28909539190720107,
+      "learning_rate": 5.98716501524732e-08,
+      "loss": 0.0126,
+      "step": 722
+    },
+    {
+      "epoch": 2.9290060851926976,
+      "grad_norm": 0.27286922538855823,
+      "learning_rate": 5.403767186210218e-08,
+      "loss": 0.0093,
+      "step": 723
+    },
+    {
+      "epoch": 2.9330628803245435,
+      "grad_norm": 0.2568428715793184,
+      "learning_rate": 4.850217152353731e-08,
+      "loss": 0.0074,
+      "step": 724
+    },
+    {
+      "epoch": 2.9371196754563895,
+      "grad_norm": 0.4731785556263277,
+      "learning_rate": 4.326525968334216e-08,
+      "loss": 0.0076,
+      "step": 725
+    },
+    {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 0.2031164746992896,
+      "learning_rate": 3.8327040925130175e-08,
+      "loss": 0.0074,
+      "step": 726
+    },
+    {
+      "epoch": 2.945233265720081,
+      "grad_norm": 0.4807857991510011,
+      "learning_rate": 3.368761386746966e-08,
+      "loss": 0.0072,
+      "step": 727
+    },
+    {
+      "epoch": 2.949290060851927,
+      "grad_norm": 0.66364903613515,
+      "learning_rate": 2.9347071161918703e-08,
+      "loss": 0.0097,
+      "step": 728
+    },
+    {
+      "epoch": 2.9533468559837726,
+      "grad_norm": 0.3120023778508287,
+      "learning_rate": 2.530549949117167e-08,
+      "loss": 0.0103,
+      "step": 729
+    },
+    {
+      "epoch": 2.9574036511156185,
+      "grad_norm": 0.20907205106461102,
+      "learning_rate": 2.1562979567330554e-08,
+      "loss": 0.0069,
+      "step": 730
+    },
+    {
+      "epoch": 2.9614604462474645,
+      "grad_norm": 0.23184300955403422,
+      "learning_rate": 1.8119586130292964e-08,
+      "loss": 0.0062,
+      "step": 731
+    },
+    {
+      "epoch": 2.9655172413793105,
+      "grad_norm": 0.2240122101684402,
+      "learning_rate": 1.4975387946256634e-08,
+      "loss": 0.0083,
+      "step": 732
+    },
+    {
+      "epoch": 2.969574036511156,
+      "grad_norm": 0.23638952694105592,
+      "learning_rate": 1.213044780635053e-08,
+      "loss": 0.0078,
+      "step": 733
+    },
+    {
+      "epoch": 2.973630831643002,
+      "grad_norm": 0.23626023739586408,
+      "learning_rate": 9.584822525377512e-09,
+      "loss": 0.0081,
+      "step": 734
+    },
+    {
+      "epoch": 2.977687626774848,
+      "grad_norm": 0.19999524138260236,
+      "learning_rate": 7.338562940680249e-09,
+      "loss": 0.0074,
+      "step": 735
+    },
+    {
+      "epoch": 2.9817444219066935,
+      "grad_norm": 0.21364040585606983,
+      "learning_rate": 5.391713911128693e-09,
+      "loss": 0.0069,
+      "step": 736
+    },
+    {
+      "epoch": 2.9858012170385395,
+      "grad_norm": 0.20996179998709147,
+      "learning_rate": 3.744314316220798e-09,
+      "loss": 0.0072,
+      "step": 737
+    },
+    {
+      "epoch": 2.9898580121703855,
+      "grad_norm": 0.19358339065466926,
+      "learning_rate": 2.396397055306476e-09,
+      "loss": 0.0061,
+      "step": 738
+    },
+    {
+      "epoch": 2.9939148073022315,
+      "grad_norm": 0.18667044909228617,
+      "learning_rate": 1.3479890469314527e-09,
+      "loss": 0.0075,
+      "step": 739
+    },
+    {
+      "epoch": 2.997971602434077,
+      "grad_norm": 0.1920159799469308,
+      "learning_rate": 5.991112283026956e-10,
+      "loss": 0.0074,
+      "step": 740
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.1960028788559094,
+      "learning_rate": 1.4977855486209002e-10,
+      "loss": 0.0037,
+      "step": 741
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5016006509985792.0,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null