Training in progress, step 3000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/global_step3000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +2 -2
last-checkpoint/global_step3000/mp_rank_00_model_states.pt +2 -2
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +585 -5

last-checkpoint/global_step3000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55a76ad65f57e1dd26d27153e5221199b53987d1ec13aa58c18022d980ed552f
-size 761059696

 version https://git-lfs.github.com/spec/v1
+oid sha256:7072d40044ad4e8f11191d79b2aa90d677d09624e8e2ae612da9850b526cffca
+size 5117197020

last-checkpoint/global_step3000/mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26dcb95f20e6f1938ba4a16eb9b378cec189bdd0e8a9434879a0785a4da722a5
-size 129965712

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3a5126625cd292b4f4d5e948c09dd37887dbb4bf5ef92a93c5bc13ab40d2c37
+size 859127504

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1000~~


1	+ global_step3000

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1dc65a919207b2a3b5b11bfc219bc2d25118e6d82922d4199c93987b5bb6425
 size 962205216

 version https://git-lfs.github.com/spec/v1
+oid sha256:610d4192b27e6309a44afb5d80a9c25b6f192f5989c5f8fb4e13c7b43939651e
 size 962205216

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:debdd7498ddcd6232955344ea92b576c95dafdfe1d109e1af69671383a9f0cb2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5eaee0853f95d35cacfb932d41346ef50714e4ef121f4dd2abff57eddeebe889
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbadae7a908ca2ec608dd3ceac8b5aab1986323a21358ba9a060e8f696f7e6fb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:536a9a8504fffb5687874aeab2eb4bb450e59d1e430c707280de4db4bc58c5a4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 97.56718528995756,
-  "best_model_checkpoint": "./iteboshi_temp/checkpoint-1000",
-  "epoch": 1.1013215859030836,
   "eval_steps": 1000,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -297,6 +297,586 @@
       "eval_steps_per_second": 1.472,
       "eval_wer": 97.56718528995756,
       "step": 1000
     }
   ],
   "logging_steps": 25,
@@ -316,7 +896,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7181431864900977e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 87.76991984912777,
+  "best_model_checkpoint": "./iteboshi_temp/checkpoint-3000",
+  "epoch": 3.303964757709251,
   "eval_steps": 1000,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 1.472,
       "eval_wer": 97.56718528995756,
       "step": 1000
+    },
+    {
+      "epoch": 1.1288546255506609,
+      "grad_norm": 1.21933913230896,
+      "learning_rate": 1.9461538461538462e-05,
+      "loss": 1.0609,
+      "step": 1025
+    },
+    {
+      "epoch": 1.1563876651982379,
+      "grad_norm": 1.4192328453063965,
+      "learning_rate": 1.943589743589744e-05,
+      "loss": 1.0849,
+      "step": 1050
+    },
+    {
+      "epoch": 1.183920704845815,
+      "grad_norm": 1.730343222618103,
+      "learning_rate": 1.9410256410256413e-05,
+      "loss": 1.0461,
+      "step": 1075
+    },
+    {
+      "epoch": 1.2114537444933922,
+      "grad_norm": 1.7515013217926025,
+      "learning_rate": 1.9384615384615386e-05,
+      "loss": 0.9945,
+      "step": 1100
+    },
+    {
+      "epoch": 1.2389867841409692,
+      "grad_norm": 2.047463893890381,
+      "learning_rate": 1.935897435897436e-05,
+      "loss": 1.0707,
+      "step": 1125
+    },
+    {
+      "epoch": 1.2665198237885462,
+      "grad_norm": 1.3279300928115845,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 0.985,
+      "step": 1150
+    },
+    {
+      "epoch": 1.2940528634361232,
+      "grad_norm": 1.2352490425109863,
+      "learning_rate": 1.930769230769231e-05,
+      "loss": 0.9729,
+      "step": 1175
+    },
+    {
+      "epoch": 1.3215859030837005,
+      "grad_norm": 1.4669734239578247,
+      "learning_rate": 1.9282051282051284e-05,
+      "loss": 0.9921,
+      "step": 1200
+    },
+    {
+      "epoch": 1.3491189427312775,
+      "grad_norm": 1.233565092086792,
+      "learning_rate": 1.9256410256410258e-05,
+      "loss": 0.9546,
+      "step": 1225
+    },
+    {
+      "epoch": 1.3766519823788546,
+      "grad_norm": 1.4740595817565918,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.9798,
+      "step": 1250
+    },
+    {
+      "epoch": 1.4041850220264318,
+      "grad_norm": 1.0927783250808716,
+      "learning_rate": 1.920512820512821e-05,
+      "loss": 0.9465,
+      "step": 1275
+    },
+    {
+      "epoch": 1.4317180616740088,
+      "grad_norm": 1.5051064491271973,
+      "learning_rate": 1.9179487179487182e-05,
+      "loss": 0.9202,
+      "step": 1300
+    },
+    {
+      "epoch": 1.4592511013215859,
+      "grad_norm": 1.218206524848938,
+      "learning_rate": 1.9153846153846156e-05,
+      "loss": 0.9766,
+      "step": 1325
+    },
+    {
+      "epoch": 1.4867841409691631,
+      "grad_norm": 1.3299014568328857,
+      "learning_rate": 1.912820512820513e-05,
+      "loss": 0.9298,
+      "step": 1350
+    },
+    {
+      "epoch": 1.51431718061674,
+      "grad_norm": 2.0308456420898438,
+      "learning_rate": 1.9102564102564106e-05,
+      "loss": 0.9287,
+      "step": 1375
+    },
+    {
+      "epoch": 1.5418502202643172,
+      "grad_norm": 1.0478333234786987,
+      "learning_rate": 1.907692307692308e-05,
+      "loss": 0.9302,
+      "step": 1400
+    },
+    {
+      "epoch": 1.5693832599118944,
+      "grad_norm": 1.2070943117141724,
+      "learning_rate": 1.905128205128205e-05,
+      "loss": 0.9162,
+      "step": 1425
+    },
+    {
+      "epoch": 1.5969162995594712,
+      "grad_norm": 1.317423701286316,
+      "learning_rate": 1.9025641025641027e-05,
+      "loss": 0.9029,
+      "step": 1450
+    },
+    {
+      "epoch": 1.6244493392070485,
+      "grad_norm": 1.3458503484725952,
+      "learning_rate": 1.9e-05,
+      "loss": 0.8649,
+      "step": 1475
+    },
+    {
+      "epoch": 1.6519823788546255,
+      "grad_norm": 1.8415597677230835,
+      "learning_rate": 1.8974358974358975e-05,
+      "loss": 0.8413,
+      "step": 1500
+    },
+    {
+      "epoch": 1.6795154185022025,
+      "grad_norm": 1.2922658920288086,
+      "learning_rate": 1.894871794871795e-05,
+      "loss": 0.8506,
+      "step": 1525
+    },
+    {
+      "epoch": 1.7070484581497798,
+      "grad_norm": 1.3912965059280396,
+      "learning_rate": 1.8923076923076925e-05,
+      "loss": 0.8408,
+      "step": 1550
+    },
+    {
+      "epoch": 1.7345814977973568,
+      "grad_norm": 1.5371092557907104,
+      "learning_rate": 1.88974358974359e-05,
+      "loss": 0.8579,
+      "step": 1575
+    },
+    {
+      "epoch": 1.7621145374449338,
+      "grad_norm": 1.188888669013977,
+      "learning_rate": 1.8871794871794873e-05,
+      "loss": 0.8251,
+      "step": 1600
+    },
+    {
+      "epoch": 1.789647577092511,
+      "grad_norm": 1.2093167304992676,
+      "learning_rate": 1.8846153846153846e-05,
+      "loss": 0.8787,
+      "step": 1625
+    },
+    {
+      "epoch": 1.8171806167400881,
+      "grad_norm": 1.3911653757095337,
+      "learning_rate": 1.8820512820512823e-05,
+      "loss": 0.8652,
+      "step": 1650
+    },
+    {
+      "epoch": 1.8447136563876652,
+      "grad_norm": 1.707056999206543,
+      "learning_rate": 1.8794871794871797e-05,
+      "loss": 0.8693,
+      "step": 1675
+    },
+    {
+      "epoch": 1.8722466960352424,
+      "grad_norm": 1.1974895000457764,
+      "learning_rate": 1.876923076923077e-05,
+      "loss": 0.8092,
+      "step": 1700
+    },
+    {
+      "epoch": 1.8997797356828194,
+      "grad_norm": 1.9799768924713135,
+      "learning_rate": 1.8743589743589744e-05,
+      "loss": 0.8103,
+      "step": 1725
+    },
+    {
+      "epoch": 1.9273127753303965,
+      "grad_norm": 1.5621815919876099,
+      "learning_rate": 1.8717948717948718e-05,
+      "loss": 0.8212,
+      "step": 1750
+    },
+    {
+      "epoch": 1.9548458149779737,
+      "grad_norm": 1.3315322399139404,
+      "learning_rate": 1.8692307692307695e-05,
+      "loss": 0.813,
+      "step": 1775
+    },
+    {
+      "epoch": 1.9823788546255505,
+      "grad_norm": 0.9858968257904053,
+      "learning_rate": 1.866666666666667e-05,
+      "loss": 0.7959,
+      "step": 1800
+    },
+    {
+      "epoch": 2.0099118942731278,
+      "grad_norm": 1.0958722829818726,
+      "learning_rate": 1.8641025641025642e-05,
+      "loss": 0.7545,
+      "step": 1825
+    },
+    {
+      "epoch": 2.037444933920705,
+      "grad_norm": 1.0353975296020508,
+      "learning_rate": 1.8615384615384616e-05,
+      "loss": 0.5917,
+      "step": 1850
+    },
+    {
+      "epoch": 2.064977973568282,
+      "grad_norm": 2.9925360679626465,
+      "learning_rate": 1.8589743589743593e-05,
+      "loss": 0.5989,
+      "step": 1875
+    },
+    {
+      "epoch": 2.092511013215859,
+      "grad_norm": 1.3685253858566284,
+      "learning_rate": 1.8564102564102567e-05,
+      "loss": 0.605,
+      "step": 1900
+    },
+    {
+      "epoch": 2.1200440528634363,
+      "grad_norm": 1.0744121074676514,
+      "learning_rate": 1.853846153846154e-05,
+      "loss": 0.6191,
+      "step": 1925
+    },
+    {
+      "epoch": 2.147577092511013,
+      "grad_norm": 0.898098349571228,
+      "learning_rate": 1.8512820512820514e-05,
+      "loss": 0.5486,
+      "step": 1950
+    },
+    {
+      "epoch": 2.1751101321585904,
+      "grad_norm": 1.2373496294021606,
+      "learning_rate": 1.848717948717949e-05,
+      "loss": 0.5693,
+      "step": 1975
+    },
+    {
+      "epoch": 2.202643171806167,
+      "grad_norm": 1.3621195554733276,
+      "learning_rate": 1.8461538461538465e-05,
+      "loss": 0.5859,
+      "step": 2000
+    },
+    {
+      "epoch": 2.202643171806167,
+      "eval_cer": 48.10966033496498,
+      "eval_loss": 0.8996243476867676,
+      "eval_runtime": 1860.7163,
+      "eval_samples_per_second": 5.687,
+      "eval_steps_per_second": 1.422,
+      "eval_wer": 90.94766619519095,
+      "step": 2000
+    },
+    {
+      "epoch": 2.2301762114537445,
+      "grad_norm": 0.9919908046722412,
+      "learning_rate": 1.8435897435897435e-05,
+      "loss": 0.5958,
+      "step": 2025
+    },
+    {
+      "epoch": 2.2577092511013217,
+      "grad_norm": 1.0579532384872437,
+      "learning_rate": 1.8410256410256412e-05,
+      "loss": 0.5828,
+      "step": 2050
+    },
+    {
+      "epoch": 2.2852422907488985,
+      "grad_norm": 0.8056641221046448,
+      "learning_rate": 1.8384615384615386e-05,
+      "loss": 0.5666,
+      "step": 2075
+    },
+    {
+      "epoch": 2.3127753303964758,
+      "grad_norm": 1.1343415975570679,
+      "learning_rate": 1.835897435897436e-05,
+      "loss": 0.577,
+      "step": 2100
+    },
+    {
+      "epoch": 2.340308370044053,
+      "grad_norm": 1.04411780834198,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.5307,
+      "step": 2125
+    },
+    {
+      "epoch": 2.36784140969163,
+      "grad_norm": 1.0452271699905396,
+      "learning_rate": 1.830769230769231e-05,
+      "loss": 0.5545,
+      "step": 2150
+    },
+    {
+      "epoch": 2.395374449339207,
+      "grad_norm": 0.927592396736145,
+      "learning_rate": 1.8282051282051284e-05,
+      "loss": 0.5551,
+      "step": 2175
+    },
+    {
+      "epoch": 2.4229074889867843,
+      "grad_norm": 1.7057969570159912,
+      "learning_rate": 1.8256410256410257e-05,
+      "loss": 0.5326,
+      "step": 2200
+    },
+    {
+      "epoch": 2.450440528634361,
+      "grad_norm": 1.4575523138046265,
+      "learning_rate": 1.823076923076923e-05,
+      "loss": 0.5308,
+      "step": 2225
+    },
+    {
+      "epoch": 2.4779735682819384,
+      "grad_norm": 1.0914602279663086,
+      "learning_rate": 1.8205128205128208e-05,
+      "loss": 0.5547,
+      "step": 2250
+    },
+    {
+      "epoch": 2.505506607929515,
+      "grad_norm": 0.990104079246521,
+      "learning_rate": 1.817948717948718e-05,
+      "loss": 0.6072,
+      "step": 2275
+    },
+    {
+      "epoch": 2.5330396475770924,
+      "grad_norm": 0.8314220905303955,
+      "learning_rate": 1.8153846153846155e-05,
+      "loss": 0.5671,
+      "step": 2300
+    },
+    {
+      "epoch": 2.5605726872246697,
+      "grad_norm": 0.9760991334915161,
+      "learning_rate": 1.812820512820513e-05,
+      "loss": 0.5421,
+      "step": 2325
+    },
+    {
+      "epoch": 2.5881057268722465,
+      "grad_norm": 1.0801244974136353,
+      "learning_rate": 1.8102564102564102e-05,
+      "loss": 0.5558,
+      "step": 2350
+    },
+    {
+      "epoch": 2.6156387665198237,
+      "grad_norm": 0.8499842286109924,
+      "learning_rate": 1.807692307692308e-05,
+      "loss": 0.56,
+      "step": 2375
+    },
+    {
+      "epoch": 2.643171806167401,
+      "grad_norm": 1.1915971040725708,
+      "learning_rate": 1.8051282051282053e-05,
+      "loss": 0.5198,
+      "step": 2400
+    },
+    {
+      "epoch": 2.670704845814978,
+      "grad_norm": 1.093216061592102,
+      "learning_rate": 1.8025641025641027e-05,
+      "loss": 0.5156,
+      "step": 2425
+    },
+    {
+      "epoch": 2.698237885462555,
+      "grad_norm": 1.1357547044754028,
+      "learning_rate": 1.8e-05,
+      "loss": 0.5755,
+      "step": 2450
+    },
+    {
+      "epoch": 2.7257709251101323,
+      "grad_norm": 0.963991641998291,
+      "learning_rate": 1.7974358974358977e-05,
+      "loss": 0.5219,
+      "step": 2475
+    },
+    {
+      "epoch": 2.753303964757709,
+      "grad_norm": 2.196319341659546,
+      "learning_rate": 1.794871794871795e-05,
+      "loss": 0.5858,
+      "step": 2500
+    },
+    {
+      "epoch": 2.7808370044052864,
+      "grad_norm": 1.075908899307251,
+      "learning_rate": 1.7923076923076925e-05,
+      "loss": 0.5284,
+      "step": 2525
+    },
+    {
+      "epoch": 2.8083700440528636,
+      "grad_norm": 1.052140712738037,
+      "learning_rate": 1.78974358974359e-05,
+      "loss": 0.4964,
+      "step": 2550
+    },
+    {
+      "epoch": 2.8359030837004404,
+      "grad_norm": 0.9454672336578369,
+      "learning_rate": 1.7871794871794875e-05,
+      "loss": 0.5225,
+      "step": 2575
+    },
+    {
+      "epoch": 2.8634361233480177,
+      "grad_norm": 0.8262547850608826,
+      "learning_rate": 1.784615384615385e-05,
+      "loss": 0.5573,
+      "step": 2600
+    },
+    {
+      "epoch": 2.890969162995595,
+      "grad_norm": 1.0611587762832642,
+      "learning_rate": 1.7820512820512823e-05,
+      "loss": 0.5183,
+      "step": 2625
+    },
+    {
+      "epoch": 2.9185022026431717,
+      "grad_norm": 0.7847844958305359,
+      "learning_rate": 1.7794871794871796e-05,
+      "loss": 0.5333,
+      "step": 2650
+    },
+    {
+      "epoch": 2.946035242290749,
+      "grad_norm": 0.746285617351532,
+      "learning_rate": 1.776923076923077e-05,
+      "loss": 0.5264,
+      "step": 2675
+    },
+    {
+      "epoch": 2.9735682819383262,
+      "grad_norm": 1.381616234779358,
+      "learning_rate": 1.7743589743589744e-05,
+      "loss": 0.5074,
+      "step": 2700
+    },
+    {
+      "epoch": 3.001101321585903,
+      "grad_norm": 0.6723135113716125,
+      "learning_rate": 1.7717948717948717e-05,
+      "loss": 0.5631,
+      "step": 2725
+    },
+    {
+      "epoch": 3.0286343612334803,
+      "grad_norm": 0.9439449906349182,
+      "learning_rate": 1.7692307692307694e-05,
+      "loss": 0.3836,
+      "step": 2750
+    },
+    {
+      "epoch": 3.056167400881057,
+      "grad_norm": 0.9093062281608582,
+      "learning_rate": 1.7666666666666668e-05,
+      "loss": 0.342,
+      "step": 2775
+    },
+    {
+      "epoch": 3.0837004405286343,
+      "grad_norm": 0.7883495092391968,
+      "learning_rate": 1.7641025641025642e-05,
+      "loss": 0.3678,
+      "step": 2800
+    },
+    {
+      "epoch": 3.1112334801762116,
+      "grad_norm": 0.5074595808982849,
+      "learning_rate": 1.7615384615384615e-05,
+      "loss": 0.3406,
+      "step": 2825
+    },
+    {
+      "epoch": 3.1387665198237884,
+      "grad_norm": 1.330426812171936,
+      "learning_rate": 1.7589743589743592e-05,
+      "loss": 0.3432,
+      "step": 2850
+    },
+    {
+      "epoch": 3.1662995594713657,
+      "grad_norm": 1.008254051208496,
+      "learning_rate": 1.7564102564102566e-05,
+      "loss": 0.3722,
+      "step": 2875
+    },
+    {
+      "epoch": 3.193832599118943,
+      "grad_norm": 1.0520501136779785,
+      "learning_rate": 1.753846153846154e-05,
+      "loss": 0.3719,
+      "step": 2900
+    },
+    {
+      "epoch": 3.2213656387665197,
+      "grad_norm": 0.7822287082672119,
+      "learning_rate": 1.7512820512820513e-05,
+      "loss": 0.3729,
+      "step": 2925
+    },
+    {
+      "epoch": 3.248898678414097,
+      "grad_norm": 1.1690279245376587,
+      "learning_rate": 1.7487179487179487e-05,
+      "loss": 0.3723,
+      "step": 2950
+    },
+    {
+      "epoch": 3.2764317180616738,
+      "grad_norm": 0.8030567765235901,
+      "learning_rate": 1.7461538461538464e-05,
+      "loss": 0.362,
+      "step": 2975
+    },
+    {
+      "epoch": 3.303964757709251,
+      "grad_norm": 0.7881470918655396,
+      "learning_rate": 1.7435897435897438e-05,
+      "loss": 0.3373,
+      "step": 3000
+    },
+    {
+      "epoch": 3.303964757709251,
+      "eval_cer": 29.99495603727947,
+      "eval_loss": 0.7765971422195435,
+      "eval_runtime": 1749.0783,
+      "eval_samples_per_second": 6.049,
+      "eval_steps_per_second": 1.513,
+      "eval_wer": 87.76991984912777,
+      "step": 3000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 5.154429559470293e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null