Training in progress, step 11000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/global_step11000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step11000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +585 -5

last-checkpoint/global_step11000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8e043ccfd2d14162108046118260c4a11838198a3378b8c63aef14e884f315e
+size 5117197489

last-checkpoint/global_step11000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45f6d58392e57f60153009c206c846732ef428fe79bd9f765140b63722b1c39e
+size 859127933

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step9000~~


1	+ global_step11000

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aef828c688fc4b40c4f970b4f1621324009e1b6de86d3a3ed65007b337b7f7e7
 size 962205216

 version https://git-lfs.github.com/spec/v1
+oid sha256:55de6622ea2c12f2865659952fae3e7645ab102a38297690cb4fdbaeb6a9d78f
 size 962205216

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64e572f1314b9da8f922a0fbf0c91986e4b7b809f9a1dbb178f491f4b7541f4c
 size 14709

 version https://git-lfs.github.com/spec/v1
+oid sha256:a42b77849766d934d44019f3aaacdcb7addb89613853b8085a0f3dbdc6ec32df
 size 14709

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec7cb829bad4c5e40215f974eb8875988bba1a68c4193a01021b2b11b0d8359f
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:493d0f530ff7fc5bb7b7e09a1475f8ed1e6010e09c7b8eee02f261c6c00502eb
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 84.13012729844414,
-  "best_model_checkpoint": "./iteboshi_student_model_temp/checkpoint-7000",
-  "epoch": 9.911894273127754,
   "eval_steps": 1000,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2617,6 +2617,586 @@
       "eval_steps_per_second": 2.033,
       "eval_wer": 84.72418670438473,
       "step": 9000
     }
   ],
   "logging_steps": 25,
@@ -2636,7 +3216,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.546328867841088e+20,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 83.86610089580387,
+  "best_model_checkpoint": "./iteboshi_student_model_temp/checkpoint-11000",
+  "epoch": 12.114537444933921,
   "eval_steps": 1000,
+  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 2.033,
       "eval_wer": 84.72418670438473,
       "step": 9000
+    },
+    {
+      "epoch": 9.939427312775331,
+      "grad_norm": 0.9093891382217407,
+      "learning_rate": 1.1256410256410258e-05,
+      "loss": 0.0354,
+      "step": 9025
+    },
+    {
+      "epoch": 9.966960352422907,
+      "grad_norm": 0.526305615901947,
+      "learning_rate": 1.1230769230769232e-05,
+      "loss": 0.04,
+      "step": 9050
+    },
+    {
+      "epoch": 9.994493392070485,
+      "grad_norm": 0.4748174846172333,
+      "learning_rate": 1.1205128205128205e-05,
+      "loss": 0.0405,
+      "step": 9075
+    },
+    {
+      "epoch": 10.022026431718063,
+      "grad_norm": 0.23602962493896484,
+      "learning_rate": 1.117948717948718e-05,
+      "loss": 0.0245,
+      "step": 9100
+    },
+    {
+      "epoch": 10.049559471365638,
+      "grad_norm": 0.2989708185195923,
+      "learning_rate": 1.1153846153846154e-05,
+      "loss": 0.0231,
+      "step": 9125
+    },
+    {
+      "epoch": 10.077092511013216,
+      "grad_norm": 0.34653839468955994,
+      "learning_rate": 1.112820512820513e-05,
+      "loss": 0.0306,
+      "step": 9150
+    },
+    {
+      "epoch": 10.104625550660794,
+      "grad_norm": 0.4413544535636902,
+      "learning_rate": 1.1102564102564103e-05,
+      "loss": 0.0242,
+      "step": 9175
+    },
+    {
+      "epoch": 10.13215859030837,
+      "grad_norm": 0.44882041215896606,
+      "learning_rate": 1.1076923076923079e-05,
+      "loss": 0.036,
+      "step": 9200
+    },
+    {
+      "epoch": 10.159691629955947,
+      "grad_norm": 0.049951497465372086,
+      "learning_rate": 1.1051282051282052e-05,
+      "loss": 0.0249,
+      "step": 9225
+    },
+    {
+      "epoch": 10.187224669603523,
+      "grad_norm": 0.34928587079048157,
+      "learning_rate": 1.1025641025641028e-05,
+      "loss": 0.0322,
+      "step": 9250
+    },
+    {
+      "epoch": 10.214757709251101,
+      "grad_norm": 0.18765118718147278,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.0249,
+      "step": 9275
+    },
+    {
+      "epoch": 10.242290748898679,
+      "grad_norm": 0.09570558369159698,
+      "learning_rate": 1.0974358974358977e-05,
+      "loss": 0.0241,
+      "step": 9300
+    },
+    {
+      "epoch": 10.269823788546255,
+      "grad_norm": 0.36708030104637146,
+      "learning_rate": 1.094871794871795e-05,
+      "loss": 0.0267,
+      "step": 9325
+    },
+    {
+      "epoch": 10.297356828193832,
+      "grad_norm": 0.6306156516075134,
+      "learning_rate": 1.0923076923076922e-05,
+      "loss": 0.028,
+      "step": 9350
+    },
+    {
+      "epoch": 10.32488986784141,
+      "grad_norm": 0.47958239912986755,
+      "learning_rate": 1.0897435897435898e-05,
+      "loss": 0.0374,
+      "step": 9375
+    },
+    {
+      "epoch": 10.352422907488986,
+      "grad_norm": 0.5049773454666138,
+      "learning_rate": 1.0871794871794871e-05,
+      "loss": 0.0252,
+      "step": 9400
+    },
+    {
+      "epoch": 10.379955947136564,
+      "grad_norm": 0.18035492300987244,
+      "learning_rate": 1.0846153846153847e-05,
+      "loss": 0.032,
+      "step": 9425
+    },
+    {
+      "epoch": 10.407488986784141,
+      "grad_norm": 0.40862882137298584,
+      "learning_rate": 1.082051282051282e-05,
+      "loss": 0.0317,
+      "step": 9450
+    },
+    {
+      "epoch": 10.435022026431717,
+      "grad_norm": 0.4345795512199402,
+      "learning_rate": 1.0794871794871796e-05,
+      "loss": 0.0227,
+      "step": 9475
+    },
+    {
+      "epoch": 10.462555066079295,
+      "grad_norm": 0.32652077078819275,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 0.0274,
+      "step": 9500
+    },
+    {
+      "epoch": 10.490088105726873,
+      "grad_norm": 0.49059435725212097,
+      "learning_rate": 1.0743589743589745e-05,
+      "loss": 0.0336,
+      "step": 9525
+    },
+    {
+      "epoch": 10.517621145374449,
+      "grad_norm": 0.14571261405944824,
+      "learning_rate": 1.0717948717948718e-05,
+      "loss": 0.0244,
+      "step": 9550
+    },
+    {
+      "epoch": 10.545154185022026,
+      "grad_norm": 0.2149128019809723,
+      "learning_rate": 1.0692307692307694e-05,
+      "loss": 0.0252,
+      "step": 9575
+    },
+    {
+      "epoch": 10.572687224669604,
+      "grad_norm": 0.20995257794857025,
+      "learning_rate": 1.0666666666666667e-05,
+      "loss": 0.0311,
+      "step": 9600
+    },
+    {
+      "epoch": 10.60022026431718,
+      "grad_norm": 0.4227479100227356,
+      "learning_rate": 1.0641025641025643e-05,
+      "loss": 0.0261,
+      "step": 9625
+    },
+    {
+      "epoch": 10.627753303964758,
+      "grad_norm": 0.1345728039741516,
+      "learning_rate": 1.0615384615384616e-05,
+      "loss": 0.026,
+      "step": 9650
+    },
+    {
+      "epoch": 10.655286343612335,
+      "grad_norm": 0.5568249821662903,
+      "learning_rate": 1.058974358974359e-05,
+      "loss": 0.0275,
+      "step": 9675
+    },
+    {
+      "epoch": 10.682819383259911,
+      "grad_norm": 0.5649207234382629,
+      "learning_rate": 1.0564102564102565e-05,
+      "loss": 0.03,
+      "step": 9700
+    },
+    {
+      "epoch": 10.710352422907489,
+      "grad_norm": 0.23224163055419922,
+      "learning_rate": 1.0538461538461539e-05,
+      "loss": 0.0292,
+      "step": 9725
+    },
+    {
+      "epoch": 10.737885462555067,
+      "grad_norm": 0.2227552831172943,
+      "learning_rate": 1.0512820512820514e-05,
+      "loss": 0.028,
+      "step": 9750
+    },
+    {
+      "epoch": 10.765418502202643,
+      "grad_norm": 0.07342702895402908,
+      "learning_rate": 1.0487179487179488e-05,
+      "loss": 0.0227,
+      "step": 9775
+    },
+    {
+      "epoch": 10.79295154185022,
+      "grad_norm": 0.3385262191295624,
+      "learning_rate": 1.0461538461538463e-05,
+      "loss": 0.0325,
+      "step": 9800
+    },
+    {
+      "epoch": 10.820484581497798,
+      "grad_norm": 0.2666647434234619,
+      "learning_rate": 1.0435897435897437e-05,
+      "loss": 0.0264,
+      "step": 9825
+    },
+    {
+      "epoch": 10.848017621145374,
+      "grad_norm": 0.13147205114364624,
+      "learning_rate": 1.0410256410256412e-05,
+      "loss": 0.0184,
+      "step": 9850
+    },
+    {
+      "epoch": 10.875550660792952,
+      "grad_norm": 0.24823608994483948,
+      "learning_rate": 1.0384615384615386e-05,
+      "loss": 0.0249,
+      "step": 9875
+    },
+    {
+      "epoch": 10.90308370044053,
+      "grad_norm": 0.265788197517395,
+      "learning_rate": 1.0358974358974361e-05,
+      "loss": 0.0217,
+      "step": 9900
+    },
+    {
+      "epoch": 10.930616740088105,
+      "grad_norm": 0.2914508879184723,
+      "learning_rate": 1.0333333333333335e-05,
+      "loss": 0.0199,
+      "step": 9925
+    },
+    {
+      "epoch": 10.958149779735683,
+      "grad_norm": 0.19100092351436615,
+      "learning_rate": 1.0307692307692307e-05,
+      "loss": 0.0232,
+      "step": 9950
+    },
+    {
+      "epoch": 10.98568281938326,
+      "grad_norm": 0.2141091227531433,
+      "learning_rate": 1.0282051282051282e-05,
+      "loss": 0.0276,
+      "step": 9975
+    },
+    {
+      "epoch": 11.013215859030836,
+      "grad_norm": 0.09335622936487198,
+      "learning_rate": 1.0256410256410256e-05,
+      "loss": 0.0186,
+      "step": 10000
+    },
+    {
+      "epoch": 11.013215859030836,
+      "eval_cer": 25.171093508190705,
+      "eval_loss": 0.8366118669509888,
+      "eval_runtime": 1307.8053,
+      "eval_samples_per_second": 8.091,
+      "eval_steps_per_second": 2.023,
+      "eval_wer": 84.47901933050449,
+      "step": 10000
+    },
+    {
+      "epoch": 11.040748898678414,
+      "grad_norm": 0.29987862706184387,
+      "learning_rate": 1.0230769230769231e-05,
+      "loss": 0.0117,
+      "step": 10025
+    },
+    {
+      "epoch": 11.068281938325992,
+      "grad_norm": 0.22261077165603638,
+      "learning_rate": 1.0205128205128205e-05,
+      "loss": 0.0199,
+      "step": 10050
+    },
+    {
+      "epoch": 11.095814977973568,
+      "grad_norm": 0.7212164402008057,
+      "learning_rate": 1.017948717948718e-05,
+      "loss": 0.0194,
+      "step": 10075
+    },
+    {
+      "epoch": 11.123348017621145,
+      "grad_norm": 0.18654099106788635,
+      "learning_rate": 1.0153846153846154e-05,
+      "loss": 0.0191,
+      "step": 10100
+    },
+    {
+      "epoch": 11.150881057268723,
+      "grad_norm": 0.1351199895143509,
+      "learning_rate": 1.012820512820513e-05,
+      "loss": 0.0151,
+      "step": 10125
+    },
+    {
+      "epoch": 11.178414096916299,
+      "grad_norm": 0.24383758008480072,
+      "learning_rate": 1.0102564102564103e-05,
+      "loss": 0.0142,
+      "step": 10150
+    },
+    {
+      "epoch": 11.205947136563877,
+      "grad_norm": 0.1962803304195404,
+      "learning_rate": 1.0076923076923078e-05,
+      "loss": 0.0159,
+      "step": 10175
+    },
+    {
+      "epoch": 11.233480176211454,
+      "grad_norm": 0.1277613639831543,
+      "learning_rate": 1.0051282051282052e-05,
+      "loss": 0.018,
+      "step": 10200
+    },
+    {
+      "epoch": 11.26101321585903,
+      "grad_norm": 0.17365778982639313,
+      "learning_rate": 1.0025641025641027e-05,
+      "loss": 0.0198,
+      "step": 10225
+    },
+    {
+      "epoch": 11.288546255506608,
+      "grad_norm": 0.5494518876075745,
+      "learning_rate": 1e-05,
+      "loss": 0.0157,
+      "step": 10250
+    },
+    {
+      "epoch": 11.316079295154186,
+      "grad_norm": 0.11686886101961136,
+      "learning_rate": 9.974358974358974e-06,
+      "loss": 0.024,
+      "step": 10275
+    },
+    {
+      "epoch": 11.343612334801762,
+      "grad_norm": 0.15467554330825806,
+      "learning_rate": 9.94871794871795e-06,
+      "loss": 0.0174,
+      "step": 10300
+    },
+    {
+      "epoch": 11.37114537444934,
+      "grad_norm": 0.10721301287412643,
+      "learning_rate": 9.923076923076923e-06,
+      "loss": 0.0169,
+      "step": 10325
+    },
+    {
+      "epoch": 11.398678414096917,
+      "grad_norm": 0.1287498027086258,
+      "learning_rate": 9.897435897435899e-06,
+      "loss": 0.0202,
+      "step": 10350
+    },
+    {
+      "epoch": 11.426211453744493,
+      "grad_norm": 0.4366730749607086,
+      "learning_rate": 9.871794871794872e-06,
+      "loss": 0.0166,
+      "step": 10375
+    },
+    {
+      "epoch": 11.45374449339207,
+      "grad_norm": 0.12972579896450043,
+      "learning_rate": 9.846153846153848e-06,
+      "loss": 0.0177,
+      "step": 10400
+    },
+    {
+      "epoch": 11.481277533039648,
+      "grad_norm": 0.810859203338623,
+      "learning_rate": 9.820512820512821e-06,
+      "loss": 0.0173,
+      "step": 10425
+    },
+    {
+      "epoch": 11.508810572687224,
+      "grad_norm": 0.1165216714143753,
+      "learning_rate": 9.794871794871795e-06,
+      "loss": 0.0194,
+      "step": 10450
+    },
+    {
+      "epoch": 11.536343612334802,
+      "grad_norm": 0.16423256695270538,
+      "learning_rate": 9.76923076923077e-06,
+      "loss": 0.017,
+      "step": 10475
+    },
+    {
+      "epoch": 11.56387665198238,
+      "grad_norm": 0.6200090050697327,
+      "learning_rate": 9.743589743589744e-06,
+      "loss": 0.0233,
+      "step": 10500
+    },
+    {
+      "epoch": 11.591409691629956,
+      "grad_norm": 0.3650573790073395,
+      "learning_rate": 9.71794871794872e-06,
+      "loss": 0.0188,
+      "step": 10525
+    },
+    {
+      "epoch": 11.618942731277533,
+      "grad_norm": 0.23086689412593842,
+      "learning_rate": 9.692307692307693e-06,
+      "loss": 0.0166,
+      "step": 10550
+    },
+    {
+      "epoch": 11.646475770925111,
+      "grad_norm": 0.28406432271003723,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.0199,
+      "step": 10575
+    },
+    {
+      "epoch": 11.674008810572687,
+      "grad_norm": 0.13203246891498566,
+      "learning_rate": 9.641025641025642e-06,
+      "loss": 0.0169,
+      "step": 10600
+    },
+    {
+      "epoch": 11.701541850220265,
+      "grad_norm": 0.3809435963630676,
+      "learning_rate": 9.615384615384616e-06,
+      "loss": 0.0167,
+      "step": 10625
+    },
+    {
+      "epoch": 11.729074889867842,
+      "grad_norm": 0.2622781991958618,
+      "learning_rate": 9.589743589743591e-06,
+      "loss": 0.023,
+      "step": 10650
+    },
+    {
+      "epoch": 11.756607929515418,
+      "grad_norm": 0.3118574321269989,
+      "learning_rate": 9.564102564102565e-06,
+      "loss": 0.0162,
+      "step": 10675
+    },
+    {
+      "epoch": 11.784140969162996,
+      "grad_norm": 0.29195636510849,
+      "learning_rate": 9.53846153846154e-06,
+      "loss": 0.0166,
+      "step": 10700
+    },
+    {
+      "epoch": 11.811674008810574,
+      "grad_norm": 0.16257286071777344,
+      "learning_rate": 9.512820512820514e-06,
+      "loss": 0.0186,
+      "step": 10725
+    },
+    {
+      "epoch": 11.83920704845815,
+      "grad_norm": 0.2690454125404358,
+      "learning_rate": 9.487179487179487e-06,
+      "loss": 0.0184,
+      "step": 10750
+    },
+    {
+      "epoch": 11.866740088105727,
+      "grad_norm": 0.07074102014303207,
+      "learning_rate": 9.461538461538463e-06,
+      "loss": 0.0147,
+      "step": 10775
+    },
+    {
+      "epoch": 11.894273127753303,
+      "grad_norm": 0.0660664364695549,
+      "learning_rate": 9.435897435897436e-06,
+      "loss": 0.017,
+      "step": 10800
+    },
+    {
+      "epoch": 11.92180616740088,
+      "grad_norm": 0.42482617497444153,
+      "learning_rate": 9.410256410256412e-06,
+      "loss": 0.0164,
+      "step": 10825
+    },
+    {
+      "epoch": 11.949339207048459,
+      "grad_norm": 0.16394160687923431,
+      "learning_rate": 9.384615384615385e-06,
+      "loss": 0.0154,
+      "step": 10850
+    },
+    {
+      "epoch": 11.976872246696034,
+      "grad_norm": 0.39682498574256897,
+      "learning_rate": 9.358974358974359e-06,
+      "loss": 0.0198,
+      "step": 10875
+    },
+    {
+      "epoch": 12.004405286343612,
+      "grad_norm": 0.1381184458732605,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0193,
+      "step": 10900
+    },
+    {
+      "epoch": 12.03193832599119,
+      "grad_norm": 0.15030303597450256,
+      "learning_rate": 9.307692307692308e-06,
+      "loss": 0.0199,
+      "step": 10925
+    },
+    {
+      "epoch": 12.059471365638766,
+      "grad_norm": 0.5344926714897156,
+      "learning_rate": 9.282051282051283e-06,
+      "loss": 0.0197,
+      "step": 10950
+    },
+    {
+      "epoch": 12.087004405286343,
+      "grad_norm": 0.18761467933654785,
+      "learning_rate": 9.256410256410257e-06,
+      "loss": 0.0166,
+      "step": 10975
+    },
+    {
+      "epoch": 12.114537444933921,
+      "grad_norm": 0.22124651074409485,
+      "learning_rate": 9.230769230769232e-06,
+      "loss": 0.0123,
+      "step": 11000
+    },
+    {
+      "epoch": 12.114537444933921,
+      "eval_cer": 24.39787695023672,
+      "eval_loss": 0.8476730585098267,
+      "eval_runtime": 1307.0774,
+      "eval_samples_per_second": 8.095,
+      "eval_steps_per_second": 2.024,
+      "eval_wer": 83.86610089580387,
+      "step": 11000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.8899575051391074e+20,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null