Training in progress, step 18000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/global_step18000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step18000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +585 -5

last-checkpoint/global_step18000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8230942c17955592b8b6ebc9441a6b170ac40dbed5121f918d832cd02b6b200a
+size 761059696

last-checkpoint/global_step18000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5408d8ce3eea149fd9ec4a1b84adc16df254d931e011232b11bb83a72ebad456
+size 129965712

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step16000~~


1	+ global_step18000

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a370fd951ebb9e606924b2b0e0b39e8cbeab364a48c2293a4da2fe84cca15ea3
 size 181508256

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad61c1d6676decf968d7cc262cb88d3340a58571f59eb03dc41c8694daf8e28e
 size 181508256

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf47e6f3fc3df3ec2ec720d756ada5f3fe86dd4b309a3d2c50d42b22bc6fd7f8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:76da6beb47ba6fea32e3903f5fb6715e6c7d9cfa9223676725c0a4f3ab456246
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99418ddc40a829db03db6cc2c954e7b03b65fc0f7c9d78bead52fa43cebbd4fe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:389fc41872de99e18419ed46bb961f8c27ddde2cc92d05129c78c005704b1713
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 96.5959453088166,
-  "best_model_checkpoint": "./iteboshi_temp/checkpoint-16000",
-  "epoch": 17.621145374449338,
   "eval_steps": 1000,
-  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4647,6 +4647,586 @@
       "eval_steps_per_second": 3.221,
       "eval_wer": 96.5959453088166,
       "step": 16000
     }
   ],
   "logging_steps": 25,
@@ -4666,7 +5246,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.701073184056148e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 96.5865157944366,
+  "best_model_checkpoint": "./iteboshi_temp/checkpoint-17000",
+  "epoch": 19.823788546255507,
   "eval_steps": 1000,
+  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 3.221,
       "eval_wer": 96.5959453088166,
       "step": 16000
+    },
+    {
+      "epoch": 17.648678414096917,
+      "grad_norm": 0.03022758848965168,
+      "learning_rate": 4.076923076923077e-06,
+      "loss": 0.0031,
+      "step": 16025
+    },
+    {
+      "epoch": 17.676211453744493,
+      "grad_norm": 0.02969919890165329,
+      "learning_rate": 4.051282051282052e-06,
+      "loss": 0.0036,
+      "step": 16050
+    },
+    {
+      "epoch": 17.70374449339207,
+      "grad_norm": 0.04370042681694031,
+      "learning_rate": 4.025641025641026e-06,
+      "loss": 0.0038,
+      "step": 16075
+    },
+    {
+      "epoch": 17.73127753303965,
+      "grad_norm": 0.04208499938249588,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0034,
+      "step": 16100
+    },
+    {
+      "epoch": 17.758810572687224,
+      "grad_norm": 0.07844261825084686,
+      "learning_rate": 3.974358974358974e-06,
+      "loss": 0.0032,
+      "step": 16125
+    },
+    {
+      "epoch": 17.7863436123348,
+      "grad_norm": 0.02524634823203087,
+      "learning_rate": 3.948717948717949e-06,
+      "loss": 0.0037,
+      "step": 16150
+    },
+    {
+      "epoch": 17.81387665198238,
+      "grad_norm": 0.027894780039787292,
+      "learning_rate": 3.923076923076923e-06,
+      "loss": 0.0035,
+      "step": 16175
+    },
+    {
+      "epoch": 17.841409691629956,
+      "grad_norm": 0.11929473280906677,
+      "learning_rate": 3.897435897435898e-06,
+      "loss": 0.0035,
+      "step": 16200
+    },
+    {
+      "epoch": 17.86894273127753,
+      "grad_norm": 0.02329305373132229,
+      "learning_rate": 3.871794871794872e-06,
+      "loss": 0.0033,
+      "step": 16225
+    },
+    {
+      "epoch": 17.89647577092511,
+      "grad_norm": 0.03569497913122177,
+      "learning_rate": 3.846153846153847e-06,
+      "loss": 0.0033,
+      "step": 16250
+    },
+    {
+      "epoch": 17.924008810572687,
+      "grad_norm": 0.025960877537727356,
+      "learning_rate": 3.8205128205128204e-06,
+      "loss": 0.0036,
+      "step": 16275
+    },
+    {
+      "epoch": 17.951541850220263,
+      "grad_norm": 0.0266879815608263,
+      "learning_rate": 3.794871794871795e-06,
+      "loss": 0.004,
+      "step": 16300
+    },
+    {
+      "epoch": 17.979074889867842,
+      "grad_norm": 0.035963866859674454,
+      "learning_rate": 3.7692307692307694e-06,
+      "loss": 0.0036,
+      "step": 16325
+    },
+    {
+      "epoch": 18.006607929515418,
+      "grad_norm": 0.06047583743929863,
+      "learning_rate": 3.743589743589744e-06,
+      "loss": 0.0032,
+      "step": 16350
+    },
+    {
+      "epoch": 18.034140969162994,
+      "grad_norm": 0.024352600798010826,
+      "learning_rate": 3.7179487179487184e-06,
+      "loss": 0.0027,
+      "step": 16375
+    },
+    {
+      "epoch": 18.061674008810574,
+      "grad_norm": 0.02058643475174904,
+      "learning_rate": 3.692307692307693e-06,
+      "loss": 0.0031,
+      "step": 16400
+    },
+    {
+      "epoch": 18.08920704845815,
+      "grad_norm": 0.0343441516160965,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.0028,
+      "step": 16425
+    },
+    {
+      "epoch": 18.116740088105725,
+      "grad_norm": 0.029145579785108566,
+      "learning_rate": 3.641025641025641e-06,
+      "loss": 0.0025,
+      "step": 16450
+    },
+    {
+      "epoch": 18.144273127753305,
+      "grad_norm": 0.02418331801891327,
+      "learning_rate": 3.6153846153846156e-06,
+      "loss": 0.0027,
+      "step": 16475
+    },
+    {
+      "epoch": 18.17180616740088,
+      "grad_norm": 0.017598390579223633,
+      "learning_rate": 3.58974358974359e-06,
+      "loss": 0.0028,
+      "step": 16500
+    },
+    {
+      "epoch": 18.199339207048457,
+      "grad_norm": 0.020629288628697395,
+      "learning_rate": 3.5641025641025646e-06,
+      "loss": 0.0027,
+      "step": 16525
+    },
+    {
+      "epoch": 18.226872246696036,
+      "grad_norm": 0.020629016682505608,
+      "learning_rate": 3.538461538461539e-06,
+      "loss": 0.0029,
+      "step": 16550
+    },
+    {
+      "epoch": 18.254405286343612,
+      "grad_norm": 0.034342389553785324,
+      "learning_rate": 3.5128205128205127e-06,
+      "loss": 0.0028,
+      "step": 16575
+    },
+    {
+      "epoch": 18.281938325991188,
+      "grad_norm": 0.19688080251216888,
+      "learning_rate": 3.487179487179487e-06,
+      "loss": 0.0029,
+      "step": 16600
+    },
+    {
+      "epoch": 18.309471365638768,
+      "grad_norm": 0.020140135660767555,
+      "learning_rate": 3.4615384615384617e-06,
+      "loss": 0.0031,
+      "step": 16625
+    },
+    {
+      "epoch": 18.337004405286343,
+      "grad_norm": 0.2628467082977295,
+      "learning_rate": 3.435897435897436e-06,
+      "loss": 0.0037,
+      "step": 16650
+    },
+    {
+      "epoch": 18.36453744493392,
+      "grad_norm": 0.08471482247114182,
+      "learning_rate": 3.4102564102564107e-06,
+      "loss": 0.0035,
+      "step": 16675
+    },
+    {
+      "epoch": 18.3920704845815,
+      "grad_norm": 0.05477755516767502,
+      "learning_rate": 3.384615384615385e-06,
+      "loss": 0.0031,
+      "step": 16700
+    },
+    {
+      "epoch": 18.419603524229075,
+      "grad_norm": 0.020290255546569824,
+      "learning_rate": 3.358974358974359e-06,
+      "loss": 0.0027,
+      "step": 16725
+    },
+    {
+      "epoch": 18.44713656387665,
+      "grad_norm": 0.022715341299772263,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.003,
+      "step": 16750
+    },
+    {
+      "epoch": 18.47466960352423,
+      "grad_norm": 0.04665736109018326,
+      "learning_rate": 3.307692307692308e-06,
+      "loss": 0.0034,
+      "step": 16775
+    },
+    {
+      "epoch": 18.502202643171806,
+      "grad_norm": 0.024362141266465187,
+      "learning_rate": 3.2820512820512823e-06,
+      "loss": 0.0034,
+      "step": 16800
+    },
+    {
+      "epoch": 18.529735682819382,
+      "grad_norm": 0.027004770934581757,
+      "learning_rate": 3.256410256410257e-06,
+      "loss": 0.0031,
+      "step": 16825
+    },
+    {
+      "epoch": 18.55726872246696,
+      "grad_norm": 0.02136850170791149,
+      "learning_rate": 3.2307692307692313e-06,
+      "loss": 0.0034,
+      "step": 16850
+    },
+    {
+      "epoch": 18.584801762114537,
+      "grad_norm": 0.024859808385372162,
+      "learning_rate": 3.205128205128206e-06,
+      "loss": 0.003,
+      "step": 16875
+    },
+    {
+      "epoch": 18.612334801762113,
+      "grad_norm": 0.020625699311494827,
+      "learning_rate": 3.1794871794871795e-06,
+      "loss": 0.0028,
+      "step": 16900
+    },
+    {
+      "epoch": 18.639867841409693,
+      "grad_norm": 0.0206185020506382,
+      "learning_rate": 3.153846153846154e-06,
+      "loss": 0.0031,
+      "step": 16925
+    },
+    {
+      "epoch": 18.66740088105727,
+      "grad_norm": 0.022832127287983894,
+      "learning_rate": 3.1282051282051284e-06,
+      "loss": 0.003,
+      "step": 16950
+    },
+    {
+      "epoch": 18.694933920704845,
+      "grad_norm": 0.022303447127342224,
+      "learning_rate": 3.102564102564103e-06,
+      "loss": 0.0028,
+      "step": 16975
+    },
+    {
+      "epoch": 18.722466960352424,
+      "grad_norm": 0.023096712306141853,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.0029,
+      "step": 17000
+    },
+    {
+      "epoch": 18.722466960352424,
+      "eval_cer": 55.69451927596207,
+      "eval_loss": 1.0366687774658203,
+      "eval_runtime": 832.9104,
+      "eval_samples_per_second": 12.704,
+      "eval_steps_per_second": 3.177,
+      "eval_wer": 96.5865157944366,
+      "step": 17000
+    },
+    {
+      "epoch": 18.75,
+      "grad_norm": 0.03265475109219551,
+      "learning_rate": 3.051282051282052e-06,
+      "loss": 0.003,
+      "step": 17025
+    },
+    {
+      "epoch": 18.777533039647576,
+      "grad_norm": 0.02906380034983158,
+      "learning_rate": 3.0256410256410256e-06,
+      "loss": 0.0027,
+      "step": 17050
+    },
+    {
+      "epoch": 18.805066079295155,
+      "grad_norm": 0.02245141565799713,
+      "learning_rate": 3e-06,
+      "loss": 0.0029,
+      "step": 17075
+    },
+    {
+      "epoch": 18.83259911894273,
+      "grad_norm": 0.028345687314867973,
+      "learning_rate": 2.9743589743589746e-06,
+      "loss": 0.0029,
+      "step": 17100
+    },
+    {
+      "epoch": 18.860132158590307,
+      "grad_norm": 0.0485895536839962,
+      "learning_rate": 2.948717948717949e-06,
+      "loss": 0.0039,
+      "step": 17125
+    },
+    {
+      "epoch": 18.887665198237887,
+      "grad_norm": 0.028899550437927246,
+      "learning_rate": 2.9230769230769236e-06,
+      "loss": 0.0032,
+      "step": 17150
+    },
+    {
+      "epoch": 18.915198237885463,
+      "grad_norm": 0.021577881649136543,
+      "learning_rate": 2.897435897435898e-06,
+      "loss": 0.0033,
+      "step": 17175
+    },
+    {
+      "epoch": 18.94273127753304,
+      "grad_norm": 0.03163857385516167,
+      "learning_rate": 2.8717948717948717e-06,
+      "loss": 0.0029,
+      "step": 17200
+    },
+    {
+      "epoch": 18.970264317180618,
+      "grad_norm": 0.026857255026698112,
+      "learning_rate": 2.846153846153846e-06,
+      "loss": 0.0029,
+      "step": 17225
+    },
+    {
+      "epoch": 18.997797356828194,
+      "grad_norm": 0.027735862880945206,
+      "learning_rate": 2.8205128205128207e-06,
+      "loss": 0.0029,
+      "step": 17250
+    },
+    {
+      "epoch": 19.02533039647577,
+      "grad_norm": 0.017564741894602776,
+      "learning_rate": 2.794871794871795e-06,
+      "loss": 0.0025,
+      "step": 17275
+    },
+    {
+      "epoch": 19.05286343612335,
+      "grad_norm": 0.018339525908231735,
+      "learning_rate": 2.7692307692307697e-06,
+      "loss": 0.0023,
+      "step": 17300
+    },
+    {
+      "epoch": 19.080396475770925,
+      "grad_norm": 0.04713983088731766,
+      "learning_rate": 2.743589743589744e-06,
+      "loss": 0.0026,
+      "step": 17325
+    },
+    {
+      "epoch": 19.1079295154185,
+      "grad_norm": 0.1079772338271141,
+      "learning_rate": 2.717948717948718e-06,
+      "loss": 0.0025,
+      "step": 17350
+    },
+    {
+      "epoch": 19.13546255506608,
+      "grad_norm": 0.017452696338295937,
+      "learning_rate": 2.6923076923076923e-06,
+      "loss": 0.0022,
+      "step": 17375
+    },
+    {
+      "epoch": 19.162995594713657,
+      "grad_norm": 0.017971495166420937,
+      "learning_rate": 2.666666666666667e-06,
+      "loss": 0.0028,
+      "step": 17400
+    },
+    {
+      "epoch": 19.190528634361232,
+      "grad_norm": 0.022472327575087547,
+      "learning_rate": 2.6410256410256413e-06,
+      "loss": 0.0023,
+      "step": 17425
+    },
+    {
+      "epoch": 19.218061674008812,
+      "grad_norm": 0.024212457239627838,
+      "learning_rate": 2.615384615384616e-06,
+      "loss": 0.0023,
+      "step": 17450
+    },
+    {
+      "epoch": 19.245594713656388,
+      "grad_norm": 0.018772531300783157,
+      "learning_rate": 2.5897435897435903e-06,
+      "loss": 0.0024,
+      "step": 17475
+    },
+    {
+      "epoch": 19.273127753303964,
+      "grad_norm": 0.01784471981227398,
+      "learning_rate": 2.564102564102564e-06,
+      "loss": 0.0022,
+      "step": 17500
+    },
+    {
+      "epoch": 19.300660792951543,
+      "grad_norm": 0.020429756492376328,
+      "learning_rate": 2.5384615384615385e-06,
+      "loss": 0.0026,
+      "step": 17525
+    },
+    {
+      "epoch": 19.32819383259912,
+      "grad_norm": 0.022216424345970154,
+      "learning_rate": 2.512820512820513e-06,
+      "loss": 0.0023,
+      "step": 17550
+    },
+    {
+      "epoch": 19.355726872246695,
+      "grad_norm": 0.017014402896165848,
+      "learning_rate": 2.4871794871794875e-06,
+      "loss": 0.0022,
+      "step": 17575
+    },
+    {
+      "epoch": 19.383259911894275,
+      "grad_norm": 0.02979693002998829,
+      "learning_rate": 2.461538461538462e-06,
+      "loss": 0.0024,
+      "step": 17600
+    },
+    {
+      "epoch": 19.41079295154185,
+      "grad_norm": 0.07756248861551285,
+      "learning_rate": 2.435897435897436e-06,
+      "loss": 0.0038,
+      "step": 17625
+    },
+    {
+      "epoch": 19.438325991189426,
+      "grad_norm": 0.027045181021094322,
+      "learning_rate": 2.4102564102564105e-06,
+      "loss": 0.003,
+      "step": 17650
+    },
+    {
+      "epoch": 19.465859030837006,
+      "grad_norm": 0.02446981891989708,
+      "learning_rate": 2.384615384615385e-06,
+      "loss": 0.0034,
+      "step": 17675
+    },
+    {
+      "epoch": 19.493392070484582,
+      "grad_norm": 0.01992960087954998,
+      "learning_rate": 2.358974358974359e-06,
+      "loss": 0.0025,
+      "step": 17700
+    },
+    {
+      "epoch": 19.520925110132158,
+      "grad_norm": 0.030592037364840508,
+      "learning_rate": 2.3333333333333336e-06,
+      "loss": 0.0035,
+      "step": 17725
+    },
+    {
+      "epoch": 19.548458149779737,
+      "grad_norm": 0.018608825281262398,
+      "learning_rate": 2.307692307692308e-06,
+      "loss": 0.0028,
+      "step": 17750
+    },
+    {
+      "epoch": 19.575991189427313,
+      "grad_norm": 0.021949810907244682,
+      "learning_rate": 2.282051282051282e-06,
+      "loss": 0.0026,
+      "step": 17775
+    },
+    {
+      "epoch": 19.60352422907489,
+      "grad_norm": 0.029381688684225082,
+      "learning_rate": 2.2564102564102566e-06,
+      "loss": 0.0023,
+      "step": 17800
+    },
+    {
+      "epoch": 19.63105726872247,
+      "grad_norm": 0.023357443511486053,
+      "learning_rate": 2.230769230769231e-06,
+      "loss": 0.0027,
+      "step": 17825
+    },
+    {
+      "epoch": 19.658590308370044,
+      "grad_norm": 0.014633470214903355,
+      "learning_rate": 2.2051282051282052e-06,
+      "loss": 0.0022,
+      "step": 17850
+    },
+    {
+      "epoch": 19.68612334801762,
+      "grad_norm": 0.018193107098340988,
+      "learning_rate": 2.1794871794871797e-06,
+      "loss": 0.0025,
+      "step": 17875
+    },
+    {
+      "epoch": 19.7136563876652,
+      "grad_norm": 0.0176758524030447,
+      "learning_rate": 2.153846153846154e-06,
+      "loss": 0.0022,
+      "step": 17900
+    },
+    {
+      "epoch": 19.741189427312776,
+      "grad_norm": 0.021504636853933334,
+      "learning_rate": 2.1282051282051283e-06,
+      "loss": 0.0023,
+      "step": 17925
+    },
+    {
+      "epoch": 19.76872246696035,
+      "grad_norm": 0.09170462936162949,
+      "learning_rate": 2.1025641025641028e-06,
+      "loss": 0.0026,
+      "step": 17950
+    },
+    {
+      "epoch": 19.79625550660793,
+      "grad_norm": 0.01736604981124401,
+      "learning_rate": 2.0769230769230773e-06,
+      "loss": 0.0023,
+      "step": 17975
+    },
+    {
+      "epoch": 19.823788546255507,
+      "grad_norm": 0.03202914819121361,
+      "learning_rate": 2.0512820512820513e-06,
+      "loss": 0.0022,
+      "step": 18000
+    },
+    {
+      "epoch": 19.823788546255507,
+      "eval_cer": 55.551798058074354,
+      "eval_loss": 1.0446730852127075,
+      "eval_runtime": 801.1525,
+      "eval_samples_per_second": 13.207,
+      "eval_steps_per_second": 3.303,
+      "eval_wer": 96.61480433757662,
+      "step": 18000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 3.0387073320631665e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null