Training in progress, step 17000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/global_step17000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step17000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +585 -5

last-checkpoint/global_step17000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d5e5ee5de88ba37830911f0b46c57d6fb97ef78baef3bbcb369caedac1d2537
+size 5117197020

last-checkpoint/global_step17000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3508f7d0f16906096e5610ffe0590bca5cd155de85a6a8021b6e5bf9d8e2eabb
+size 859127504

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step15000~~


1	+ global_step17000

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b11d79fb3db23754b444fc4964b7982434af7a97aa600fcdcde4d9a8a9b3f21
 size 962205216

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa4f82ea40fb0305db931cf7a54215d8c646ba708abad07172d476a907b2dad4
 size 962205216

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63340953913b9f23b1567a89f7ad34314d1dcb47b9a43157322f84f789423e67
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:be21ff914d7590ad2180b18bca69f62255c4deee5c5c2b727794908b9d148dcc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b94442b72559c9262bb7b2684827bc59deb41027ddc14af8d9ffecb8119b4aa
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4aa6830d6aa63edbea9a9fa4aac3b79365984a3d18eed4b014dcec7309b75dc2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 83.80009429514381,
-  "best_model_checkpoint": "./iteboshi_temp/checkpoint-10000",
-  "epoch": 16.519823788546255,
   "eval_steps": 1000,
-  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4357,6 +4357,586 @@
       "eval_steps_per_second": 1.552,
       "eval_wer": 84.67703913248468,
       "step": 15000
     }
   ],
   "logging_steps": 25,
@@ -4376,7 +4956,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5772147797351465e+20,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 82.65912305516267,
+  "best_model_checkpoint": "./iteboshi_temp/checkpoint-16000",
+  "epoch": 18.722466960352424,
   "eval_steps": 1000,
+  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 1.552,
       "eval_wer": 84.67703913248468,
       "step": 15000
+    },
+    {
+      "epoch": 16.547356828193834,
+      "grad_norm": 0.10291285067796707,
+      "learning_rate": 5.1025641025641024e-06,
+      "loss": 0.0041,
+      "step": 15025
+    },
+    {
+      "epoch": 16.57488986784141,
+      "grad_norm": 0.1358381062746048,
+      "learning_rate": 5.076923076923077e-06,
+      "loss": 0.0066,
+      "step": 15050
+    },
+    {
+      "epoch": 16.602422907488986,
+      "grad_norm": 0.020193297415971756,
+      "learning_rate": 5.051282051282051e-06,
+      "loss": 0.0054,
+      "step": 15075
+    },
+    {
+      "epoch": 16.629955947136565,
+      "grad_norm": 0.03404547646641731,
+      "learning_rate": 5.025641025641026e-06,
+      "loss": 0.003,
+      "step": 15100
+    },
+    {
+      "epoch": 16.65748898678414,
+      "grad_norm": 0.07087010145187378,
+      "learning_rate": 5e-06,
+      "loss": 0.0043,
+      "step": 15125
+    },
+    {
+      "epoch": 16.685022026431717,
+      "grad_norm": 0.01731196418404579,
+      "learning_rate": 4.974358974358975e-06,
+      "loss": 0.0054,
+      "step": 15150
+    },
+    {
+      "epoch": 16.712555066079297,
+      "grad_norm": 0.3552390933036804,
+      "learning_rate": 4.948717948717949e-06,
+      "loss": 0.0056,
+      "step": 15175
+    },
+    {
+      "epoch": 16.740088105726873,
+      "grad_norm": 0.626363217830658,
+      "learning_rate": 4.923076923076924e-06,
+      "loss": 0.0079,
+      "step": 15200
+    },
+    {
+      "epoch": 16.76762114537445,
+      "grad_norm": 0.0181206613779068,
+      "learning_rate": 4.8974358974358975e-06,
+      "loss": 0.006,
+      "step": 15225
+    },
+    {
+      "epoch": 16.795154185022028,
+      "grad_norm": 0.09998787939548492,
+      "learning_rate": 4.871794871794872e-06,
+      "loss": 0.0055,
+      "step": 15250
+    },
+    {
+      "epoch": 16.822687224669604,
+      "grad_norm": 0.1320696324110031,
+      "learning_rate": 4.8461538461538465e-06,
+      "loss": 0.004,
+      "step": 15275
+    },
+    {
+      "epoch": 16.85022026431718,
+      "grad_norm": 0.09725293517112732,
+      "learning_rate": 4.820512820512821e-06,
+      "loss": 0.0047,
+      "step": 15300
+    },
+    {
+      "epoch": 16.87775330396476,
+      "grad_norm": 0.11701034754514694,
+      "learning_rate": 4.7948717948717955e-06,
+      "loss": 0.0038,
+      "step": 15325
+    },
+    {
+      "epoch": 16.905286343612335,
+      "grad_norm": 0.046660326421260834,
+      "learning_rate": 4.76923076923077e-06,
+      "loss": 0.0052,
+      "step": 15350
+    },
+    {
+      "epoch": 16.93281938325991,
+      "grad_norm": 0.03657762333750725,
+      "learning_rate": 4.743589743589744e-06,
+      "loss": 0.004,
+      "step": 15375
+    },
+    {
+      "epoch": 16.96035242290749,
+      "grad_norm": 0.13504423201084137,
+      "learning_rate": 4.717948717948718e-06,
+      "loss": 0.0038,
+      "step": 15400
+    },
+    {
+      "epoch": 16.987885462555067,
+      "grad_norm": 0.08526286482810974,
+      "learning_rate": 4.692307692307693e-06,
+      "loss": 0.0066,
+      "step": 15425
+    },
+    {
+      "epoch": 17.015418502202643,
+      "grad_norm": 0.02115774340927601,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.0046,
+      "step": 15450
+    },
+    {
+      "epoch": 17.042951541850222,
+      "grad_norm": 0.2753286063671112,
+      "learning_rate": 4.641025641025642e-06,
+      "loss": 0.0045,
+      "step": 15475
+    },
+    {
+      "epoch": 17.070484581497798,
+      "grad_norm": 0.03063320554792881,
+      "learning_rate": 4.615384615384616e-06,
+      "loss": 0.0045,
+      "step": 15500
+    },
+    {
+      "epoch": 17.098017621145374,
+      "grad_norm": 0.010663969442248344,
+      "learning_rate": 4.58974358974359e-06,
+      "loss": 0.003,
+      "step": 15525
+    },
+    {
+      "epoch": 17.125550660792953,
+      "grad_norm": 0.22800272703170776,
+      "learning_rate": 4.564102564102564e-06,
+      "loss": 0.002,
+      "step": 15550
+    },
+    {
+      "epoch": 17.15308370044053,
+      "grad_norm": 0.22873614728450775,
+      "learning_rate": 4.538461538461539e-06,
+      "loss": 0.002,
+      "step": 15575
+    },
+    {
+      "epoch": 17.180616740088105,
+      "grad_norm": 0.011216685175895691,
+      "learning_rate": 4.512820512820513e-06,
+      "loss": 0.0032,
+      "step": 15600
+    },
+    {
+      "epoch": 17.208149779735685,
+      "grad_norm": 0.4962778091430664,
+      "learning_rate": 4.487179487179488e-06,
+      "loss": 0.0038,
+      "step": 15625
+    },
+    {
+      "epoch": 17.23568281938326,
+      "grad_norm": 0.023572538048028946,
+      "learning_rate": 4.461538461538462e-06,
+      "loss": 0.0031,
+      "step": 15650
+    },
+    {
+      "epoch": 17.263215859030836,
+      "grad_norm": 0.032316386699676514,
+      "learning_rate": 4.435897435897436e-06,
+      "loss": 0.0024,
+      "step": 15675
+    },
+    {
+      "epoch": 17.290748898678412,
+      "grad_norm": 0.025533461943268776,
+      "learning_rate": 4.4102564102564104e-06,
+      "loss": 0.0024,
+      "step": 15700
+    },
+    {
+      "epoch": 17.318281938325992,
+      "grad_norm": 0.02447574771940708,
+      "learning_rate": 4.384615384615385e-06,
+      "loss": 0.0057,
+      "step": 15725
+    },
+    {
+      "epoch": 17.345814977973568,
+      "grad_norm": 0.021540969610214233,
+      "learning_rate": 4.358974358974359e-06,
+      "loss": 0.0035,
+      "step": 15750
+    },
+    {
+      "epoch": 17.373348017621144,
+      "grad_norm": 0.022210588678717613,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 0.0029,
+      "step": 15775
+    },
+    {
+      "epoch": 17.400881057268723,
+      "grad_norm": 0.01674061268568039,
+      "learning_rate": 4.307692307692308e-06,
+      "loss": 0.0037,
+      "step": 15800
+    },
+    {
+      "epoch": 17.4284140969163,
+      "grad_norm": 0.013861955143511295,
+      "learning_rate": 4.282051282051282e-06,
+      "loss": 0.0023,
+      "step": 15825
+    },
+    {
+      "epoch": 17.455947136563875,
+      "grad_norm": 0.023190615698695183,
+      "learning_rate": 4.2564102564102566e-06,
+      "loss": 0.0045,
+      "step": 15850
+    },
+    {
+      "epoch": 17.483480176211454,
+      "grad_norm": 0.015583349391818047,
+      "learning_rate": 4.230769230769231e-06,
+      "loss": 0.0037,
+      "step": 15875
+    },
+    {
+      "epoch": 17.51101321585903,
+      "grad_norm": 0.013716256245970726,
+      "learning_rate": 4.2051282051282055e-06,
+      "loss": 0.0035,
+      "step": 15900
+    },
+    {
+      "epoch": 17.538546255506606,
+      "grad_norm": 0.016609976068139076,
+      "learning_rate": 4.17948717948718e-06,
+      "loss": 0.0041,
+      "step": 15925
+    },
+    {
+      "epoch": 17.566079295154186,
+      "grad_norm": 0.01952126808464527,
+      "learning_rate": 4.1538461538461545e-06,
+      "loss": 0.0037,
+      "step": 15950
+    },
+    {
+      "epoch": 17.59361233480176,
+      "grad_norm": 0.17321471869945526,
+      "learning_rate": 4.128205128205128e-06,
+      "loss": 0.0039,
+      "step": 15975
+    },
+    {
+      "epoch": 17.621145374449338,
+      "grad_norm": 0.01522456482052803,
+      "learning_rate": 4.102564102564103e-06,
+      "loss": 0.0032,
+      "step": 16000
+    },
+    {
+      "epoch": 17.621145374449338,
+      "eval_cer": 23.317437208395905,
+      "eval_loss": 0.8810132741928101,
+      "eval_runtime": 1715.3061,
+      "eval_samples_per_second": 6.169,
+      "eval_steps_per_second": 1.543,
+      "eval_wer": 82.65912305516267,
+      "step": 16000
+    },
+    {
+      "epoch": 17.648678414096917,
+      "grad_norm": 0.30109259486198425,
+      "learning_rate": 4.076923076923077e-06,
+      "loss": 0.0026,
+      "step": 16025
+    },
+    {
+      "epoch": 17.676211453744493,
+      "grad_norm": 0.06414441019296646,
+      "learning_rate": 4.051282051282052e-06,
+      "loss": 0.0032,
+      "step": 16050
+    },
+    {
+      "epoch": 17.70374449339207,
+      "grad_norm": 0.12120723724365234,
+      "learning_rate": 4.025641025641026e-06,
+      "loss": 0.0026,
+      "step": 16075
+    },
+    {
+      "epoch": 17.73127753303965,
+      "grad_norm": 0.19122646749019623,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.0039,
+      "step": 16100
+    },
+    {
+      "epoch": 17.758810572687224,
+      "grad_norm": 0.03467703238129616,
+      "learning_rate": 3.974358974358974e-06,
+      "loss": 0.0027,
+      "step": 16125
+    },
+    {
+      "epoch": 17.7863436123348,
+      "grad_norm": 0.01050791796296835,
+      "learning_rate": 3.948717948717949e-06,
+      "loss": 0.0024,
+      "step": 16150
+    },
+    {
+      "epoch": 17.81387665198238,
+      "grad_norm": 0.01552590075880289,
+      "learning_rate": 3.923076923076923e-06,
+      "loss": 0.003,
+      "step": 16175
+    },
+    {
+      "epoch": 17.841409691629956,
+      "grad_norm": 0.021685760468244553,
+      "learning_rate": 3.897435897435898e-06,
+      "loss": 0.0028,
+      "step": 16200
+    },
+    {
+      "epoch": 17.86894273127753,
+      "grad_norm": 0.012615197338163853,
+      "learning_rate": 3.871794871794872e-06,
+      "loss": 0.0018,
+      "step": 16225
+    },
+    {
+      "epoch": 17.89647577092511,
+      "grad_norm": 0.024285893887281418,
+      "learning_rate": 3.846153846153847e-06,
+      "loss": 0.0034,
+      "step": 16250
+    },
+    {
+      "epoch": 17.924008810572687,
+      "grad_norm": 0.019548427313566208,
+      "learning_rate": 3.8205128205128204e-06,
+      "loss": 0.0046,
+      "step": 16275
+    },
+    {
+      "epoch": 17.951541850220263,
+      "grad_norm": 0.014185987412929535,
+      "learning_rate": 3.794871794871795e-06,
+      "loss": 0.0042,
+      "step": 16300
+    },
+    {
+      "epoch": 17.979074889867842,
+      "grad_norm": 0.2013942152261734,
+      "learning_rate": 3.7692307692307694e-06,
+      "loss": 0.0025,
+      "step": 16325
+    },
+    {
+      "epoch": 18.006607929515418,
+      "grad_norm": 0.01142708957195282,
+      "learning_rate": 3.743589743589744e-06,
+      "loss": 0.0028,
+      "step": 16350
+    },
+    {
+      "epoch": 18.034140969162994,
+      "grad_norm": 0.1827182024717331,
+      "learning_rate": 3.7179487179487184e-06,
+      "loss": 0.0027,
+      "step": 16375
+    },
+    {
+      "epoch": 18.061674008810574,
+      "grad_norm": 0.008858841843903065,
+      "learning_rate": 3.692307692307693e-06,
+      "loss": 0.0022,
+      "step": 16400
+    },
+    {
+      "epoch": 18.08920704845815,
+      "grad_norm": 0.037348657846450806,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.004,
+      "step": 16425
+    },
+    {
+      "epoch": 18.116740088105725,
+      "grad_norm": 0.014842098578810692,
+      "learning_rate": 3.641025641025641e-06,
+      "loss": 0.003,
+      "step": 16450
+    },
+    {
+      "epoch": 18.144273127753305,
+      "grad_norm": 0.012190734967589378,
+      "learning_rate": 3.6153846153846156e-06,
+      "loss": 0.0047,
+      "step": 16475
+    },
+    {
+      "epoch": 18.17180616740088,
+      "grad_norm": 0.010254699736833572,
+      "learning_rate": 3.58974358974359e-06,
+      "loss": 0.0018,
+      "step": 16500
+    },
+    {
+      "epoch": 18.199339207048457,
+      "grad_norm": 0.012803646735846996,
+      "learning_rate": 3.5641025641025646e-06,
+      "loss": 0.0018,
+      "step": 16525
+    },
+    {
+      "epoch": 18.226872246696036,
+      "grad_norm": 0.010007087141275406,
+      "learning_rate": 3.538461538461539e-06,
+      "loss": 0.0037,
+      "step": 16550
+    },
+    {
+      "epoch": 18.254405286343612,
+      "grad_norm": 0.010007468052208424,
+      "learning_rate": 3.5128205128205127e-06,
+      "loss": 0.0017,
+      "step": 16575
+    },
+    {
+      "epoch": 18.281938325991188,
+      "grad_norm": 0.021304214373230934,
+      "learning_rate": 3.487179487179487e-06,
+      "loss": 0.0017,
+      "step": 16600
+    },
+    {
+      "epoch": 18.309471365638768,
+      "grad_norm": 0.00610103365033865,
+      "learning_rate": 3.4615384615384617e-06,
+      "loss": 0.0017,
+      "step": 16625
+    },
+    {
+      "epoch": 18.337004405286343,
+      "grad_norm": 0.17184419929981232,
+      "learning_rate": 3.435897435897436e-06,
+      "loss": 0.0023,
+      "step": 16650
+    },
+    {
+      "epoch": 18.36453744493392,
+      "grad_norm": 0.010224095545709133,
+      "learning_rate": 3.4102564102564107e-06,
+      "loss": 0.0028,
+      "step": 16675
+    },
+    {
+      "epoch": 18.3920704845815,
+      "grad_norm": 0.016741087660193443,
+      "learning_rate": 3.384615384615385e-06,
+      "loss": 0.002,
+      "step": 16700
+    },
+    {
+      "epoch": 18.419603524229075,
+      "grad_norm": 0.01324927993118763,
+      "learning_rate": 3.358974358974359e-06,
+      "loss": 0.0017,
+      "step": 16725
+    },
+    {
+      "epoch": 18.44713656387665,
+      "grad_norm": 0.14577801525592804,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0025,
+      "step": 16750
+    },
+    {
+      "epoch": 18.47466960352423,
+      "grad_norm": 0.0260769035667181,
+      "learning_rate": 3.307692307692308e-06,
+      "loss": 0.0018,
+      "step": 16775
+    },
+    {
+      "epoch": 18.502202643171806,
+      "grad_norm": 0.01632179506123066,
+      "learning_rate": 3.2820512820512823e-06,
+      "loss": 0.0041,
+      "step": 16800
+    },
+    {
+      "epoch": 18.529735682819382,
+      "grad_norm": 0.014896622858941555,
+      "learning_rate": 3.256410256410257e-06,
+      "loss": 0.0018,
+      "step": 16825
+    },
+    {
+      "epoch": 18.55726872246696,
+      "grad_norm": 0.014535325579345226,
+      "learning_rate": 3.2307692307692313e-06,
+      "loss": 0.0022,
+      "step": 16850
+    },
+    {
+      "epoch": 18.584801762114537,
+      "grad_norm": 0.011787498369812965,
+      "learning_rate": 3.205128205128206e-06,
+      "loss": 0.0016,
+      "step": 16875
+    },
+    {
+      "epoch": 18.612334801762113,
+      "grad_norm": 0.04083514213562012,
+      "learning_rate": 3.1794871794871795e-06,
+      "loss": 0.0017,
+      "step": 16900
+    },
+    {
+      "epoch": 18.639867841409693,
+      "grad_norm": 0.16764149069786072,
+      "learning_rate": 3.153846153846154e-06,
+      "loss": 0.0024,
+      "step": 16925
+    },
+    {
+      "epoch": 18.66740088105727,
+      "grad_norm": 0.008704649284482002,
+      "learning_rate": 3.1282051282051284e-06,
+      "loss": 0.0015,
+      "step": 16950
+    },
+    {
+      "epoch": 18.694933920704845,
+      "grad_norm": 0.007399390451610088,
+      "learning_rate": 3.102564102564103e-06,
+      "loss": 0.0014,
+      "step": 16975
+    },
+    {
+      "epoch": 18.722466960352424,
+      "grad_norm": 0.016065089032053947,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.0017,
+      "step": 17000
+    },
+    {
+      "epoch": 18.722466960352424,
+      "eval_cer": 22.853163367074387,
+      "eval_loss": 0.8870487809181213,
+      "eval_runtime": 1702.6926,
+      "eval_samples_per_second": 6.214,
+      "eval_steps_per_second": 1.554,
+      "eval_wer": 82.998585572843,
+      "step": 17000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 2.920843417033166e+20,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null