Training in progress, step 7000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/global_step7000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step7000/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +585 -5

last-checkpoint/global_step7000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b40c29506ba51102a5e99f143966af19218dad4afdf7f5a54e3c91a9ba8aaa6
+size 5117197489

last-checkpoint/global_step7000/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8d472475f1ab585d49c8a44e0b9d581931a511d04b94f5f0d50d7c89a6e10a7
+size 859127933

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step5000~~


1	+ global_step7000

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e917f6578a37f477ce51d824ef2c22355d57ba680883e19ec30d3b97940c7e3b
 size 962205216

 version https://git-lfs.github.com/spec/v1
+oid sha256:856733172381a37b6de12c25512bfa5cc33814241a1986b18ae46a3c6cd69ce1
 size 962205216

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe58c8283b537c6ee9a4dd56ebbea21d90b446075eea802c036a3707078dd25c
 size 14709

 version https://git-lfs.github.com/spec/v1
+oid sha256:56a8ea7c15005d31ade663058f08a1d5a4619da6c77df5179c75f15bb9cc3f05
 size 14709

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fdaaa58d591c2d03b0ec95bb2576cb7c7885945b5e85c3aae63ede0ea16cfc5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:34a83060f11df4fe46a27d45e8744a4c0e7bb60df156e5d496780133906eacd7
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 86.11975483262611,
-  "best_model_checkpoint": "./iteboshi_student_model_temp/checkpoint-5000",
-  "epoch": 5.506607929515418,
   "eval_steps": 1000,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1457,6 +1457,586 @@
       "eval_steps_per_second": 1.999,
       "eval_wer": 86.11975483262611,
       "step": 5000
     }
   ],
   "logging_steps": 25,
@@ -1476,7 +2056,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.590715932450488e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 84.13012729844414,
+  "best_model_checkpoint": "./iteboshi_student_model_temp/checkpoint-7000",
+  "epoch": 7.709251101321586,
   "eval_steps": 1000,
+  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 1.999,
       "eval_wer": 86.11975483262611,
       "step": 5000
+    },
+    {
+      "epoch": 5.534140969162996,
+      "grad_norm": 0.6520294547080994,
+      "learning_rate": 1.535897435897436e-05,
+      "loss": 0.1639,
+      "step": 5025
+    },
+    {
+      "epoch": 5.561674008810573,
+      "grad_norm": 0.6221819519996643,
+      "learning_rate": 1.5333333333333334e-05,
+      "loss": 0.1851,
+      "step": 5050
+    },
+    {
+      "epoch": 5.5892070484581495,
+      "grad_norm": 0.5925490856170654,
+      "learning_rate": 1.5307692307692308e-05,
+      "loss": 0.1733,
+      "step": 5075
+    },
+    {
+      "epoch": 5.616740088105727,
+      "grad_norm": 1.0411094427108765,
+      "learning_rate": 1.5282051282051282e-05,
+      "loss": 0.1502,
+      "step": 5100
+    },
+    {
+      "epoch": 5.644273127753304,
+      "grad_norm": 0.8545799255371094,
+      "learning_rate": 1.5256410256410257e-05,
+      "loss": 0.1681,
+      "step": 5125
+    },
+    {
+      "epoch": 5.671806167400881,
+      "grad_norm": 0.5849359631538391,
+      "learning_rate": 1.523076923076923e-05,
+      "loss": 0.1778,
+      "step": 5150
+    },
+    {
+      "epoch": 5.6993392070484585,
+      "grad_norm": 0.5703755617141724,
+      "learning_rate": 1.5205128205128206e-05,
+      "loss": 0.1328,
+      "step": 5175
+    },
+    {
+      "epoch": 5.726872246696035,
+      "grad_norm": 0.7638615965843201,
+      "learning_rate": 1.517948717948718e-05,
+      "loss": 0.1929,
+      "step": 5200
+    },
+    {
+      "epoch": 5.754405286343612,
+      "grad_norm": 0.5087124109268188,
+      "learning_rate": 1.5153846153846155e-05,
+      "loss": 0.1545,
+      "step": 5225
+    },
+    {
+      "epoch": 5.78193832599119,
+      "grad_norm": 0.8324174284934998,
+      "learning_rate": 1.5128205128205129e-05,
+      "loss": 0.1975,
+      "step": 5250
+    },
+    {
+      "epoch": 5.809471365638767,
+      "grad_norm": 0.4413852095603943,
+      "learning_rate": 1.5102564102564104e-05,
+      "loss": 0.1663,
+      "step": 5275
+    },
+    {
+      "epoch": 5.8370044052863435,
+      "grad_norm": 0.708247184753418,
+      "learning_rate": 1.5076923076923078e-05,
+      "loss": 0.1543,
+      "step": 5300
+    },
+    {
+      "epoch": 5.864537444933921,
+      "grad_norm": 0.689794659614563,
+      "learning_rate": 1.5051282051282053e-05,
+      "loss": 0.1621,
+      "step": 5325
+    },
+    {
+      "epoch": 5.892070484581498,
+      "grad_norm": 0.5020695328712463,
+      "learning_rate": 1.5025641025641027e-05,
+      "loss": 0.1774,
+      "step": 5350
+    },
+    {
+      "epoch": 5.919603524229075,
+      "grad_norm": 0.4771401882171631,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.1442,
+      "step": 5375
+    },
+    {
+      "epoch": 5.9471365638766525,
+      "grad_norm": 1.0237714052200317,
+      "learning_rate": 1.4974358974358976e-05,
+      "loss": 0.1629,
+      "step": 5400
+    },
+    {
+      "epoch": 5.974669603524229,
+      "grad_norm": 0.7134143114089966,
+      "learning_rate": 1.494871794871795e-05,
+      "loss": 0.144,
+      "step": 5425
+    },
+    {
+      "epoch": 6.002202643171806,
+      "grad_norm": 0.30046069622039795,
+      "learning_rate": 1.4923076923076925e-05,
+      "loss": 0.1373,
+      "step": 5450
+    },
+    {
+      "epoch": 6.029735682819383,
+      "grad_norm": 0.4057641923427582,
+      "learning_rate": 1.4897435897435898e-05,
+      "loss": 0.1082,
+      "step": 5475
+    },
+    {
+      "epoch": 6.057268722466961,
+      "grad_norm": 0.486996591091156,
+      "learning_rate": 1.4871794871794874e-05,
+      "loss": 0.0848,
+      "step": 5500
+    },
+    {
+      "epoch": 6.084801762114537,
+      "grad_norm": 0.46409764885902405,
+      "learning_rate": 1.4846153846153847e-05,
+      "loss": 0.1075,
+      "step": 5525
+    },
+    {
+      "epoch": 6.112334801762114,
+      "grad_norm": 0.4308403432369232,
+      "learning_rate": 1.4820512820512823e-05,
+      "loss": 0.1193,
+      "step": 5550
+    },
+    {
+      "epoch": 6.139867841409692,
+      "grad_norm": 0.34751376509666443,
+      "learning_rate": 1.4794871794871796e-05,
+      "loss": 0.1139,
+      "step": 5575
+    },
+    {
+      "epoch": 6.167400881057269,
+      "grad_norm": 0.8365034461021423,
+      "learning_rate": 1.4769230769230772e-05,
+      "loss": 0.1273,
+      "step": 5600
+    },
+    {
+      "epoch": 6.1949339207048455,
+      "grad_norm": 0.34338051080703735,
+      "learning_rate": 1.4743589743589745e-05,
+      "loss": 0.0895,
+      "step": 5625
+    },
+    {
+      "epoch": 6.222466960352423,
+      "grad_norm": 0.6777989864349365,
+      "learning_rate": 1.471794871794872e-05,
+      "loss": 0.121,
+      "step": 5650
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 0.5982616543769836,
+      "learning_rate": 1.4692307692307694e-05,
+      "loss": 0.1214,
+      "step": 5675
+    },
+    {
+      "epoch": 6.277533039647577,
+      "grad_norm": 0.5918659567832947,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.0863,
+      "step": 5700
+    },
+    {
+      "epoch": 6.3050660792951545,
+      "grad_norm": 0.35085636377334595,
+      "learning_rate": 1.4641025641025642e-05,
+      "loss": 0.11,
+      "step": 5725
+    },
+    {
+      "epoch": 6.332599118942731,
+      "grad_norm": 0.43525975942611694,
+      "learning_rate": 1.4615384615384615e-05,
+      "loss": 0.0945,
+      "step": 5750
+    },
+    {
+      "epoch": 6.360132158590308,
+      "grad_norm": 0.3799566328525543,
+      "learning_rate": 1.458974358974359e-05,
+      "loss": 0.0984,
+      "step": 5775
+    },
+    {
+      "epoch": 6.387665198237886,
+      "grad_norm": 0.7915482521057129,
+      "learning_rate": 1.4564102564102564e-05,
+      "loss": 0.1154,
+      "step": 5800
+    },
+    {
+      "epoch": 6.415198237885463,
+      "grad_norm": 0.47404220700263977,
+      "learning_rate": 1.453846153846154e-05,
+      "loss": 0.0984,
+      "step": 5825
+    },
+    {
+      "epoch": 6.442731277533039,
+      "grad_norm": 0.3866804838180542,
+      "learning_rate": 1.4512820512820513e-05,
+      "loss": 0.1273,
+      "step": 5850
+    },
+    {
+      "epoch": 6.470264317180617,
+      "grad_norm": 0.4380825459957123,
+      "learning_rate": 1.4487179487179489e-05,
+      "loss": 0.1332,
+      "step": 5875
+    },
+    {
+      "epoch": 6.497797356828194,
+      "grad_norm": 0.4749581515789032,
+      "learning_rate": 1.4461538461538462e-05,
+      "loss": 0.1243,
+      "step": 5900
+    },
+    {
+      "epoch": 6.525330396475771,
+      "grad_norm": 0.820015549659729,
+      "learning_rate": 1.4435897435897438e-05,
+      "loss": 0.1305,
+      "step": 5925
+    },
+    {
+      "epoch": 6.5528634361233475,
+      "grad_norm": 0.5644270181655884,
+      "learning_rate": 1.4410256410256411e-05,
+      "loss": 0.1167,
+      "step": 5950
+    },
+    {
+      "epoch": 6.580396475770925,
+      "grad_norm": 0.4454534649848938,
+      "learning_rate": 1.4384615384615387e-05,
+      "loss": 0.1101,
+      "step": 5975
+    },
+    {
+      "epoch": 6.607929515418502,
+      "grad_norm": 0.5850095748901367,
+      "learning_rate": 1.435897435897436e-05,
+      "loss": 0.104,
+      "step": 6000
+    },
+    {
+      "epoch": 6.607929515418502,
+      "eval_cer": 24.67816078777527,
+      "eval_loss": 0.7848840355873108,
+      "eval_runtime": 1300.262,
+      "eval_samples_per_second": 8.138,
+      "eval_steps_per_second": 2.035,
+      "eval_wer": 84.6016030174446,
+      "step": 6000
+    },
+    {
+      "epoch": 6.635462555066079,
+      "grad_norm": 0.6678868532180786,
+      "learning_rate": 1.4333333333333334e-05,
+      "loss": 0.0875,
+      "step": 6025
+    },
+    {
+      "epoch": 6.6629955947136565,
+      "grad_norm": 0.279801607131958,
+      "learning_rate": 1.430769230769231e-05,
+      "loss": 0.1333,
+      "step": 6050
+    },
+    {
+      "epoch": 6.690528634361233,
+      "grad_norm": 0.8138979077339172,
+      "learning_rate": 1.4282051282051283e-05,
+      "loss": 0.1458,
+      "step": 6075
+    },
+    {
+      "epoch": 6.71806167400881,
+      "grad_norm": 0.6547926068305969,
+      "learning_rate": 1.4256410256410258e-05,
+      "loss": 0.1421,
+      "step": 6100
+    },
+    {
+      "epoch": 6.745594713656388,
+      "grad_norm": 0.6097781658172607,
+      "learning_rate": 1.4230769230769232e-05,
+      "loss": 0.1285,
+      "step": 6125
+    },
+    {
+      "epoch": 6.773127753303965,
+      "grad_norm": 0.4184475839138031,
+      "learning_rate": 1.4205128205128207e-05,
+      "loss": 0.1139,
+      "step": 6150
+    },
+    {
+      "epoch": 6.8006607929515415,
+      "grad_norm": 0.4548538029193878,
+      "learning_rate": 1.4179487179487181e-05,
+      "loss": 0.1214,
+      "step": 6175
+    },
+    {
+      "epoch": 6.828193832599119,
+      "grad_norm": 0.3974076509475708,
+      "learning_rate": 1.4153846153846156e-05,
+      "loss": 0.1051,
+      "step": 6200
+    },
+    {
+      "epoch": 6.855726872246696,
+      "grad_norm": 0.7746002078056335,
+      "learning_rate": 1.412820512820513e-05,
+      "loss": 0.1349,
+      "step": 6225
+    },
+    {
+      "epoch": 6.883259911894273,
+      "grad_norm": 0.3809688687324524,
+      "learning_rate": 1.4102564102564105e-05,
+      "loss": 0.11,
+      "step": 6250
+    },
+    {
+      "epoch": 6.9107929515418505,
+      "grad_norm": 0.39594364166259766,
+      "learning_rate": 1.4076923076923079e-05,
+      "loss": 0.1006,
+      "step": 6275
+    },
+    {
+      "epoch": 6.938325991189427,
+      "grad_norm": 0.5483039617538452,
+      "learning_rate": 1.405128205128205e-05,
+      "loss": 0.1122,
+      "step": 6300
+    },
+    {
+      "epoch": 6.965859030837004,
+      "grad_norm": 0.6642032861709595,
+      "learning_rate": 1.4025641025641026e-05,
+      "loss": 0.1232,
+      "step": 6325
+    },
+    {
+      "epoch": 6.993392070484582,
+      "grad_norm": 0.42328912019729614,
+      "learning_rate": 1.4e-05,
+      "loss": 0.1125,
+      "step": 6350
+    },
+    {
+      "epoch": 7.020925110132159,
+      "grad_norm": 0.6559634804725647,
+      "learning_rate": 1.3974358974358975e-05,
+      "loss": 0.0831,
+      "step": 6375
+    },
+    {
+      "epoch": 7.048458149779735,
+      "grad_norm": 0.5906537175178528,
+      "learning_rate": 1.3948717948717949e-05,
+      "loss": 0.0752,
+      "step": 6400
+    },
+    {
+      "epoch": 7.075991189427313,
+      "grad_norm": 0.5048888921737671,
+      "learning_rate": 1.3923076923076924e-05,
+      "loss": 0.0702,
+      "step": 6425
+    },
+    {
+      "epoch": 7.10352422907489,
+      "grad_norm": 0.5171650648117065,
+      "learning_rate": 1.3897435897435898e-05,
+      "loss": 0.0622,
+      "step": 6450
+    },
+    {
+      "epoch": 7.131057268722467,
+      "grad_norm": 0.608253538608551,
+      "learning_rate": 1.3871794871794873e-05,
+      "loss": 0.0795,
+      "step": 6475
+    },
+    {
+      "epoch": 7.158590308370044,
+      "grad_norm": 0.3569038212299347,
+      "learning_rate": 1.3846153846153847e-05,
+      "loss": 0.0862,
+      "step": 6500
+    },
+    {
+      "epoch": 7.186123348017621,
+      "grad_norm": 0.4823140501976013,
+      "learning_rate": 1.3820512820512822e-05,
+      "loss": 0.0749,
+      "step": 6525
+    },
+    {
+      "epoch": 7.213656387665198,
+      "grad_norm": 0.6069055199623108,
+      "learning_rate": 1.3794871794871796e-05,
+      "loss": 0.0732,
+      "step": 6550
+    },
+    {
+      "epoch": 7.241189427312776,
+      "grad_norm": 0.3300100564956665,
+      "learning_rate": 1.3769230769230771e-05,
+      "loss": 0.0831,
+      "step": 6575
+    },
+    {
+      "epoch": 7.2687224669603525,
+      "grad_norm": 0.5404714941978455,
+      "learning_rate": 1.3743589743589745e-05,
+      "loss": 0.0783,
+      "step": 6600
+    },
+    {
+      "epoch": 7.296255506607929,
+      "grad_norm": 0.6272768974304199,
+      "learning_rate": 1.3717948717948718e-05,
+      "loss": 0.0878,
+      "step": 6625
+    },
+    {
+      "epoch": 7.323788546255507,
+      "grad_norm": 0.4452053904533386,
+      "learning_rate": 1.3692307692307694e-05,
+      "loss": 0.0808,
+      "step": 6650
+    },
+    {
+      "epoch": 7.351321585903084,
+      "grad_norm": 0.3930460810661316,
+      "learning_rate": 1.3666666666666667e-05,
+      "loss": 0.0861,
+      "step": 6675
+    },
+    {
+      "epoch": 7.378854625550661,
+      "grad_norm": 0.31089282035827637,
+      "learning_rate": 1.3641025641025643e-05,
+      "loss": 0.0642,
+      "step": 6700
+    },
+    {
+      "epoch": 7.406387665198238,
+      "grad_norm": 0.219461590051651,
+      "learning_rate": 1.3615384615384616e-05,
+      "loss": 0.0589,
+      "step": 6725
+    },
+    {
+      "epoch": 7.433920704845815,
+      "grad_norm": 0.435345321893692,
+      "learning_rate": 1.3589743589743592e-05,
+      "loss": 0.076,
+      "step": 6750
+    },
+    {
+      "epoch": 7.461453744493392,
+      "grad_norm": 0.5823142528533936,
+      "learning_rate": 1.3564102564102565e-05,
+      "loss": 0.0884,
+      "step": 6775
+    },
+    {
+      "epoch": 7.48898678414097,
+      "grad_norm": 0.6687197685241699,
+      "learning_rate": 1.353846153846154e-05,
+      "loss": 0.0831,
+      "step": 6800
+    },
+    {
+      "epoch": 7.516519823788546,
+      "grad_norm": 0.25778886675834656,
+      "learning_rate": 1.3512820512820514e-05,
+      "loss": 0.0794,
+      "step": 6825
+    },
+    {
+      "epoch": 7.544052863436123,
+      "grad_norm": 0.5225228071212769,
+      "learning_rate": 1.348717948717949e-05,
+      "loss": 0.0772,
+      "step": 6850
+    },
+    {
+      "epoch": 7.5715859030837,
+      "grad_norm": 0.4801703095436096,
+      "learning_rate": 1.3461538461538463e-05,
+      "loss": 0.0717,
+      "step": 6875
+    },
+    {
+      "epoch": 7.599118942731278,
+      "grad_norm": 0.48749440908432007,
+      "learning_rate": 1.3435897435897435e-05,
+      "loss": 0.0952,
+      "step": 6900
+    },
+    {
+      "epoch": 7.6266519823788546,
+      "grad_norm": 0.34919875860214233,
+      "learning_rate": 1.341025641025641e-05,
+      "loss": 0.0755,
+      "step": 6925
+    },
+    {
+      "epoch": 7.654185022026431,
+      "grad_norm": 0.6202211976051331,
+      "learning_rate": 1.3384615384615384e-05,
+      "loss": 0.095,
+      "step": 6950
+    },
+    {
+      "epoch": 7.681718061674009,
+      "grad_norm": 0.3826860189437866,
+      "learning_rate": 1.335897435897436e-05,
+      "loss": 0.095,
+      "step": 6975
+    },
+    {
+      "epoch": 7.709251101321586,
+      "grad_norm": 0.6930757761001587,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.0641,
+      "step": 7000
+    },
+    {
+      "epoch": 7.709251101321586,
+      "eval_cer": 38.884367154631846,
+      "eval_loss": 0.8057100772857666,
+      "eval_runtime": 1352.106,
+      "eval_samples_per_second": 7.826,
+      "eval_steps_per_second": 1.957,
+      "eval_wer": 84.13012729844414,
+      "step": 7000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.2027002305430684e+20,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null