Training in progress, step 5000, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/global_step5000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +2 -2
last-checkpoint/global_step5000/mp_rank_00_model_states.pt +2 -2
last-checkpoint/latest +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +295 -5

last-checkpoint/global_step5000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd8ab13a6e36b35a14aecd98026344be6294443155e2a2a088f72aa5403db036
-size 761059696

 version https://git-lfs.github.com/spec/v1
+oid sha256:dadec7b95e9c63b7f4e5b0497d74ff5f09c5a2d9cf367942e470953f3f7cc7f1
+size 5117197489

last-checkpoint/global_step5000/mp_rank_00_model_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85aec5e131778f8c128cc8e84fd39be0dd36ef8312ca4fcb0f54acb4ae02f63d
-size 129965712

 version https://git-lfs.github.com/spec/v1
+oid sha256:757e473d63fc9cb2a005c0657327d432b5292ea2e001b1ac5f2a00023815e9a9
+size 859127933

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step4000~~


1	+ global_step5000

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9783304ccc30a2ca3ef8ee2b6028590101d0883ace79912368fe45d258f448da
 size 962205216

 version https://git-lfs.github.com/spec/v1
+oid sha256:e917f6578a37f477ce51d824ef2c22355d57ba680883e19ec30d3b97940c7e3b
 size 962205216

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1738051805633f2dae2cb76862a890f5315dec48d62792eb30d467b255aa9375
 size 14709

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe58c8283b537c6ee9a4dd56ebbea21d90b446075eea802c036a3707078dd25c
 size 14709

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39633b2dde2fc370ba24b3ba0a39e36a540c9e698e671d01c13867edb1102dc8
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fdaaa58d591c2d03b0ec95bb2576cb7c7885945b5e85c3aae63ede0ea16cfc5
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 86.4875058934465,
-  "best_model_checkpoint": "./iteboshi_student_model_temp/checkpoint-4000",
-  "epoch": 4.405286343612334,
   "eval_steps": 1000,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1167,6 +1167,296 @@
       "eval_steps_per_second": 2.028,
       "eval_wer": 86.4875058934465,
       "step": 4000
     }
   ],
   "logging_steps": 25,
@@ -1186,7 +1476,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.872572745960391e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 86.11975483262611,
+  "best_model_checkpoint": "./iteboshi_student_model_temp/checkpoint-5000",
+  "epoch": 5.506607929515418,
   "eval_steps": 1000,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 2.028,
       "eval_wer": 86.4875058934465,
       "step": 4000
+    },
+    {
+      "epoch": 4.432819383259912,
+      "grad_norm": 0.6854081153869629,
+      "learning_rate": 1.6384615384615384e-05,
+      "loss": 0.2609,
+      "step": 4025
+    },
+    {
+      "epoch": 4.460352422907489,
+      "grad_norm": 0.8021137714385986,
+      "learning_rate": 1.635897435897436e-05,
+      "loss": 0.2604,
+      "step": 4050
+    },
+    {
+      "epoch": 4.487885462555066,
+      "grad_norm": 0.9230350255966187,
+      "learning_rate": 1.6333333333333335e-05,
+      "loss": 0.2594,
+      "step": 4075
+    },
+    {
+      "epoch": 4.515418502202643,
+      "grad_norm": 0.8251164555549622,
+      "learning_rate": 1.630769230769231e-05,
+      "loss": 0.2191,
+      "step": 4100
+    },
+    {
+      "epoch": 4.54295154185022,
+      "grad_norm": 0.7396982312202454,
+      "learning_rate": 1.6282051282051282e-05,
+      "loss": 0.2508,
+      "step": 4125
+    },
+    {
+      "epoch": 4.570484581497797,
+      "grad_norm": 0.7925761938095093,
+      "learning_rate": 1.625641025641026e-05,
+      "loss": 0.2603,
+      "step": 4150
+    },
+    {
+      "epoch": 4.598017621145375,
+      "grad_norm": 0.6864134669303894,
+      "learning_rate": 1.6230769230769233e-05,
+      "loss": 0.249,
+      "step": 4175
+    },
+    {
+      "epoch": 4.6255506607929515,
+      "grad_norm": 0.5276267528533936,
+      "learning_rate": 1.6205128205128207e-05,
+      "loss": 0.2445,
+      "step": 4200
+    },
+    {
+      "epoch": 4.653083700440528,
+      "grad_norm": 1.1504285335540771,
+      "learning_rate": 1.617948717948718e-05,
+      "loss": 0.2383,
+      "step": 4225
+    },
+    {
+      "epoch": 4.680616740088106,
+      "grad_norm": 0.7452952861785889,
+      "learning_rate": 1.6153846153846154e-05,
+      "loss": 0.2319,
+      "step": 4250
+    },
+    {
+      "epoch": 4.708149779735683,
+      "grad_norm": 0.5664868950843811,
+      "learning_rate": 1.612820512820513e-05,
+      "loss": 0.2386,
+      "step": 4275
+    },
+    {
+      "epoch": 4.73568281938326,
+      "grad_norm": 0.7903388738632202,
+      "learning_rate": 1.6102564102564105e-05,
+      "loss": 0.2476,
+      "step": 4300
+    },
+    {
+      "epoch": 4.763215859030837,
+      "grad_norm": 0.6549268364906311,
+      "learning_rate": 1.607692307692308e-05,
+      "loss": 0.2392,
+      "step": 4325
+    },
+    {
+      "epoch": 4.790748898678414,
+      "grad_norm": 0.6780884265899658,
+      "learning_rate": 1.6051282051282052e-05,
+      "loss": 0.2354,
+      "step": 4350
+    },
+    {
+      "epoch": 4.818281938325991,
+      "grad_norm": 0.9416743516921997,
+      "learning_rate": 1.602564102564103e-05,
+      "loss": 0.2514,
+      "step": 4375
+    },
+    {
+      "epoch": 4.845814977973569,
+      "grad_norm": 0.5058385133743286,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.2173,
+      "step": 4400
+    },
+    {
+      "epoch": 4.8733480176211454,
+      "grad_norm": 0.6523875594139099,
+      "learning_rate": 1.5974358974358976e-05,
+      "loss": 0.2323,
+      "step": 4425
+    },
+    {
+      "epoch": 4.900881057268722,
+      "grad_norm": 0.6458995342254639,
+      "learning_rate": 1.594871794871795e-05,
+      "loss": 0.242,
+      "step": 4450
+    },
+    {
+      "epoch": 4.9284140969163,
+      "grad_norm": 0.5865331292152405,
+      "learning_rate": 1.5923076923076924e-05,
+      "loss": 0.2181,
+      "step": 4475
+    },
+    {
+      "epoch": 4.955947136563877,
+      "grad_norm": 0.5348775386810303,
+      "learning_rate": 1.5897435897435897e-05,
+      "loss": 0.2379,
+      "step": 4500
+    },
+    {
+      "epoch": 4.983480176211454,
+      "grad_norm": 0.6599372029304504,
+      "learning_rate": 1.587179487179487e-05,
+      "loss": 0.2482,
+      "step": 4525
+    },
+    {
+      "epoch": 5.011013215859031,
+      "grad_norm": 0.625035285949707,
+      "learning_rate": 1.5846153846153848e-05,
+      "loss": 0.1922,
+      "step": 4550
+    },
+    {
+      "epoch": 5.038546255506608,
+      "grad_norm": 0.6018031239509583,
+      "learning_rate": 1.582051282051282e-05,
+      "loss": 0.1687,
+      "step": 4575
+    },
+    {
+      "epoch": 5.066079295154185,
+      "grad_norm": 0.6142588257789612,
+      "learning_rate": 1.5794871794871795e-05,
+      "loss": 0.1399,
+      "step": 4600
+    },
+    {
+      "epoch": 5.093612334801762,
+      "grad_norm": 0.445803701877594,
+      "learning_rate": 1.576923076923077e-05,
+      "loss": 0.1796,
+      "step": 4625
+    },
+    {
+      "epoch": 5.121145374449339,
+      "grad_norm": 0.4978330135345459,
+      "learning_rate": 1.5743589743589746e-05,
+      "loss": 0.1716,
+      "step": 4650
+    },
+    {
+      "epoch": 5.148678414096916,
+      "grad_norm": 0.43810775876045227,
+      "learning_rate": 1.571794871794872e-05,
+      "loss": 0.176,
+      "step": 4675
+    },
+    {
+      "epoch": 5.176211453744493,
+      "grad_norm": 0.5028232336044312,
+      "learning_rate": 1.5692307692307693e-05,
+      "loss": 0.1435,
+      "step": 4700
+    },
+    {
+      "epoch": 5.203744493392071,
+      "grad_norm": 0.3771626949310303,
+      "learning_rate": 1.5666666666666667e-05,
+      "loss": 0.1577,
+      "step": 4725
+    },
+    {
+      "epoch": 5.2312775330396475,
+      "grad_norm": 0.823710024356842,
+      "learning_rate": 1.5641025641025644e-05,
+      "loss": 0.1346,
+      "step": 4750
+    },
+    {
+      "epoch": 5.258810572687224,
+      "grad_norm": 0.4752519428730011,
+      "learning_rate": 1.5615384615384618e-05,
+      "loss": 0.1996,
+      "step": 4775
+    },
+    {
+      "epoch": 5.286343612334802,
+      "grad_norm": 0.3718922436237335,
+      "learning_rate": 1.558974358974359e-05,
+      "loss": 0.1477,
+      "step": 4800
+    },
+    {
+      "epoch": 5.313876651982379,
+      "grad_norm": 0.37068554759025574,
+      "learning_rate": 1.5564102564102565e-05,
+      "loss": 0.1384,
+      "step": 4825
+    },
+    {
+      "epoch": 5.341409691629956,
+      "grad_norm": 0.4219229221343994,
+      "learning_rate": 1.553846153846154e-05,
+      "loss": 0.1534,
+      "step": 4850
+    },
+    {
+      "epoch": 5.368942731277533,
+      "grad_norm": 0.6927037835121155,
+      "learning_rate": 1.5512820512820516e-05,
+      "loss": 0.1623,
+      "step": 4875
+    },
+    {
+      "epoch": 5.39647577092511,
+      "grad_norm": 0.6902387142181396,
+      "learning_rate": 1.548717948717949e-05,
+      "loss": 0.1451,
+      "step": 4900
+    },
+    {
+      "epoch": 5.424008810572687,
+      "grad_norm": 0.5900410413742065,
+      "learning_rate": 1.5461538461538463e-05,
+      "loss": 0.1971,
+      "step": 4925
+    },
+    {
+      "epoch": 5.451541850220265,
+      "grad_norm": 0.5337275266647339,
+      "learning_rate": 1.5435897435897436e-05,
+      "loss": 0.1688,
+      "step": 4950
+    },
+    {
+      "epoch": 5.479074889867841,
+      "grad_norm": 0.5641874074935913,
+      "learning_rate": 1.5410256410256414e-05,
+      "loss": 0.1567,
+      "step": 4975
+    },
+    {
+      "epoch": 5.506607929515418,
+      "grad_norm": 0.5372440218925476,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 0.1609,
+      "step": 5000
+    },
+    {
+      "epoch": 5.506607929515418,
+      "eval_cer": 28.45941329542719,
+      "eval_loss": 0.7670999765396118,
+      "eval_runtime": 1323.4879,
+      "eval_samples_per_second": 7.995,
+      "eval_steps_per_second": 1.999,
+      "eval_wer": 86.11975483262611,
+      "step": 5000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 8.590715932450488e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null