Upload 10 files

Browse files

Files changed (7) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +114 -494
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fde7d702f16adb04894390615fe7257ea7e432cc8c618b145e21e24d96027064
 size 377851056

 version https://git-lfs.github.com/spec/v1
+oid sha256:82a05a7df138ff182263e2e6f0ba1f5e82f9b1a190e63085de22c42fd8931237
 size 377851056

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:440455cfc382222c8f82d640f542694776d5509f7f69dc1794bb575bc34757b6
 size 722217338

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f05c926aab3b5559ee01ae30be37a775d29c2720683d1d6df7d301632c7e60a
 size 722217338

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd5bb1d1b8e8892cbeae3b90dba5cfe5683bab00ce5b9e82d9cf9347195d22c8
 size 377899102

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1a522037a4b89dbbfead54522650100d82562cbd01c086bc5e3b1c8b42ddc55
 size 377899102

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02d1956f4d55df5967abc0a1cd9710622902be7319dcd00020acbd5d7eca165b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1e731ad63e753d284193b80f173a2ff1be45026693bc2996a76b495f4e45667
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a30cfca4f11f8b61f9e23428a9d301331ae17ea3f0a4bfb786fddd335aaca9a2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b9e3258117db71c9cd1d1b5432f9dc26b0468be84ff12e8519902ace3644fea
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,578 +1,198 @@
 {
-  "best_metric": 0.0727572962641716,
-  "best_model_checkpoint": "./wav2vec2-base-demo/checkpoint-10500",
-  "epoch": 30.0,
   "eval_steps": 500,
-  "global_step": 14430,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0395010395010396,
-      "grad_norm": 2.8997974395751953,
       "learning_rate": 5e-05,
-      "loss": 0.3549,
       "step": 500
     },
     {
       "epoch": 1.0395010395010396,
-      "eval_cer": 0.04969298673090043,
-      "eval_loss": 0.1506405621767044,
-      "eval_mer": 0.1328236435214241,
-      "eval_runtime": 33.659,
-      "eval_samples_per_second": 45.664,
-      "eval_steps_per_second": 5.734,
-      "eval_wer": 0.13357048597165644,
-      "eval_wil": 0.23588589232550194,
-      "eval_wip": 0.764114107674498,
       "step": 500
     },
     {
       "epoch": 2.079002079002079,
-      "grad_norm": 3.4246842861175537,
-      "learning_rate": 4.820890165111271e-05,
-      "loss": 0.3256,
       "step": 1000
     },
     {
       "epoch": 2.079002079002079,
-      "eval_cer": 0.04905250553459295,
-      "eval_loss": 0.14544856548309326,
-      "eval_mer": 0.13181039406053682,
-      "eval_runtime": 33.3911,
-      "eval_samples_per_second": 46.03,
-      "eval_steps_per_second": 5.78,
-      "eval_wer": 0.13242297320557692,
-      "eval_wil": 0.23395019111086257,
-      "eval_wip": 0.7660498088891374,
       "step": 1000
     },
     {
       "epoch": 3.1185031185031185,
-      "grad_norm": 1.9387176036834717,
-      "learning_rate": 4.641780330222542e-05,
-      "loss": 0.3255,
       "step": 1500
     },
     {
       "epoch": 3.1185031185031185,
-      "eval_cer": 0.04656019827070077,
-      "eval_loss": 0.13236825168132782,
-      "eval_mer": 0.12753556939603453,
-      "eval_runtime": 33.3664,
-      "eval_samples_per_second": 46.064,
-      "eval_steps_per_second": 5.784,
-      "eval_wer": 0.12806242469447474,
-      "eval_wil": 0.22709355878713633,
-      "eval_wip": 0.7729064412128637,
       "step": 1500
     },
     {
       "epoch": 4.158004158004158,
-      "grad_norm": 1.5572136640548706,
-      "learning_rate": 4.4626704953338125e-05,
-      "loss": 0.2866,
       "step": 2000
     },
     {
       "epoch": 4.158004158004158,
-      "eval_cer": 0.04639311621949012,
-      "eval_loss": 0.12307066470384598,
-      "eval_mer": 0.12514292247884748,
-      "eval_runtime": 33.3438,
-      "eval_samples_per_second": 46.096,
-      "eval_steps_per_second": 5.788,
-      "eval_wer": 0.12559527224740374,
-      "eval_wil": 0.22333348147081955,
-      "eval_wip": 0.7766665185291804,
       "step": 2000
     },
     {
       "epoch": 5.197505197505198,
-      "grad_norm": 2.1455116271972656,
-      "learning_rate": 4.283201722900216e-05,
-      "loss": 0.2922,
       "step": 2500
     },
     {
       "epoch": 5.197505197505198,
-      "eval_cer": 0.04445774912630011,
-      "eval_loss": 0.1228480413556099,
-      "eval_mer": 0.12246998284734134,
-      "eval_runtime": 33.4324,
-      "eval_samples_per_second": 45.973,
-      "eval_steps_per_second": 5.773,
-      "eval_wer": 0.12289861724711687,
-      "eval_wil": 0.2199313920357091,
-      "eval_wip": 0.7800686079642909,
       "step": 2500
     },
     {
       "epoch": 6.237006237006237,
-      "grad_norm": 1.340448260307312,
-      "learning_rate": 4.104091888011487e-05,
-      "loss": 0.2675,
       "step": 3000
     },
     {
       "epoch": 6.237006237006237,
-      "eval_cer": 0.04433243758789212,
-      "eval_loss": 0.1106928363442421,
-      "eval_mer": 0.12154127601189114,
-      "eval_runtime": 33.3844,
-      "eval_samples_per_second": 46.039,
-      "eval_steps_per_second": 5.781,
-      "eval_wer": 0.12198060703425326,
-      "eval_wil": 0.21841637697011862,
-      "eval_wip": 0.7815836230298814,
       "step": 3000
     },
     {
       "epoch": 7.276507276507276,
-      "grad_norm": 2.0157642364501953,
-      "learning_rate": 3.924982053122757e-05,
-      "loss": 0.2506,
       "step": 3500
     },
     {
       "epoch": 7.276507276507276,
-      "eval_cer": 0.04295401066540427,
-      "eval_loss": 0.1074899286031723,
-      "eval_mer": 0.1207804096578556,
-      "eval_runtime": 33.3924,
-      "eval_samples_per_second": 46.028,
-      "eval_steps_per_second": 5.78,
-      "eval_wer": 0.12111997245969361,
-      "eval_wil": 0.2170950962978776,
-      "eval_wip": 0.7829049037021224,
       "step": 3500
     },
     {
       "epoch": 8.316008316008316,
-      "grad_norm": 1.8766114711761475,
-      "learning_rate": 3.7458722182340276e-05,
-      "loss": 0.2537,
       "step": 4000
     },
     {
       "epoch": 8.316008316008316,
-      "eval_cer": 0.04140850169170577,
-      "eval_loss": 0.10360275208950043,
-      "eval_mer": 0.11801029159519726,
-      "eval_runtime": 33.396,
-      "eval_samples_per_second": 46.023,
-      "eval_steps_per_second": 5.779,
-      "eval_wer": 0.11842331745940674,
-      "eval_wil": 0.21248246079158462,
-      "eval_wip": 0.7875175392084154,
       "step": 4000
     },
     {
       "epoch": 9.355509355509355,
-      "grad_norm": 1.7823630571365356,
-      "learning_rate": 3.566403445800431e-05,
-      "loss": 0.2473,
       "step": 4500
     },
     {
       "epoch": 9.355509355509355,
-      "eval_cer": 0.04121357263196001,
-      "eval_loss": 0.10312958061695099,
-      "eval_mer": 0.11691058769723302,
-      "eval_runtime": 33.7868,
-      "eval_samples_per_second": 45.491,
-      "eval_steps_per_second": 5.712,
-      "eval_wer": 0.11733318033163119,
-      "eval_wil": 0.21024574000779772,
-      "eval_wip": 0.7897542599922023,
       "step": 4500
-    },
-    {
-      "epoch": 10.395010395010395,
-      "grad_norm": 3.1602580547332764,
-      "learning_rate": 3.3869346733668345e-05,
-      "loss": 0.2455,
-      "step": 5000
-    },
-    {
-      "epoch": 10.395010395010395,
-      "eval_cer": 0.04086548502527116,
-      "eval_loss": 0.09843221306800842,
-      "eval_mer": 0.11552759508149843,
-      "eval_runtime": 33.4361,
-      "eval_samples_per_second": 45.968,
-      "eval_steps_per_second": 5.772,
-      "eval_wer": 0.11589878937403178,
-      "eval_wil": 0.20822140556647772,
-      "eval_wip": 0.7917785944335223,
-      "step": 5000
-    },
-    {
-      "epoch": 11.434511434511435,
-      "grad_norm": 1.959326148033142,
-      "learning_rate": 3.207465900933237e-05,
-      "loss": 0.2322,
-      "step": 5500
-    },
-    {
-      "epoch": 11.434511434511435,
-      "eval_cer": 0.03993261023934504,
-      "eval_loss": 0.09337513148784637,
-      "eval_mer": 0.11474472585901321,
-      "eval_runtime": 33.5875,
-      "eval_samples_per_second": 45.761,
-      "eval_steps_per_second": 5.746,
-      "eval_wer": 0.1151529060760801,
-      "eval_wil": 0.2070981915905874,
-      "eval_wip": 0.7929018084094126,
-      "step": 5500
-    },
-    {
-      "epoch": 12.474012474012474,
-      "grad_norm": 1.514904499053955,
-      "learning_rate": 3.027997128499641e-05,
-      "loss": 0.251,
-      "step": 6000
-    },
-    {
-      "epoch": 12.474012474012474,
-      "eval_cer": 0.03943136408571309,
-      "eval_loss": 0.09094855934381485,
-      "eval_mer": 0.11248355921541717,
-      "eval_runtime": 33.5995,
-      "eval_samples_per_second": 45.745,
-      "eval_steps_per_second": 5.744,
-      "eval_wer": 0.11285788054392105,
-      "eval_wil": 0.20317729770906068,
-      "eval_wip": 0.7968227022909393,
-      "step": 6000
-    },
-    {
-      "epoch": 13.513513513513514,
-      "grad_norm": 3.5788846015930176,
-      "learning_rate": 2.848528356066045e-05,
-      "loss": 0.2243,
-      "step": 6500
-    },
-    {
-      "epoch": 13.513513513513514,
-      "eval_cer": 0.03856810682112474,
-      "eval_loss": 0.09059835970401764,
-      "eval_mer": 0.11314599668059291,
-      "eval_runtime": 33.4711,
-      "eval_samples_per_second": 45.92,
-      "eval_steps_per_second": 5.766,
-      "eval_wer": 0.11343163692696082,
-      "eval_wil": 0.20495219335271586,
-      "eval_wip": 0.7950478066472841,
-      "step": 6500
-    },
-    {
-      "epoch": 14.553014553014552,
-      "grad_norm": 2.408891201019287,
-      "learning_rate": 2.6690595836324484e-05,
-      "loss": 0.2186,
-      "step": 7000
-    },
-    {
-      "epoch": 14.553014553014552,
-      "eval_cer": 0.0384288717784492,
-      "eval_loss": 0.08281438052654266,
-      "eval_mer": 0.11403860473108425,
-      "eval_runtime": 33.5039,
-      "eval_samples_per_second": 45.875,
-      "eval_steps_per_second": 5.761,
-      "eval_wer": 0.11423489586321647,
-      "eval_wil": 0.20612773409748175,
-      "eval_wip": 0.7938722659025182,
-      "step": 7000
-    },
-    {
-      "epoch": 15.592515592515593,
-      "grad_norm": 1.2376307249069214,
-      "learning_rate": 2.4903086862885857e-05,
-      "loss": 0.2146,
-      "step": 7500
-    },
-    {
-      "epoch": 15.592515592515593,
-      "eval_cer": 0.03816432519736567,
-      "eval_loss": 0.08768957108259201,
-      "eval_mer": 0.11135895676046671,
-      "eval_runtime": 33.5042,
-      "eval_samples_per_second": 45.875,
-      "eval_steps_per_second": 5.76,
-      "eval_wer": 0.11171036777784153,
-      "eval_wil": 0.20133862836387018,
-      "eval_wip": 0.7986613716361298,
-      "step": 7500
-    },
-    {
-      "epoch": 16.632016632016633,
-      "grad_norm": 1.0698959827423096,
-      "learning_rate": 2.3108399138549895e-05,
-      "loss": 0.2076,
-      "step": 8000
-    },
-    {
-      "epoch": 16.632016632016633,
-      "eval_cer": 0.03784408459921193,
-      "eval_loss": 0.08166921883821487,
-      "eval_mer": 0.11109204278931412,
-      "eval_runtime": 33.5384,
-      "eval_samples_per_second": 45.828,
-      "eval_steps_per_second": 5.755,
-      "eval_wer": 0.11142348958632164,
-      "eval_wil": 0.20099477953828748,
-      "eval_wip": 0.7990052204617125,
-      "step": 8000
-    },
-    {
-      "epoch": 17.671517671517673,
-      "grad_norm": 2.2200756072998047,
-      "learning_rate": 2.13173007896626e-05,
-      "loss": 0.2017,
-      "step": 8500
-    },
-    {
-      "epoch": 17.671517671517673,
-      "eval_cer": 0.03691120981328581,
-      "eval_loss": 0.07834411412477493,
-      "eval_mer": 0.11015056964561745,
-      "eval_runtime": 33.5299,
-      "eval_samples_per_second": 45.84,
-      "eval_steps_per_second": 5.756,
-      "eval_wer": 0.11039072809685008,
-      "eval_wil": 0.20021436062866027,
-      "eval_wip": 0.7997856393713397,
-      "step": 8500
-    },
-    {
-      "epoch": 18.71101871101871,
-      "grad_norm": 3.6737000942230225,
-      "learning_rate": 1.9526202440775307e-05,
-      "loss": 0.199,
-      "step": 9000
-    },
-    {
-      "epoch": 18.71101871101871,
-      "eval_cer": 0.037259297419974656,
-      "eval_loss": 0.07848495990037918,
-      "eval_mer": 0.1108757870635375,
-      "eval_runtime": 33.4848,
-      "eval_samples_per_second": 45.901,
-      "eval_steps_per_second": 5.764,
-      "eval_wer": 0.11113661139480177,
-      "eval_wil": 0.20059739778337193,
-      "eval_wip": 0.7994026022166281,
-      "step": 9000
-    },
-    {
-      "epoch": 19.75051975051975,
-      "grad_norm": 2.476435899734497,
-      "learning_rate": 1.773151471643934e-05,
-      "loss": 0.1983,
-      "step": 9500
-    },
-    {
-      "epoch": 19.75051975051975,
-      "eval_cer": 0.037482073488255524,
-      "eval_loss": 0.08044513314962387,
-      "eval_mer": 0.11039295315449293,
-      "eval_runtime": 33.5182,
-      "eval_samples_per_second": 45.856,
-      "eval_steps_per_second": 5.758,
-      "eval_wer": 0.11073498192667393,
-      "eval_wil": 0.19978514503968547,
-      "eval_wip": 0.8002148549603145,
-      "step": 9500
-    },
-    {
-      "epoch": 20.79002079002079,
-      "grad_norm": 1.4843103885650635,
-      "learning_rate": 1.5940416367552046e-05,
-      "loss": 0.1931,
-      "step": 10000
-    },
-    {
-      "epoch": 20.79002079002079,
-      "eval_cer": 0.03720360340290444,
-      "eval_loss": 0.07748907804489136,
-      "eval_mer": 0.11006811287276057,
-      "eval_runtime": 33.4846,
-      "eval_samples_per_second": 45.902,
-      "eval_steps_per_second": 5.764,
-      "eval_wer": 0.1103333524585461,
-      "eval_wil": 0.19979205874359685,
-      "eval_wip": 0.8002079412564032,
-      "step": 10000
-    },
-    {
-      "epoch": 21.82952182952183,
-      "grad_norm": 7.590743064880371,
-      "learning_rate": 1.4156496769562097e-05,
-      "loss": 0.1723,
-      "step": 10500
-    },
-    {
-      "epoch": 21.82952182952183,
-      "eval_cer": 0.03642388716392141,
-      "eval_loss": 0.0727572962641716,
-      "eval_mer": 0.10935531890530173,
-      "eval_runtime": 33.5546,
-      "eval_samples_per_second": 45.806,
-      "eval_steps_per_second": 5.752,
-      "eval_wer": 0.1095874691605944,
-      "eval_wil": 0.1990145874796534,
-      "eval_wip": 0.8009854125203466,
-      "step": 10500
-    },
-    {
-      "epoch": 22.86902286902287,
-      "grad_norm": 1.670258641242981,
-      "learning_rate": 1.2365398420674803e-05,
-      "loss": 0.1996,
-      "step": 11000
-    },
-    {
-      "epoch": 22.86902286902287,
-      "eval_cer": 0.03600618203589479,
-      "eval_loss": 0.07854931801557541,
-      "eval_mer": 0.10902427851580394,
-      "eval_runtime": 33.6003,
-      "eval_samples_per_second": 45.744,
-      "eval_steps_per_second": 5.744,
-      "eval_wer": 0.10924321533077055,
-      "eval_wil": 0.19832511876306813,
-      "eval_wip": 0.8016748812369319,
-      "step": 11000
-    },
-    {
-      "epoch": 23.908523908523907,
-      "grad_norm": 1.4487839937210083,
-      "learning_rate": 1.0577889447236182e-05,
-      "loss": 0.1753,
-      "step": 11500
-    },
-    {
-      "epoch": 23.908523908523907,
-      "eval_cer": 0.03652135169379429,
-      "eval_loss": 0.08054520934820175,
-      "eval_mer": 0.10793342103757936,
-      "eval_runtime": 33.5332,
-      "eval_samples_per_second": 45.835,
-      "eval_steps_per_second": 5.755,
-      "eval_wer": 0.10826782947960296,
-      "eval_wil": 0.19572523190378577,
-      "eval_wip": 0.8042747680962142,
-      "step": 11500
-    },
-    {
-      "epoch": 24.948024948024948,
-      "grad_norm": 1.3358678817749023,
-      "learning_rate": 8.783201722900215e-06,
-      "loss": 0.1781,
-      "step": 12000
-    },
-    {
-      "epoch": 24.948024948024948,
-      "eval_cer": 0.03600618203589479,
-      "eval_loss": 0.07418987154960632,
-      "eval_mer": 0.10750042908633217,
-      "eval_runtime": 33.4349,
-      "eval_samples_per_second": 45.97,
-      "eval_steps_per_second": 5.772,
-      "eval_wer": 0.10780882437317116,
-      "eval_wil": 0.19526624761364586,
-      "eval_wip": 0.8047337523863541,
-      "step": 12000
-    },
-    {
-      "epoch": 25.987525987525988,
-      "grad_norm": 2.8383772373199463,
-      "learning_rate": 6.98851399856425e-06,
-      "loss": 0.1828,
-      "step": 12500
-    },
-    {
-      "epoch": 25.987525987525988,
-      "eval_cer": 0.03568594143774105,
-      "eval_loss": 0.07407771795988083,
-      "eval_mer": 0.10735757228743201,
-      "eval_runtime": 33.4962,
-      "eval_samples_per_second": 45.886,
-      "eval_steps_per_second": 5.762,
-      "eval_wer": 0.10757932181995525,
-      "eval_wil": 0.19555581909035935,
-      "eval_wip": 0.8044441809096406,
-      "step": 12500
-    },
-    {
-      "epoch": 27.027027027027028,
-      "grad_norm": 2.1374740600585938,
-      "learning_rate": 5.197415649676956e-06,
-      "loss": 0.1871,
-      "step": 13000
-    },
-    {
-      "epoch": 27.027027027027028,
-      "eval_cer": 0.03571378844627616,
-      "eval_loss": 0.0738675594329834,
-      "eval_mer": 0.10779711472406686,
-      "eval_runtime": 33.5044,
-      "eval_samples_per_second": 45.875,
-      "eval_steps_per_second": 5.76,
-      "eval_wer": 0.10803832692638705,
-      "eval_wil": 0.1961644777961592,
-      "eval_wip": 0.8038355222038408,
-      "step": 13000
-    },
-    {
-      "epoch": 28.066528066528065,
-      "grad_norm": 1.8452061414718628,
-      "learning_rate": 3.409906676238335e-06,
-      "loss": 0.1686,
-      "step": 13500
-    },
-    {
-      "epoch": 28.066528066528065,
-      "eval_cer": 0.03556062989933306,
-      "eval_loss": 0.0737072303891182,
-      "eval_mer": 0.10779711472406686,
-      "eval_runtime": 33.5159,
-      "eval_samples_per_second": 45.859,
-      "eval_steps_per_second": 5.758,
-      "eval_wer": 0.10803832692638705,
-      "eval_wil": 0.1961644777961592,
-      "eval_wip": 0.8038355222038408,
-      "step": 13500
-    },
-    {
-      "epoch": 29.106029106029105,
-      "grad_norm": 2.0490431785583496,
-      "learning_rate": 1.615218951902369e-06,
-      "loss": 0.1801,
-      "step": 14000
-    },
-    {
-      "epoch": 29.106029106029105,
-      "eval_cer": 0.035518859386530405,
-      "eval_loss": 0.07359343022108078,
-      "eval_mer": 0.10764385914686515,
-      "eval_runtime": 33.4499,
-      "eval_samples_per_second": 45.949,
-      "eval_steps_per_second": 5.77,
-      "eval_wer": 0.10786620001147512,
-      "eval_wil": 0.19607173646103337,
-      "eval_wip": 0.8039282635389666,
-      "step": 14000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 14430,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -586,7 +206,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.233840952562297e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.06431299448013306,
+  "best_model_checkpoint": "./wav2vec2-base-demo/checkpoint-3500",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 4810,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0395010395010396,
+      "grad_norm": 2.656402349472046,
       "learning_rate": 5e-05,
+      "loss": 0.163,
       "step": 500
     },
     {
       "epoch": 1.0395010395010396,
+      "eval_cer": 0.042475895792468986,
+      "eval_loss": 0.0863703265786171,
+      "eval_mer": 0.11671012356875637,
+      "eval_runtime": 37.5343,
+      "eval_samples_per_second": 40.949,
+      "eval_steps_per_second": 5.142,
+      "eval_wer": 0.11718171987934665,
+      "eval_wil": 0.20816339596717104,
+      "eval_wip": 0.791836604032829,
       "step": 500
     },
     {
       "epoch": 2.079002079002079,
+      "grad_norm": 0.8406820297241211,
+      "learning_rate": 4.4199535962877034e-05,
+      "loss": 0.1635,
       "step": 1000
     },
     {
       "epoch": 2.079002079002079,
+      "eval_cer": 0.04208912340801724,
+      "eval_loss": 0.07893521338701248,
+      "eval_mer": 0.11592479329482387,
+      "eval_runtime": 37.2156,
+      "eval_samples_per_second": 41.3,
+      "eval_steps_per_second": 5.186,
+      "eval_wer": 0.11649877639292015,
+      "eval_wil": 0.20577031582271066,
+      "eval_wip": 0.7942296841772893,
       "step": 1000
     },
     {
       "epoch": 3.1185031185031185,
+      "grad_norm": 0.7278923392295837,
+      "learning_rate": 3.839907192575406e-05,
+      "loss": 0.172,
       "step": 1500
     },
     {
       "epoch": 3.1185031185031185,
+      "eval_cer": 0.04258640218802663,
+      "eval_loss": 0.09011566638946533,
+      "eval_mer": 0.11518887129608686,
+      "eval_runtime": 37.2272,
+      "eval_samples_per_second": 41.287,
+      "eval_steps_per_second": 5.184,
+      "eval_wer": 0.11592965682089806,
+      "eval_wil": 0.20315250387257455,
+      "eval_wip": 0.7968474961274254,
       "step": 1500
     },
     {
       "epoch": 4.158004158004158,
+      "grad_norm": 1.2081284523010254,
+      "learning_rate": 3.261020881670534e-05,
+      "loss": 0.148,
       "step": 2000
     },
     {
       "epoch": 4.158004158004158,
+      "eval_cer": 0.04066635356521259,
+      "eval_loss": 0.07975054532289505,
+      "eval_mer": 0.11372148450800136,
+      "eval_runtime": 37.1346,
+      "eval_samples_per_second": 41.39,
+      "eval_steps_per_second": 5.197,
+      "eval_wer": 0.1140515622332252,
+      "eval_wil": 0.2032785755642632,
+      "eval_wip": 0.7967214244357368,
       "step": 2000
     },
     {
       "epoch": 5.197505197505198,
+      "grad_norm": 1.7628921270370483,
+      "learning_rate": 2.6809744779582367e-05,
+      "loss": 0.1526,
       "step": 2500
     },
     {
       "epoch": 5.197505197505198,
+      "eval_cer": 0.04003094179075614,
+      "eval_loss": 0.07782892137765884,
+      "eval_mer": 0.11206896551724138,
+      "eval_runtime": 37.1954,
+      "eval_samples_per_second": 41.322,
+      "eval_steps_per_second": 5.189,
+      "eval_wer": 0.11245802743156337,
+      "eval_wil": 0.2010933536308993,
+      "eval_wip": 0.7989066463691007,
       "step": 2500
     },
     {
       "epoch": 6.237006237006237,
+      "grad_norm": 1.1964457035064697,
+      "learning_rate": 2.1020881670533645e-05,
+      "loss": 0.1412,
       "step": 3000
     },
     {
       "epoch": 6.237006237006237,
+      "eval_cer": 0.03990662209575379,
+      "eval_loss": 0.0688575804233551,
+      "eval_mer": 0.11312191524366029,
+      "eval_runtime": 37.255,
+      "eval_samples_per_second": 41.256,
+      "eval_steps_per_second": 5.181,
+      "eval_wer": 0.11348244266120312,
+      "eval_wil": 0.20307383068892626,
+      "eval_wip": 0.7969261693110737,
       "step": 3000
     },
     {
       "epoch": 7.276507276507276,
+      "grad_norm": 1.3279238939285278,
+      "learning_rate": 1.523201856148492e-05,
+      "loss": 0.1277,
       "step": 3500
     },
     {
       "epoch": 7.276507276507276,
+      "eval_cer": 0.03918833052462911,
+      "eval_loss": 0.06431299448013306,
+      "eval_mer": 0.1120195310282178,
+      "eval_runtime": 37.2025,
+      "eval_samples_per_second": 41.314,
+      "eval_steps_per_second": 5.188,
+      "eval_wer": 0.11228729155995675,
+      "eval_wil": 0.20144489838528856,
+      "eval_wip": 0.7985551016147114,
       "step": 3500
     },
     {
       "epoch": 8.316008316008316,
+      "grad_norm": 1.6859196424484253,
+      "learning_rate": 9.443155452436194e-06,
+      "loss": 0.1376,
       "step": 4000
     },
     {
       "epoch": 8.316008316008316,
+      "eval_cer": 0.039409343315744395,
+      "eval_loss": 0.06848356872797012,
+      "eval_mer": 0.11210711448995801,
+      "eval_runtime": 37.256,
+      "eval_samples_per_second": 41.255,
+      "eval_steps_per_second": 5.18,
+      "eval_wer": 0.11245802743156337,
+      "eval_wil": 0.20074433269163805,
+      "eval_wip": 0.799255667308362,
       "step": 4000
     },
     {
       "epoch": 9.355509355509355,
+      "grad_norm": 1.5659629106521606,
+      "learning_rate": 3.642691415313225e-06,
+      "loss": 0.131,
       "step": 4500
     },
     {
       "epoch": 9.355509355509355,
+      "eval_cer": 0.038787744840732656,
+      "eval_loss": 0.06696277111768723,
+      "eval_mer": 0.11123091765507065,
+      "eval_runtime": 37.5745,
+      "eval_samples_per_second": 40.905,
+      "eval_steps_per_second": 5.136,
+      "eval_wer": 0.11154743611632804,
+      "eval_wil": 0.19943676811944389,
+      "eval_wip": 0.8005632318805561,
       "step": 4500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 4810,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3.07474151587841e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8aa0ba76070730e78a2e05d51cda9e43beced2b5572af45c731b10724fafd32
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3091a22b40a081428e5812146fe9612f2921413ec1d4139f6c30058ff99d057
 size 5176