Spaces:

Diabvell
/

ATA_Assignment_2_2

Sleeping

App Files Files Community

EcoFriendlyWoodVerneer commited on Feb 16

Commit

922d400

1 Parent(s): 8ccad0e

Remove training-only checkpoint files

Browse files

Files changed (6) hide show

custom_t5_enzh/checkpoint-29688/optimizer.pt +0 -3
custom_t5_enzh/checkpoint-29688/rng_state.pth +0 -3
custom_t5_enzh/checkpoint-29688/scaler.pt +0 -3
custom_t5_enzh/checkpoint-29688/scheduler.pt +0 -3
custom_t5_enzh/checkpoint-29688/trainer_state.json +0 -1331
custom_t5_enzh/checkpoint-29688/training_args.bin +0 -3

custom_t5_enzh/checkpoint-29688/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e64b45f39877c482632ccdd5afcca5030d58cd36d1527ca55c881a5455383a71
-size 484048826

custom_t5_enzh/checkpoint-29688/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:7959e86c1aa1b8eb7d94f513e7c9aed0577ed1a74cd7b9eaafc1fcdfdce76500
-size 14244

custom_t5_enzh/checkpoint-29688/scaler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:0fedd999e43515c9c2556ec2ff18a27b6972410a2706a52a92e0f127da24a309
-size 988

custom_t5_enzh/checkpoint-29688/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:eb53167c045732a134505f0578ddee8eefcd648eb6826870ef1abb00377ad4d1
-size 1064

custom_t5_enzh/checkpoint-29688/trainer_state.json DELETED Viewed

@@ -1,1331 +0,0 @@
-{
-  "best_global_step": null,
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.0,
-  "eval_steps": 1000,
-  "global_step": 29688,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.006736842105263158,
-      "grad_norm": 4.254439830780029,
-      "learning_rate": 0.0004966484774993264,
-      "loss": 8.8092,
-      "step": 200
-    },
-    {
-      "epoch": 0.013473684210526317,
-      "grad_norm": 3.3755834102630615,
-      "learning_rate": 0.0004932801131770412,
-      "loss": 8.1379,
-      "step": 400
-    },
-    {
-      "epoch": 0.020210526315789474,
-      "grad_norm": 1.1486470699310303,
-      "learning_rate": 0.0004899285906763676,
-      "loss": 7.8786,
-      "step": 600
-    },
-    {
-      "epoch": 0.026947368421052633,
-      "grad_norm": 1.2390578985214233,
-      "learning_rate": 0.0004865602263540825,
-      "loss": 7.7022,
-      "step": 800
-    },
-    {
-      "epoch": 0.03368421052631579,
-      "grad_norm": 1.7450668811798096,
-      "learning_rate": 0.0004832087038534088,
-      "loss": 7.6146,
-      "step": 1000
-    },
-    {
-      "epoch": 0.03368421052631579,
-      "eval_chrf": 0.005726559318726246,
-      "eval_loss": 8.076652526855469,
-      "eval_runtime": 209.4663,
-      "eval_samples_per_second": 9.548,
-      "eval_steps_per_second": 0.597,
-      "step": 1000
-    },
-    {
-      "epoch": 0.04042105263157895,
-      "grad_norm": 2.2363343238830566,
-      "learning_rate": 0.0004798403395311237,
-      "loss": 7.5643,
-      "step": 1200
-    },
-    {
-      "epoch": 0.04715789473684211,
-      "grad_norm": 1.5633487701416016,
-      "learning_rate": 0.00047648881703045003,
-      "loss": 7.527,
-      "step": 1400
-    },
-    {
-      "epoch": 0.053894736842105266,
-      "grad_norm": 2.2892746925354004,
-      "learning_rate": 0.00047312045270816495,
-      "loss": 7.4918,
-      "step": 1600
-    },
-    {
-      "epoch": 0.06063157894736842,
-      "grad_norm": 1.7377341985702515,
-      "learning_rate": 0.00046976893020749124,
-      "loss": 7.4903,
-      "step": 1800
-    },
-    {
-      "epoch": 0.06736842105263158,
-      "grad_norm": 1.7025725841522217,
-      "learning_rate": 0.0004664005658852061,
-      "loss": 7.4449,
-      "step": 2000
-    },
-    {
-      "epoch": 0.06736842105263158,
-      "eval_chrf": 0.0019243755855956966,
-      "eval_loss": 8.043418884277344,
-      "eval_runtime": 210.6222,
-      "eval_samples_per_second": 9.496,
-      "eval_steps_per_second": 0.593,
-      "step": 2000
-    },
-    {
-      "epoch": 0.07410526315789474,
-      "grad_norm": 2.077467679977417,
-      "learning_rate": 0.000463032201562921,
-      "loss": 7.4266,
-      "step": 2200
-    },
-    {
-      "epoch": 0.0808421052631579,
-      "grad_norm": 1.6652511358261108,
-      "learning_rate": 0.00045966383724063594,
-      "loss": 7.4337,
-      "step": 2400
-    },
-    {
-      "epoch": 0.08757894736842105,
-      "grad_norm": 1.4601976871490479,
-      "learning_rate": 0.00045629547291835086,
-      "loss": 7.3881,
-      "step": 2600
-    },
-    {
-      "epoch": 0.09431578947368421,
-      "grad_norm": 2.035797595977783,
-      "learning_rate": 0.00045294395041767715,
-      "loss": 7.3976,
-      "step": 2800
-    },
-    {
-      "epoch": 0.10105263157894737,
-      "grad_norm": 11.324400901794434,
-      "learning_rate": 0.00044957558609539207,
-      "loss": 7.3977,
-      "step": 3000
-    },
-    {
-      "epoch": 0.10105263157894737,
-      "eval_chrf": 0.002352741368315669,
-      "eval_loss": 8.023853302001953,
-      "eval_runtime": 212.3438,
-      "eval_samples_per_second": 9.419,
-      "eval_steps_per_second": 0.589,
-      "step": 3000
-    },
-    {
-      "epoch": 0.10778947368421053,
-      "grad_norm": 3.328237533569336,
-      "learning_rate": 0.00044620722177310694,
-      "loss": 7.3749,
-      "step": 3200
-    },
-    {
-      "epoch": 0.11452631578947368,
-      "grad_norm": 4.6249189376831055,
-      "learning_rate": 0.00044283885745082186,
-      "loss": 7.3797,
-      "step": 3400
-    },
-    {
-      "epoch": 0.12126315789473684,
-      "grad_norm": 7.7165913581848145,
-      "learning_rate": 0.00043947049312853683,
-      "loss": 7.3639,
-      "step": 3600
-    },
-    {
-      "epoch": 0.128,
-      "grad_norm": 592.001220703125,
-      "learning_rate": 0.0004361189706278631,
-      "loss": 7.3774,
-      "step": 3800
-    },
-    {
-      "epoch": 0.13473684210526315,
-      "grad_norm": 10.053915023803711,
-      "learning_rate": 0.000432750606305578,
-      "loss": 7.3629,
-      "step": 4000
-    },
-    {
-      "epoch": 0.13473684210526315,
-      "eval_chrf": 0.0026428740107985933,
-      "eval_loss": 7.972915172576904,
-      "eval_runtime": 208.7087,
-      "eval_samples_per_second": 9.583,
-      "eval_steps_per_second": 0.599,
-      "step": 4000
-    },
-    {
-      "epoch": 0.1414736842105263,
-      "grad_norm": 12.676908493041992,
-      "learning_rate": 0.0004293822419832929,
-      "loss": 7.3723,
-      "step": 4200
-    },
-    {
-      "epoch": 0.1482105263157895,
-      "grad_norm": 3.955014228820801,
-      "learning_rate": 0.0004260138776610078,
-      "loss": 7.3371,
-      "step": 4400
-    },
-    {
-      "epoch": 0.15494736842105264,
-      "grad_norm": 7.863338470458984,
-      "learning_rate": 0.0004226455133387227,
-      "loss": 7.3359,
-      "step": 4600
-    },
-    {
-      "epoch": 0.1616842105263158,
-      "grad_norm": 1.5261688232421875,
-      "learning_rate": 0.00041927714901643766,
-      "loss": 7.3433,
-      "step": 4800
-    },
-    {
-      "epoch": 0.16842105263157894,
-      "grad_norm": 8.192843437194824,
-      "learning_rate": 0.00041590878469415253,
-      "loss": 7.3336,
-      "step": 5000
-    },
-    {
-      "epoch": 0.16842105263157894,
-      "eval_chrf": 0.002056091763873794,
-      "eval_loss": 7.981015682220459,
-      "eval_runtime": 210.934,
-      "eval_samples_per_second": 9.482,
-      "eval_steps_per_second": 0.593,
-      "step": 5000
-    },
-    {
-      "epoch": 0.1751578947368421,
-      "grad_norm": 7.735596179962158,
-      "learning_rate": 0.00041254042037186745,
-      "loss": 7.3357,
-      "step": 5200
-    },
-    {
-      "epoch": 0.18189473684210528,
-      "grad_norm": 3.6393988132476807,
-      "learning_rate": 0.00040917205604958237,
-      "loss": 7.3266,
-      "step": 5400
-    },
-    {
-      "epoch": 0.18863157894736843,
-      "grad_norm": 6.396200656890869,
-      "learning_rate": 0.00040580369172729723,
-      "loss": 7.339,
-      "step": 5600
-    },
-    {
-      "epoch": 0.19536842105263158,
-      "grad_norm": 2.8999171257019043,
-      "learning_rate": 0.00040243532740501215,
-      "loss": 7.2893,
-      "step": 5800
-    },
-    {
-      "epoch": 0.20210526315789473,
-      "grad_norm": 63.303401947021484,
-      "learning_rate": 0.0003991174885475613,
-      "loss": 7.3111,
-      "step": 6000
-    },
-    {
-      "epoch": 0.20210526315789473,
-      "eval_chrf": 0.004042745883260306,
-      "eval_loss": 7.9859795570373535,
-      "eval_runtime": 209.8571,
-      "eval_samples_per_second": 9.53,
-      "eval_steps_per_second": 0.596,
-      "step": 6000
-    },
-    {
-      "epoch": 0.20884210526315788,
-      "grad_norm": 5.230437755584717,
-      "learning_rate": 0.0003957491242252762,
-      "loss": 7.2863,
-      "step": 6200
-    },
-    {
-      "epoch": 0.21557894736842106,
-      "grad_norm": 29.289928436279297,
-      "learning_rate": 0.0003923807599029911,
-      "loss": 7.3219,
-      "step": 6400
-    },
-    {
-      "epoch": 0.22231578947368422,
-      "grad_norm": 161.98826599121094,
-      "learning_rate": 0.0003890292374023174,
-      "loss": 7.3044,
-      "step": 6600
-    },
-    {
-      "epoch": 0.22905263157894737,
-      "grad_norm": 137.97628784179688,
-      "learning_rate": 0.00038566087308003233,
-      "loss": 7.3067,
-      "step": 6800
-    },
-    {
-      "epoch": 0.23578947368421052,
-      "grad_norm": 11.88398265838623,
-      "learning_rate": 0.00038229250875774725,
-      "loss": 7.3083,
-      "step": 7000
-    },
-    {
-      "epoch": 0.23578947368421052,
-      "eval_chrf": 0.0052247493110234265,
-      "eval_loss": 7.974218845367432,
-      "eval_runtime": 209.3818,
-      "eval_samples_per_second": 9.552,
-      "eval_steps_per_second": 0.597,
-      "step": 7000
-    },
-    {
-      "epoch": 0.24252631578947367,
-      "grad_norm": 1372.63525390625,
-      "learning_rate": 0.0003789241444354621,
-      "loss": 7.287,
-      "step": 7200
-    },
-    {
-      "epoch": 0.24926315789473685,
-      "grad_norm": 4.1067352294921875,
-      "learning_rate": 0.00037555578011317704,
-      "loss": 7.3108,
-      "step": 7400
-    },
-    {
-      "epoch": 0.256,
-      "grad_norm": 16.280475616455078,
-      "learning_rate": 0.00037218741579089196,
-      "loss": 7.3079,
-      "step": 7600
-    },
-    {
-      "epoch": 0.26273684210526316,
-      "grad_norm": 5.811795234680176,
-      "learning_rate": 0.0003688190514686068,
-      "loss": 7.2741,
-      "step": 7800
-    },
-    {
-      "epoch": 0.2694736842105263,
-      "grad_norm": 12.810831069946289,
-      "learning_rate": 0.00036546752896793317,
-      "loss": 7.2951,
-      "step": 8000
-    },
-    {
-      "epoch": 0.2694736842105263,
-      "eval_chrf": 0.0018270964000608395,
-      "eval_loss": 7.971038341522217,
-      "eval_runtime": 208.8802,
-      "eval_samples_per_second": 9.575,
-      "eval_steps_per_second": 0.598,
-      "step": 8000
-    },
-    {
-      "epoch": 0.27621052631578946,
-      "grad_norm": 3.149369716644287,
-      "learning_rate": 0.0003620991646456481,
-      "loss": 7.276,
-      "step": 8200
-    },
-    {
-      "epoch": 0.2829473684210526,
-      "grad_norm": 8.988630294799805,
-      "learning_rate": 0.00035873080032336295,
-      "loss": 7.2858,
-      "step": 8400
-    },
-    {
-      "epoch": 0.28968421052631577,
-      "grad_norm": 3.606241464614868,
-      "learning_rate": 0.00035536243600107787,
-      "loss": 7.2752,
-      "step": 8600
-    },
-    {
-      "epoch": 0.296421052631579,
-      "grad_norm": 17.486343383789062,
-      "learning_rate": 0.0003519940716787928,
-      "loss": 7.2741,
-      "step": 8800
-    },
-    {
-      "epoch": 0.3031578947368421,
-      "grad_norm": 14.639832496643066,
-      "learning_rate": 0.00034862570735650765,
-      "loss": 7.2818,
-      "step": 9000
-    },
-    {
-      "epoch": 0.3031578947368421,
-      "eval_chrf": 0.0028106490006736635,
-      "eval_loss": 7.982977867126465,
-      "eval_runtime": 208.2552,
-      "eval_samples_per_second": 9.604,
-      "eval_steps_per_second": 0.6,
-      "step": 9000
-    },
-    {
-      "epoch": 0.3098947368421053,
-      "grad_norm": 26.35228157043457,
-      "learning_rate": 0.0003452573430342226,
-      "loss": 7.2879,
-      "step": 9200
-    },
-    {
-      "epoch": 0.31663157894736843,
-      "grad_norm": 521.87890625,
-      "learning_rate": 0.0003418889787119375,
-      "loss": 7.2615,
-      "step": 9400
-    },
-    {
-      "epoch": 0.3233684210526316,
-      "grad_norm": 11.705015182495117,
-      "learning_rate": 0.00033852061438965236,
-      "loss": 7.2654,
-      "step": 9600
-    },
-    {
-      "epoch": 0.33010526315789473,
-      "grad_norm": 165.28273010253906,
-      "learning_rate": 0.0003351522500673673,
-      "loss": 7.2716,
-      "step": 9800
-    },
-    {
-      "epoch": 0.3368421052631579,
-      "grad_norm": 3.113431215286255,
-      "learning_rate": 0.0003317838857450822,
-      "loss": 7.3123,
-      "step": 10000
-    },
-    {
-      "epoch": 0.3368421052631579,
-      "eval_chrf": 0.002015902006176986,
-      "eval_loss": 7.978994369506836,
-      "eval_runtime": 208.0446,
-      "eval_samples_per_second": 9.613,
-      "eval_steps_per_second": 0.601,
-      "step": 10000
-    },
-    {
-      "epoch": 0.34357894736842104,
-      "grad_norm": 21.174518585205078,
-      "learning_rate": 0.00032841552142279706,
-      "loss": 7.2841,
-      "step": 10200
-    },
-    {
-      "epoch": 0.3503157894736842,
-      "grad_norm": 6.507296562194824,
-      "learning_rate": 0.00032504715710051204,
-      "loss": 7.2824,
-      "step": 10400
-    },
-    {
-      "epoch": 0.35705263157894734,
-      "grad_norm": 8.37975025177002,
-      "learning_rate": 0.0003216787927782269,
-      "loss": 7.2624,
-      "step": 10600
-    },
-    {
-      "epoch": 0.36378947368421055,
-      "grad_norm": 6.058104038238525,
-      "learning_rate": 0.0003183104284559418,
-      "loss": 7.257,
-      "step": 10800
-    },
-    {
-      "epoch": 0.3705263157894737,
-      "grad_norm": 6.78323221206665,
-      "learning_rate": 0.00031494206413365674,
-      "loss": 7.2562,
-      "step": 11000
-    },
-    {
-      "epoch": 0.3705263157894737,
-      "eval_chrf": 0.002412227558600064,
-      "eval_loss": 7.9691162109375,
-      "eval_runtime": 206.8952,
-      "eval_samples_per_second": 9.667,
-      "eval_steps_per_second": 0.604,
-      "step": 11000
-    },
-    {
-      "epoch": 0.37726315789473686,
-      "grad_norm": 1.8443028926849365,
-      "learning_rate": 0.0003115736998113716,
-      "loss": 7.2435,
-      "step": 11200
-    },
-    {
-      "epoch": 0.384,
-      "grad_norm": 3.558148145675659,
-      "learning_rate": 0.0003082053354890865,
-      "loss": 7.2501,
-      "step": 11400
-    },
-    {
-      "epoch": 0.39073684210526316,
-      "grad_norm": 3.3841934204101562,
-      "learning_rate": 0.00030483697116680144,
-      "loss": 7.275,
-      "step": 11600
-    },
-    {
-      "epoch": 0.3974736842105263,
-      "grad_norm": 13.780865669250488,
-      "learning_rate": 0.0003014686068445163,
-      "loss": 7.2607,
-      "step": 11800
-    },
-    {
-      "epoch": 0.40421052631578946,
-      "grad_norm": 3.4634478092193604,
-      "learning_rate": 0.00029810024252223123,
-      "loss": 7.2695,
-      "step": 12000
-    },
-    {
-      "epoch": 0.40421052631578946,
-      "eval_chrf": 0.0018869151022955536,
-      "eval_loss": 7.95875358581543,
-      "eval_runtime": 207.586,
-      "eval_samples_per_second": 9.635,
-      "eval_steps_per_second": 0.602,
-      "step": 12000
-    },
-    {
-      "epoch": 0.4109473684210526,
-      "grad_norm": 13.57261848449707,
-      "learning_rate": 0.00029474872002155757,
-      "loss": 7.235,
-      "step": 12200
-    },
-    {
-      "epoch": 0.41768421052631577,
-      "grad_norm": 33.69303512573242,
-      "learning_rate": 0.00029138035569927244,
-      "loss": 7.2566,
-      "step": 12400
-    },
-    {
-      "epoch": 0.4244210526315789,
-      "grad_norm": 4.82642936706543,
-      "learning_rate": 0.00028801199137698736,
-      "loss": 7.2449,
-      "step": 12600
-    },
-    {
-      "epoch": 0.43115789473684213,
-      "grad_norm": 4.952188014984131,
-      "learning_rate": 0.0002846436270547023,
-      "loss": 7.256,
-      "step": 12800
-    },
-    {
-      "epoch": 0.4378947368421053,
-      "grad_norm": 9.873923301696777,
-      "learning_rate": 0.0002812921045540286,
-      "loss": 7.2354,
-      "step": 13000
-    },
-    {
-      "epoch": 0.4378947368421053,
-      "eval_chrf": 0.0038042034767471226,
-      "eval_loss": 7.933071613311768,
-      "eval_runtime": 206.7339,
-      "eval_samples_per_second": 9.674,
-      "eval_steps_per_second": 0.605,
-      "step": 13000
-    },
-    {
-      "epoch": 0.44463157894736843,
-      "grad_norm": 5.142228603363037,
-      "learning_rate": 0.00027794058205335485,
-      "loss": 7.2259,
-      "step": 13200
-    },
-    {
-      "epoch": 0.4513684210526316,
-      "grad_norm": 2.419574499130249,
-      "learning_rate": 0.00027457221773106977,
-      "loss": 7.2377,
-      "step": 13400
-    },
-    {
-      "epoch": 0.45810526315789474,
-      "grad_norm": 7.151025295257568,
-      "learning_rate": 0.0002712038534087847,
-      "loss": 7.2411,
-      "step": 13600
-    },
-    {
-      "epoch": 0.4648421052631579,
-      "grad_norm": 3.4384608268737793,
-      "learning_rate": 0.0002678354890864996,
-      "loss": 7.2342,
-      "step": 13800
-    },
-    {
-      "epoch": 0.47157894736842104,
-      "grad_norm": 16.630428314208984,
-      "learning_rate": 0.0002644839665858259,
-      "loss": 7.2102,
-      "step": 14000
-    },
-    {
-      "epoch": 0.47157894736842104,
-      "eval_chrf": 0.0,
-      "eval_loss": 7.95149040222168,
-      "eval_runtime": 207.8298,
-      "eval_samples_per_second": 9.623,
-      "eval_steps_per_second": 0.601,
-      "step": 14000
-    },
-    {
-      "epoch": 0.4783157894736842,
-      "grad_norm": 92.76679992675781,
-      "learning_rate": 0.0002611156022635408,
-      "loss": 7.2328,
-      "step": 14200
-    },
-    {
-      "epoch": 0.48505263157894735,
-      "grad_norm": 4.76525354385376,
-      "learning_rate": 0.0002577472379412557,
-      "loss": 7.2187,
-      "step": 14400
-    },
-    {
-      "epoch": 0.4917894736842105,
-      "grad_norm": 21.399099349975586,
-      "learning_rate": 0.00025439571544058203,
-      "loss": 7.2287,
-      "step": 14600
-    },
-    {
-      "epoch": 0.4985263157894737,
-      "grad_norm": 52.742637634277344,
-      "learning_rate": 0.00025102735111829695,
-      "loss": 7.2321,
-      "step": 14800
-    },
-    {
-      "epoch": 0.5052631578947369,
-      "grad_norm": 52.75876235961914,
-      "learning_rate": 0.00024765898679601187,
-      "loss": 7.1982,
-      "step": 15000
-    },
-    {
-      "epoch": 0.5052631578947369,
-      "eval_chrf": 0.08103163954254806,
-      "eval_loss": 7.952453136444092,
-      "eval_runtime": 208.516,
-      "eval_samples_per_second": 9.592,
-      "eval_steps_per_second": 0.599,
-      "step": 15000
-    },
-    {
-      "epoch": 0.512,
-      "grad_norm": 458.2991027832031,
-      "learning_rate": 0.0002442906224737268,
-      "loss": 7.2178,
-      "step": 15200
-    },
-    {
-      "epoch": 0.5187368421052632,
-      "grad_norm": 18.82977867126465,
-      "learning_rate": 0.00024092225815144168,
-      "loss": 7.2092,
-      "step": 15400
-    },
-    {
-      "epoch": 0.5254736842105263,
-      "grad_norm": 7.6946892738342285,
-      "learning_rate": 0.00023755389382915657,
-      "loss": 7.1814,
-      "step": 15600
-    },
-    {
-      "epoch": 0.5322105263157895,
-      "grad_norm": 75.808837890625,
-      "learning_rate": 0.00023418552950687146,
-      "loss": 7.198,
-      "step": 15800
-    },
-    {
-      "epoch": 0.5389473684210526,
-      "grad_norm": 6.179436683654785,
-      "learning_rate": 0.00023081716518458638,
-      "loss": 7.2108,
-      "step": 16000
-    },
-    {
-      "epoch": 0.5389473684210526,
-      "eval_chrf": 0.003132385941953158,
-      "eval_loss": 7.934022426605225,
-      "eval_runtime": 208.7048,
-      "eval_samples_per_second": 9.583,
-      "eval_steps_per_second": 0.599,
-      "step": 16000
-    },
-    {
-      "epoch": 0.5456842105263158,
-      "grad_norm": 11.434579849243164,
-      "learning_rate": 0.00022744880086230128,
-      "loss": 7.2084,
-      "step": 16200
-    },
-    {
-      "epoch": 0.5524210526315789,
-      "grad_norm": 8.820486068725586,
-      "learning_rate": 0.00022408043654001617,
-      "loss": 7.2035,
-      "step": 16400
-    },
-    {
-      "epoch": 0.5591578947368421,
-      "grad_norm": 152.7312469482422,
-      "learning_rate": 0.00022071207221773106,
-      "loss": 7.1938,
-      "step": 16600
-    },
-    {
-      "epoch": 0.5658947368421052,
-      "grad_norm": 25.932987213134766,
-      "learning_rate": 0.00021734370789544598,
-      "loss": 7.1847,
-      "step": 16800
-    },
-    {
-      "epoch": 0.5726315789473684,
-      "grad_norm": 2.2950472831726074,
-      "learning_rate": 0.00021397534357316087,
-      "loss": 7.1826,
-      "step": 17000
-    },
-    {
-      "epoch": 0.5726315789473684,
-      "eval_chrf": 0.0019444598388038512,
-      "eval_loss": 7.9318037033081055,
-      "eval_runtime": 209.2532,
-      "eval_samples_per_second": 9.558,
-      "eval_steps_per_second": 0.597,
-      "step": 17000
-    },
-    {
-      "epoch": 0.5793684210526315,
-      "grad_norm": 2.543137788772583,
-      "learning_rate": 0.00021060697925087576,
-      "loss": 7.2089,
-      "step": 17200
-    },
-    {
-      "epoch": 0.5861052631578947,
-      "grad_norm": 2.32310152053833,
-      "learning_rate": 0.0002072554567502021,
-      "loss": 7.1882,
-      "step": 17400
-    },
-    {
-      "epoch": 0.592842105263158,
-      "grad_norm": 4.159054279327393,
-      "learning_rate": 0.000203887092427917,
-      "loss": 7.1915,
-      "step": 17600
-    },
-    {
-      "epoch": 0.5995789473684211,
-      "grad_norm": 2.6347360610961914,
-      "learning_rate": 0.0002005187281056319,
-      "loss": 7.1964,
-      "step": 17800
-    },
-    {
-      "epoch": 0.6063157894736843,
-      "grad_norm": 30.20026969909668,
-      "learning_rate": 0.0001971503637833468,
-      "loss": 7.1968,
-      "step": 18000
-    },
-    {
-      "epoch": 0.6063157894736843,
-      "eval_chrf": 0.004562467509283169,
-      "eval_loss": 7.917642593383789,
-      "eval_runtime": 205.2953,
-      "eval_samples_per_second": 9.742,
-      "eval_steps_per_second": 0.609,
-      "step": 18000
-    },
-    {
-      "epoch": 0.6130526315789474,
-      "grad_norm": 14.687439918518066,
-      "learning_rate": 0.0001937819994610617,
-      "loss": 7.164,
-      "step": 18200
-    },
-    {
-      "epoch": 0.6197894736842106,
-      "grad_norm": 2.020901918411255,
-      "learning_rate": 0.0001904136351387766,
-      "loss": 7.1797,
-      "step": 18400
-    },
-    {
-      "epoch": 0.6265263157894737,
-      "grad_norm": 3.653233051300049,
-      "learning_rate": 0.00018704527081649152,
-      "loss": 7.1938,
-      "step": 18600
-    },
-    {
-      "epoch": 0.6332631578947369,
-      "grad_norm": 3.1946516036987305,
-      "learning_rate": 0.00018367690649420643,
-      "loss": 7.1726,
-      "step": 18800
-    },
-    {
-      "epoch": 0.64,
-      "grad_norm": 7.460574150085449,
-      "learning_rate": 0.00018030854217192133,
-      "loss": 7.1489,
-      "step": 19000
-    },
-    {
-      "epoch": 0.64,
-      "eval_chrf": 0.006730491793968211,
-      "eval_loss": 7.91720724105835,
-      "eval_runtime": 206.4462,
-      "eval_samples_per_second": 9.688,
-      "eval_steps_per_second": 0.605,
-      "step": 19000
-    },
-    {
-      "epoch": 0.6467368421052632,
-      "grad_norm": 3.547877311706543,
-      "learning_rate": 0.00017694017784963622,
-      "loss": 7.1717,
-      "step": 19200
-    },
-    {
-      "epoch": 0.6534736842105263,
-      "grad_norm": 6.870595932006836,
-      "learning_rate": 0.00017357181352735114,
-      "loss": 7.1649,
-      "step": 19400
-    },
-    {
-      "epoch": 0.6602105263157895,
-      "grad_norm": 30.911413192749023,
-      "learning_rate": 0.00017020344920506603,
-      "loss": 7.1932,
-      "step": 19600
-    },
-    {
-      "epoch": 0.6669473684210526,
-      "grad_norm": 27.14822769165039,
-      "learning_rate": 0.00016683508488278092,
-      "loss": 7.1748,
-      "step": 19800
-    },
-    {
-      "epoch": 0.6736842105263158,
-      "grad_norm": 6.460318565368652,
-      "learning_rate": 0.00016346672056049584,
-      "loss": 7.1696,
-      "step": 20000
-    },
-    {
-      "epoch": 0.6736842105263158,
-      "eval_chrf": 0.0110937211817252,
-      "eval_loss": 7.917947292327881,
-      "eval_runtime": 205.7528,
-      "eval_samples_per_second": 9.72,
-      "eval_steps_per_second": 0.608,
-      "step": 20000
-    },
-    {
-      "epoch": 0.6804210526315789,
-      "grad_norm": 27.423723220825195,
-      "learning_rate": 0.00016009835623821074,
-      "loss": 7.1587,
-      "step": 20200
-    },
-    {
-      "epoch": 0.6871578947368421,
-      "grad_norm": 36.06264114379883,
-      "learning_rate": 0.00015672999191592563,
-      "loss": 7.162,
-      "step": 20400
-    },
-    {
-      "epoch": 0.6938947368421052,
-      "grad_norm": 21.235185623168945,
-      "learning_rate": 0.00015336162759364052,
-      "loss": 7.1682,
-      "step": 20600
-    },
-    {
-      "epoch": 0.7006315789473684,
-      "grad_norm": 63.7025032043457,
-      "learning_rate": 0.00014999326327135544,
-      "loss": 7.1485,
-      "step": 20800
-    },
-    {
-      "epoch": 0.7073684210526315,
-      "grad_norm": 24.675535202026367,
-      "learning_rate": 0.00014662489894907033,
-      "loss": 7.1642,
-      "step": 21000
-    },
-    {
-      "epoch": 0.7073684210526315,
-      "eval_chrf": 0.001302284516081954,
-      "eval_loss": 7.913628101348877,
-      "eval_runtime": 206.9451,
-      "eval_samples_per_second": 9.664,
-      "eval_steps_per_second": 0.604,
-      "step": 21000
-    },
-    {
-      "epoch": 0.7141052631578947,
-      "grad_norm": 8.021008491516113,
-      "learning_rate": 0.00014325653462678522,
-      "loss": 7.1759,
-      "step": 21200
-    },
-    {
-      "epoch": 0.7208421052631578,
-      "grad_norm": 7.012975215911865,
-      "learning_rate": 0.00013988817030450012,
-      "loss": 7.1351,
-      "step": 21400
-    },
-    {
-      "epoch": 0.7275789473684211,
-      "grad_norm": 10.689805030822754,
-      "learning_rate": 0.00013651980598221504,
-      "loss": 7.1471,
-      "step": 21600
-    },
-    {
-      "epoch": 0.7343157894736843,
-      "grad_norm": 5.859151840209961,
-      "learning_rate": 0.00013315144165992993,
-      "loss": 7.1629,
-      "step": 21800
-    },
-    {
-      "epoch": 0.7410526315789474,
-      "grad_norm": 7.223715782165527,
-      "learning_rate": 0.00012978307733764485,
-      "loss": 7.1661,
-      "step": 22000
-    },
-    {
-      "epoch": 0.7410526315789474,
-      "eval_chrf": 0.0011799654844890197,
-      "eval_loss": 7.905208110809326,
-      "eval_runtime": 207.646,
-      "eval_samples_per_second": 9.632,
-      "eval_steps_per_second": 0.602,
-      "step": 22000
-    },
-    {
-      "epoch": 0.7477894736842106,
-      "grad_norm": 9.268714904785156,
-      "learning_rate": 0.00012641471301535977,
-      "loss": 7.157,
-      "step": 22200
-    },
-    {
-      "epoch": 0.7545263157894737,
-      "grad_norm": 12.853730201721191,
-      "learning_rate": 0.00012304634869307463,
-      "loss": 7.149,
-      "step": 22400
-    },
-    {
-      "epoch": 0.7612631578947369,
-      "grad_norm": 17.167985916137695,
-      "learning_rate": 0.00011967798437078954,
-      "loss": 7.1557,
-      "step": 22600
-    },
-    {
-      "epoch": 0.768,
-      "grad_norm": 2.593167543411255,
-      "learning_rate": 0.00011630962004850446,
-      "loss": 7.1546,
-      "step": 22800
-    },
-    {
-      "epoch": 0.7747368421052632,
-      "grad_norm": 14.160483360290527,
-      "learning_rate": 0.00011294125572621935,
-      "loss": 7.1355,
-      "step": 23000
-    },
-    {
-      "epoch": 0.7747368421052632,
-      "eval_chrf": 0.0041122119540037425,
-      "eval_loss": 7.90371561050415,
-      "eval_runtime": 207.9982,
-      "eval_samples_per_second": 9.615,
-      "eval_steps_per_second": 0.601,
-      "step": 23000
-    },
-    {
-      "epoch": 0.7814736842105263,
-      "grad_norm": 10556.6650390625,
-      "learning_rate": 0.00010957289140393426,
-      "loss": 7.1865,
-      "step": 23200
-    },
-    {
-      "epoch": 0.7882105263157895,
-      "grad_norm": 4.445006847381592,
-      "learning_rate": 0.00010620452708164916,
-      "loss": 7.1488,
-      "step": 23400
-    },
-    {
-      "epoch": 0.7949473684210526,
-      "grad_norm": 85.52156829833984,
-      "learning_rate": 0.00010283616275936405,
-      "loss": 7.1588,
-      "step": 23600
-    },
-    {
-      "epoch": 0.8016842105263158,
-      "grad_norm": 6.259866714477539,
-      "learning_rate": 9.946779843707896e-05,
-      "loss": 7.1447,
-      "step": 23800
-    },
-    {
-      "epoch": 0.8084210526315789,
-      "grad_norm": 224.35865783691406,
-      "learning_rate": 9.609943411479385e-05,
-      "loss": 7.129,
-      "step": 24000
-    },
-    {
-      "epoch": 0.8084210526315789,
-      "eval_chrf": 0.0,
-      "eval_loss": 7.911408424377441,
-      "eval_runtime": 207.0244,
-      "eval_samples_per_second": 9.661,
-      "eval_steps_per_second": 0.604,
-      "step": 24000
-    },
-    {
-      "epoch": 0.8151578947368421,
-      "grad_norm": 23.08391571044922,
-      "learning_rate": 9.273106979250876e-05,
-      "loss": 7.1423,
-      "step": 24200
-    },
-    {
-      "epoch": 0.8218947368421052,
-      "grad_norm": 245.7853546142578,
-      "learning_rate": 8.937954729183509e-05,
-      "loss": 7.1328,
-      "step": 24400
-    },
-    {
-      "epoch": 0.8286315789473684,
-      "grad_norm": 15.29963493347168,
-      "learning_rate": 8.601118296954999e-05,
-      "loss": 7.129,
-      "step": 24600
-    },
-    {
-      "epoch": 0.8353684210526315,
-      "grad_norm": 2.8458406925201416,
-      "learning_rate": 8.264281864726489e-05,
-      "loss": 7.1198,
-      "step": 24800
-    },
-    {
-      "epoch": 0.8421052631578947,
-      "grad_norm": 13.018074035644531,
-      "learning_rate": 7.927445432497979e-05,
-      "loss": 7.1327,
-      "step": 25000
-    },
-    {
-      "epoch": 0.8421052631578947,
-      "eval_chrf": 0.013941249868227827,
-      "eval_loss": 7.8870368003845215,
-      "eval_runtime": 207.43,
-      "eval_samples_per_second": 9.642,
-      "eval_steps_per_second": 0.603,
-      "step": 25000
-    },
-    {
-      "epoch": 0.8488421052631578,
-      "grad_norm": 5.2148823738098145,
-      "learning_rate": 7.590609000269468e-05,
-      "loss": 7.1452,
-      "step": 25200
-    },
-    {
-      "epoch": 0.8555789473684211,
-      "grad_norm": 19.233739852905273,
-      "learning_rate": 7.253772568040959e-05,
-      "loss": 7.1447,
-      "step": 25400
-    },
-    {
-      "epoch": 0.8623157894736843,
-      "grad_norm": 14.095065116882324,
-      "learning_rate": 6.916936135812451e-05,
-      "loss": 7.1247,
-      "step": 25600
-    },
-    {
-      "epoch": 0.8690526315789474,
-      "grad_norm": 7.621742248535156,
-      "learning_rate": 6.58009970358394e-05,
-      "loss": 7.1332,
-      "step": 25800
-    },
-    {
-      "epoch": 0.8757894736842106,
-      "grad_norm": 29.361238479614258,
-      "learning_rate": 6.243263271355431e-05,
-      "loss": 7.1217,
-      "step": 26000
-    },
-    {
-      "epoch": 0.8757894736842106,
-      "eval_chrf": 0.014676119312534507,
-      "eval_loss": 7.898392200469971,
-      "eval_runtime": 209.4371,
-      "eval_samples_per_second": 9.549,
-      "eval_steps_per_second": 0.597,
-      "step": 26000
-    },
-    {
-      "epoch": 0.8825263157894737,
-      "grad_norm": 5.2996015548706055,
-      "learning_rate": 5.90642683912692e-05,
-      "loss": 7.1288,
-      "step": 26200
-    },
-    {
-      "epoch": 0.8892631578947369,
-      "grad_norm": 11.741786003112793,
-      "learning_rate": 5.56959040689841e-05,
-      "loss": 7.1358,
-      "step": 26400
-    },
-    {
-      "epoch": 0.896,
-      "grad_norm": 11.052619934082031,
-      "learning_rate": 5.2327539746699005e-05,
-      "loss": 7.1089,
-      "step": 26600
-    },
-    {
-      "epoch": 0.9027368421052632,
-      "grad_norm": 43.7511100769043,
-      "learning_rate": 4.895917542441391e-05,
-      "loss": 7.1314,
-      "step": 26800
-    },
-    {
-      "epoch": 0.9094736842105263,
-      "grad_norm": 3.492421865463257,
-      "learning_rate": 4.559081110212881e-05,
-      "loss": 7.1272,
-      "step": 27000
-    },
-    {
-      "epoch": 0.9094736842105263,
-      "eval_chrf": 0.016404275037183086,
-      "eval_loss": 7.888070106506348,
-      "eval_runtime": 208.0677,
-      "eval_samples_per_second": 9.612,
-      "eval_steps_per_second": 0.601,
-      "step": 27000
-    },
-    {
-      "epoch": 0.9162105263157895,
-      "grad_norm": 4.310942649841309,
-      "learning_rate": 4.222244677984371e-05,
-      "loss": 7.1517,
-      "step": 27200
-    },
-    {
-      "epoch": 0.9229473684210526,
-      "grad_norm": 2.516460657119751,
-      "learning_rate": 3.885408245755861e-05,
-      "loss": 7.1274,
-      "step": 27400
-    },
-    {
-      "epoch": 0.9296842105263158,
-      "grad_norm": 16.778484344482422,
-      "learning_rate": 3.5485718135273514e-05,
-      "loss": 7.1142,
-      "step": 27600
-    },
-    {
-      "epoch": 0.9364210526315789,
-      "grad_norm": 12.279007911682129,
-      "learning_rate": 3.211735381298841e-05,
-      "loss": 7.1103,
-      "step": 27800
-    },
-    {
-      "epoch": 0.9431578947368421,
-      "grad_norm": 17.17557716369629,
-      "learning_rate": 2.876583131231474e-05,
-      "loss": 7.1172,
-      "step": 28000
-    },
-    {
-      "epoch": 0.9431578947368421,
-      "eval_chrf": 0.011932768282003571,
-      "eval_loss": 7.885815143585205,
-      "eval_runtime": 206.9267,
-      "eval_samples_per_second": 9.665,
-      "eval_steps_per_second": 0.604,
-      "step": 28000
-    },
-    {
-      "epoch": 0.9498947368421052,
-      "grad_norm": 10.02868366241455,
-      "learning_rate": 2.5414308811641068e-05,
-      "loss": 7.125,
-      "step": 28200
-    },
-    {
-      "epoch": 0.9566315789473684,
-      "grad_norm": 62.310943603515625,
-      "learning_rate": 2.204594448935597e-05,
-      "loss": 7.129,
-      "step": 28400
-    },
-    {
-      "epoch": 0.9633684210526315,
-      "grad_norm": 15.6820068359375,
-      "learning_rate": 1.867758016707087e-05,
-      "loss": 7.1403,
-      "step": 28600
-    },
-    {
-      "epoch": 0.9701052631578947,
-      "grad_norm": 29.801271438598633,
-      "learning_rate": 1.5309215844785772e-05,
-      "loss": 7.1221,
-      "step": 28800
-    },
-    {
-      "epoch": 0.9768421052631578,
-      "grad_norm": 10.878236770629883,
-      "learning_rate": 1.1940851522500673e-05,
-      "loss": 7.117,
-      "step": 29000
-    },
-    {
-      "epoch": 0.9768421052631578,
-      "eval_chrf": 0.007758678698519381,
-      "eval_loss": 7.882614612579346,
-      "eval_runtime": 206.9708,
-      "eval_samples_per_second": 9.663,
-      "eval_steps_per_second": 0.604,
-      "step": 29000
-    },
-    {
-      "epoch": 0.983578947368421,
-      "grad_norm": 12.309194564819336,
-      "learning_rate": 8.572487200215576e-06,
-      "loss": 7.1325,
-      "step": 29200
-    },
-    {
-      "epoch": 0.9903157894736843,
-      "grad_norm": 9.50011920928955,
-      "learning_rate": 5.204122877930477e-06,
-      "loss": 7.1155,
-      "step": 29400
-    },
-    {
-      "epoch": 0.9970526315789474,
-      "grad_norm": 10.140064239501953,
-      "learning_rate": 1.8357585556453785e-06,
-      "loss": 7.1061,
-      "step": 29600
-    }
-  ],
-  "logging_steps": 200,
-  "max_steps": 29688,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
-  "save_steps": 1000,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 1.1855167823020032e+16,
-  "train_batch_size": 16,
-  "trial_name": null,
-  "trial_params": null
-}

custom_t5_enzh/checkpoint-29688/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:add135644272834a16fd6d191289d331be161e3f79fee156a1d67d95b81a509d
-size 5432