Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

README.md +1 -1
adapter_config.json +2 -4
adapter_model.safetensors +1 -1
checkpoint-14145/README.md +1 -1
checkpoint-14145/adapter_config.json +2 -4
checkpoint-14145/adapter_model.safetensors +1 -1
checkpoint-14145/optimizer.pt +1 -1
checkpoint-14145/scaler.pt +1 -1
checkpoint-14145/scheduler.pt +1 -1
checkpoint-14145/trainer_state.json +893 -878
checkpoint-14145/training_args.bin +1 -1

README.md CHANGED Viewed

@@ -199,4 +199,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 [More Information Needed]
 ### Framework versions
-- PEFT 0.15.2

 [More Information Needed]
 ### Framework versions
+- PEFT 0.14.0

adapter_config.json CHANGED Viewed

@@ -3,19 +3,18 @@
   "auto_mapping": null,
   "base_model_name_or_path": "Salesforce/codet5-base",
   "bias": "none",
-  "corda_config": null,
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
   "inference_mode": true,
-  "init_lora_weights": true,
   "layer_replication": null,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 16,
   "lora_bias": false,
-  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -28,7 +27,6 @@
     "v"
   ],
   "task_type": "SEQ_2_SEQ_LM",
-  "trainable_token_indices": null,
   "use_dora": false,
   "use_rslora": false
 }

   "auto_mapping": null,
   "base_model_name_or_path": "Salesforce/codet5-base",
   "bias": "none",
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
   "inference_mode": true,
+  "init_lora_weights": "gaussian",
   "layer_replication": null,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 16,
   "lora_bias": false,
+  "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
     "v"
   ],
   "task_type": "SEQ_2_SEQ_LM",
   "use_dora": false,
   "use_rslora": false
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc6a6711d2467cf8cc0d624e48bbe0ad9250fa2646d0816d7c83796afe2c35d7
 size 3558888

 version https://git-lfs.github.com/spec/v1
+oid sha256:1280f7f2b208c156d2a4a277a7a1a7316c93f88988b5c754c16059bf2e0f289c
 size 3558888

checkpoint-14145/README.md CHANGED Viewed

@@ -199,4 +199,4 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 [More Information Needed]
 ### Framework versions
-- PEFT 0.15.2

 [More Information Needed]
 ### Framework versions
+- PEFT 0.14.0

checkpoint-14145/adapter_config.json CHANGED Viewed

@@ -3,19 +3,18 @@
   "auto_mapping": null,
   "base_model_name_or_path": "Salesforce/codet5-base",
   "bias": "none",
-  "corda_config": null,
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
   "inference_mode": true,
-  "init_lora_weights": true,
   "layer_replication": null,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 16,
   "lora_bias": false,
-  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
@@ -28,7 +27,6 @@
     "v"
   ],
   "task_type": "SEQ_2_SEQ_LM",
-  "trainable_token_indices": null,
   "use_dora": false,
   "use_rslora": false
 }

   "auto_mapping": null,
   "base_model_name_or_path": "Salesforce/codet5-base",
   "bias": "none",
   "eva_config": null,
   "exclude_modules": null,
   "fan_in_fan_out": false,
   "inference_mode": true,
+  "init_lora_weights": "gaussian",
   "layer_replication": null,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 16,
   "lora_bias": false,
+  "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
     "v"
   ],
   "task_type": "SEQ_2_SEQ_LM",
   "use_dora": false,
   "use_rslora": false
 }

checkpoint-14145/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc6a6711d2467cf8cc0d624e48bbe0ad9250fa2646d0816d7c83796afe2c35d7
 size 3558888

 version https://git-lfs.github.com/spec/v1
+oid sha256:1280f7f2b208c156d2a4a277a7a1a7316c93f88988b5c754c16059bf2e0f289c
 size 3558888

checkpoint-14145/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53ddcb136257f96c53597b9ba32ee00c9c8be3408fecbfc3a03475b4df41d500
 size 7198906

 version https://git-lfs.github.com/spec/v1
+oid sha256:03e73f5f4a50e8492ca23abad4e74c002d3e1fe0681df8ea443c93e46d7d8cd0
 size 7198906

checkpoint-14145/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f5b751b47b6cccbdd2c32abdde3d32c796c18aaf5c957da0ab861aefc469561
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:551d95fa01a350d649318071ec6c30c9643b1415452525afe82187c8c159941c
 size 988

checkpoint-14145/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb9c7879fbb6caacd2e719a636a3b1cb107ccb95a6e44e69d0bbc3b31d131786
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:898d0d2ace2142f45ba707687d167a2ef3ebdcb03bdca2695993e6fe1235bc54
 size 1064

checkpoint-14145/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_global_step": 14145,
-  "best_metric": 0.9718361922106383,
-  "best_model_checkpoint": "./codet5-qlora-k8s/checkpoint-14145",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 14145,
@@ -11,2026 +11,2041 @@
   "log_history": [
     {
       "epoch": 0.017674089784376106,
-      "grad_norm": 1.1207759380340576,
-      "learning_rate": 0.00029898197242841994,
-      "loss": 3.2886,
       "step": 50
     },
     {
       "epoch": 0.03534817956875221,
-      "grad_norm": 1.2978123426437378,
-      "learning_rate": 0.0002979215270413573,
-      "loss": 1.8567,
       "step": 100
     },
     {
       "epoch": 0.053022269353128315,
-      "grad_norm": 1.624740719795227,
-      "learning_rate": 0.0002968610816542948,
-      "loss": 1.5695,
       "step": 150
     },
     {
       "epoch": 0.07069635913750442,
-      "grad_norm": 1.7711330652236938,
-      "learning_rate": 0.0002958006362672322,
-      "loss": 1.4205,
       "step": 200
     },
     {
       "epoch": 0.08837044892188052,
-      "grad_norm": 1.62517511844635,
-      "learning_rate": 0.0002947401908801697,
-      "loss": 1.2732,
       "step": 250
     },
     {
       "epoch": 0.10604453870625663,
-      "grad_norm": 2.038139820098877,
-      "learning_rate": 0.00029367974549310706,
-      "loss": 1.1913,
       "step": 300
     },
     {
       "epoch": 0.12371862849063273,
-      "grad_norm": 2.262789487838745,
-      "learning_rate": 0.00029264050901378576,
-      "loss": 1.117,
       "step": 350
     },
     {
       "epoch": 0.14139271827500885,
-      "grad_norm": 3.121687650680542,
-      "learning_rate": 0.0002915800636267232,
-      "loss": 1.0202,
       "step": 400
     },
     {
       "epoch": 0.15906680805938495,
-      "grad_norm": 2.0951812267303467,
-      "learning_rate": 0.0002905196182396606,
-      "loss": 0.9499,
       "step": 450
     },
     {
       "epoch": 0.17674089784376104,
-      "grad_norm": 2.670121192932129,
-      "learning_rate": 0.00028945917285259806,
-      "loss": 0.9707,
       "step": 500
     },
     {
       "epoch": 0.19441498762813716,
-      "grad_norm": 2.3631107807159424,
-      "learning_rate": 0.00028841993637327676,
-      "loss": 0.7961,
       "step": 550
     },
     {
       "epoch": 0.21208907741251326,
-      "grad_norm": 2.10772705078125,
-      "learning_rate": 0.0002873594909862142,
-      "loss": 0.8912,
       "step": 600
     },
     {
       "epoch": 0.22976316719688936,
-      "grad_norm": 2.360686779022217,
-      "learning_rate": 0.00028629904559915163,
-      "loss": 0.871,
       "step": 650
     },
     {
       "epoch": 0.24743725698126545,
-      "grad_norm": 2.191119432449341,
-      "learning_rate": 0.0002852598091198303,
-      "loss": 0.758,
       "step": 700
     },
     {
       "epoch": 0.2651113467656416,
-      "grad_norm": 1.7646818161010742,
-      "learning_rate": 0.00028419936373276776,
-      "loss": 0.8244,
       "step": 750
     },
     {
       "epoch": 0.2827854365500177,
-      "grad_norm": 2.3776354789733887,
-      "learning_rate": 0.00028313891834570514,
-      "loss": 0.7664,
       "step": 800
     },
     {
       "epoch": 0.30045952633439377,
-      "grad_norm": 2.8682475090026855,
-      "learning_rate": 0.00028207847295864263,
-      "loss": 0.6942,
       "step": 850
     },
     {
       "epoch": 0.3181336161187699,
-      "grad_norm": 2.353091239929199,
-      "learning_rate": 0.00028101802757158,
-      "loss": 0.7323,
       "step": 900
     },
     {
       "epoch": 0.335807705903146,
-      "grad_norm": 1.9457337856292725,
-      "learning_rate": 0.00027995758218451745,
-      "loss": 0.6474,
       "step": 950
     },
     {
       "epoch": 0.3534817956875221,
-      "grad_norm": 2.510075330734253,
-      "learning_rate": 0.00027889713679745494,
-      "loss": 0.6801,
       "step": 1000
     },
     {
       "epoch": 0.3711558854718982,
-      "grad_norm": 1.7497014999389648,
-      "learning_rate": 0.0002778366914103923,
-      "loss": 0.656,
       "step": 1050
     },
     {
       "epoch": 0.38882997525627433,
-      "grad_norm": 2.862682342529297,
-      "learning_rate": 0.0002767762460233298,
-      "loss": 0.6238,
       "step": 1100
     },
     {
       "epoch": 0.4065040650406504,
-      "grad_norm": 1.998961091041565,
-      "learning_rate": 0.0002757158006362672,
-      "loss": 0.6306,
       "step": 1150
     },
     {
       "epoch": 0.4241781548250265,
-      "grad_norm": 1.854942798614502,
-      "learning_rate": 0.0002746553552492047,
-      "loss": 0.5689,
       "step": 1200
     },
     {
       "epoch": 0.4418522446094026,
-      "grad_norm": 1.8994203805923462,
-      "learning_rate": 0.00027359490986214206,
-      "loss": 0.6595,
       "step": 1250
     },
     {
       "epoch": 0.4595263343937787,
-      "grad_norm": 1.6235908269882202,
-      "learning_rate": 0.0002725344644750795,
-      "loss": 0.5665,
       "step": 1300
     },
     {
       "epoch": 0.47720042417815484,
-      "grad_norm": 2.291989803314209,
-      "learning_rate": 0.00027147401908801693,
-      "loss": 0.5761,
       "step": 1350
     },
     {
       "epoch": 0.4948745139625309,
-      "grad_norm": 1.4632915258407593,
-      "learning_rate": 0.00027041357370095437,
-      "loss": 0.5171,
       "step": 1400
     },
     {
       "epoch": 0.512548603746907,
-      "grad_norm": 2.1687259674072266,
-      "learning_rate": 0.0002693531283138918,
-      "loss": 0.6183,
       "step": 1450
     },
     {
       "epoch": 0.5302226935312832,
-      "grad_norm": 1.734108805656433,
-      "learning_rate": 0.00026829268292682924,
-      "loss": 0.5411,
       "step": 1500
     },
     {
       "epoch": 0.5478967833156593,
-      "grad_norm": 1.3890644311904907,
-      "learning_rate": 0.00026723223753976667,
-      "loss": 0.5092,
       "step": 1550
     },
     {
       "epoch": 0.5655708731000354,
-      "grad_norm": 1.98700749874115,
-      "learning_rate": 0.0002661717921527041,
-      "loss": 0.4804,
       "step": 1600
     },
     {
       "epoch": 0.5832449628844114,
-      "grad_norm": 1.1181468963623047,
-      "learning_rate": 0.00026511134676564154,
-      "loss": 0.5148,
       "step": 1650
     },
     {
       "epoch": 0.6009190526687875,
-      "grad_norm": 1.7994420528411865,
-      "learning_rate": 0.000264050901378579,
-      "loss": 0.4231,
       "step": 1700
     },
     {
       "epoch": 0.6185931424531637,
-      "grad_norm": 2.032198667526245,
-      "learning_rate": 0.0002629904559915164,
-      "loss": 0.5106,
       "step": 1750
     },
     {
       "epoch": 0.6362672322375398,
-      "grad_norm": 3.585948944091797,
-      "learning_rate": 0.00026193001060445385,
-      "loss": 0.4717,
       "step": 1800
     },
     {
       "epoch": 0.6539413220219159,
-      "grad_norm": 1.8610371351242065,
-      "learning_rate": 0.0002608695652173913,
-      "loss": 0.4765,
       "step": 1850
     },
     {
       "epoch": 0.671615411806292,
-      "grad_norm": 1.2324624061584473,
-      "learning_rate": 0.0002598091198303287,
-      "loss": 0.4643,
       "step": 1900
     },
     {
       "epoch": 0.689289501590668,
-      "grad_norm": 2.391714572906494,
-      "learning_rate": 0.00025874867444326615,
-      "loss": 0.4512,
       "step": 1950
     },
     {
       "epoch": 0.7069635913750442,
-      "grad_norm": 1.8863242864608765,
-      "learning_rate": 0.0002576882290562036,
-      "loss": 0.4115,
       "step": 2000
     },
     {
       "epoch": 0.7246376811594203,
-      "grad_norm": 0.7850649356842041,
-      "learning_rate": 0.000256627783669141,
-      "loss": 0.4341,
       "step": 2050
     },
     {
       "epoch": 0.7423117709437964,
-      "grad_norm": 1.5869959592819214,
-      "learning_rate": 0.00025556733828207846,
-      "loss": 0.4172,
       "step": 2100
     },
     {
       "epoch": 0.7599858607281725,
-      "grad_norm": 1.2584971189498901,
-      "learning_rate": 0.0002545068928950159,
-      "loss": 0.4384,
       "step": 2150
     },
     {
       "epoch": 0.7776599505125487,
-      "grad_norm": 2.560710906982422,
-      "learning_rate": 0.00025344644750795333,
-      "loss": 0.4558,
       "step": 2200
     },
     {
       "epoch": 0.7953340402969247,
-      "grad_norm": 2.2893359661102295,
-      "learning_rate": 0.00025238600212089076,
-      "loss": 0.4345,
       "step": 2250
     },
     {
       "epoch": 0.8130081300813008,
-      "grad_norm": 1.5244982242584229,
-      "learning_rate": 0.0002513255567338282,
-      "loss": 0.4071,
       "step": 2300
     },
     {
       "epoch": 0.8306822198656769,
-      "grad_norm": 1.384102463722229,
-      "learning_rate": 0.00025026511134676563,
-      "loss": 0.3612,
       "step": 2350
     },
     {
       "epoch": 0.848356309650053,
-      "grad_norm": 1.3080965280532837,
-      "learning_rate": 0.00024920466595970307,
-      "loss": 0.3556,
       "step": 2400
     },
     {
       "epoch": 0.8660303994344292,
-      "grad_norm": 1.3324400186538696,
-      "learning_rate": 0.00024814422057264045,
-      "loss": 0.3985,
       "step": 2450
     },
     {
       "epoch": 0.8837044892188052,
-      "grad_norm": 1.7705445289611816,
-      "learning_rate": 0.00024708377518557794,
-      "loss": 0.3895,
       "step": 2500
     },
     {
       "epoch": 0.9013785790031813,
-      "grad_norm": 1.352480173110962,
-      "learning_rate": 0.0002460233297985153,
-      "loss": 0.426,
       "step": 2550
     },
     {
       "epoch": 0.9190526687875574,
-      "grad_norm": 1.479979157447815,
-      "learning_rate": 0.0002449628844114528,
-      "loss": 0.4057,
       "step": 2600
     },
     {
       "epoch": 0.9367267585719335,
-      "grad_norm": 2.1380653381347656,
-      "learning_rate": 0.00024390243902439022,
-      "loss": 0.3689,
       "step": 2650
     },
     {
       "epoch": 0.9544008483563097,
-      "grad_norm": 1.9099682569503784,
-      "learning_rate": 0.00024284199363732768,
-      "loss": 0.3991,
       "step": 2700
     },
     {
       "epoch": 0.9720749381406858,
-      "grad_norm": 1.399566411972046,
-      "learning_rate": 0.0002417815482502651,
-      "loss": 0.3412,
       "step": 2750
     },
     {
       "epoch": 0.9897490279250618,
-      "grad_norm": 2.508267879486084,
-      "learning_rate": 0.00024072110286320252,
-      "loss": 0.3828,
       "step": 2800
     },
     {
       "epoch": 1.0,
-      "eval_bertscore_f1": 0.9667777874331811,
-      "eval_bleu": 0.5973566262792636,
-      "eval_loss": 0.27053505182266235,
-      "eval_runtime": 1054.1237,
-      "eval_samples_per_second": 6.132,
-      "eval_steps_per_second": 0.767,
       "step": 2829
     },
     {
       "epoch": 1.007423117709438,
-      "grad_norm": 1.6967344284057617,
-      "learning_rate": 0.00023966065747613996,
-      "loss": 0.3787,
       "step": 2850
     },
     {
       "epoch": 1.025097207493814,
-      "grad_norm": 1.7119196653366089,
-      "learning_rate": 0.0002386002120890774,
-      "loss": 0.3507,
       "step": 2900
     },
     {
       "epoch": 1.0427712972781902,
-      "grad_norm": 1.5456138849258423,
-      "learning_rate": 0.00023753976670201483,
-      "loss": 0.333,
       "step": 2950
     },
     {
       "epoch": 1.0604453870625663,
-      "grad_norm": 1.3519443273544312,
-      "learning_rate": 0.00023647932131495226,
-      "loss": 0.3897,
       "step": 3000
     },
     {
       "epoch": 1.0781194768469424,
-      "grad_norm": 1.4092153310775757,
-      "learning_rate": 0.0002354188759278897,
-      "loss": 0.3069,
       "step": 3050
     },
     {
       "epoch": 1.0957935666313185,
-      "grad_norm": 1.67427659034729,
-      "learning_rate": 0.00023435843054082713,
-      "loss": 0.3876,
       "step": 3100
     },
     {
       "epoch": 1.1134676564156947,
-      "grad_norm": 0.9288003444671631,
-      "learning_rate": 0.00023329798515376457,
-      "loss": 0.3052,
       "step": 3150
     },
     {
       "epoch": 1.1311417462000706,
-      "grad_norm": 2.0493695735931396,
-      "learning_rate": 0.000232237539766702,
-      "loss": 0.3419,
       "step": 3200
     },
     {
       "epoch": 1.148815835984447,
-      "grad_norm": 1.3473105430603027,
-      "learning_rate": 0.0002311770943796394,
-      "loss": 0.351,
       "step": 3250
     },
     {
       "epoch": 1.1664899257688228,
-      "grad_norm": 2.2063777446746826,
-      "learning_rate": 0.00023011664899257687,
-      "loss": 0.3732,
       "step": 3300
     },
     {
       "epoch": 1.184164015553199,
-      "grad_norm": 0.7194732427597046,
-      "learning_rate": 0.00022905620360551428,
-      "loss": 0.3098,
       "step": 3350
     },
     {
       "epoch": 1.201838105337575,
-      "grad_norm": 1.8693958520889282,
-      "learning_rate": 0.00022799575821845174,
-      "loss": 0.3623,
       "step": 3400
     },
     {
       "epoch": 1.2195121951219512,
-      "grad_norm": 1.7452648878097534,
-      "learning_rate": 0.00022693531283138915,
-      "loss": 0.2985,
       "step": 3450
     },
     {
       "epoch": 1.2371862849063273,
-      "grad_norm": 2.7502336502075195,
-      "learning_rate": 0.00022587486744432661,
-      "loss": 0.2938,
       "step": 3500
     },
     {
       "epoch": 1.2548603746907034,
-      "grad_norm": 1.0220433473587036,
-      "learning_rate": 0.00022481442205726402,
-      "loss": 0.3263,
       "step": 3550
     },
     {
       "epoch": 1.2725344644750796,
-      "grad_norm": 1.1841455698013306,
-      "learning_rate": 0.00022375397667020146,
-      "loss": 0.3456,
       "step": 3600
     },
     {
       "epoch": 1.2902085542594557,
-      "grad_norm": 1.1220083236694336,
-      "learning_rate": 0.0002226935312831389,
-      "loss": 0.3749,
       "step": 3650
     },
     {
       "epoch": 1.3078826440438318,
-      "grad_norm": 2.557077646255493,
-      "learning_rate": 0.00022163308589607633,
-      "loss": 0.3479,
       "step": 3700
     },
     {
       "epoch": 1.3255567338282077,
-      "grad_norm": 1.672131061553955,
-      "learning_rate": 0.00022057264050901376,
-      "loss": 0.3371,
       "step": 3750
     },
     {
       "epoch": 1.343230823612584,
-      "grad_norm": 1.5530970096588135,
-      "learning_rate": 0.0002195121951219512,
-      "loss": 0.3062,
       "step": 3800
     },
     {
       "epoch": 1.36090491339696,
-      "grad_norm": 0.8587738871574402,
-      "learning_rate": 0.00021845174973488866,
-      "loss": 0.3458,
       "step": 3850
     },
     {
       "epoch": 1.378579003181336,
-      "grad_norm": 1.2779722213745117,
-      "learning_rate": 0.00021739130434782607,
-      "loss": 0.3582,
       "step": 3900
     },
     {
       "epoch": 1.3962530929657122,
-      "grad_norm": 1.7616783380508423,
-      "learning_rate": 0.00021633085896076348,
-      "loss": 0.2999,
       "step": 3950
     },
     {
       "epoch": 1.4139271827500883,
-      "grad_norm": 1.2923225164413452,
-      "learning_rate": 0.00021527041357370094,
-      "loss": 0.3079,
       "step": 4000
     },
     {
       "epoch": 1.4316012725344645,
-      "grad_norm": 0.7930673360824585,
-      "learning_rate": 0.00021420996818663835,
-      "loss": 0.2973,
       "step": 4050
     },
     {
       "epoch": 1.4492753623188406,
-      "grad_norm": 1.5622656345367432,
-      "learning_rate": 0.0002131495227995758,
-      "loss": 0.291,
       "step": 4100
     },
     {
       "epoch": 1.4669494521032167,
-      "grad_norm": 0.8834390640258789,
-      "learning_rate": 0.00021208907741251324,
-      "loss": 0.2691,
       "step": 4150
     },
     {
       "epoch": 1.4846235418875928,
-      "grad_norm": 1.2596232891082764,
-      "learning_rate": 0.00021102863202545068,
-      "loss": 0.247,
       "step": 4200
     },
     {
       "epoch": 1.502297631671969,
-      "grad_norm": 0.7010456323623657,
-      "learning_rate": 0.00020996818663838811,
-      "loss": 0.3019,
       "step": 4250
     },
     {
       "epoch": 1.5199717214563448,
-      "grad_norm": 1.071253776550293,
-      "learning_rate": 0.00020890774125132552,
-      "loss": 0.2447,
       "step": 4300
     },
     {
       "epoch": 1.5376458112407212,
-      "grad_norm": 0.63275545835495,
-      "learning_rate": 0.00020784729586426298,
-      "loss": 0.246,
       "step": 4350
     },
     {
       "epoch": 1.555319901025097,
-      "grad_norm": 1.0832668542861938,
-      "learning_rate": 0.0002067868504772004,
-      "loss": 0.249,
       "step": 4400
     },
     {
       "epoch": 1.5729939908094734,
-      "grad_norm": 1.0748353004455566,
-      "learning_rate": 0.00020572640509013785,
-      "loss": 0.2585,
       "step": 4450
     },
     {
       "epoch": 1.5906680805938493,
-      "grad_norm": 1.2410573959350586,
-      "learning_rate": 0.00020466595970307526,
-      "loss": 0.2821,
       "step": 4500
     },
     {
       "epoch": 1.6083421703782255,
-      "grad_norm": 1.8322285413742065,
-      "learning_rate": 0.00020360551431601272,
-      "loss": 0.2642,
       "step": 4550
     },
     {
       "epoch": 1.6260162601626016,
-      "grad_norm": 1.5231540203094482,
-      "learning_rate": 0.00020254506892895013,
-      "loss": 0.329,
       "step": 4600
     },
     {
       "epoch": 1.6436903499469777,
-      "grad_norm": 0.8996387124061584,
-      "learning_rate": 0.0002014846235418876,
-      "loss": 0.2822,
       "step": 4650
     },
     {
       "epoch": 1.6613644397313538,
-      "grad_norm": 1.107340693473816,
-      "learning_rate": 0.000200424178154825,
-      "loss": 0.2647,
       "step": 4700
     },
     {
       "epoch": 1.67903852951573,
-      "grad_norm": 1.44370698928833,
-      "learning_rate": 0.00019936373276776244,
-      "loss": 0.3281,
       "step": 4750
     },
     {
       "epoch": 1.696712619300106,
-      "grad_norm": 1.433866024017334,
-      "learning_rate": 0.00019830328738069987,
-      "loss": 0.2867,
       "step": 4800
     },
     {
       "epoch": 1.714386709084482,
-      "grad_norm": 0.7778879404067993,
-      "learning_rate": 0.0001972428419936373,
-      "loss": 0.2363,
       "step": 4850
     },
     {
       "epoch": 1.7320607988688583,
-      "grad_norm": 1.0693784952163696,
-      "learning_rate": 0.00019618239660657474,
-      "loss": 0.2989,
       "step": 4900
     },
     {
       "epoch": 1.7497348886532342,
-      "grad_norm": 0.9680020213127136,
-      "learning_rate": 0.00019512195121951218,
-      "loss": 0.2512,
       "step": 4950
     },
     {
       "epoch": 1.7674089784376106,
-      "grad_norm": 0.9300338625907898,
-      "learning_rate": 0.00019406150583244961,
-      "loss": 0.2814,
       "step": 5000
     },
     {
       "epoch": 1.7850830682219865,
-      "grad_norm": 1.6086584329605103,
-      "learning_rate": 0.00019300106044538705,
-      "loss": 0.2895,
       "step": 5050
     },
     {
       "epoch": 1.8027571580063628,
-      "grad_norm": 1.522153615951538,
-      "learning_rate": 0.00019194061505832446,
-      "loss": 0.2804,
       "step": 5100
     },
     {
       "epoch": 1.8204312477907387,
-      "grad_norm": 1.3292605876922607,
-      "learning_rate": 0.00019088016967126192,
-      "loss": 0.2676,
       "step": 5150
     },
     {
       "epoch": 1.8381053375751149,
-      "grad_norm": 1.0950225591659546,
-      "learning_rate": 0.00018981972428419933,
-      "loss": 0.2991,
       "step": 5200
     },
     {
       "epoch": 1.855779427359491,
-      "grad_norm": 1.8333910703659058,
-      "learning_rate": 0.0001887592788971368,
-      "loss": 0.2742,
       "step": 5250
     },
     {
       "epoch": 1.873453517143867,
-      "grad_norm": 1.447016716003418,
-      "learning_rate": 0.0001876988335100742,
-      "loss": 0.2125,
       "step": 5300
     },
     {
       "epoch": 1.8911276069282432,
-      "grad_norm": 1.0409213304519653,
-      "learning_rate": 0.00018663838812301166,
-      "loss": 0.2372,
       "step": 5350
     },
     {
       "epoch": 1.9088016967126193,
-      "grad_norm": 0.5701714158058167,
-      "learning_rate": 0.00018557794273594907,
-      "loss": 0.2332,
       "step": 5400
     },
     {
       "epoch": 1.9264757864969955,
-      "grad_norm": 1.0092428922653198,
-      "learning_rate": 0.0001845174973488865,
-      "loss": 0.2897,
       "step": 5450
     },
     {
       "epoch": 1.9441498762813714,
-      "grad_norm": 1.031217098236084,
-      "learning_rate": 0.00018345705196182397,
-      "loss": 0.2722,
       "step": 5500
     },
     {
       "epoch": 1.9618239660657477,
-      "grad_norm": 1.2638362646102905,
-      "learning_rate": 0.00018239660657476137,
-      "loss": 0.2505,
       "step": 5550
     },
     {
       "epoch": 1.9794980558501236,
-      "grad_norm": 1.3998290300369263,
-      "learning_rate": 0.00018133616118769884,
-      "loss": 0.2772,
       "step": 5600
     },
     {
       "epoch": 1.9971721456345,
-      "grad_norm": 1.4681320190429688,
-      "learning_rate": 0.00018027571580063624,
-      "loss": 0.25,
       "step": 5650
     },
     {
       "epoch": 2.0,
-      "eval_bertscore_f1": 0.970109825833968,
-      "eval_bleu": 0.6229920961802436,
-      "eval_loss": 0.1904931217432022,
-      "eval_runtime": 1018.8038,
-      "eval_samples_per_second": 6.345,
-      "eval_steps_per_second": 0.793,
       "step": 5658
     },
     {
       "epoch": 2.014846235418876,
-      "grad_norm": 1.3499983549118042,
-      "learning_rate": 0.0001792152704135737,
-      "loss": 0.2412,
       "step": 5700
     },
     {
       "epoch": 2.032520325203252,
-      "grad_norm": 1.2155545949935913,
-      "learning_rate": 0.00017815482502651111,
-      "loss": 0.2919,
       "step": 5750
     },
     {
       "epoch": 2.050194414987628,
-      "grad_norm": 0.9294681549072266,
-      "learning_rate": 0.00017709437963944858,
-      "loss": 0.2191,
       "step": 5800
     },
     {
       "epoch": 2.0678685047720045,
-      "grad_norm": 0.8069599270820618,
-      "learning_rate": 0.00017603393425238598,
-      "loss": 0.228,
       "step": 5850
     },
     {
       "epoch": 2.0855425945563804,
-      "grad_norm": 1.1825474500656128,
-      "learning_rate": 0.00017497348886532342,
-      "loss": 0.2422,
       "step": 5900
     },
     {
       "epoch": 2.1032166843407563,
-      "grad_norm": 1.2947015762329102,
-      "learning_rate": 0.00017391304347826085,
-      "loss": 0.2333,
       "step": 5950
     },
     {
       "epoch": 2.1208907741251326,
-      "grad_norm": 1.0622906684875488,
-      "learning_rate": 0.0001728525980911983,
-      "loss": 0.2029,
       "step": 6000
     },
     {
       "epoch": 2.1385648639095085,
-      "grad_norm": 0.8785162568092346,
-      "learning_rate": 0.00017179215270413572,
-      "loss": 0.2039,
       "step": 6050
     },
     {
       "epoch": 2.156238953693885,
-      "grad_norm": 0.3702610433101654,
-      "learning_rate": 0.00017073170731707316,
-      "loss": 0.2631,
       "step": 6100
     },
     {
       "epoch": 2.1739130434782608,
-      "grad_norm": 1.0092154741287231,
-      "learning_rate": 0.0001696712619300106,
-      "loss": 0.2325,
       "step": 6150
     },
     {
       "epoch": 2.191587133262637,
-      "grad_norm": 1.648000955581665,
-      "learning_rate": 0.00016861081654294803,
-      "loss": 0.2501,
       "step": 6200
     },
     {
       "epoch": 2.209261223047013,
-      "grad_norm": 0.979069173336029,
-      "learning_rate": 0.00016755037115588544,
-      "loss": 0.256,
       "step": 6250
     },
     {
       "epoch": 2.2269353128313893,
-      "grad_norm": 1.459558129310608,
-      "learning_rate": 0.0001664899257688229,
-      "loss": 0.2603,
       "step": 6300
     },
     {
       "epoch": 2.2446094026157652,
-      "grad_norm": 1.5793472528457642,
-      "learning_rate": 0.0001654294803817603,
-      "loss": 0.2564,
       "step": 6350
     },
     {
       "epoch": 2.262283492400141,
-      "grad_norm": 1.1787140369415283,
-      "learning_rate": 0.00016436903499469777,
-      "loss": 0.2782,
       "step": 6400
     },
     {
       "epoch": 2.2799575821845175,
-      "grad_norm": 1.041374683380127,
-      "learning_rate": 0.00016330858960763518,
-      "loss": 0.2331,
       "step": 6450
     },
     {
       "epoch": 2.297631671968894,
-      "grad_norm": 0.7799555063247681,
-      "learning_rate": 0.00016224814422057264,
-      "loss": 0.2338,
       "step": 6500
     },
     {
       "epoch": 2.3153057617532697,
-      "grad_norm": 1.4405689239501953,
-      "learning_rate": 0.00016118769883351005,
-      "loss": 0.2737,
       "step": 6550
     },
     {
       "epoch": 2.3329798515376456,
-      "grad_norm": 0.979608416557312,
-      "learning_rate": 0.00016012725344644748,
-      "loss": 0.2495,
       "step": 6600
     },
     {
       "epoch": 2.350653941322022,
-      "grad_norm": 0.9300618171691895,
-      "learning_rate": 0.00015906680805938492,
-      "loss": 0.2157,
       "step": 6650
     },
     {
       "epoch": 2.368328031106398,
-      "grad_norm": 0.8745370507240295,
-      "learning_rate": 0.00015800636267232235,
-      "loss": 0.2837,
       "step": 6700
     },
     {
       "epoch": 2.3860021208907742,
-      "grad_norm": 0.9898168444633484,
-      "learning_rate": 0.00015694591728525982,
-      "loss": 0.221,
       "step": 6750
     },
     {
       "epoch": 2.40367621067515,
-      "grad_norm": 0.8933513760566711,
-      "learning_rate": 0.00015588547189819722,
-      "loss": 0.1994,
       "step": 6800
     },
     {
       "epoch": 2.4213503004595265,
-      "grad_norm": 1.7144904136657715,
-      "learning_rate": 0.0001548250265111347,
-      "loss": 0.2429,
       "step": 6850
     },
     {
       "epoch": 2.4390243902439024,
-      "grad_norm": 1.5800135135650635,
-      "learning_rate": 0.0001537645811240721,
-      "loss": 0.2284,
       "step": 6900
     },
     {
       "epoch": 2.4566984800282787,
-      "grad_norm": 1.0567731857299805,
-      "learning_rate": 0.0001527041357370095,
-      "loss": 0.2028,
       "step": 6950
     },
     {
       "epoch": 2.4743725698126546,
-      "grad_norm": 0.59196537733078,
-      "learning_rate": 0.00015164369034994697,
-      "loss": 0.228,
       "step": 7000
     },
     {
       "epoch": 2.4920466595970305,
-      "grad_norm": 1.0257049798965454,
-      "learning_rate": 0.00015058324496288437,
-      "loss": 0.2196,
       "step": 7050
     },
     {
       "epoch": 2.509720749381407,
-      "grad_norm": 1.500623345375061,
-      "learning_rate": 0.00014952279957582184,
-      "loss": 0.2351,
       "step": 7100
     },
     {
       "epoch": 2.5273948391657832,
-      "grad_norm": 1.1046085357666016,
-      "learning_rate": 0.00014846235418875927,
-      "loss": 0.2595,
       "step": 7150
     },
     {
       "epoch": 2.545068928950159,
-      "grad_norm": 1.2226991653442383,
-      "learning_rate": 0.0001474019088016967,
-      "loss": 0.1914,
       "step": 7200
     },
     {
       "epoch": 2.562743018734535,
-      "grad_norm": 0.6742298007011414,
-      "learning_rate": 0.00014634146341463414,
-      "loss": 0.2096,
       "step": 7250
     },
     {
       "epoch": 2.5804171085189114,
-      "grad_norm": 1.5504461526870728,
-      "learning_rate": 0.00014528101802757158,
-      "loss": 0.2051,
       "step": 7300
     },
     {
       "epoch": 2.5980911983032873,
-      "grad_norm": 0.9681800603866577,
-      "learning_rate": 0.000144220572640509,
-      "loss": 0.2327,
       "step": 7350
     },
     {
       "epoch": 2.6157652880876636,
-      "grad_norm": 0.9383839964866638,
-      "learning_rate": 0.00014316012725344645,
-      "loss": 0.2344,
       "step": 7400
     },
     {
       "epoch": 2.6334393778720395,
-      "grad_norm": 0.6154807209968567,
-      "learning_rate": 0.00014209968186638388,
-      "loss": 0.2383,
       "step": 7450
     },
     {
       "epoch": 2.6511134676564154,
-      "grad_norm": 1.2676986455917358,
-      "learning_rate": 0.00014103923647932132,
-      "loss": 0.2257,
       "step": 7500
     },
     {
       "epoch": 2.6687875574407918,
-      "grad_norm": 1.183440089225769,
-      "learning_rate": 0.00013997879109225872,
-      "loss": 0.2102,
       "step": 7550
     },
     {
       "epoch": 2.686461647225168,
-      "grad_norm": 0.7244306802749634,
-      "learning_rate": 0.00013891834570519616,
-      "loss": 0.2146,
       "step": 7600
     },
     {
       "epoch": 2.704135737009544,
-      "grad_norm": 1.187232494354248,
-      "learning_rate": 0.0001378579003181336,
-      "loss": 0.2119,
       "step": 7650
     },
     {
       "epoch": 2.72180982679392,
-      "grad_norm": 1.4510794878005981,
-      "learning_rate": 0.00013679745493107103,
-      "loss": 0.1916,
       "step": 7700
     },
     {
       "epoch": 2.7394839165782963,
-      "grad_norm": 1.383832335472107,
-      "learning_rate": 0.00013573700954400847,
-      "loss": 0.2179,
       "step": 7750
     },
     {
       "epoch": 2.757158006362672,
-      "grad_norm": 0.9274504780769348,
-      "learning_rate": 0.0001346765641569459,
-      "loss": 0.199,
       "step": 7800
     },
     {
       "epoch": 2.7748320961470485,
-      "grad_norm": 2.6429216861724854,
-      "learning_rate": 0.00013361611876988334,
-      "loss": 0.2407,
       "step": 7850
     },
     {
       "epoch": 2.7925061859314244,
-      "grad_norm": 1.3947652578353882,
-      "learning_rate": 0.00013255567338282077,
-      "loss": 0.2019,
       "step": 7900
     },
     {
       "epoch": 2.8101802757158008,
-      "grad_norm": 1.148478627204895,
-      "learning_rate": 0.0001314952279957582,
-      "loss": 0.205,
       "step": 7950
     },
     {
       "epoch": 2.8278543655001767,
-      "grad_norm": 1.1087610721588135,
-      "learning_rate": 0.00013043478260869564,
-      "loss": 0.2527,
       "step": 8000
     },
     {
       "epoch": 2.845528455284553,
-      "grad_norm": 1.4348084926605225,
-      "learning_rate": 0.00012937433722163308,
-      "loss": 0.2465,
       "step": 8050
     },
     {
       "epoch": 2.863202545068929,
-      "grad_norm": 1.2600926160812378,
-      "learning_rate": 0.0001283138918345705,
-      "loss": 0.1699,
       "step": 8100
     },
     {
       "epoch": 2.880876634853305,
-      "grad_norm": 0.8724793195724487,
-      "learning_rate": 0.00012725344644750795,
-      "loss": 0.2257,
       "step": 8150
     },
     {
       "epoch": 2.898550724637681,
-      "grad_norm": 1.5324125289916992,
-      "learning_rate": 0.00012619300106044538,
-      "loss": 0.2002,
       "step": 8200
     },
     {
       "epoch": 2.9162248144220575,
-      "grad_norm": 1.0066156387329102,
-      "learning_rate": 0.00012513255567338282,
-      "loss": 0.192,
       "step": 8250
     },
     {
       "epoch": 2.9338989042064334,
-      "grad_norm": 0.4273667633533478,
-      "learning_rate": 0.00012407211028632022,
-      "loss": 0.1758,
       "step": 8300
     },
     {
       "epoch": 2.9515729939908093,
-      "grad_norm": 0.6536590456962585,
-      "learning_rate": 0.00012301166489925766,
-      "loss": 0.1905,
       "step": 8350
     },
     {
       "epoch": 2.9692470837751856,
-      "grad_norm": 0.6973742246627808,
-      "learning_rate": 0.00012195121951219511,
-      "loss": 0.2116,
       "step": 8400
     },
     {
       "epoch": 2.9869211735595615,
-      "grad_norm": 0.9764792919158936,
-      "learning_rate": 0.00012089077412513254,
-      "loss": 0.2098,
       "step": 8450
     },
     {
       "epoch": 3.0,
-      "eval_bertscore_f1": 0.9710737692450385,
-      "eval_bleu": 0.6330045835354601,
-      "eval_loss": 0.15814107656478882,
-      "eval_runtime": 1020.076,
-      "eval_samples_per_second": 6.337,
-      "eval_steps_per_second": 0.792,
       "step": 8487
     },
     {
       "epoch": 3.004595263343938,
-      "grad_norm": 1.2752796411514282,
-      "learning_rate": 0.00011983032873806998,
-      "loss": 0.1815,
       "step": 8500
     },
     {
       "epoch": 3.022269353128314,
-      "grad_norm": 1.1779205799102783,
-      "learning_rate": 0.00011876988335100741,
-      "loss": 0.2125,
       "step": 8550
     },
     {
       "epoch": 3.03994344291269,
-      "grad_norm": 0.7505296468734741,
-      "learning_rate": 0.00011770943796394485,
-      "loss": 0.1989,
       "step": 8600
     },
     {
       "epoch": 3.057617532697066,
-      "grad_norm": 4.621654033660889,
-      "learning_rate": 0.00011664899257688228,
-      "loss": 0.2015,
       "step": 8650
     },
     {
       "epoch": 3.0752916224814424,
-      "grad_norm": 0.8159476518630981,
-      "learning_rate": 0.0001155885471898197,
-      "loss": 0.1685,
       "step": 8700
     },
     {
       "epoch": 3.0929657122658183,
-      "grad_norm": 1.5748199224472046,
-      "learning_rate": 0.00011452810180275714,
-      "loss": 0.1748,
       "step": 8750
     },
     {
       "epoch": 3.110639802050194,
-      "grad_norm": 2.3961069583892822,
-      "learning_rate": 0.00011346765641569458,
-      "loss": 0.2439,
       "step": 8800
     },
     {
       "epoch": 3.1283138918345705,
-      "grad_norm": 1.1994341611862183,
-      "learning_rate": 0.00011240721102863201,
-      "loss": 0.1819,
       "step": 8850
     },
     {
       "epoch": 3.1459879816189464,
-      "grad_norm": 1.4692330360412598,
-      "learning_rate": 0.00011134676564156945,
-      "loss": 0.1757,
       "step": 8900
     },
     {
       "epoch": 3.163662071403323,
-      "grad_norm": 0.559505820274353,
-      "learning_rate": 0.00011028632025450688,
-      "loss": 0.1832,
       "step": 8950
     },
     {
       "epoch": 3.1813361611876987,
-      "grad_norm": 0.608403205871582,
-      "learning_rate": 0.00010922587486744433,
-      "loss": 0.2094,
       "step": 9000
     },
     {
       "epoch": 3.199010250972075,
-      "grad_norm": 0.9615042805671692,
-      "learning_rate": 0.00010816542948038174,
-      "loss": 0.1868,
       "step": 9050
     },
     {
       "epoch": 3.216684340756451,
-      "grad_norm": 1.3172391653060913,
-      "learning_rate": 0.00010710498409331917,
-      "loss": 0.2161,
       "step": 9100
     },
     {
       "epoch": 3.2343584305408273,
-      "grad_norm": 1.120377779006958,
-      "learning_rate": 0.00010604453870625662,
-      "loss": 0.1621,
       "step": 9150
     },
     {
       "epoch": 3.252032520325203,
-      "grad_norm": 1.7331315279006958,
-      "learning_rate": 0.00010498409331919406,
-      "loss": 0.2172,
       "step": 9200
     },
     {
       "epoch": 3.2697066101095795,
-      "grad_norm": 1.0575073957443237,
-      "learning_rate": 0.00010392364793213149,
-      "loss": 0.2013,
       "step": 9250
     },
     {
       "epoch": 3.2873806998939554,
-      "grad_norm": 0.9054147601127625,
-      "learning_rate": 0.00010286320254506893,
-      "loss": 0.1648,
       "step": 9300
     },
     {
       "epoch": 3.3050547896783318,
-      "grad_norm": 1.450341820716858,
-      "learning_rate": 0.00010180275715800636,
-      "loss": 0.1753,
       "step": 9350
     },
     {
       "epoch": 3.3227288794627077,
-      "grad_norm": 1.1002529859542847,
-      "learning_rate": 0.0001007423117709438,
-      "loss": 0.1863,
       "step": 9400
     },
     {
       "epoch": 3.3404029692470836,
-      "grad_norm": 0.9334053993225098,
-      "learning_rate": 9.968186638388122e-05,
-      "loss": 0.1702,
       "step": 9450
     },
     {
       "epoch": 3.35807705903146,
-      "grad_norm": 0.8281420469284058,
-      "learning_rate": 9.862142099681865e-05,
-      "loss": 0.2526,
       "step": 9500
     },
     {
       "epoch": 3.375751148815836,
-      "grad_norm": 1.2539646625518799,
-      "learning_rate": 9.756097560975609e-05,
-      "loss": 0.1894,
       "step": 9550
     },
     {
       "epoch": 3.393425238600212,
-      "grad_norm": 0.949944794178009,
-      "learning_rate": 9.650053022269352e-05,
-      "loss": 0.1936,
       "step": 9600
     },
     {
       "epoch": 3.411099328384588,
-      "grad_norm": 1.2891144752502441,
-      "learning_rate": 9.544008483563096e-05,
-      "loss": 0.1865,
       "step": 9650
     },
     {
       "epoch": 3.4287734181689644,
-      "grad_norm": 0.5977984070777893,
-      "learning_rate": 9.43796394485684e-05,
-      "loss": 0.1484,
       "step": 9700
     },
     {
       "epoch": 3.4464475079533403,
-      "grad_norm": 0.3996190130710602,
-      "learning_rate": 9.331919406150583e-05,
-      "loss": 0.2573,
       "step": 9750
     },
     {
       "epoch": 3.4641215977377167,
-      "grad_norm": 1.8965319395065308,
-      "learning_rate": 9.225874867444325e-05,
-      "loss": 0.195,
       "step": 9800
     },
     {
       "epoch": 3.4817956875220926,
-      "grad_norm": 1.197365403175354,
-      "learning_rate": 9.119830328738069e-05,
-      "loss": 0.2083,
       "step": 9850
     },
     {
       "epoch": 3.499469777306469,
-      "grad_norm": 0.6886301040649414,
-      "learning_rate": 9.013785790031812e-05,
-      "loss": 0.2112,
       "step": 9900
     },
     {
       "epoch": 3.517143867090845,
-      "grad_norm": 0.677227795124054,
-      "learning_rate": 8.907741251325556e-05,
-      "loss": 0.1789,
       "step": 9950
     },
     {
       "epoch": 3.534817956875221,
-      "grad_norm": 1.131480097770691,
-      "learning_rate": 8.801696712619299e-05,
-      "loss": 0.1857,
       "step": 10000
     },
     {
       "epoch": 3.552492046659597,
-      "grad_norm": 1.6898012161254883,
-      "learning_rate": 8.695652173913043e-05,
-      "loss": 0.197,
       "step": 10050
     },
     {
       "epoch": 3.570166136443973,
-      "grad_norm": 1.6000021696090698,
-      "learning_rate": 8.589607635206786e-05,
-      "loss": 0.2028,
       "step": 10100
     },
     {
       "epoch": 3.5878402262283493,
-      "grad_norm": 0.59913170337677,
-      "learning_rate": 8.48356309650053e-05,
-      "loss": 0.2056,
       "step": 10150
     },
     {
       "epoch": 3.605514316012725,
-      "grad_norm": 1.2439507246017456,
-      "learning_rate": 8.377518557794272e-05,
-      "loss": 0.264,
       "step": 10200
     },
     {
       "epoch": 3.6231884057971016,
-      "grad_norm": 1.2470340728759766,
-      "learning_rate": 8.271474019088015e-05,
-      "loss": 0.1818,
       "step": 10250
     },
     {
       "epoch": 3.6408624955814775,
-      "grad_norm": 0.8461691737174988,
-      "learning_rate": 8.165429480381759e-05,
-      "loss": 0.1893,
       "step": 10300
     },
     {
       "epoch": 3.658536585365854,
-      "grad_norm": 1.161589503288269,
-      "learning_rate": 8.059384941675502e-05,
-      "loss": 0.183,
       "step": 10350
     },
     {
       "epoch": 3.6762106751502297,
-      "grad_norm": 1.1066420078277588,
-      "learning_rate": 7.953340402969246e-05,
-      "loss": 0.2059,
       "step": 10400
     },
     {
       "epoch": 3.693884764934606,
-      "grad_norm": 0.04225541278719902,
-      "learning_rate": 7.847295864262991e-05,
-      "loss": 0.1579,
       "step": 10450
     },
     {
       "epoch": 3.711558854718982,
-      "grad_norm": 2.536710500717163,
-      "learning_rate": 7.741251325556734e-05,
-      "loss": 0.2092,
       "step": 10500
     },
     {
       "epoch": 3.729232944503358,
-      "grad_norm": 0.49366581439971924,
-      "learning_rate": 7.635206786850475e-05,
-      "loss": 0.2148,
       "step": 10550
     },
     {
       "epoch": 3.746907034287734,
-      "grad_norm": 0.5715583562850952,
-      "learning_rate": 7.529162248144219e-05,
-      "loss": 0.1697,
       "step": 10600
     },
     {
       "epoch": 3.7645811240721105,
-      "grad_norm": 0.6103105545043945,
-      "learning_rate": 7.423117709437964e-05,
-      "loss": 0.1631,
       "step": 10650
     },
     {
       "epoch": 3.7822552138564864,
-      "grad_norm": 0.6263866424560547,
-      "learning_rate": 7.317073170731707e-05,
-      "loss": 0.211,
       "step": 10700
     },
     {
       "epoch": 3.7999293036408623,
-      "grad_norm": 2.3304359912872314,
-      "learning_rate": 7.21102863202545e-05,
-      "loss": 0.2101,
       "step": 10750
     },
     {
       "epoch": 3.8176033934252387,
-      "grad_norm": 0.96124666929245,
-      "learning_rate": 7.104984093319194e-05,
-      "loss": 0.2033,
       "step": 10800
     },
     {
       "epoch": 3.8352774832096146,
-      "grad_norm": 0.8838850855827332,
-      "learning_rate": 6.998939554612936e-05,
-      "loss": 0.1686,
       "step": 10850
     },
     {
       "epoch": 3.852951572993991,
-      "grad_norm": 0.40561985969543457,
-      "learning_rate": 6.89289501590668e-05,
-      "loss": 0.1584,
       "step": 10900
     },
     {
       "epoch": 3.870625662778367,
-      "grad_norm": 0.1844971626996994,
-      "learning_rate": 6.788971367974548e-05,
-      "loss": 0.1804,
       "step": 10950
     },
     {
       "epoch": 3.888299752562743,
-      "grad_norm": 0.16500629484653473,
-      "learning_rate": 6.682926829268293e-05,
-      "loss": 0.1573,
       "step": 11000
     },
     {
       "epoch": 3.905973842347119,
-      "grad_norm": 1.1422902345657349,
-      "learning_rate": 6.576882290562035e-05,
-      "loss": 0.168,
       "step": 11050
     },
     {
       "epoch": 3.9236479321314954,
-      "grad_norm": 1.0575031042099,
-      "learning_rate": 6.470837751855779e-05,
-      "loss": 0.1839,
       "step": 11100
     },
     {
       "epoch": 3.9413220219158713,
-      "grad_norm": 1.222320318222046,
-      "learning_rate": 6.364793213149522e-05,
-      "loss": 0.184,
       "step": 11150
     },
     {
       "epoch": 3.9589961117002472,
-      "grad_norm": 1.2237067222595215,
-      "learning_rate": 6.258748674443266e-05,
-      "loss": 0.1593,
       "step": 11200
     },
     {
       "epoch": 3.9766702014846236,
-      "grad_norm": 0.5730044841766357,
-      "learning_rate": 6.152704135737009e-05,
-      "loss": 0.1952,
       "step": 11250
     },
     {
       "epoch": 3.9943442912689995,
-      "grad_norm": 1.0718284845352173,
-      "learning_rate": 6.046659597030752e-05,
-      "loss": 0.2006,
       "step": 11300
     },
     {
       "epoch": 4.0,
-      "eval_bertscore_f1": 0.971733581422284,
-      "eval_bleu": 0.6349849586545804,
-      "eval_loss": 0.14258554577827454,
-      "eval_runtime": 1019.3837,
-      "eval_samples_per_second": 6.341,
-      "eval_steps_per_second": 0.793,
       "step": 11316
     },
     {
       "epoch": 4.012018381053376,
-      "grad_norm": 1.2913243770599365,
-      "learning_rate": 5.940615058324496e-05,
-      "loss": 0.1864,
       "step": 11350
     },
     {
       "epoch": 4.029692470837752,
-      "grad_norm": 0.7768388390541077,
-      "learning_rate": 5.8345705196182385e-05,
-      "loss": 0.1761,
       "step": 11400
     },
     {
       "epoch": 4.047366560622128,
-      "grad_norm": 1.3466072082519531,
-      "learning_rate": 5.728525980911983e-05,
-      "loss": 0.149,
       "step": 11450
     },
     {
       "epoch": 4.065040650406504,
-      "grad_norm": 0.5589826703071594,
-      "learning_rate": 5.622481442205726e-05,
-      "loss": 0.1951,
       "step": 11500
     },
     {
       "epoch": 4.08271474019088,
-      "grad_norm": 1.1719962358474731,
-      "learning_rate": 5.51643690349947e-05,
-      "loss": 0.1893,
       "step": 11550
     },
     {
       "epoch": 4.100388829975256,
-      "grad_norm": 1.6090291738510132,
-      "learning_rate": 5.4103923647932125e-05,
-      "loss": 0.1669,
       "step": 11600
     },
     {
       "epoch": 4.118062919759632,
-      "grad_norm": 0.7359048128128052,
-      "learning_rate": 5.304347826086956e-05,
-      "loss": 0.182,
       "step": 11650
     },
     {
       "epoch": 4.135737009544009,
-      "grad_norm": 1.337510347366333,
-      "learning_rate": 5.1983032873806996e-05,
-      "loss": 0.1894,
       "step": 11700
     },
     {
       "epoch": 4.153411099328385,
-      "grad_norm": 1.1865614652633667,
-      "learning_rate": 5.092258748674443e-05,
-      "loss": 0.1898,
       "step": 11750
     },
     {
       "epoch": 4.171085189112761,
-      "grad_norm": 1.8255292177200317,
-      "learning_rate": 4.986214209968186e-05,
-      "loss": 0.1716,
       "step": 11800
     },
     {
       "epoch": 4.188759278897137,
-      "grad_norm": 0.624253511428833,
-      "learning_rate": 4.8801696712619294e-05,
-      "loss": 0.1766,
       "step": 11850
     },
     {
       "epoch": 4.2064333686815125,
-      "grad_norm": 0.9569867253303528,
-      "learning_rate": 4.774125132555673e-05,
-      "loss": 0.1458,
       "step": 11900
     },
     {
       "epoch": 4.224107458465889,
-      "grad_norm": 0.9596979022026062,
-      "learning_rate": 4.6680805938494165e-05,
-      "loss": 0.1808,
       "step": 11950
     },
     {
       "epoch": 4.241781548250265,
-      "grad_norm": 1.014739751815796,
-      "learning_rate": 4.562036055143159e-05,
-      "loss": 0.1918,
       "step": 12000
     },
     {
       "epoch": 4.259455638034641,
-      "grad_norm": 1.2566267251968384,
-      "learning_rate": 4.455991516436903e-05,
-      "loss": 0.1581,
       "step": 12050
     },
     {
       "epoch": 4.277129727819017,
-      "grad_norm": 0.7401285171508789,
-      "learning_rate": 4.349946977730647e-05,
-      "loss": 0.164,
       "step": 12100
     },
     {
       "epoch": 4.294803817603394,
-      "grad_norm": 0.43340951204299927,
-      "learning_rate": 4.243902439024389e-05,
-      "loss": 0.1722,
       "step": 12150
     },
     {
       "epoch": 4.31247790738777,
-      "grad_norm": 4.859116554260254,
-      "learning_rate": 4.1378579003181334e-05,
-      "loss": 0.1986,
       "step": 12200
     },
     {
       "epoch": 4.330151997172146,
-      "grad_norm": 1.3189374208450317,
-      "learning_rate": 4.031813361611877e-05,
-      "loss": 0.2118,
       "step": 12250
     },
     {
       "epoch": 4.3478260869565215,
-      "grad_norm": 0.6523744463920593,
-      "learning_rate": 3.9257688229056204e-05,
-      "loss": 0.1974,
       "step": 12300
     },
     {
       "epoch": 4.365500176740898,
-      "grad_norm": 0.5694284439086914,
-      "learning_rate": 3.819724284199363e-05,
-      "loss": 0.2032,
       "step": 12350
     },
     {
       "epoch": 4.383174266525274,
-      "grad_norm": 0.6631605625152588,
-      "learning_rate": 3.713679745493107e-05,
-      "loss": 0.1648,
       "step": 12400
     },
     {
       "epoch": 4.40084835630965,
-      "grad_norm": 1.4959896802902222,
-      "learning_rate": 3.60763520678685e-05,
-      "loss": 0.1397,
       "step": 12450
     },
     {
       "epoch": 4.418522446094026,
-      "grad_norm": 0.8434396982192993,
-      "learning_rate": 3.501590668080594e-05,
-      "loss": 0.1834,
       "step": 12500
     },
     {
       "epoch": 4.436196535878402,
-      "grad_norm": 0.748446524143219,
-      "learning_rate": 3.395546129374337e-05,
-      "loss": 0.1916,
       "step": 12550
     },
     {
       "epoch": 4.453870625662779,
-      "grad_norm": 1.5315219163894653,
-      "learning_rate": 3.28950159066808e-05,
-      "loss": 0.1696,
       "step": 12600
     },
     {
       "epoch": 4.471544715447155,
-      "grad_norm": 0.81038498878479,
-      "learning_rate": 3.1834570519618236e-05,
-      "loss": 0.1861,
       "step": 12650
     },
     {
       "epoch": 4.4892188052315305,
-      "grad_norm": 0.5976743102073669,
-      "learning_rate": 3.077412513255567e-05,
-      "loss": 0.2113,
       "step": 12700
     },
     {
       "epoch": 4.506892895015906,
-      "grad_norm": 0.806030809879303,
-      "learning_rate": 2.9713679745493106e-05,
-      "loss": 0.1571,
       "step": 12750
     },
     {
       "epoch": 4.524566984800282,
-      "grad_norm": 1.6976985931396484,
-      "learning_rate": 2.8653234358430538e-05,
-      "loss": 0.167,
       "step": 12800
     },
     {
       "epoch": 4.542241074584659,
-      "grad_norm": 0.8575769662857056,
-      "learning_rate": 2.7592788971367973e-05,
-      "loss": 0.1551,
       "step": 12850
     },
     {
       "epoch": 4.559915164369035,
-      "grad_norm": 0.8071011900901794,
-      "learning_rate": 2.6532343584305405e-05,
-      "loss": 0.197,
       "step": 12900
     },
     {
       "epoch": 4.577589254153411,
-      "grad_norm": 0.8892520666122437,
-      "learning_rate": 2.547189819724284e-05,
-      "loss": 0.1766,
       "step": 12950
     },
     {
       "epoch": 4.595263343937788,
-      "grad_norm": 1.0027281045913696,
-      "learning_rate": 2.4411452810180272e-05,
-      "loss": 0.1826,
       "step": 13000
     },
     {
       "epoch": 4.612937433722164,
-      "grad_norm": 1.3052587509155273,
-      "learning_rate": 2.3351007423117707e-05,
-      "loss": 0.1779,
       "step": 13050
     },
     {
       "epoch": 4.6306115235065395,
-      "grad_norm": 1.1934298276901245,
-      "learning_rate": 2.2290562036055142e-05,
-      "loss": 0.1585,
       "step": 13100
     },
     {
       "epoch": 4.648285613290915,
-      "grad_norm": 1.305802583694458,
-      "learning_rate": 2.1251325556733824e-05,
-      "loss": 0.1689,
       "step": 13150
     },
     {
       "epoch": 4.665959703075291,
-      "grad_norm": 1.010707974433899,
-      "learning_rate": 2.0190880169671262e-05,
-      "loss": 0.1975,
       "step": 13200
     },
     {
       "epoch": 4.683633792859668,
-      "grad_norm": 0.8816762566566467,
-      "learning_rate": 1.9130434782608694e-05,
-      "loss": 0.1395,
       "step": 13250
     },
     {
       "epoch": 4.701307882644044,
-      "grad_norm": 0.9856722950935364,
-      "learning_rate": 1.8069989395546126e-05,
-      "loss": 0.2111,
       "step": 13300
     },
     {
       "epoch": 4.71898197242842,
-      "grad_norm": 1.1348321437835693,
-      "learning_rate": 1.700954400848356e-05,
-      "loss": 0.1715,
       "step": 13350
     },
     {
       "epoch": 4.736656062212796,
-      "grad_norm": 1.5361067056655884,
-      "learning_rate": 1.5949098621420996e-05,
-      "loss": 0.1569,
       "step": 13400
     },
     {
       "epoch": 4.754330151997172,
-      "grad_norm": 0.6704153418540955,
-      "learning_rate": 1.488865323435843e-05,
-      "loss": 0.1518,
       "step": 13450
     },
     {
       "epoch": 4.7720042417815485,
-      "grad_norm": 1.731184482574463,
-      "learning_rate": 1.3828207847295863e-05,
-      "loss": 0.1671,
       "step": 13500
     },
     {
       "epoch": 4.789678331565924,
-      "grad_norm": 0.18779240548610687,
-      "learning_rate": 1.2767762460233296e-05,
-      "loss": 0.163,
       "step": 13550
     },
     {
       "epoch": 4.8073524213503,
-      "grad_norm": 0.5464810132980347,
-      "learning_rate": 1.1707317073170731e-05,
-      "loss": 0.1998,
       "step": 13600
     },
     {
       "epoch": 4.825026511134676,
-      "grad_norm": 1.0994397401809692,
-      "learning_rate": 1.0646871686108165e-05,
-      "loss": 0.1997,
       "step": 13650
     },
     {
       "epoch": 4.842700600919053,
-      "grad_norm": 1.5267748832702637,
-      "learning_rate": 9.586426299045598e-06,
-      "loss": 0.1643,
       "step": 13700
     },
     {
       "epoch": 4.860374690703429,
-      "grad_norm": 0.586216151714325,
-      "learning_rate": 8.525980911983032e-06,
-      "loss": 0.1661,
       "step": 13750
     },
     {
       "epoch": 4.878048780487805,
-      "grad_norm": 1.5473626852035522,
-      "learning_rate": 7.465535524920466e-06,
-      "loss": 0.1584,
       "step": 13800
     },
     {
       "epoch": 4.895722870272181,
-      "grad_norm": 0.5935518741607666,
-      "learning_rate": 6.4050901378578995e-06,
-      "loss": 0.1695,
       "step": 13850
     },
     {
       "epoch": 4.9133969600565575,
-      "grad_norm": 1.2073270082473755,
-      "learning_rate": 5.344644750795333e-06,
-      "loss": 0.168,
       "step": 13900
     },
     {
       "epoch": 4.931071049840933,
-      "grad_norm": 0.43232324719429016,
-      "learning_rate": 4.284199363732767e-06,
-      "loss": 0.1631,
       "step": 13950
     },
     {
       "epoch": 4.948745139625309,
-      "grad_norm": 1.4200788736343384,
-      "learning_rate": 3.223753976670201e-06,
-      "loss": 0.1997,
       "step": 14000
     },
     {
       "epoch": 4.966419229409685,
-      "grad_norm": 0.20576679706573486,
-      "learning_rate": 2.163308589607635e-06,
-      "loss": 0.1642,
       "step": 14050
     },
     {
       "epoch": 4.984093319194061,
-      "grad_norm": 0.6973247528076172,
-      "learning_rate": 1.1028632025450689e-06,
-      "loss": 0.1908,
       "step": 14100
     },
     {
       "epoch": 5.0,
-      "eval_bertscore_f1": 0.9718361922106383,
-      "eval_bleu": 0.6364935942381945,
-      "eval_loss": 0.13659338653087616,
-      "eval_runtime": 1013.1078,
-      "eval_samples_per_second": 6.38,
-      "eval_steps_per_second": 0.798,
       "step": 14145
     }
   ],

 {
   "best_global_step": 14145,
+  "best_metric": 0.9658045416033947,
+  "best_model_checkpoint": "/kaggle/working/codet5-k8s-lora/checkpoint-14145",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 14145,
   "log_history": [
     {
       "epoch": 0.017674089784376106,
+      "grad_norm": 2.7520432472229004,
+      "learning_rate": 4.983739837398374e-05,
+      "loss": 4.115,
       "step": 50
     },
     {
       "epoch": 0.03534817956875221,
+      "grad_norm": 17.1498966217041,
+      "learning_rate": 4.966065747613998e-05,
+      "loss": 3.2283,
       "step": 100
     },
     {
       "epoch": 0.053022269353128315,
+      "grad_norm": 2.4044106006622314,
+      "learning_rate": 4.948391657829622e-05,
+      "loss": 2.2704,
       "step": 150
     },
     {
       "epoch": 0.07069635913750442,
+      "grad_norm": 2.3264973163604736,
+      "learning_rate": 4.930717568045246e-05,
+      "loss": 1.963,
       "step": 200
     },
     {
       "epoch": 0.08837044892188052,
+      "grad_norm": 2.146696090698242,
+      "learning_rate": 4.91304347826087e-05,
+      "loss": 1.8358,
       "step": 250
     },
     {
       "epoch": 0.10604453870625663,
+      "grad_norm": 2.6933417320251465,
+      "learning_rate": 4.895369388476494e-05,
+      "loss": 1.7542,
       "step": 300
     },
     {
       "epoch": 0.12371862849063273,
+      "grad_norm": 2.71453857421875,
+      "learning_rate": 4.8776952986921177e-05,
+      "loss": 1.6651,
       "step": 350
     },
     {
       "epoch": 0.14139271827500885,
+      "grad_norm": 2.239396095275879,
+      "learning_rate": 4.8600212089077416e-05,
+      "loss": 1.5549,
       "step": 400
     },
     {
       "epoch": 0.15906680805938495,
+      "grad_norm": 3.038501262664795,
+      "learning_rate": 4.8423471191233655e-05,
+      "loss": 1.4887,
       "step": 450
     },
     {
       "epoch": 0.17674089784376104,
+      "grad_norm": 2.988568067550659,
+      "learning_rate": 4.825026511134676e-05,
+      "loss": 1.4896,
       "step": 500
     },
     {
       "epoch": 0.19441498762813716,
+      "grad_norm": 2.7871344089508057,
+      "learning_rate": 4.807352421350301e-05,
+      "loss": 1.3147,
       "step": 550
     },
     {
       "epoch": 0.21208907741251326,
+      "grad_norm": 2.9361987113952637,
+      "learning_rate": 4.789678331565924e-05,
+      "loss": 1.4059,
       "step": 600
     },
     {
       "epoch": 0.22976316719688936,
+      "grad_norm": 3.7504327297210693,
+      "learning_rate": 4.7720042417815487e-05,
+      "loss": 1.3733,
       "step": 650
     },
     {
       "epoch": 0.24743725698126545,
+      "grad_norm": 2.8540990352630615,
+      "learning_rate": 4.7543301519971726e-05,
+      "loss": 1.2048,
       "step": 700
     },
     {
       "epoch": 0.2651113467656416,
+      "grad_norm": 3.3986833095550537,
+      "learning_rate": 4.7366560622127965e-05,
+      "loss": 1.3204,
       "step": 750
     },
     {
       "epoch": 0.2827854365500177,
+      "grad_norm": 3.490173816680908,
+      "learning_rate": 4.7189819724284204e-05,
+      "loss": 1.2636,
       "step": 800
     },
     {
       "epoch": 0.30045952633439377,
+      "grad_norm": 3.0693671703338623,
+      "learning_rate": 4.701307882644044e-05,
+      "loss": 1.1539,
       "step": 850
     },
     {
       "epoch": 0.3181336161187699,
+      "grad_norm": 6.666368007659912,
+      "learning_rate": 4.683633792859668e-05,
+      "loss": 1.1835,
       "step": 900
     },
     {
       "epoch": 0.335807705903146,
+      "grad_norm": 3.3494420051574707,
+      "learning_rate": 4.6659597030752915e-05,
+      "loss": 1.0956,
       "step": 950
     },
     {
       "epoch": 0.3534817956875221,
+      "grad_norm": 2.6836087703704834,
+      "learning_rate": 4.648285613290916e-05,
+      "loss": 1.1311,
       "step": 1000
     },
     {
       "epoch": 0.3711558854718982,
+      "grad_norm": 2.8905951976776123,
+      "learning_rate": 4.630611523506539e-05,
+      "loss": 1.0765,
       "step": 1050
     },
     {
       "epoch": 0.38882997525627433,
+      "grad_norm": 3.939500093460083,
+      "learning_rate": 4.612937433722164e-05,
+      "loss": 1.0456,
       "step": 1100
     },
     {
       "epoch": 0.4065040650406504,
+      "grad_norm": 3.1198384761810303,
+      "learning_rate": 4.595263343937787e-05,
+      "loss": 1.0448,
       "step": 1150
     },
     {
       "epoch": 0.4241781548250265,
+      "grad_norm": 3.0342133045196533,
+      "learning_rate": 4.577589254153412e-05,
+      "loss": 0.9943,
       "step": 1200
     },
     {
       "epoch": 0.4418522446094026,
+      "grad_norm": 3.555405616760254,
+      "learning_rate": 4.559915164369035e-05,
+      "loss": 1.045,
       "step": 1250
     },
     {
       "epoch": 0.4595263343937787,
+      "grad_norm": 3.0326290130615234,
+      "learning_rate": 4.542241074584659e-05,
+      "loss": 0.9807,
       "step": 1300
     },
     {
       "epoch": 0.47720042417815484,
+      "grad_norm": 3.1818552017211914,
+      "learning_rate": 4.524566984800283e-05,
+      "loss": 0.9889,
       "step": 1350
     },
     {
       "epoch": 0.4948745139625309,
+      "grad_norm": 2.933518171310425,
+      "learning_rate": 4.506892895015907e-05,
+      "loss": 0.9373,
       "step": 1400
     },
     {
       "epoch": 0.512548603746907,
+      "grad_norm": 4.3423566818237305,
+      "learning_rate": 4.489218805231531e-05,
+      "loss": 1.0253,
       "step": 1450
     },
     {
       "epoch": 0.5302226935312832,
+      "grad_norm": 3.6613636016845703,
+      "learning_rate": 4.4715447154471546e-05,
+      "loss": 0.9458,
       "step": 1500
     },
     {
       "epoch": 0.5478967833156593,
+      "grad_norm": 2.736353635787964,
+      "learning_rate": 4.454224107458466e-05,
+      "loss": 0.9205,
       "step": 1550
     },
     {
       "epoch": 0.5655708731000354,
+      "grad_norm": 3.9614179134368896,
+      "learning_rate": 4.43655001767409e-05,
+      "loss": 0.8896,
       "step": 1600
     },
     {
       "epoch": 0.5832449628844114,
+      "grad_norm": 3.397909164428711,
+      "learning_rate": 4.418875927889714e-05,
+      "loss": 0.9247,
       "step": 1650
     },
     {
       "epoch": 0.6009190526687875,
+      "grad_norm": 3.26153564453125,
+      "learning_rate": 4.401201838105338e-05,
+      "loss": 0.8023,
       "step": 1700
     },
     {
       "epoch": 0.6185931424531637,
+      "grad_norm": 4.067619800567627,
+      "learning_rate": 4.383527748320962e-05,
+      "loss": 0.8967,
       "step": 1750
     },
     {
       "epoch": 0.6362672322375398,
+      "grad_norm": 3.9123120307922363,
+      "learning_rate": 4.3658536585365856e-05,
+      "loss": 0.8668,
       "step": 1800
     },
     {
       "epoch": 0.6539413220219159,
+      "grad_norm": 3.9695286750793457,
+      "learning_rate": 4.3481795687522095e-05,
+      "loss": 0.8688,
       "step": 1850
     },
     {
       "epoch": 0.671615411806292,
+      "grad_norm": 3.176691770553589,
+      "learning_rate": 4.3305054789678334e-05,
+      "loss": 0.8475,
       "step": 1900
     },
     {
       "epoch": 0.689289501590668,
+      "grad_norm": 4.363101005554199,
+      "learning_rate": 4.3128313891834574e-05,
+      "loss": 0.8343,
       "step": 1950
     },
     {
       "epoch": 0.7069635913750442,
+      "grad_norm": 4.429725170135498,
+      "learning_rate": 4.295157299399081e-05,
+      "loss": 0.8001,
       "step": 2000
     },
     {
       "epoch": 0.7246376811594203,
+      "grad_norm": 3.035944700241089,
+      "learning_rate": 4.277483209614705e-05,
+      "loss": 0.7387,
       "step": 2050
     },
     {
       "epoch": 0.7423117709437964,
+      "grad_norm": 3.1769495010375977,
+      "learning_rate": 4.259809119830329e-05,
+      "loss": 0.7837,
       "step": 2100
     },
     {
       "epoch": 0.7599858607281725,
+      "grad_norm": 3.7096972465515137,
+      "learning_rate": 4.242135030045953e-05,
+      "loss": 0.8015,
       "step": 2150
     },
     {
       "epoch": 0.7776599505125487,
+      "grad_norm": 4.8830718994140625,
+      "learning_rate": 4.224460940261576e-05,
+      "loss": 0.8145,
       "step": 2200
     },
     {
       "epoch": 0.7953340402969247,
+      "grad_norm": 4.858372688293457,
+      "learning_rate": 4.206786850477201e-05,
+      "loss": 0.7707,
       "step": 2250
     },
     {
       "epoch": 0.8130081300813008,
+      "grad_norm": 4.0257697105407715,
+      "learning_rate": 4.189112760692824e-05,
+      "loss": 0.7365,
       "step": 2300
     },
     {
       "epoch": 0.8306822198656769,
+      "grad_norm": 3.4525439739227295,
+      "learning_rate": 4.171438670908449e-05,
+      "loss": 0.6824,
       "step": 2350
     },
     {
       "epoch": 0.848356309650053,
+      "grad_norm": 3.3290514945983887,
+      "learning_rate": 4.153764581124072e-05,
+      "loss": 0.696,
       "step": 2400
     },
     {
       "epoch": 0.8660303994344292,
+      "grad_norm": 3.284925937652588,
+      "learning_rate": 4.1360904913396966e-05,
+      "loss": 0.7506,
       "step": 2450
     },
     {
       "epoch": 0.8837044892188052,
+      "grad_norm": 7.381216526031494,
+      "learning_rate": 4.11841640155532e-05,
+      "loss": 0.7282,
       "step": 2500
     },
     {
       "epoch": 0.9013785790031813,
+      "grad_norm": 3.3384296894073486,
+      "learning_rate": 4.1007423117709444e-05,
+      "loss": 0.7632,
       "step": 2550
     },
     {
       "epoch": 0.9190526687875574,
+      "grad_norm": 3.1576461791992188,
+      "learning_rate": 4.0830682219865676e-05,
+      "loss": 0.739,
       "step": 2600
     },
     {
       "epoch": 0.9367267585719335,
+      "grad_norm": 3.626567840576172,
+      "learning_rate": 4.0653941322021916e-05,
+      "loss": 0.6791,
       "step": 2650
     },
     {
       "epoch": 0.9544008483563097,
+      "grad_norm": 4.196743011474609,
+      "learning_rate": 4.0477200424178155e-05,
+      "loss": 0.7332,
       "step": 2700
     },
     {
       "epoch": 0.9720749381406858,
+      "grad_norm": 3.1296284198760986,
+      "learning_rate": 4.0300459526334394e-05,
+      "loss": 0.6539,
       "step": 2750
     },
     {
       "epoch": 0.9897490279250618,
+      "grad_norm": 5.278796672821045,
+      "learning_rate": 4.012371862849063e-05,
+      "loss": 0.737,
       "step": 2800
     },
     {
       "epoch": 1.0,
+      "eval_bertscore_f1": 0.9560778172188761,
+      "eval_bleu": 0.4824577747321971,
+      "eval_loss": 0.5060375928878784,
+      "eval_meteor": 0.6530790735036477,
+      "eval_rouge1": 0.7971610347699927,
+      "eval_rouge2": 0.6895819892909911,
+      "eval_runtime": 1389.2459,
+      "eval_samples_per_second": 4.653,
+      "eval_steps_per_second": 0.582,
       "step": 2829
     },
     {
       "epoch": 1.007423117709438,
+      "grad_norm": 3.9626195430755615,
+      "learning_rate": 3.994697773064687e-05,
+      "loss": 0.7198,
       "step": 2850
     },
     {
       "epoch": 1.025097207493814,
+      "grad_norm": 4.509051322937012,
+      "learning_rate": 3.977023683280312e-05,
+      "loss": 0.6777,
       "step": 2900
     },
     {
       "epoch": 1.0427712972781902,
+      "grad_norm": 3.044351816177368,
+      "learning_rate": 3.959349593495935e-05,
+      "loss": 0.6675,
       "step": 2950
     },
     {
       "epoch": 1.0604453870625663,
+      "grad_norm": 3.598339319229126,
+      "learning_rate": 3.941675503711559e-05,
+      "loss": 0.7256,
       "step": 3000
     },
     {
       "epoch": 1.0781194768469424,
+      "grad_norm": 5.248291015625,
+      "learning_rate": 3.924001413927183e-05,
+      "loss": 0.5862,
       "step": 3050
     },
     {
       "epoch": 1.0957935666313185,
+      "grad_norm": 3.2210874557495117,
+      "learning_rate": 3.906327324142807e-05,
+      "loss": 0.7295,
       "step": 3100
     },
     {
       "epoch": 1.1134676564156947,
+      "grad_norm": 3.6727230548858643,
+      "learning_rate": 3.888653234358431e-05,
+      "loss": 0.6206,
       "step": 3150
     },
     {
       "epoch": 1.1311417462000706,
+      "grad_norm": 4.341032981872559,
+      "learning_rate": 3.870979144574055e-05,
+      "loss": 0.676,
       "step": 3200
     },
     {
       "epoch": 1.148815835984447,
+      "grad_norm": 3.0379395484924316,
+      "learning_rate": 3.8533050547896786e-05,
+      "loss": 0.6372,
       "step": 3250
     },
     {
       "epoch": 1.1664899257688228,
+      "grad_norm": 2.846511125564575,
+      "learning_rate": 3.8356309650053025e-05,
+      "loss": 0.6758,
       "step": 3300
     },
     {
       "epoch": 1.184164015553199,
+      "grad_norm": 3.267794132232666,
+      "learning_rate": 3.817956875220926e-05,
+      "loss": 0.6035,
       "step": 3350
     },
     {
       "epoch": 1.201838105337575,
+      "grad_norm": 5.214766025543213,
+      "learning_rate": 3.8002827854365503e-05,
+      "loss": 0.6907,
       "step": 3400
     },
     {
       "epoch": 1.2195121951219512,
+      "grad_norm": 5.761065483093262,
+      "learning_rate": 3.7826086956521736e-05,
+      "loss": 0.6092,
       "step": 3450
     },
     {
       "epoch": 1.2371862849063273,
+      "grad_norm": 4.127236843109131,
+      "learning_rate": 3.764934605867798e-05,
+      "loss": 0.6127,
       "step": 3500
     },
     {
       "epoch": 1.2548603746907034,
+      "grad_norm": 2.9047141075134277,
+      "learning_rate": 3.747260516083422e-05,
+      "loss": 0.6486,
       "step": 3550
     },
     {
       "epoch": 1.2725344644750796,
+      "grad_norm": 3.972148895263672,
+      "learning_rate": 3.729586426299046e-05,
+      "loss": 0.6933,
       "step": 3600
     },
     {
       "epoch": 1.2902085542594557,
+      "grad_norm": 3.2735204696655273,
+      "learning_rate": 3.71191233651467e-05,
+      "loss": 0.6808,
       "step": 3650
     },
     {
       "epoch": 1.3078826440438318,
+      "grad_norm": 5.26752233505249,
+      "learning_rate": 3.694238246730294e-05,
+      "loss": 0.6672,
       "step": 3700
     },
     {
       "epoch": 1.3255567338282077,
+      "grad_norm": 3.852576971054077,
+      "learning_rate": 3.676564156945918e-05,
+      "loss": 0.6458,
       "step": 3750
     },
     {
       "epoch": 1.343230823612584,
+      "grad_norm": 5.333845138549805,
+      "learning_rate": 3.658890067161541e-05,
+      "loss": 0.5771,
       "step": 3800
     },
     {
       "epoch": 1.36090491339696,
+      "grad_norm": 3.3407108783721924,
+      "learning_rate": 3.6412159773771656e-05,
+      "loss": 0.6281,
       "step": 3850
     },
     {
       "epoch": 1.378579003181336,
+      "grad_norm": 3.874502658843994,
+      "learning_rate": 3.623541887592789e-05,
+      "loss": 0.6716,
       "step": 3900
     },
     {
       "epoch": 1.3962530929657122,
+      "grad_norm": 23.51529884338379,
+      "learning_rate": 3.6058677978084134e-05,
+      "loss": 0.5915,
       "step": 3950
     },
     {
       "epoch": 1.4139271827500883,
+      "grad_norm": 4.40012788772583,
+      "learning_rate": 3.588193708024037e-05,
+      "loss": 0.6098,
       "step": 4000
     },
     {
       "epoch": 1.4316012725344645,
+      "grad_norm": 2.98525071144104,
+      "learning_rate": 3.570519618239661e-05,
+      "loss": 0.5767,
       "step": 4050
     },
     {
       "epoch": 1.4492753623188406,
+      "grad_norm": 3.8279759883880615,
+      "learning_rate": 3.5528455284552845e-05,
+      "loss": 0.5843,
       "step": 4100
     },
     {
       "epoch": 1.4669494521032167,
+      "grad_norm": 2.8104283809661865,
+      "learning_rate": 3.5351714386709084e-05,
+      "loss": 0.5314,
       "step": 4150
     },
     {
       "epoch": 1.4846235418875928,
+      "grad_norm": 3.081321954727173,
+      "learning_rate": 3.5174973488865324e-05,
+      "loss": 0.5187,
       "step": 4200
     },
     {
       "epoch": 1.502297631671969,
+      "grad_norm": 2.8093416690826416,
+      "learning_rate": 3.499823259102156e-05,
+      "loss": 0.5663,
       "step": 4250
     },
     {
       "epoch": 1.5199717214563448,
+      "grad_norm": 3.7971787452697754,
+      "learning_rate": 3.48214916931778e-05,
+      "loss": 0.5069,
       "step": 4300
     },
     {
       "epoch": 1.5376458112407212,
+      "grad_norm": 3.116645336151123,
+      "learning_rate": 3.464475079533404e-05,
+      "loss": 0.4945,
       "step": 4350
     },
     {
       "epoch": 1.555319901025097,
+      "grad_norm": 2.9984517097473145,
+      "learning_rate": 3.446800989749028e-05,
+      "loss": 0.5399,
       "step": 4400
     },
     {
       "epoch": 1.5729939908094734,
+      "grad_norm": 3.3107683658599854,
+      "learning_rate": 3.429126899964652e-05,
+      "loss": 0.5507,
       "step": 4450
     },
     {
       "epoch": 1.5906680805938493,
+      "grad_norm": 4.328573226928711,
+      "learning_rate": 3.411452810180276e-05,
+      "loss": 0.5695,
       "step": 4500
     },
     {
       "epoch": 1.6083421703782255,
+      "grad_norm": 4.086219787597656,
+      "learning_rate": 3.3937787203959e-05,
+      "loss": 0.5234,
       "step": 4550
     },
     {
       "epoch": 1.6260162601626016,
+      "grad_norm": 3.971590280532837,
+      "learning_rate": 3.376104630611524e-05,
+      "loss": 0.6107,
       "step": 4600
     },
     {
       "epoch": 1.6436903499469777,
+      "grad_norm": 3.0131218433380127,
+      "learning_rate": 3.3584305408271476e-05,
+      "loss": 0.5763,
       "step": 4650
     },
     {
       "epoch": 1.6613644397313538,
+      "grad_norm": 3.862619161605835,
+      "learning_rate": 3.3407564510427716e-05,
+      "loss": 0.5422,
       "step": 4700
     },
     {
       "epoch": 1.67903852951573,
+      "grad_norm": 4.276158332824707,
+      "learning_rate": 3.3230823612583955e-05,
+      "loss": 0.6326,
       "step": 4750
     },
     {
       "epoch": 1.696712619300106,
+      "grad_norm": 4.451511383056641,
+      "learning_rate": 3.3054082714740194e-05,
+      "loss": 0.5883,
       "step": 4800
     },
     {
       "epoch": 1.714386709084482,
+      "grad_norm": 3.8793303966522217,
+      "learning_rate": 3.2877341816896426e-05,
+      "loss": 0.4958,
       "step": 4850
     },
     {
       "epoch": 1.7320607988688583,
+      "grad_norm": 3.0720949172973633,
+      "learning_rate": 3.270060091905267e-05,
+      "loss": 0.5962,
       "step": 4900
     },
     {
       "epoch": 1.7497348886532342,
+      "grad_norm": 3.674368143081665,
+      "learning_rate": 3.2523860021208905e-05,
+      "loss": 0.5179,
       "step": 4950
     },
     {
       "epoch": 1.7674089784376106,
+      "grad_norm": 4.063836574554443,
+      "learning_rate": 3.234711912336515e-05,
+      "loss": 0.5588,
       "step": 5000
     },
     {
       "epoch": 1.7850830682219865,
+      "grad_norm": 5.352965354919434,
+      "learning_rate": 3.217037822552138e-05,
+      "loss": 0.5762,
       "step": 5050
     },
     {
       "epoch": 1.8027571580063628,
+      "grad_norm": 4.00150203704834,
+      "learning_rate": 3.199363732767763e-05,
+      "loss": 0.5546,
       "step": 5100
     },
     {
       "epoch": 1.8204312477907387,
+      "grad_norm": 4.444275856018066,
+      "learning_rate": 3.181689642983386e-05,
+      "loss": 0.5321,
       "step": 5150
     },
     {
       "epoch": 1.8381053375751149,
+      "grad_norm": 2.783729076385498,
+      "learning_rate": 3.164015553199011e-05,
+      "loss": 0.5859,
       "step": 5200
     },
     {
       "epoch": 1.855779427359491,
+      "grad_norm": 4.168649673461914,
+      "learning_rate": 3.146341463414634e-05,
+      "loss": 0.5353,
       "step": 5250
     },
     {
       "epoch": 1.873453517143867,
+      "grad_norm": 4.757116794586182,
+      "learning_rate": 3.128667373630258e-05,
+      "loss": 0.4766,
       "step": 5300
     },
     {
       "epoch": 1.8911276069282432,
+      "grad_norm": 2.5472869873046875,
+      "learning_rate": 3.1109932838458825e-05,
+      "loss": 0.4687,
       "step": 5350
     },
     {
       "epoch": 1.9088016967126193,
+      "grad_norm": 2.9616148471832275,
+      "learning_rate": 3.093319194061506e-05,
+      "loss": 0.5018,
       "step": 5400
     },
     {
       "epoch": 1.9264757864969955,
+      "grad_norm": 3.773808240890503,
+      "learning_rate": 3.0756451042771303e-05,
+      "loss": 0.5798,
       "step": 5450
     },
     {
       "epoch": 1.9441498762813714,
+      "grad_norm": 3.725301742553711,
+      "learning_rate": 3.0579710144927536e-05,
+      "loss": 0.5041,
       "step": 5500
     },
     {
       "epoch": 1.9618239660657477,
+      "grad_norm": 3.422393560409546,
+      "learning_rate": 3.040296924708378e-05,
+      "loss": 0.5053,
       "step": 5550
     },
     {
       "epoch": 1.9794980558501236,
+      "grad_norm": 3.7830734252929688,
+      "learning_rate": 3.0226228349240014e-05,
+      "loss": 0.5573,
       "step": 5600
     },
     {
       "epoch": 1.9971721456345,
+      "grad_norm": 2.845203161239624,
+      "learning_rate": 3.0049487451396253e-05,
+      "loss": 0.4995,
       "step": 5650
     },
     {
       "epoch": 2.0,
+      "eval_bertscore_f1": 0.9619662560301252,
+      "eval_bleu": 0.5490499087973257,
+      "eval_loss": 0.3714849352836609,
+      "eval_meteor": 0.7078770382751671,
+      "eval_rouge1": 0.8227979006513153,
+      "eval_rouge2": 0.7467554150541201,
+      "eval_runtime": 1347.4627,
+      "eval_samples_per_second": 4.797,
+      "eval_steps_per_second": 0.6,
       "step": 5658
     },
     {
       "epoch": 2.014846235418876,
+      "grad_norm": 3.069786787033081,
+      "learning_rate": 2.9872746553552493e-05,
+      "loss": 0.4827,
       "step": 5700
     },
     {
       "epoch": 2.032520325203252,
+      "grad_norm": 3.7215096950531006,
+      "learning_rate": 2.9696005655708732e-05,
+      "loss": 0.5742,
       "step": 5750
     },
     {
       "epoch": 2.050194414987628,
+      "grad_norm": 4.543232440948486,
+      "learning_rate": 2.9519264757864974e-05,
+      "loss": 0.478,
       "step": 5800
     },
     {
       "epoch": 2.0678685047720045,
+      "grad_norm": 3.076716423034668,
+      "learning_rate": 2.934252386002121e-05,
+      "loss": 0.4619,
       "step": 5850
     },
     {
       "epoch": 2.0855425945563804,
+      "grad_norm": 3.951244592666626,
+      "learning_rate": 2.9165782962177453e-05,
+      "loss": 0.513,
       "step": 5900
     },
     {
       "epoch": 2.1032166843407563,
+      "grad_norm": 2.552813768386841,
+      "learning_rate": 2.898904206433369e-05,
+      "loss": 0.491,
       "step": 5950
     },
     {
       "epoch": 2.1208907741251326,
+      "grad_norm": 2.2147703170776367,
+      "learning_rate": 2.8812301166489924e-05,
+      "loss": 0.4333,
       "step": 6000
     },
     {
       "epoch": 2.1385648639095085,
+      "grad_norm": 2.9662623405456543,
+      "learning_rate": 2.8635560268646167e-05,
+      "loss": 0.4287,
       "step": 6050
     },
     {
       "epoch": 2.156238953693885,
+      "grad_norm": 1.9441404342651367,
+      "learning_rate": 2.8458819370802403e-05,
+      "loss": 0.5373,
       "step": 6100
     },
     {
       "epoch": 2.1739130434782608,
+      "grad_norm": 4.967250823974609,
+      "learning_rate": 2.8282078472958645e-05,
+      "loss": 0.4971,
       "step": 6150
     },
     {
       "epoch": 2.191587133262637,
+      "grad_norm": 3.1946051120758057,
+      "learning_rate": 2.810533757511488e-05,
+      "loss": 0.5078,
       "step": 6200
     },
     {
       "epoch": 2.209261223047013,
+      "grad_norm": 2.941650152206421,
+      "learning_rate": 2.7928596677271124e-05,
+      "loss": 0.5376,
       "step": 6250
     },
     {
       "epoch": 2.2269353128313893,
+      "grad_norm": 4.430084705352783,
+      "learning_rate": 2.775185577942736e-05,
+      "loss": 0.5443,
       "step": 6300
     },
     {
       "epoch": 2.2446094026157652,
+      "grad_norm": 4.810621738433838,
+      "learning_rate": 2.7575114881583602e-05,
+      "loss": 0.5101,
       "step": 6350
     },
     {
       "epoch": 2.262283492400141,
+      "grad_norm": 4.557118892669678,
+      "learning_rate": 2.7401908801696713e-05,
+      "loss": 0.5837,
       "step": 6400
     },
     {
       "epoch": 2.2799575821845175,
+      "grad_norm": 3.7677035331726074,
+      "learning_rate": 2.7225167903852955e-05,
+      "loss": 0.4693,
       "step": 6450
     },
     {
       "epoch": 2.297631671968894,
+      "grad_norm": 2.5755605697631836,
+      "learning_rate": 2.704842700600919e-05,
+      "loss": 0.4601,
       "step": 6500
     },
     {
       "epoch": 2.3153057617532697,
+      "grad_norm": 4.114721775054932,
+      "learning_rate": 2.6871686108165427e-05,
+      "loss": 0.5209,
       "step": 6550
     },
     {
       "epoch": 2.3329798515376456,
+      "grad_norm": 4.422333717346191,
+      "learning_rate": 2.669494521032167e-05,
+      "loss": 0.5097,
       "step": 6600
     },
     {
       "epoch": 2.350653941322022,
+      "grad_norm": 2.2840325832366943,
+      "learning_rate": 2.6518204312477905e-05,
+      "loss": 0.4896,
       "step": 6650
     },
     {
       "epoch": 2.368328031106398,
+      "grad_norm": 4.739809036254883,
+      "learning_rate": 2.6341463414634148e-05,
+      "loss": 0.5377,
       "step": 6700
     },
     {
       "epoch": 2.3860021208907742,
+      "grad_norm": 4.174150466918945,
+      "learning_rate": 2.6164722516790384e-05,
+      "loss": 0.4754,
       "step": 6750
     },
     {
       "epoch": 2.40367621067515,
+      "grad_norm": 3.5064797401428223,
+      "learning_rate": 2.5987981618946626e-05,
+      "loss": 0.4375,
       "step": 6800
     },
     {
       "epoch": 2.4213503004595265,
+      "grad_norm": 5.094990253448486,
+      "learning_rate": 2.5811240721102865e-05,
+      "loss": 0.5027,
       "step": 6850
     },
     {
       "epoch": 2.4390243902439024,
+      "grad_norm": 6.338164329528809,
+      "learning_rate": 2.5634499823259105e-05,
+      "loss": 0.5016,
       "step": 6900
     },
     {
       "epoch": 2.4566984800282787,
+      "grad_norm": 3.988973379135132,
+      "learning_rate": 2.5457758925415344e-05,
+      "loss": 0.4173,
       "step": 6950
     },
     {
       "epoch": 2.4743725698126546,
+      "grad_norm": 2.3877015113830566,
+      "learning_rate": 2.528101802757158e-05,
+      "loss": 0.4857,
       "step": 7000
     },
     {
       "epoch": 2.4920466595970305,
+      "grad_norm": 4.041755199432373,
+      "learning_rate": 2.5104277129727822e-05,
+      "loss": 0.4463,
       "step": 7050
     },
     {
       "epoch": 2.509720749381407,
+      "grad_norm": 3.5311896800994873,
+      "learning_rate": 2.492753623188406e-05,
+      "loss": 0.4899,
       "step": 7100
     },
     {
       "epoch": 2.5273948391657832,
+      "grad_norm": 2.9291367530822754,
+      "learning_rate": 2.4750795334040297e-05,
+      "loss": 0.5041,
       "step": 7150
     },
     {
       "epoch": 2.545068928950159,
+      "grad_norm": 3.6040406227111816,
+      "learning_rate": 2.4574054436196536e-05,
+      "loss": 0.4374,
       "step": 7200
     },
     {
       "epoch": 2.562743018734535,
+      "grad_norm": 4.614346981048584,
+      "learning_rate": 2.4397313538352776e-05,
+      "loss": 0.4659,
       "step": 7250
     },
     {
       "epoch": 2.5804171085189114,
+      "grad_norm": 5.035871505737305,
+      "learning_rate": 2.4220572640509015e-05,
+      "loss": 0.4419,
       "step": 7300
     },
     {
       "epoch": 2.5980911983032873,
+      "grad_norm": 3.1209981441497803,
+      "learning_rate": 2.4043831742665254e-05,
+      "loss": 0.4863,
       "step": 7350
     },
     {
       "epoch": 2.6157652880876636,
+      "grad_norm": 2.7074010372161865,
+      "learning_rate": 2.3867090844821493e-05,
+      "loss": 0.4899,
       "step": 7400
     },
     {
       "epoch": 2.6334393778720395,
+      "grad_norm": 4.56402587890625,
+      "learning_rate": 2.3690349946977732e-05,
+      "loss": 0.5104,
       "step": 7450
     },
     {
       "epoch": 2.6511134676564154,
+      "grad_norm": 3.637251377105713,
+      "learning_rate": 2.3513609049133968e-05,
+      "loss": 0.4638,
       "step": 7500
     },
     {
       "epoch": 2.6687875574407918,
+      "grad_norm": 2.912982702255249,
+      "learning_rate": 2.3336868151290207e-05,
+      "loss": 0.4572,
       "step": 7550
     },
     {
       "epoch": 2.686461647225168,
+      "grad_norm": 2.9806952476501465,
+      "learning_rate": 2.3160127253446447e-05,
+      "loss": 0.4544,
       "step": 7600
     },
     {
       "epoch": 2.704135737009544,
+      "grad_norm": 3.6673879623413086,
+      "learning_rate": 2.2983386355602686e-05,
+      "loss": 0.4428,
       "step": 7650
     },
     {
       "epoch": 2.72180982679392,
+      "grad_norm": 7.318435192108154,
+      "learning_rate": 2.280664545775893e-05,
+      "loss": 0.4137,
       "step": 7700
     },
     {
       "epoch": 2.7394839165782963,
+      "grad_norm": 7.58805513381958,
+      "learning_rate": 2.2629904559915168e-05,
+      "loss": 0.4501,
       "step": 7750
     },
     {
       "epoch": 2.757158006362672,
+      "grad_norm": 3.000596046447754,
+      "learning_rate": 2.2453163662071407e-05,
+      "loss": 0.4104,
       "step": 7800
     },
     {
       "epoch": 2.7748320961470485,
+      "grad_norm": 6.188124656677246,
+      "learning_rate": 2.2276422764227646e-05,
+      "loss": 0.4833,
       "step": 7850
     },
     {
       "epoch": 2.7925061859314244,
+      "grad_norm": 2.526710033416748,
+      "learning_rate": 2.209968186638388e-05,
+      "loss": 0.4377,
       "step": 7900
     },
     {
       "epoch": 2.8101802757158008,
+      "grad_norm": 3.080709934234619,
+      "learning_rate": 2.192294096854012e-05,
+      "loss": 0.4289,
       "step": 7950
     },
     {
       "epoch": 2.8278543655001767,
+      "grad_norm": 2.859811544418335,
+      "learning_rate": 2.174620007069636e-05,
+      "loss": 0.4856,
       "step": 8000
     },
     {
       "epoch": 2.845528455284553,
+      "grad_norm": 4.68251371383667,
+      "learning_rate": 2.15694591728526e-05,
+      "loss": 0.4901,
       "step": 8050
     },
     {
       "epoch": 2.863202545068929,
+      "grad_norm": 4.8537211418151855,
+      "learning_rate": 2.139271827500884e-05,
+      "loss": 0.3815,
       "step": 8100
     },
     {
       "epoch": 2.880876634853305,
+      "grad_norm": 3.1829328536987305,
+      "learning_rate": 2.1215977377165078e-05,
+      "loss": 0.4713,
       "step": 8150
     },
     {
       "epoch": 2.898550724637681,
+      "grad_norm": 4.081786155700684,
+      "learning_rate": 2.1039236479321317e-05,
+      "loss": 0.4494,
       "step": 8200
     },
     {
       "epoch": 2.9162248144220575,
+      "grad_norm": 4.547771453857422,
+      "learning_rate": 2.0862495581477553e-05,
+      "loss": 0.4306,
       "step": 8250
     },
     {
       "epoch": 2.9338989042064334,
+      "grad_norm": 2.5716054439544678,
+      "learning_rate": 2.0685754683633792e-05,
+      "loss": 0.3865,
       "step": 8300
     },
     {
       "epoch": 2.9515729939908093,
+      "grad_norm": 3.1603822708129883,
+      "learning_rate": 2.050901378579003e-05,
+      "loss": 0.4292,
       "step": 8350
     },
     {
       "epoch": 2.9692470837751856,
+      "grad_norm": 3.2110049724578857,
+      "learning_rate": 2.033227288794627e-05,
+      "loss": 0.4612,
       "step": 8400
     },
     {
       "epoch": 2.9869211735595615,
+      "grad_norm": 3.1889193058013916,
+      "learning_rate": 2.015553199010251e-05,
+      "loss": 0.4432,
       "step": 8450
     },
     {
       "epoch": 3.0,
+      "eval_bertscore_f1": 0.9641102957124315,
+      "eval_bleu": 0.5720155666086876,
+      "eval_loss": 0.32330864667892456,
+      "eval_meteor": 0.7255114484352385,
+      "eval_rouge1": 0.8322775652472418,
+      "eval_rouge2": 0.7664804459108749,
+      "eval_runtime": 1341.3557,
+      "eval_samples_per_second": 4.819,
+      "eval_steps_per_second": 0.602,
       "step": 8487
     },
     {
       "epoch": 3.004595263343938,
+      "grad_norm": 3.6943013668060303,
+      "learning_rate": 1.997879109225875e-05,
+      "loss": 0.4008,
       "step": 8500
     },
     {
       "epoch": 3.022269353128314,
+      "grad_norm": 3.6444859504699707,
+      "learning_rate": 1.9802050194414988e-05,
+      "loss": 0.4435,
       "step": 8550
     },
     {
       "epoch": 3.03994344291269,
+      "grad_norm": 2.0229413509368896,
+      "learning_rate": 1.962530929657123e-05,
+      "loss": 0.4479,
       "step": 8600
     },
     {
       "epoch": 3.057617532697066,
+      "grad_norm": 2.651965618133545,
+      "learning_rate": 1.9448568398727466e-05,
+      "loss": 0.4386,
       "step": 8650
     },
     {
       "epoch": 3.0752916224814424,
+      "grad_norm": 3.405768394470215,
+      "learning_rate": 1.9271827500883705e-05,
+      "loss": 0.3994,
       "step": 8700
     },
     {
       "epoch": 3.0929657122658183,
+      "grad_norm": 4.544278144836426,
+      "learning_rate": 1.9095086603039945e-05,
+      "loss": 0.4002,
       "step": 8750
     },
     {
       "epoch": 3.110639802050194,
+      "grad_norm": 4.592613220214844,
+      "learning_rate": 1.8918345705196184e-05,
+      "loss": 0.4925,
       "step": 8800
     },
     {
       "epoch": 3.1283138918345705,
+      "grad_norm": 4.989655017852783,
+      "learning_rate": 1.8741604807352423e-05,
+      "loss": 0.411,
       "step": 8850
     },
     {
       "epoch": 3.1459879816189464,
+      "grad_norm": 5.274810791015625,
+      "learning_rate": 1.8568398727465537e-05,
+      "loss": 0.4002,
       "step": 8900
     },
     {
       "epoch": 3.163662071403323,
+      "grad_norm": 3.1220662593841553,
+      "learning_rate": 1.8391657829621776e-05,
+      "loss": 0.4138,
       "step": 8950
     },
     {
       "epoch": 3.1813361611876987,
+      "grad_norm": 3.1085612773895264,
+      "learning_rate": 1.8214916931778015e-05,
+      "loss": 0.4498,
       "step": 9000
     },
     {
       "epoch": 3.199010250972075,
+      "grad_norm": 2.929586410522461,
+      "learning_rate": 1.8038176033934255e-05,
+      "loss": 0.4271,
       "step": 9050
     },
     {
       "epoch": 3.216684340756451,
+      "grad_norm": 3.6650078296661377,
+      "learning_rate": 1.7861435136090494e-05,
+      "loss": 0.4642,
       "step": 9100
     },
     {
       "epoch": 3.2343584305408273,
+      "grad_norm": 4.111539363861084,
+      "learning_rate": 1.7684694238246733e-05,
+      "loss": 0.3974,
       "step": 9150
     },
     {
       "epoch": 3.252032520325203,
+      "grad_norm": 3.7882914543151855,
+      "learning_rate": 1.750795334040297e-05,
+      "loss": 0.4961,
       "step": 9200
     },
     {
       "epoch": 3.2697066101095795,
+      "grad_norm": 3.846184253692627,
+      "learning_rate": 1.7331212442559208e-05,
+      "loss": 0.4681,
       "step": 9250
     },
     {
       "epoch": 3.2873806998939554,
+      "grad_norm": 2.3030924797058105,
+      "learning_rate": 1.7154471544715447e-05,
+      "loss": 0.3746,
       "step": 9300
     },
     {
       "epoch": 3.3050547896783318,
+      "grad_norm": 5.14872407913208,
+      "learning_rate": 1.6977730646871686e-05,
+      "loss": 0.3876,
       "step": 9350
     },
     {
       "epoch": 3.3227288794627077,
+      "grad_norm": 3.8709867000579834,
+      "learning_rate": 1.6800989749027926e-05,
+      "loss": 0.4326,
       "step": 9400
     },
     {
       "epoch": 3.3404029692470836,
+      "grad_norm": 2.4771230220794678,
+      "learning_rate": 1.6624248851184165e-05,
+      "loss": 0.4111,
       "step": 9450
     },
     {
       "epoch": 3.35807705903146,
+      "grad_norm": 4.154597282409668,
+      "learning_rate": 1.6447507953340404e-05,
+      "loss": 0.514,
       "step": 9500
     },
     {
       "epoch": 3.375751148815836,
+      "grad_norm": 3.861116409301758,
+      "learning_rate": 1.6270767055496643e-05,
+      "loss": 0.4171,
       "step": 9550
     },
     {
       "epoch": 3.393425238600212,
+      "grad_norm": 3.292591094970703,
+      "learning_rate": 1.609402615765288e-05,
+      "loss": 0.4192,
       "step": 9600
     },
     {
       "epoch": 3.411099328384588,
+      "grad_norm": 3.9203121662139893,
+      "learning_rate": 1.591728525980912e-05,
+      "loss": 0.4036,
       "step": 9650
     },
     {
       "epoch": 3.4287734181689644,
+      "grad_norm": 3.337324857711792,
+      "learning_rate": 1.574054436196536e-05,
+      "loss": 0.3511,
       "step": 9700
     },
     {
       "epoch": 3.4464475079533403,
+      "grad_norm": 2.305972099304199,
+      "learning_rate": 1.55638034641216e-05,
+      "loss": 0.4891,
       "step": 9750
     },
     {
       "epoch": 3.4641215977377167,
+      "grad_norm": 4.972841739654541,
+      "learning_rate": 1.538706256627784e-05,
+      "loss": 0.4172,
       "step": 9800
     },
     {
       "epoch": 3.4817956875220926,
+      "grad_norm": 3.111032009124756,
+      "learning_rate": 1.5210321668434077e-05,
+      "loss": 0.4401,
       "step": 9850
     },
     {
       "epoch": 3.499469777306469,
+      "grad_norm": 1.9676620960235596,
+      "learning_rate": 1.5033580770590316e-05,
+      "loss": 0.4398,
       "step": 9900
     },
     {
       "epoch": 3.517143867090845,
+      "grad_norm": 3.4216668605804443,
+      "learning_rate": 1.4856839872746553e-05,
+      "loss": 0.4015,
       "step": 9950
     },
     {
       "epoch": 3.534817956875221,
+      "grad_norm": 3.161693811416626,
+      "learning_rate": 1.4680098974902792e-05,
+      "loss": 0.4216,
       "step": 10000
     },
     {
       "epoch": 3.552492046659597,
+      "grad_norm": 5.103592395782471,
+      "learning_rate": 1.4503358077059032e-05,
+      "loss": 0.4489,
       "step": 10050
     },
     {
       "epoch": 3.570166136443973,
+      "grad_norm": 3.90478777885437,
+      "learning_rate": 1.432661717921527e-05,
+      "loss": 0.4565,
       "step": 10100
     },
     {
       "epoch": 3.5878402262283493,
+      "grad_norm": 2.7845191955566406,
+      "learning_rate": 1.414987628137151e-05,
+      "loss": 0.4312,
       "step": 10150
     },
     {
       "epoch": 3.605514316012725,
+      "grad_norm": 4.3978729248046875,
+      "learning_rate": 1.397313538352775e-05,
+      "loss": 0.5477,
       "step": 10200
     },
     {
       "epoch": 3.6231884057971016,
+      "grad_norm": 3.3587982654571533,
+      "learning_rate": 1.3796394485683988e-05,
+      "loss": 0.4373,
       "step": 10250
     },
     {
       "epoch": 3.6408624955814775,
+      "grad_norm": 2.463456392288208,
+      "learning_rate": 1.3619653587840228e-05,
+      "loss": 0.4234,
       "step": 10300
     },
     {
       "epoch": 3.658536585365854,
+      "grad_norm": 3.532365560531616,
+      "learning_rate": 1.3442912689996465e-05,
+      "loss": 0.4115,
       "step": 10350
     },
     {
       "epoch": 3.6762106751502297,
+      "grad_norm": 3.4025349617004395,
+      "learning_rate": 1.3266171792152704e-05,
+      "loss": 0.4462,
       "step": 10400
     },
     {
       "epoch": 3.693884764934606,
+      "grad_norm": 1.0425785779953003,
+      "learning_rate": 1.3089430894308943e-05,
+      "loss": 0.3494,
       "step": 10450
     },
     {
       "epoch": 3.711558854718982,
+      "grad_norm": 4.738943099975586,
+      "learning_rate": 1.2912689996465183e-05,
+      "loss": 0.4316,
       "step": 10500
     },
     {
       "epoch": 3.729232944503358,
+      "grad_norm": 2.0041253566741943,
+      "learning_rate": 1.2735949098621422e-05,
+      "loss": 0.4596,
       "step": 10550
     },
     {
       "epoch": 3.746907034287734,
+      "grad_norm": 4.681216239929199,
+      "learning_rate": 1.2559208200777661e-05,
+      "loss": 0.4013,
       "step": 10600
     },
     {
       "epoch": 3.7645811240721105,
+      "grad_norm": 4.387250900268555,
+      "learning_rate": 1.2382467302933899e-05,
+      "loss": 0.387,
       "step": 10650
     },
     {
       "epoch": 3.7822552138564864,
+      "grad_norm": 2.4324512481689453,
+      "learning_rate": 1.2205726405090138e-05,
+      "loss": 0.4383,
       "step": 10700
     },
     {
       "epoch": 3.7999293036408623,
+      "grad_norm": 4.895308494567871,
+      "learning_rate": 1.2028985507246379e-05,
+      "loss": 0.4567,
       "step": 10750
     },
     {
       "epoch": 3.8176033934252387,
+      "grad_norm": 3.3893020153045654,
+      "learning_rate": 1.1852244609402616e-05,
+      "loss": 0.4316,
       "step": 10800
     },
     {
       "epoch": 3.8352774832096146,
+      "grad_norm": 2.8720388412475586,
+      "learning_rate": 1.1675503711558855e-05,
+      "loss": 0.3712,
       "step": 10850
     },
     {
       "epoch": 3.852951572993991,
+      "grad_norm": 2.9342293739318848,
+      "learning_rate": 1.1498762813715094e-05,
+      "loss": 0.3595,
       "step": 10900
     },
     {
       "epoch": 3.870625662778367,
+      "grad_norm": 5.391896724700928,
+      "learning_rate": 1.1322021915871334e-05,
+      "loss": 0.3945,
       "step": 10950
     },
     {
       "epoch": 3.888299752562743,
+      "grad_norm": 2.1623027324676514,
+      "learning_rate": 1.1145281018027571e-05,
+      "loss": 0.3849,
       "step": 11000
     },
     {
       "epoch": 3.905973842347119,
+      "grad_norm": 2.6391725540161133,
+      "learning_rate": 1.096854012018381e-05,
+      "loss": 0.3837,
       "step": 11050
     },
     {
       "epoch": 3.9236479321314954,
+      "grad_norm": 2.8502111434936523,
+      "learning_rate": 1.079179922234005e-05,
+      "loss": 0.4109,
       "step": 11100
     },
     {
       "epoch": 3.9413220219158713,
+      "grad_norm": 3.7358663082122803,
+      "learning_rate": 1.0615058324496289e-05,
+      "loss": 0.4113,
       "step": 11150
     },
     {
       "epoch": 3.9589961117002472,
+      "grad_norm": 3.771918535232544,
+      "learning_rate": 1.0438317426652528e-05,
+      "loss": 0.3664,
       "step": 11200
     },
     {
       "epoch": 3.9766702014846236,
+      "grad_norm": 2.2865407466888428,
+      "learning_rate": 1.0261576528808767e-05,
+      "loss": 0.427,
       "step": 11250
     },
     {
       "epoch": 3.9943442912689995,
+      "grad_norm": 3.386460781097412,
+      "learning_rate": 1.0084835630965006e-05,
+      "loss": 0.4252,
       "step": 11300
     },
     {
       "epoch": 4.0,
+      "eval_bertscore_f1": 0.965401310132503,
+      "eval_bleu": 0.5825957176218498,
+      "eval_loss": 0.29947343468666077,
+      "eval_meteor": 0.7356418884759407,
+      "eval_rouge1": 0.8377531126193314,
+      "eval_rouge2": 0.7761899021152611,
+      "eval_runtime": 1380.5465,
+      "eval_samples_per_second": 4.682,
+      "eval_steps_per_second": 0.585,
       "step": 11316
     },
     {
       "epoch": 4.012018381053376,
+      "grad_norm": 4.861545085906982,
+      "learning_rate": 9.908094733121245e-06,
+      "loss": 0.4298,
       "step": 11350
     },
     {
       "epoch": 4.029692470837752,
+      "grad_norm": 6.035098075866699,
+      "learning_rate": 9.731353835277483e-06,
+      "loss": 0.3755,
       "step": 11400
     },
     {
       "epoch": 4.047366560622128,
+      "grad_norm": 2.295048952102661,
+      "learning_rate": 9.554612937433722e-06,
+      "loss": 0.3772,
       "step": 11450
     },
     {
       "epoch": 4.065040650406504,
+      "grad_norm": 3.09201979637146,
+      "learning_rate": 9.377872039589961e-06,
+      "loss": 0.4315,
       "step": 11500
     },
     {
       "epoch": 4.08271474019088,
+      "grad_norm": 7.435740947723389,
+      "learning_rate": 9.2011311417462e-06,
+      "loss": 0.4276,
       "step": 11550
     },
     {
       "epoch": 4.100388829975256,
+      "grad_norm": 2.680793046951294,
+      "learning_rate": 9.02439024390244e-06,
+      "loss": 0.3664,
       "step": 11600
     },
     {
       "epoch": 4.118062919759632,
+      "grad_norm": 2.200497627258301,
+      "learning_rate": 8.847649346058679e-06,
+      "loss": 0.4054,
       "step": 11650
     },
     {
       "epoch": 4.135737009544009,
+      "grad_norm": 3.864414930343628,
+      "learning_rate": 8.670908448214918e-06,
+      "loss": 0.4256,
       "step": 11700
     },
     {
       "epoch": 4.153411099328385,
+      "grad_norm": 4.263733863830566,
+      "learning_rate": 8.494167550371156e-06,
+      "loss": 0.4066,
       "step": 11750
     },
     {
       "epoch": 4.171085189112761,
+      "grad_norm": 4.246395587921143,
+      "learning_rate": 8.317426652527395e-06,
+      "loss": 0.3858,
       "step": 11800
     },
     {
       "epoch": 4.188759278897137,
+      "grad_norm": 4.842310905456543,
+      "learning_rate": 8.140685754683634e-06,
+      "loss": 0.4026,
       "step": 11850
     },
     {
       "epoch": 4.2064333686815125,
+      "grad_norm": 2.5259275436401367,
+      "learning_rate": 7.963944856839873e-06,
+      "loss": 0.3624,
       "step": 11900
     },
     {
       "epoch": 4.224107458465889,
+      "grad_norm": 2.959528923034668,
+      "learning_rate": 7.787203958996112e-06,
+      "loss": 0.3971,
       "step": 11950
     },
     {
       "epoch": 4.241781548250265,
+      "grad_norm": 2.9087865352630615,
+      "learning_rate": 7.610463061152351e-06,
+      "loss": 0.4095,
       "step": 12000
     },
     {
       "epoch": 4.259455638034641,
+      "grad_norm": 3.8024725914001465,
+      "learning_rate": 7.43372216330859e-06,
+      "loss": 0.3815,
       "step": 12050
     },
     {
       "epoch": 4.277129727819017,
+      "grad_norm": 3.2564175128936768,
+      "learning_rate": 7.256981265464829e-06,
+      "loss": 0.3752,
       "step": 12100
     },
     {
       "epoch": 4.294803817603394,
+      "grad_norm": 1.157267689704895,
+      "learning_rate": 7.080240367621067e-06,
+      "loss": 0.3769,
       "step": 12150
     },
     {
       "epoch": 4.31247790738777,
+      "grad_norm": 11.618633270263672,
+      "learning_rate": 6.903499469777307e-06,
+      "loss": 0.4042,
       "step": 12200
     },
     {
       "epoch": 4.330151997172146,
+      "grad_norm": 4.113063812255859,
+      "learning_rate": 6.726758571933546e-06,
+      "loss": 0.4441,
       "step": 12250
     },
     {
       "epoch": 4.3478260869565215,
+      "grad_norm": 4.125561237335205,
+      "learning_rate": 6.550017674089785e-06,
+      "loss": 0.421,
       "step": 12300
     },
     {
       "epoch": 4.365500176740898,
+      "grad_norm": 3.2781832218170166,
+      "learning_rate": 6.373276776246023e-06,
+      "loss": 0.46,
       "step": 12350
     },
     {
       "epoch": 4.383174266525274,
+      "grad_norm": 8.616064071655273,
+      "learning_rate": 6.1965358784022625e-06,
+      "loss": 0.3905,
       "step": 12400
     },
     {
       "epoch": 4.40084835630965,
+      "grad_norm": 3.173698902130127,
+      "learning_rate": 6.019794980558501e-06,
+      "loss": 0.3529,
       "step": 12450
     },
     {
       "epoch": 4.418522446094026,
+      "grad_norm": 2.7585160732269287,
+      "learning_rate": 5.843054082714741e-06,
+      "loss": 0.4236,
       "step": 12500
     },
     {
       "epoch": 4.436196535878402,
+      "grad_norm": 1.5063729286193848,
+      "learning_rate": 5.666313184870979e-06,
+      "loss": 0.4182,
       "step": 12550
     },
     {
       "epoch": 4.453870625662779,
+      "grad_norm": 5.755438327789307,
+      "learning_rate": 5.4895722870272184e-06,
+      "loss": 0.3909,
       "step": 12600
     },
     {
       "epoch": 4.471544715447155,
+      "grad_norm": 2.465946674346924,
+      "learning_rate": 5.312831389183457e-06,
+      "loss": 0.4078,
       "step": 12650
     },
     {
       "epoch": 4.4892188052315305,
+      "grad_norm": 2.642314910888672,
+      "learning_rate": 5.136090491339696e-06,
+      "loss": 0.4581,
       "step": 12700
     },
     {
       "epoch": 4.506892895015906,
+      "grad_norm": 3.11537766456604,
+      "learning_rate": 4.959349593495935e-06,
+      "loss": 0.3574,
       "step": 12750
     },
     {
       "epoch": 4.524566984800282,
+      "grad_norm": 5.104282855987549,
+      "learning_rate": 4.782608695652174e-06,
+      "loss": 0.3889,
       "step": 12800
     },
     {
       "epoch": 4.542241074584659,
+      "grad_norm": 3.2097325325012207,
+      "learning_rate": 4.605867797808413e-06,
+      "loss": 0.3723,
       "step": 12850
     },
     {
       "epoch": 4.559915164369035,
+      "grad_norm": 2.8303864002227783,
+      "learning_rate": 4.429126899964652e-06,
+      "loss": 0.4222,
       "step": 12900
     },
     {
       "epoch": 4.577589254153411,
+      "grad_norm": 3.508904457092285,
+      "learning_rate": 4.252386002120891e-06,
+      "loss": 0.4109,
       "step": 12950
     },
     {
       "epoch": 4.595263343937788,
+      "grad_norm": 3.8901443481445312,
+      "learning_rate": 4.07564510427713e-06,
+      "loss": 0.4248,
       "step": 13000
     },
     {
       "epoch": 4.612937433722164,
+      "grad_norm": 4.3722920417785645,
+      "learning_rate": 3.898904206433369e-06,
+      "loss": 0.4139,
       "step": 13050
     },
     {
       "epoch": 4.6306115235065395,
+      "grad_norm": 3.87107515335083,
+      "learning_rate": 3.722163308589608e-06,
+      "loss": 0.3862,
       "step": 13100
     },
     {
       "epoch": 4.648285613290915,
+      "grad_norm": 4.208980560302734,
+      "learning_rate": 3.5454224107458466e-06,
+      "loss": 0.3971,
       "step": 13150
     },
     {
       "epoch": 4.665959703075291,
+      "grad_norm": 3.0796680450439453,
+      "learning_rate": 3.368681512902086e-06,
+      "loss": 0.4466,
       "step": 13200
     },
     {
       "epoch": 4.683633792859668,
+      "grad_norm": 3.2411413192749023,
+      "learning_rate": 3.1919406150583245e-06,
+      "loss": 0.3462,
       "step": 13250
     },
     {
       "epoch": 4.701307882644044,
+      "grad_norm": 3.422546625137329,
+      "learning_rate": 3.0151997172145637e-06,
+      "loss": 0.4942,
       "step": 13300
     },
     {
       "epoch": 4.71898197242842,
+      "grad_norm": 5.258462905883789,
+      "learning_rate": 2.8384588193708025e-06,
+      "loss": 0.3842,
       "step": 13350
     },
     {
       "epoch": 4.736656062212796,
+      "grad_norm": 3.634772300720215,
+      "learning_rate": 2.6617179215270417e-06,
+      "loss": 0.386,
       "step": 13400
     },
     {
       "epoch": 4.754330151997172,
+      "grad_norm": 2.493283987045288,
+      "learning_rate": 2.4849770236832804e-06,
+      "loss": 0.3646,
       "step": 13450
     },
     {
       "epoch": 4.7720042417815485,
+      "grad_norm": 3.546058416366577,
+      "learning_rate": 2.3082361258395196e-06,
+      "loss": 0.4085,
       "step": 13500
     },
     {
       "epoch": 4.789678331565924,
+      "grad_norm": 2.0962002277374268,
+      "learning_rate": 2.1314952279957584e-06,
+      "loss": 0.3869,
       "step": 13550
     },
     {
       "epoch": 4.8073524213503,
+      "grad_norm": 2.2293384075164795,
+      "learning_rate": 1.9547543301519976e-06,
+      "loss": 0.4841,
       "step": 13600
     },
     {
       "epoch": 4.825026511134676,
+      "grad_norm": 3.2926249504089355,
+      "learning_rate": 1.7780134323082363e-06,
+      "loss": 0.4599,
       "step": 13650
     },
     {
       "epoch": 4.842700600919053,
+      "grad_norm": 5.047961235046387,
+      "learning_rate": 1.6012725344644753e-06,
+      "loss": 0.3796,
       "step": 13700
     },
     {
       "epoch": 4.860374690703429,
+      "grad_norm": 3.179448366165161,
+      "learning_rate": 1.424531636620714e-06,
+      "loss": 0.3898,
       "step": 13750
     },
     {
       "epoch": 4.878048780487805,
+      "grad_norm": 5.14663028717041,
+      "learning_rate": 1.247790738776953e-06,
+      "loss": 0.383,
       "step": 13800
     },
     {
       "epoch": 4.895722870272181,
+      "grad_norm": 2.7722623348236084,
+      "learning_rate": 1.071049840933192e-06,
+      "loss": 0.3923,
       "step": 13850
     },
     {
       "epoch": 4.9133969600565575,
+      "grad_norm": 4.3328447341918945,
+      "learning_rate": 8.94308943089431e-07,
+      "loss": 0.3859,
       "step": 13900
     },
     {
       "epoch": 4.931071049840933,
+      "grad_norm": 3.5014865398406982,
+      "learning_rate": 7.175680452456699e-07,
+      "loss": 0.3909,
       "step": 13950
     },
     {
       "epoch": 4.948745139625309,
+      "grad_norm": 4.449154376983643,
+      "learning_rate": 5.408271474019089e-07,
+      "loss": 0.4711,
       "step": 14000
     },
     {
       "epoch": 4.966419229409685,
+      "grad_norm": 2.2578201293945312,
+      "learning_rate": 3.640862495581478e-07,
+      "loss": 0.3719,
       "step": 14050
     },
     {
       "epoch": 4.984093319194061,
+      "grad_norm": 1.688942313194275,
+      "learning_rate": 1.8734535171438673e-07,
+      "loss": 0.4053,
       "step": 14100
     },
     {
       "epoch": 5.0,
+      "eval_bertscore_f1": 0.9658045416033947,
+      "eval_bleu": 0.5865134487850142,
+      "eval_loss": 0.2939385771751404,
+      "eval_meteor": 0.738667698887171,
+      "eval_rouge1": 0.8397011041728719,
+      "eval_rouge2": 0.7793367916496452,
+      "eval_runtime": 1419.0322,
+      "eval_samples_per_second": 4.555,
+      "eval_steps_per_second": 0.569,
       "step": 14145
     }
   ],

checkpoint-14145/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ee513a34fdce19a0629cc9aa4ea661dbd2cb881304d77bffec8f2b929d97943
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:84eb264dc96b91d8b1c338a7f669bf17dafa7f32a2801b1215e7c0b8df1ea575
 size 5432