huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +489 -509
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2qs74c6g/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/2tpuc31a) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/2tpuc31a/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/s2mjtgo8/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/zikdyrc6) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/zikdyrc6/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~1634998470544815~~, "eval_runtime": 14.~~8673~~, "eval_samples_per_second": 41.~~568~~, "eval_steps_per_second": 5.~~246~~, "epoch": 6.0}


1	+ {"eval_loss": 0.20774193108081818, "eval_runtime": 15.0542, "eval_samples_per_second": 42.978, "eval_steps_per_second": 5.381, "epoch": 3.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50a3a0c4e02f3c76233da8dd7daa8bdb92af6f6a517bbe0f81cb9c5af8bc811e
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:758c6b87d8212253a5334ae7f98913538370445564928cae53eff8b1f96ba0d1
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2399fa5b0be2b088f4b9d64615b38bf9577c1b2d6121dbdb50e56bcc9686dc80
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:a24e99d4dc7013f43cbadb32badf86893275bcd52f36e3a3e6188836728497e1
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bab5ad9763860d7d14b63f0d5fe99d998b132f1cff9ed17bc063f5fcd361d17
 size 510396521

 version https://git-lfs.github.com/spec/v1
+oid sha256:470bb080f7f86a03fc1b9714d4c1fcfd018e4a30715683ad366a847fc90b25a7
 size 510396521

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70105776b79d7d810d0504318367cfecea051515ab03660167c6b973ba2574a0
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dd4f3adbf918816f8bc24c02487c37270992d6dc1de5e29ef3b17931ced7d9e
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d3f154dee44c2e3a5b59da341bc4475af22b3ae583ed30333d76616051a6c98
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:2eae8c7bd95e47c6b3eb60b363caee41d6c38cf405dd6ff23467a076f503128e
 size 623

trainer_state.json CHANGED Viewed

@@ -1,1138 +1,1118 @@
 {
-  "best_metric": 0.1634998470544815,
-  "best_model_checkpoint": "output/eminem/checkpoint-916",
   "epoch": 2.0,
-  "global_step": 916,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 0.0001295937875943477,
-      "loss": 0.4175,
       "step": 5
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0001306389012238537,
-      "loss": 0.4452,
       "step": 10
     },
     {
       "epoch": 0.03,
-      "learning_rate": 0.00013161040580202325,
-      "loss": 0.4523,
       "step": 15
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.00013250714864031736,
-      "loss": 0.4272,
       "step": 20
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 0.00013332806575487712,
-      "loss": 0.4701,
       "step": 25
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.00013407218312893365,
-      "loss": 0.4872,
       "step": 30
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.00013473861786848294,
-      "loss": 0.4231,
       "step": 35
     },
     {
       "epoch": 0.09,
-      "learning_rate": 0.00013532657924983333,
-      "loss": 0.4708,
       "step": 40
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0001358353696578007,
-      "loss": 0.5047,
       "step": 45
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.00013626438541342652,
-      "loss": 0.4957,
       "step": 50
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.00013661311749024328,
-      "loss": 0.4333,
       "step": 55
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.0001368811521182315,
-      "loss": 0.4417,
       "step": 60
     },
     {
       "epoch": 0.14,
-      "learning_rate": 0.00013706817127475857,
-      "loss": 0.4644,
       "step": 65
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.00013717395306191163,
-      "loss": 0.5235,
       "step": 70
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.00013719837196977938,
-      "loss": 0.4143,
       "step": 75
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.00013714139902536895,
-      "loss": 0.4418,
       "step": 80
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.00013700310182698214,
-      "loss": 0.4862,
       "step": 85
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.0001367836444640114,
-      "loss": 0.5152,
       "step": 90
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.00013648328732224639,
-      "loss": 0.4401,
       "step": 95
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.00013610238677492728,
-      "loss": 0.4883,
       "step": 100
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.00013564139475990883,
-      "loss": 0.475,
       "step": 105
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.0001351008582434381,
-      "loss": 0.4708,
       "step": 110
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.00013448141857117668,
-      "loss": 0.5114,
       "step": 115
     },
     {
       "epoch": 0.26,
-      "learning_rate": 0.000133783810707247,
-      "loss": 0.4598,
       "step": 120
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 0.00013300886236219912,
-      "loss": 0.5016,
       "step": 125
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.00013215749301093531,
-      "loss": 0.5246,
       "step": 130
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.0001312307128017492,
-      "loss": 0.4599,
       "step": 135
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.00013022962135779,
-      "loss": 0.5193,
       "step": 140
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.0001291554064723639,
-      "loss": 0.4855,
       "step": 145
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.00012800934269961218,
-      "loss": 0.4923,
       "step": 150
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.00012679278984226595,
-      "loss": 0.5141,
       "step": 155
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.00012550719133822919,
-      "loss": 0.4847,
       "step": 160
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.0001241540725479539,
-      "loss": 0.4419,
       "step": 165
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.00012273503894459195,
-      "loss": 0.5324,
       "step": 170
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 0.00012125177420911749,
-      "loss": 0.4099,
       "step": 175
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 0.00011970603823262598,
-      "loss": 0.4894,
       "step": 180
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.00011809966502824082,
-      "loss": 0.5617,
       "step": 185
     },
     {
       "epoch": 0.42,
-      "learning_rate": 0.00011643456055504982,
-      "loss": 0.5006,
       "step": 190
     },
     {
       "epoch": 0.43,
-      "learning_rate": 0.00011471270045669035,
-      "loss": 0.4947,
       "step": 195
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.00011293612771726151,
-      "loss": 0.5112,
       "step": 200
     },
     {
       "epoch": 0.45,
-      "learning_rate": 0.00011110695023730843,
-      "loss": 0.4745,
       "step": 205
     },
     {
       "epoch": 0.46,
-      "learning_rate": 0.00010922733833281926,
-      "loss": 0.4961,
       "step": 210
     },
     {
       "epoch": 0.47,
-      "learning_rate": 0.0001072995221601338,
-      "loss": 0.5159,
       "step": 215
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.00010532578906988555,
-      "loss": 0.4521,
       "step": 220
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 0.00010330848089304184,
-      "loss": 0.4683,
       "step": 225
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 0.00010124999116234466,
-      "loss": 0.4694,
       "step": 230
     },
     {
       "epoch": 0.52,
-      "learning_rate": 9.915276227237154e-05,
-      "loss": 0.4838,
       "step": 235
     },
     {
       "epoch": 0.53,
-      "learning_rate": 9.701928258165896e-05,
-      "loss": 0.4934,
       "step": 240
     },
     {
       "epoch": 0.54,
-      "learning_rate": 9.485208346024501e-05,
-      "loss": 0.4964,
       "step": 245
     },
     {
       "epoch": 0.55,
-      "learning_rate": 9.265373628622407e-05,
-      "loss": 0.478,
       "step": 250
     },
     {
       "epoch": 0.56,
-      "learning_rate": 9.04268493947969e-05,
-      "loss": 0.4836,
       "step": 255
     },
     {
       "epoch": 0.57,
-      "learning_rate": 8.817406498348864e-05,
-      "loss": 0.4783,
       "step": 260
     },
     {
       "epoch": 0.58,
-      "learning_rate": 8.589805597719735e-05,
-      "loss": 0.5033,
       "step": 265
     },
     {
       "epoch": 0.59,
-      "learning_rate": 8.360152285675815e-05,
-      "loss": 0.4933,
       "step": 270
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 8.128719045483102e-05,
-      "loss": 0.4802,
       "step": 275
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 7.895780472289125e-05,
-      "loss": 0.4608,
       "step": 280
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 7.661612947317637e-05,
-      "loss": 0.451,
       "step": 285
     },
     {
       "epoch": 0.64,
-      "learning_rate": 7.426494309940237e-05,
-      "loss": 0.452,
       "step": 290
     },
     {
       "epoch": 0.65,
-      "learning_rate": 7.190703528022759e-05,
-      "loss": 0.4496,
       "step": 295
     },
     {
       "epoch": 0.66,
-      "learning_rate": 6.95452036692842e-05,
-      "loss": 0.4758,
       "step": 300
     },
     {
       "epoch": 0.67,
-      "learning_rate": 6.718225057579034e-05,
-      "loss": 0.4928,
       "step": 305
     },
     {
       "epoch": 0.68,
-      "learning_rate": 6.48209796395876e-05,
-      "loss": 0.5023,
       "step": 310
     },
     {
       "epoch": 0.69,
-      "learning_rate": 6.246419250465058e-05,
-      "loss": 0.426,
       "step": 315
     },
     {
       "epoch": 0.7,
-      "learning_rate": 6.011468549492541e-05,
-      "loss": 0.4651,
       "step": 320
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 5.777524629650007e-05,
-      "loss": 0.5082,
       "step": 325
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 5.544865065003111e-05,
-      "loss": 0.4546,
       "step": 330
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 5.313765905731657e-05,
-      "loss": 0.4512,
       "step": 335
     },
     {
       "epoch": 0.75,
-      "learning_rate": 5.084501350596927e-05,
-      "loss": 0.4794,
       "step": 340
     },
     {
       "epoch": 0.76,
-      "learning_rate": 4.857343421605311e-05,
-      "loss": 0.4781,
       "step": 345
     },
     {
       "epoch": 0.77,
-      "learning_rate": 4.63256164125579e-05,
-      "loss": 0.5233,
       "step": 350
     },
     {
       "epoch": 0.78,
-      "learning_rate": 4.410422712750424e-05,
-      "loss": 0.4695,
       "step": 355
     },
     {
       "epoch": 0.79,
-      "learning_rate": 4.191190203551854e-05,
-      "loss": 0.4788,
       "step": 360
     },
     {
       "epoch": 0.8,
-      "learning_rate": 3.975124232661141e-05,
-      "loss": 0.4318,
       "step": 365
     },
     {
       "epoch": 0.81,
-      "learning_rate": 3.762481161987185e-05,
-      "loss": 0.4609,
       "step": 370
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 3.553513292174085e-05,
-      "loss": 0.4854,
       "step": 375
     },
     {
-      "epoch": 0.83,
-      "learning_rate": 3.348468563245461e-05,
-      "loss": 0.4337,
       "step": 380
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 3.1475902604251e-05,
-      "loss": 0.4707,
       "step": 385
     },
     {
       "epoch": 0.86,
-      "learning_rate": 2.951116725479596e-05,
-      "loss": 0.4394,
       "step": 390
     },
     {
       "epoch": 0.87,
-      "learning_rate": 2.7592810739257415e-05,
-      "loss": 0.5088,
       "step": 395
     },
     {
       "epoch": 0.88,
-      "learning_rate": 2.572310918439686e-05,
-      "loss": 0.4753,
       "step": 400
     },
     {
       "epoch": 0.89,
-      "learning_rate": 2.3904280987944108e-05,
-      "loss": 0.4626,
       "step": 405
     },
     {
       "epoch": 0.9,
-      "learning_rate": 2.2138484186474054e-05,
-      "loss": 0.4473,
       "step": 410
     },
     {
       "epoch": 0.91,
-      "learning_rate": 2.0427813894908452e-05,
-      "loss": 0.4662,
       "step": 415
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 1.877429982065378e-05,
-      "loss": 0.4383,
       "step": 420
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 1.7179903855360063e-05,
-      "loss": 0.4584,
       "step": 425
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 1.564651774714127e-05,
-      "loss": 0.4932,
       "step": 430
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 1.4175960856020567e-05,
-      "loss": 0.4168,
       "step": 435
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 1.2769977995264743e-05,
-      "loss": 0.5093,
       "step": 440
     },
     {
       "epoch": 0.98,
-      "learning_rate": 1.1430237361156786e-05,
-      "loss": 0.486,
       "step": 445
     },
     {
       "epoch": 0.99,
-      "learning_rate": 1.0158328553691274e-05,
-      "loss": 0.4456,
       "step": 450
     },
     {
       "epoch": 1.0,
-      "learning_rate": 8.95576069051646e-06,
-      "loss": 0.4546,
-      "step": 455
-    },
-    {
-      "epoch": 1.0,
-      "eval_loss": 0.200975701212883,
-      "eval_runtime": 14.7931,
-      "eval_samples_per_second": 42.993,
-      "eval_steps_per_second": 5.408,
-      "step": 456
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.16962459683418274,
-      "eval_runtime": 12.708,
-      "eval_samples_per_second": 47.687,
-      "eval_steps_per_second": 5.98,
-      "step": 459
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 5.5043781594191076e-05,
-      "loss": 0.4785,
       "step": 460
     },
     {
       "epoch": 1.02,
-      "learning_rate": 5.274583707771519e-05,
-      "loss": 0.4345,
       "step": 465
     },
     {
-      "epoch": 1.03,
-      "learning_rate": 5.046653958583268e-05,
-      "loss": 0.4198,
       "step": 470
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 4.8208569935981205e-05,
-      "loss": 0.459,
       "step": 475
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 4.597458386064845e-05,
-      "loss": 0.4086,
       "step": 480
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 4.376720888382378e-05,
-      "loss": 0.4452,
       "step": 485
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 4.158904123058869e-05,
-      "loss": 0.3935,
       "step": 490
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 3.9442642773556785e-05,
-      "loss": 0.4194,
       "step": 495
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 3.733053801969927e-05,
-      "loss": 0.4181,
       "step": 500
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 3.525521114112028e-05,
-      "loss": 0.4243,
       "step": 505
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 3.321910305328109e-05,
-      "loss": 0.4525,
       "step": 510
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 3.122460854408385e-05,
-      "loss": 0.4579,
       "step": 515
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 2.9274073457225933e-05,
-      "loss": 0.4268,
       "step": 520
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 2.736979193311177e-05,
-      "loss": 0.455,
       "step": 525
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 2.5514003710574786e-05,
-      "loss": 0.3784,
       "step": 530
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 2.3708891492599452e-05,
-      "loss": 0.446,
       "step": 535
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 2.1956578379095964e-05,
-      "loss": 0.3845,
       "step": 540
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 2.0259125369808434e-05,
-      "loss": 0.4339,
       "step": 545
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 1.86185289402487e-05,
-      "loss": 0.3976,
       "step": 550
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 1.703671869351462e-05,
-      "loss": 0.461,
       "step": 555
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 1.551555509078763e-05,
-      "loss": 0.3707,
       "step": 560
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 1.4056827263112375e-05,
-      "loss": 0.4239,
       "step": 565
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 1.2662250907105194e-05,
-      "loss": 0.4077,
       "step": 570
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 1.1333466267017441e-05,
-      "loss": 0.4455,
       "step": 575
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 1.0072036205550979e-05,
-      "loss": 0.4022,
       "step": 580
     },
     {
-      "epoch": 1.28,
-      "learning_rate": 8.879444365675725e-06,
-      "loss": 0.4127,
       "step": 585
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 7.757093425633299e-06,
-      "loss": 0.4409,
       "step": 590
     },
     {
-      "epoch": 1.3,
-      "learning_rate": 6.706303449162559e-06,
-      "loss": 0.4247,
       "step": 595
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 5.72831033289248e-06,
-      "loss": 0.3729,
       "step": 600
     },
     {
-      "epoch": 1.32,
-      "learning_rate": 4.824264352736968e-06,
-      "loss": 0.3937,
       "step": 605
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 3.9952288109771325e-06,
-      "loss": 0.4288,
       "step": 610
     },
     {
-      "epoch": 1.34,
-      "learning_rate": 3.242178785654847e-06,
-      "loss": 0.3971,
       "step": 615
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 2.5659999837236953e-06,
-      "loss": 0.4354,
       "step": 620
     },
     {
-      "epoch": 1.36,
-      "learning_rate": 1.967487699315891e-06,
-      "loss": 0.4529,
       "step": 625
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 1.4473458783513853e-06,
-      "loss": 0.4242,
       "step": 630
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 1.0061862905822621e-06,
-      "loss": 0.3537,
       "step": 635
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 6.445278100559068e-07,
-      "loss": 0.4698,
       "step": 640
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 3.627958048358698e-07,
-      "loss": 0.3978,
       "step": 645
     },
     {
-      "epoch": 1.42,
-      "learning_rate": 1.613216367010383e-07,
-      "loss": 0.4303,
       "step": 650
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 4.034227141189317e-08,
-      "loss": 0.5101,
       "step": 655
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 0.0,
-      "loss": 0.4254,
       "step": 660
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 4.034227141180178e-08,
-      "loss": 0.4535,
       "step": 665
     },
     {
-      "epoch": 1.46,
-      "learning_rate": 1.6132163670086312e-07,
-      "loss": 0.4398,
       "step": 670
     },
     {
-      "epoch": 1.47,
-      "learning_rate": 3.627958048358089e-07,
-      "loss": 0.3769,
       "step": 675
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 6.445278100558231e-07,
-      "loss": 0.431,
       "step": 680
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 1.0061862905821554e-06,
-      "loss": 0.3816,
       "step": 685
     },
     {
-      "epoch": 1.51,
-      "learning_rate": 1.4473458783512634e-06,
-      "loss": 0.436,
       "step": 690
     },
     {
-      "epoch": 1.52,
-      "learning_rate": 1.9674876993157465e-06,
-      "loss": 0.4403,
       "step": 695
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 2.5659999837235352e-06,
-      "loss": 0.383,
       "step": 700
     },
     {
-      "epoch": 1.54,
-      "learning_rate": 3.2421787856546646e-06,
-      "loss": 0.4027,
       "step": 705
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 3.995228810976927e-06,
-      "loss": 0.3885,
       "step": 710
     },
     {
-      "epoch": 1.56,
-      "learning_rate": 4.824264352736739e-06,
-      "loss": 0.3878,
       "step": 715
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 5.728310332892236e-06,
-      "loss": 0.3898,
       "step": 720
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 6.706303449162301e-06,
-      "loss": 0.4277,
       "step": 725
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 7.757093425632118e-06,
-      "loss": 0.4404,
       "step": 730
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 8.87944436567447e-06,
-      "loss": 0.4314,
       "step": 735
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 1.0072036205549646e-05,
-      "loss": 0.3975,
       "step": 740
     },
     {
-      "epoch": 1.63,
-      "learning_rate": 1.1333466267016031e-05,
-      "loss": 0.3823,
       "step": 745
     },
     {
-      "epoch": 1.64,
-      "learning_rate": 1.2662250907104843e-05,
-      "loss": 0.4271,
       "step": 750
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 1.405682726311201e-05,
-      "loss": 0.4139,
       "step": 755
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 1.551555509078725e-05,
-      "loss": 0.3756,
       "step": 760
     },
     {
-      "epoch": 1.67,
-      "learning_rate": 1.7036718693514217e-05,
-      "loss": 0.3966,
       "step": 765
     },
     {
-      "epoch": 1.68,
-      "learning_rate": 1.861852894024695e-05,
-      "loss": 0.4297,
       "step": 770
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 2.025912536980801e-05,
-      "loss": 0.4243,
       "step": 775
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 2.195657837909552e-05,
-      "loss": 0.4225,
       "step": 780
     },
     {
-      "epoch": 1.71,
-      "learning_rate": 2.3708891492598995e-05,
-      "loss": 0.3649,
       "step": 785
     },
     {
-      "epoch": 1.72,
-      "learning_rate": 2.5514003710574315e-05,
-      "loss": 0.4292,
       "step": 790
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 2.7369791933111284e-05,
-      "loss": 0.4144,
       "step": 795
     },
     {
-      "epoch": 1.75,
-      "learning_rate": 2.9274073457225438e-05,
-      "loss": 0.4083,
       "step": 800
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 3.122460854408334e-05,
-      "loss": 0.4134,
       "step": 805
     },
     {
-      "epoch": 1.77,
-      "learning_rate": 3.321910305328057e-05,
-      "loss": 0.4068,
       "step": 810
     },
     {
-      "epoch": 1.78,
-      "learning_rate": 3.525521114111805e-05,
-      "loss": 0.418,
       "step": 815
     },
     {
-      "epoch": 1.79,
-      "learning_rate": 3.733053801969874e-05,
-      "loss": 0.4407,
       "step": 820
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 3.9442642773556236e-05,
-      "loss": 0.4147,
       "step": 825
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 4.158904123058812e-05,
-      "loss": 0.4527,
       "step": 830
     },
     {
-      "epoch": 1.82,
-      "learning_rate": 4.376720888382321e-05,
-      "loss": 0.4208,
       "step": 835
     },
     {
-      "epoch": 1.83,
-      "learning_rate": 4.5974583860647876e-05,
-      "loss": 0.4358,
       "step": 840
     },
     {
-      "epoch": 1.84,
-      "learning_rate": 4.820856993597877e-05,
-      "loss": 0.3957,
       "step": 845
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 5.046653958583022e-05,
-      "loss": 0.4127,
       "step": 850
     },
     {
-      "epoch": 1.87,
-      "learning_rate": 5.2745837077712705e-05,
-      "loss": 0.3921,
       "step": 855
     },
     {
-      "epoch": 1.88,
-      "learning_rate": 5.5043781594190486e-05,
-      "loss": 0.4401,
       "step": 860
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 5.7357670385952385e-05,
-      "loss": 0.4134,
       "step": 865
     },
     {
-      "epoch": 1.9,
-      "learning_rate": 5.9684781950679994e-05,
-      "loss": 0.4436,
       "step": 870
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 6.202237923395308e-05,
-      "loss": 0.3734,
       "step": 875
     },
     {
-      "epoch": 1.92,
-      "learning_rate": 6.436771284848528e-05,
-      "loss": 0.3881,
       "step": 880
     },
     {
-      "epoch": 1.93,
-      "learning_rate": 6.67180243078268e-05,
-      "loss": 0.4471,
       "step": 885
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 6.907054927078826e-05,
-      "loss": 0.4541,
       "step": 890
     },
-    {
-      "epoch": 1.95,
-      "learning_rate": 7.142252079274891e-05,
-      "loss": 0.4096,
-      "step": 895
-    },
     {
       "epoch": 1.97,
-      "learning_rate": 7.377117258001702e-05,
-      "loss": 0.4057,
-      "step": 900
     },
     {
       "epoch": 1.98,
-      "learning_rate": 7.611374224344431e-05,
-      "loss": 0.443,
-      "step": 905
     },
     {
       "epoch": 1.99,
-      "learning_rate": 7.844747454742836e-05,
-      "loss": 0.455,
-      "step": 910
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 8.076962465051111e-05,
-      "loss": 0.3749,
-      "step": 915
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.1634998470544815,
-      "eval_runtime": 15.0631,
-      "eval_samples_per_second": 41.027,
-      "eval_steps_per_second": 5.178,
-      "step": 916
     }
   ],
-  "max_steps": 2748,
-  "num_train_epochs": 6,
-  "total_flos": 955936899072000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.20774193108081818,
+  "best_model_checkpoint": "output/eminem/checkpoint-908",
   "epoch": 2.0,
+  "global_step": 908,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 5.638262768466246e-06,
+      "loss": 0.3685,
       "step": 5
     },
     {
       "epoch": 0.02,
+      "learning_rate": 6.618083216571314e-06,
+      "loss": 0.32,
       "step": 10
     },
     {
       "epoch": 0.03,
+      "learning_rate": 7.672094408674214e-06,
+      "loss": 0.3424,
       "step": 15
     },
     {
       "epoch": 0.04,
+      "learning_rate": 8.79903472075949e-06,
+      "loss": 0.3602,
       "step": 20
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 9.997555234556058e-06,
+      "loss": 0.3777,
       "step": 25
     },
     {
       "epoch": 0.07,
+      "learning_rate": 1.126622135214757e-05,
+      "loss": 0.374,
       "step": 30
     },
     {
       "epoch": 0.08,
+      "learning_rate": 1.2603514513152213e-05,
+      "loss": 0.3274,
       "step": 35
     },
     {
       "epoch": 0.09,
+      "learning_rate": 1.4007834012404736e-05,
+      "loss": 0.3659,
       "step": 40
     },
     {
       "epoch": 0.1,
+      "learning_rate": 1.5477498915945268e-05,
+      "loss": 0.3498,
       "step": 45
     },
     {
       "epoch": 0.11,
+      "learning_rate": 1.7010750073075836e-05,
+      "loss": 0.3689,
       "step": 50
     },
     {
       "epoch": 0.12,
+      "learning_rate": 1.8605752221991583e-05,
+      "loss": 0.3778,
       "step": 55
     },
     {
       "epoch": 0.13,
+      "learning_rate": 2.026059618656492e-05,
+      "loss": 0.3858,
       "step": 60
     },
     {
       "epoch": 0.14,
+      "learning_rate": 2.1973301161563144e-05,
+      "loss": 0.3659,
       "step": 65
     },
     {
       "epoch": 0.15,
+      "learning_rate": 2.3741817083632926e-05,
+      "loss": 0.3721,
       "step": 70
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 2.5564027085161653e-05,
+      "loss": 0.3581,
       "step": 75
     },
     {
       "epoch": 0.18,
+      "learning_rate": 2.7437750028124533e-05,
+      "loss": 0.3966,
       "step": 80
     },
     {
       "epoch": 0.19,
+      "learning_rate": 2.9360743114838212e-05,
+      "loss": 0.4075,
       "step": 85
     },
     {
       "epoch": 0.2,
+      "learning_rate": 3.1330704572545265e-05,
+      "loss": 0.3213,
       "step": 90
     },
     {
       "epoch": 0.21,
+      "learning_rate": 3.334527640855557e-05,
+      "loss": 0.3886,
       "step": 95
     },
     {
       "epoch": 0.22,
+      "learning_rate": 3.540204723273326e-05,
+      "loss": 0.3776,
       "step": 100
     },
     {
       "epoch": 0.23,
+      "learning_rate": 3.7498555143833497e-05,
+      "loss": 0.369,
       "step": 105
     },
     {
       "epoch": 0.24,
+      "learning_rate": 3.963229067635737e-05,
+      "loss": 0.3304,
       "step": 110
     },
     {
       "epoch": 0.25,
+      "learning_rate": 4.180069980431396e-05,
+      "loss": 0.3778,
       "step": 115
     },
     {
       "epoch": 0.26,
+      "learning_rate": 4.400118699831243e-05,
+      "loss": 0.3336,
       "step": 120
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 4.623111833235935e-05,
+      "loss": 0.3594,
       "step": 125
     },
     {
       "epoch": 0.29,
+      "learning_rate": 4.848782463657604e-05,
+      "loss": 0.3779,
       "step": 130
     },
     {
       "epoch": 0.3,
+      "learning_rate": 5.076860469216043e-05,
+      "loss": 0.3485,
       "step": 135
     },
     {
       "epoch": 0.31,
+      "learning_rate": 5.3070728464635136e-05,
+      "loss": 0.3823,
       "step": 140
     },
     {
       "epoch": 0.32,
+      "learning_rate": 5.539144037166318e-05,
+      "loss": 0.3733,
       "step": 145
     },
     {
       "epoch": 0.33,
+      "learning_rate": 5.7727962581384004e-05,
+      "loss": 0.3473,
       "step": 150
     },
     {
       "epoch": 0.34,
+      "learning_rate": 6.007749833742314e-05,
+      "loss": 0.4018,
       "step": 155
     },
     {
       "epoch": 0.35,
+      "learning_rate": 6.243723530652164e-05,
+      "loss": 0.396,
       "step": 160
     },
     {
       "epoch": 0.36,
+      "learning_rate": 6.480434894484319e-05,
+      "loss": 0.3803,
       "step": 165
     },
     {
       "epoch": 0.37,
+      "learning_rate": 6.71760058788546e-05,
+      "loss": 0.3732,
       "step": 170
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 6.954936729683709e-05,
+      "loss": 0.3755,
       "step": 175
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 7.192159234682948e-05,
+      "loss": 0.3447,
       "step": 180
     },
     {
       "epoch": 0.41,
+      "learning_rate": 7.428984153708128e-05,
+      "loss": 0.3732,
       "step": 185
     },
     {
       "epoch": 0.42,
+      "learning_rate": 7.665128013484672e-05,
+      "loss": 0.3869,
       "step": 190
     },
     {
       "epoch": 0.43,
+      "learning_rate": 7.900308155947452e-05,
+      "loss": 0.387,
       "step": 195
     },
     {
       "epoch": 0.44,
+      "learning_rate": 8.134243076576889e-05,
+      "loss": 0.426,
       "step": 200
     },
     {
       "epoch": 0.45,
+      "learning_rate": 8.366652761350052e-05,
+      "loss": 0.3936,
       "step": 205
     },
     {
       "epoch": 0.46,
+      "learning_rate": 8.597259021913802e-05,
+      "loss": 0.4021,
       "step": 210
     },
     {
       "epoch": 0.47,
+      "learning_rate": 8.825785828564833e-05,
+      "loss": 0.3664,
       "step": 215
     },
     {
       "epoch": 0.48,
+      "learning_rate": 9.051959640653656e-05,
+      "loss": 0.3974,
       "step": 220
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 9.275509734003202e-05,
+      "loss": 0.3667,
       "step": 225
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 9.496168524960306e-05,
+      "loss": 0.4155,
       "step": 230
     },
     {
       "epoch": 0.52,
+      "learning_rate": 9.713671890684909e-05,
+      "loss": 0.371,
       "step": 235
     },
     {
       "epoch": 0.53,
+      "learning_rate": 9.927759485299701e-05,
+      "loss": 0.3468,
       "step": 240
     },
     {
       "epoch": 0.54,
+      "learning_rate": 0.00010138175051515928,
+      "loss": 0.4078,
       "step": 245
     },
     {
       "epoch": 0.55,
+      "learning_rate": 0.0001034466672736829,
+      "loss": 0.387,
       "step": 250
     },
     {
       "epoch": 0.56,
+      "learning_rate": 0.00010546987347685277,
+      "loss": 0.4011,
       "step": 255
     },
     {
       "epoch": 0.57,
+      "learning_rate": 0.00010744894739941007,
+      "loss": 0.4018,
       "step": 260
     },
     {
       "epoch": 0.58,
+      "learning_rate": 0.00010938152014129237,
+      "loss": 0.4338,
       "step": 265
     },
     {
       "epoch": 0.59,
+      "learning_rate": 0.00011126527846313597,
+      "loss": 0.4123,
       "step": 270
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 0.00011309796755517588,
+      "loss": 0.3855,
       "step": 275
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 0.00011487739373618224,
+      "loss": 0.4182,
       "step": 280
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 0.00011660142707925318,
+      "loss": 0.3913,
       "step": 285
     },
     {
       "epoch": 0.64,
+      "learning_rate": 0.00011826800396126461,
+      "loss": 0.477,
       "step": 290
     },
     {
       "epoch": 0.65,
+      "learning_rate": 0.00011987512953299345,
+      "loss": 0.3962,
       "step": 295
     },
     {
       "epoch": 0.66,
+      "learning_rate": 0.00012142088010688345,
+      "loss": 0.4238,
       "step": 300
     },
     {
       "epoch": 0.67,
+      "learning_rate": 0.0001229034054596614,
+      "loss": 0.4407,
       "step": 305
     },
     {
       "epoch": 0.68,
+      "learning_rate": 0.00012432093104699607,
+      "loss": 0.4689,
       "step": 310
     },
     {
       "epoch": 0.69,
+      "learning_rate": 0.00012567176012759143,
+      "loss": 0.4264,
       "step": 315
     },
     {
       "epoch": 0.7,
+      "learning_rate": 0.0001269542757941326,
+      "loss": 0.3877,
       "step": 320
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 0.0001281669429086917,
+      "loss": 0.4585,
       "step": 325
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 0.0001293083099402366,
+      "loss": 0.4342,
       "step": 330
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 0.0001303770107020854,
+      "loss": 0.4388,
       "step": 335
     },
     {
       "epoch": 0.75,
+      "learning_rate": 0.00013137176598719452,
+      "loss": 0.4933,
       "step": 340
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.00013229138509933145,
+      "loss": 0.4994,
       "step": 345
     },
     {
       "epoch": 0.77,
+      "learning_rate": 0.00013313476727831372,
+      "loss": 0.4215,
       "step": 350
     },
     {
       "epoch": 0.78,
+      "learning_rate": 0.00013390090301758416,
+      "loss": 0.4488,
       "step": 355
     },
     {
       "epoch": 0.79,
+      "learning_rate": 0.00013458887527257018,
+      "loss": 0.4785,
       "step": 360
     },
     {
       "epoch": 0.8,
+      "learning_rate": 0.0001351978605583545,
+      "loss": 0.444,
       "step": 365
     },
     {
       "epoch": 0.81,
+      "learning_rate": 0.00013572712993537543,
+      "loss": 0.409,
       "step": 370
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 0.00013617604988193778,
+      "loss": 0.4202,
       "step": 375
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 0.00013654408305253035,
+      "loss": 0.4465,
       "step": 380
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 0.0001368307889210095,
+      "loss": 0.487,
       "step": 385
     },
     {
       "epoch": 0.86,
+      "learning_rate": 0.0001370358243079002,
+      "loss": 0.4389,
       "step": 390
     },
     {
       "epoch": 0.87,
+      "learning_rate": 0.00013715894379117118,
+      "loss": 0.4761,
       "step": 395
     },
     {
       "epoch": 0.88,
+      "learning_rate": 0.0001372,
+      "loss": 0.4531,
       "step": 400
     },
     {
       "epoch": 0.89,
+      "learning_rate": 0.0001371589437911712,
+      "loss": 0.4367,
       "step": 405
     },
     {
       "epoch": 0.9,
+      "learning_rate": 0.0001370358243079003,
+      "loss": 0.4265,
       "step": 410
     },
     {
       "epoch": 0.91,
+      "learning_rate": 0.0001368307889210096,
+      "loss": 0.4721,
       "step": 415
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 0.00013654408305253054,
+      "loss": 0.3988,
       "step": 420
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 0.00013617604988193797,
+      "loss": 0.4344,
       "step": 425
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 0.00013572712993537567,
+      "loss": 0.4899,
       "step": 430
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 0.00013519786055835476,
+      "loss": 0.5019,
       "step": 435
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 0.0001345888752725705,
+      "loss": 0.4645,
       "step": 440
     },
     {
       "epoch": 0.98,
+      "learning_rate": 0.00013390090301758454,
+      "loss": 0.3885,
       "step": 445
     },
     {
       "epoch": 0.99,
+      "learning_rate": 0.0001331347672783141,
+      "loss": 0.426,
       "step": 450
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.21941067278385162,
+      "eval_runtime": 15.1157,
+      "eval_samples_per_second": 42.803,
+      "eval_steps_per_second": 5.359,
+      "step": 454
     },
     {
       "epoch": 1.0,
+      "learning_rate": 0.00013229138509933188,
+      "loss": 0.4675,
+      "step": 455
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 0.00013137176598719498,
+      "loss": 0.3498,
       "step": 460
     },
     {
       "epoch": 1.02,
+      "learning_rate": 0.00013037701070208588,
+      "loss": 0.4028,
       "step": 465
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 0.00012930830994023715,
+      "loss": 0.3913,
       "step": 470
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 0.00012816694290869227,
+      "loss": 0.427,
       "step": 475
     },
     {
+      "epoch": 1.06,
+      "learning_rate": 0.00012695427579413322,
+      "loss": 0.3914,
       "step": 480
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 0.00012567176012759208,
+      "loss": 0.4128,
       "step": 485
     },
     {
+      "epoch": 1.08,
+      "learning_rate": 0.00012432093104699674,
+      "loss": 0.3783,
       "step": 490
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 0.00012290340545966207,
+      "loss": 0.4026,
       "step": 495
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 0.00012142088010688418,
+      "loss": 0.3649,
       "step": 500
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 0.00011987512953299421,
+      "loss": 0.4037,
       "step": 505
     },
     {
+      "epoch": 1.12,
+      "learning_rate": 0.00011826800396126541,
+      "loss": 0.3905,
       "step": 510
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 0.000116601427079254,
+      "loss": 0.3741,
       "step": 515
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 0.00011487739373618308,
+      "loss": 0.3776,
       "step": 520
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 0.00011309796755517674,
+      "loss": 0.3915,
       "step": 525
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 0.00011126527846313685,
+      "loss": 0.3885,
       "step": 530
     },
     {
+      "epoch": 1.18,
+      "learning_rate": 0.00010938152014129329,
+      "loss": 0.3599,
       "step": 535
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 0.00010744894739941099,
+      "loss": 0.3955,
       "step": 540
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 0.00010546987347685372,
+      "loss": 0.3638,
       "step": 545
     },
     {
+      "epoch": 1.21,
+      "learning_rate": 0.00010344666727368387,
+      "loss": 0.4055,
       "step": 550
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 0.00010138175051516028,
+      "loss": 0.3965,
       "step": 555
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 9.927759485299804e-05,
+      "loss": 0.3767,
       "step": 560
     },
     {
+      "epoch": 1.24,
+      "learning_rate": 9.713671890685015e-05,
+      "loss": 0.4088,
       "step": 565
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 9.49616852496041e-05,
+      "loss": 0.4329,
       "step": 570
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 9.275509734003309e-05,
+      "loss": 0.3581,
       "step": 575
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 9.051959640653763e-05,
+      "loss": 0.4084,
       "step": 580
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 8.825785828564943e-05,
+      "loss": 0.3755,
       "step": 585
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 8.597259021913913e-05,
+      "loss": 0.4321,
       "step": 590
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 8.366652761350163e-05,
+      "loss": 0.4021,
       "step": 595
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 8.134243076577001e-05,
+      "loss": 0.4115,
       "step": 600
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 7.900308155947565e-05,
+      "loss": 0.3358,
       "step": 605
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 7.665128013484786e-05,
+      "loss": 0.3576,
       "step": 610
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 7.428984153708243e-05,
+      "loss": 0.4326,
       "step": 615
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 7.192159234683063e-05,
+      "loss": 0.3627,
       "step": 620
     },
     {
+      "epoch": 1.38,
+      "learning_rate": 6.954936729683823e-05,
+      "loss": 0.3891,
       "step": 625
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 6.717600587885573e-05,
+      "loss": 0.3983,
       "step": 630
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 6.480434894484433e-05,
+      "loss": 0.3504,
       "step": 635
     },
     {
+      "epoch": 1.41,
+      "learning_rate": 6.243723530652277e-05,
+      "loss": 0.3806,
       "step": 640
     },
     {
+      "epoch": 1.42,
+      "learning_rate": 6.007749833742428e-05,
+      "loss": 0.3616,
       "step": 645
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 5.772796258138513e-05,
+      "loss": 0.4417,
       "step": 650
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 5.53914403716643e-05,
+      "loss": 0.4272,
       "step": 655
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 5.307072846463625e-05,
+      "loss": 0.3909,
       "step": 660
     },
     {
+      "epoch": 1.46,
+      "learning_rate": 5.076860469216153e-05,
+      "loss": 0.3833,
       "step": 665
     },
     {
+      "epoch": 1.48,
+      "learning_rate": 4.848782463657713e-05,
+      "loss": 0.3611,
       "step": 670
     },
     {
+      "epoch": 1.49,
+      "learning_rate": 4.6231118332360436e-05,
+      "loss": 0.415,
       "step": 675
     },
     {
+      "epoch": 1.5,
+      "learning_rate": 4.40011869983135e-05,
+      "loss": 0.4037,
       "step": 680
     },
     {
+      "epoch": 1.51,
+      "learning_rate": 4.1800699804315014e-05,
+      "loss": 0.3836,
       "step": 685
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 3.9632290676358406e-05,
+      "loss": 0.3564,
       "step": 690
     },
     {
+      "epoch": 1.53,
+      "learning_rate": 3.749855514383451e-05,
+      "loss": 0.4255,
       "step": 695
     },
     {
+      "epoch": 1.54,
+      "learning_rate": 3.5402047232734255e-05,
+      "loss": 0.3377,
       "step": 700
     },
     {
+      "epoch": 1.55,
+      "learning_rate": 3.334527640855654e-05,
+      "loss": 0.3671,
       "step": 705
     },
     {
+      "epoch": 1.56,
+      "learning_rate": 3.133070457254623e-05,
+      "loss": 0.3735,
       "step": 710
     },
     {
+      "epoch": 1.57,
+      "learning_rate": 2.9360743114839147e-05,
+      "loss": 0.3614,
       "step": 715
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 2.7437750028125448e-05,
+      "loss": 0.373,
       "step": 720
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 2.5564027085162544e-05,
+      "loss": 0.3795,
       "step": 725
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 2.3741817083633794e-05,
+      "loss": 0.3621,
       "step": 730
     },
     {
+      "epoch": 1.62,
+      "learning_rate": 2.197330116156398e-05,
+      "loss": 0.3882,
       "step": 735
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 2.026059618656573e-05,
+      "loss": 0.3836,
       "step": 740
     },
     {
+      "epoch": 1.64,
+      "learning_rate": 1.860575222199237e-05,
+      "loss": 0.3413,
       "step": 745
     },
     {
+      "epoch": 1.65,
+      "learning_rate": 1.701075007307659e-05,
+      "loss": 0.3664,
       "step": 750
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 1.5477498915945983e-05,
+      "loss": 0.3463,
       "step": 755
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 1.4007834012405429e-05,
+      "loss": 0.3331,
       "step": 760
     },
     {
+      "epoch": 1.69,
+      "learning_rate": 1.2603514513152868e-05,
+      "loss": 0.3815,
       "step": 765
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 1.1266221352148201e-05,
+      "loss": 0.3769,
       "step": 770
     },
     {
+      "epoch": 1.71,
+      "learning_rate": 9.997555234556651e-06,
+      "loss": 0.4108,
       "step": 775
     },
     {
+      "epoch": 1.72,
+      "learning_rate": 8.799034720760045e-06,
+      "loss": 0.3722,
       "step": 780
     },
     {
+      "epoch": 1.73,
+      "learning_rate": 7.672094408674733e-06,
+      "loss": 0.4017,
       "step": 785
     },
     {
+      "epoch": 1.74,
+      "learning_rate": 6.6180832165718085e-06,
+      "loss": 0.4178,
       "step": 790
     },
     {
+      "epoch": 1.75,
+      "learning_rate": 5.638262768466695e-06,
+      "loss": 0.3899,
       "step": 795
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 4.733805883975914e-06,
+      "loss": 0.3741,
       "step": 800
     },
     {
+      "epoch": 1.77,
+      "learning_rate": 3.905795174492382e-06,
+      "loss": 0.3831,
       "step": 805
     },
     {
+      "epoch": 1.78,
+      "learning_rate": 3.15522174732089e-06,
+      "loss": 0.3682,
       "step": 810
     },
     {
+      "epoch": 1.8,
+      "learning_rate": 2.4829840193538357e-06,
+      "loss": 0.391,
       "step": 815
     },
     {
+      "epoch": 1.81,
+      "learning_rate": 1.88988664168465e-06,
+      "loss": 0.3597,
       "step": 820
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 1.3766395364657029e-06,
+      "loss": 0.379,
       "step": 825
     },
     {
+      "epoch": 1.83,
+      "learning_rate": 9.43857047145762e-07,
+      "loss": 0.4247,
       "step": 830
     },
     {
+      "epoch": 1.84,
+      "learning_rate": 5.920572031218176e-07,
+      "loss": 0.3705,
       "step": 835
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 3.2166109966507624e-07,
+      "loss": 0.3148,
       "step": 840
     },
     {
+      "epoch": 1.86,
+      "learning_rate": 1.3299239388725518e-07,
+      "loss": 0.3331,
       "step": 845
     },
     {
+      "epoch": 1.87,
+      "learning_rate": 2.6276917326658224e-08,
+      "loss": 0.3802,
       "step": 850
     },
     {
+      "epoch": 1.88,
+      "learning_rate": 1.6424056362936757e-09,
+      "loss": 0.324,
       "step": 855
     },
     {
+      "epoch": 1.89,
+      "learning_rate": 5.911834568650871e-08,
+      "loss": 0.3751,
       "step": 860
     },
     {
+      "epoch": 1.91,
+      "learning_rate": 1.9863594027063992e-07,
+      "loss": 0.3792,
       "step": 865
     },
     {
+      "epoch": 1.92,
+      "learning_rate": 4.200281904521944e-07,
+      "loss": 0.3776,
       "step": 870
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 7.230300954609269e-07,
+      "loss": 0.3469,
       "step": 875
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 1.1072789698879036e-06,
+      "loss": 0.3464,
       "step": 880
     },
     {
+      "epoch": 1.95,
+      "learning_rate": 1.572314877814697e-06,
+      "loss": 0.3726,
       "step": 885
     },
     {
+      "epoch": 1.96,
+      "learning_rate": 2.11758118334118e-06,
+      "loss": 0.3881,
       "step": 890
     },
     {
       "epoch": 1.97,
+      "learning_rate": 2.742425216867453e-06,
+      "loss": 0.3518,
+      "step": 895
     },
     {
       "epoch": 1.98,
+      "learning_rate": 3.4460990563188536e-06,
+      "loss": 0.3839,
+      "step": 900
     },
     {
       "epoch": 1.99,
+      "learning_rate": 4.227760422393333e-06,
+      "loss": 0.347,
+      "step": 905
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.20774193108081818,
+      "eval_runtime": 15.111,
+      "eval_samples_per_second": 42.816,
+      "eval_steps_per_second": 5.36,
+      "step": 908
     }
   ],
+  "max_steps": 1362,
+  "num_train_epochs": 3,
+  "total_flos": 948490076160000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c475812936432ce71effd04e7f79e77c24b0905863f82593b5cd1090e850fcd
 size 3311

 version https://git-lfs.github.com/spec/v1
+oid sha256:59697cb8fe6b03cd91b8ebe02c7f7dde6782a826ae481ef82af6bcc802bdb131
 size 3311