imen11111
/

araT5-freezed

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 49.01960784313726,
+  "global_step": 12500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.9e-05,
+      "loss": 28.6186,
+      "step": 255
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.0,
+      "eval_f1_macro": 0.0,
+      "eval_gen_len": 1.1552,
+      "eval_loss": 7.702219009399414,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 16.3347,
+      "eval_samples_per_second": 298.2,
+      "step": 255
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 4.8e-05,
+      "loss": 5.2711,
+      "step": 510
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.2498,
+      "eval_f1_macro": 0.0493,
+      "eval_gen_len": 2.2652,
+      "eval_loss": 1.0767085552215576,
+      "eval_precision": 0.0424,
+      "eval_recall": 0.0797,
+      "eval_runtime": 18.0067,
+      "eval_samples_per_second": 270.51,
+      "step": 510
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 4.7e-05,
+      "loss": 1.2251,
+      "step": 765
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.3798,
+      "eval_f1_macro": 0.1033,
+      "eval_gen_len": 2.2634,
+      "eval_loss": 0.8948290944099426,
+      "eval_precision": 0.0823,
+      "eval_recall": 0.1436,
+      "eval_runtime": 18.1477,
+      "eval_samples_per_second": 268.409,
+      "step": 765
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 1.0537,
+      "step": 1020
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4003,
+      "eval_f1_macro": 0.1197,
+      "eval_gen_len": 2.2447,
+      "eval_loss": 0.8492642641067505,
+      "eval_precision": 0.1675,
+      "eval_recall": 0.1574,
+      "eval_runtime": 18.1704,
+      "eval_samples_per_second": 268.073,
+      "step": 1020
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 4.5e-05,
+      "loss": 0.9861,
+      "step": 1275
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.4192,
+      "eval_f1_macro": 0.1713,
+      "eval_gen_len": 2.2788,
+      "eval_loss": 0.8204376101493835,
+      "eval_precision": 0.2101,
+      "eval_recall": 0.1903,
+      "eval_runtime": 18.2564,
+      "eval_samples_per_second": 266.811,
+      "step": 1275
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.9487,
+      "step": 1530
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.4256,
+      "eval_f1_macro": 0.1852,
+      "eval_gen_len": 2.2798,
+      "eval_loss": 0.8069906830787659,
+      "eval_precision": 0.2583,
+      "eval_recall": 0.2033,
+      "eval_runtime": 18.2457,
+      "eval_samples_per_second": 266.967,
+      "step": 1530
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 4.3e-05,
+      "loss": 0.9149,
+      "step": 1785
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.4309,
+      "eval_f1_macro": 0.1939,
+      "eval_gen_len": 2.3252,
+      "eval_loss": 0.7942913770675659,
+      "eval_precision": 0.2515,
+      "eval_recall": 0.2152,
+      "eval_runtime": 18.3033,
+      "eval_samples_per_second": 266.127,
+      "step": 1785
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 4.2e-05,
+      "loss": 0.8982,
+      "step": 2040
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.4402,
+      "eval_f1_macro": 0.2158,
+      "eval_gen_len": 2.2735,
+      "eval_loss": 0.7909517884254456,
+      "eval_precision": 0.3176,
+      "eval_recall": 0.2341,
+      "eval_runtime": 18.2233,
+      "eval_samples_per_second": 267.295,
+      "step": 2040
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 4.1e-05,
+      "loss": 0.8755,
+      "step": 2295
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.4488,
+      "eval_f1_macro": 0.2325,
+      "eval_gen_len": 2.2704,
+      "eval_loss": 0.7753563523292542,
+      "eval_precision": 0.3133,
+      "eval_recall": 0.2408,
+      "eval_runtime": 18.3149,
+      "eval_samples_per_second": 265.959,
+      "step": 2295
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 4e-05,
+      "loss": 0.861,
+      "step": 2550
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.4482,
+      "eval_f1_macro": 0.2398,
+      "eval_gen_len": 2.2985,
+      "eval_loss": 0.7741720676422119,
+      "eval_precision": 0.3266,
+      "eval_recall": 0.2503,
+      "eval_runtime": 18.2556,
+      "eval_samples_per_second": 266.822,
+      "step": 2550
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.8454,
+      "step": 2805
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.4527,
+      "eval_f1_macro": 0.251,
+      "eval_gen_len": 2.2889,
+      "eval_loss": 0.7647759318351746,
+      "eval_precision": 0.3233,
+      "eval_recall": 0.2525,
+      "eval_runtime": 18.3159,
+      "eval_samples_per_second": 265.944,
+      "step": 2805
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 3.8e-05,
+      "loss": 0.8323,
+      "step": 3060
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.4527,
+      "eval_f1_macro": 0.2481,
+      "eval_gen_len": 2.2753,
+      "eval_loss": 0.7750440239906311,
+      "eval_precision": 0.3238,
+      "eval_recall": 0.2549,
+      "eval_runtime": 18.2537,
+      "eval_samples_per_second": 266.85,
+      "step": 3060
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 3.7e-05,
+      "loss": 0.8212,
+      "step": 3315
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.4588,
+      "eval_f1_macro": 0.2551,
+      "eval_gen_len": 2.3053,
+      "eval_loss": 0.7678483724594116,
+      "eval_precision": 0.3446,
+      "eval_recall": 0.2561,
+      "eval_runtime": 18.3189,
+      "eval_samples_per_second": 265.901,
+      "step": 3315
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 3.6e-05,
+      "loss": 0.8167,
+      "step": 3570
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.457,
+      "eval_f1_macro": 0.2555,
+      "eval_gen_len": 2.296,
+      "eval_loss": 0.7742500901222229,
+      "eval_precision": 0.3303,
+      "eval_recall": 0.2597,
+      "eval_runtime": 18.2816,
+      "eval_samples_per_second": 266.443,
+      "step": 3570
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 3.5e-05,
+      "loss": 0.807,
+      "step": 3825
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.4584,
+      "eval_f1_macro": 0.2645,
+      "eval_gen_len": 2.317,
+      "eval_loss": 0.7675516605377197,
+      "eval_precision": 0.3309,
+      "eval_recall": 0.2686,
+      "eval_runtime": 18.3188,
+      "eval_samples_per_second": 265.902,
+      "step": 3825
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.7961,
+      "step": 4080
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.4553,
+      "eval_f1_macro": 0.2618,
+      "eval_gen_len": 2.3398,
+      "eval_loss": 0.7658052444458008,
+      "eval_precision": 0.3443,
+      "eval_recall": 0.2678,
+      "eval_runtime": 18.2865,
+      "eval_samples_per_second": 266.371,
+      "step": 4080
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 3.3e-05,
+      "loss": 0.793,
+      "step": 4335
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.4642,
+      "eval_f1_macro": 0.2629,
+      "eval_gen_len": 2.3057,
+      "eval_loss": 0.760092556476593,
+      "eval_precision": 0.3423,
+      "eval_recall": 0.2651,
+      "eval_runtime": 18.3181,
+      "eval_samples_per_second": 265.911,
+      "step": 4335
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.7792,
+      "step": 4590
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.4613,
+      "eval_f1_macro": 0.2687,
+      "eval_gen_len": 2.3079,
+      "eval_loss": 0.7579958438873291,
+      "eval_precision": 0.3561,
+      "eval_recall": 0.2684,
+      "eval_runtime": 18.2367,
+      "eval_samples_per_second": 267.099,
+      "step": 4590
+    },
+    {
+      "epoch": 19.0,
+      "learning_rate": 3.1e-05,
+      "loss": 0.7704,
+      "step": 4845
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.4654,
+      "eval_f1_macro": 0.2752,
+      "eval_gen_len": 2.3051,
+      "eval_loss": 0.7610541582107544,
+      "eval_precision": 0.375,
+      "eval_recall": 0.2723,
+      "eval_runtime": 18.3152,
+      "eval_samples_per_second": 265.954,
+      "step": 4845
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 3e-05,
+      "loss": 0.7622,
+      "step": 5100
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.4631,
+      "eval_f1_macro": 0.2759,
+      "eval_gen_len": 2.2804,
+      "eval_loss": 0.7701175212860107,
+      "eval_precision": 0.3679,
+      "eval_recall": 0.2734,
+      "eval_runtime": 18.233,
+      "eval_samples_per_second": 267.153,
+      "step": 5100
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 2.9e-05,
+      "loss": 0.7529,
+      "step": 5355
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.4617,
+      "eval_f1_macro": 0.279,
+      "eval_gen_len": 2.3346,
+      "eval_loss": 0.7670521140098572,
+      "eval_precision": 0.3509,
+      "eval_recall": 0.279,
+      "eval_runtime": 18.3163,
+      "eval_samples_per_second": 265.937,
+      "step": 5355
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.747,
+      "step": 5610
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.4662,
+      "eval_f1_macro": 0.2796,
+      "eval_gen_len": 2.3069,
+      "eval_loss": 0.7644122242927551,
+      "eval_precision": 0.3613,
+      "eval_recall": 0.2766,
+      "eval_runtime": 18.2901,
+      "eval_samples_per_second": 266.318,
+      "step": 5610
+    },
+    {
+      "epoch": 23.0,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.7425,
+      "step": 5865
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.4648,
+      "eval_f1_macro": 0.2723,
+      "eval_gen_len": 2.3047,
+      "eval_loss": 0.7637659907341003,
+      "eval_precision": 0.3654,
+      "eval_recall": 0.2699,
+      "eval_runtime": 18.318,
+      "eval_samples_per_second": 265.913,
+      "step": 5865
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.7351,
+      "step": 6120
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.4689,
+      "eval_f1_macro": 0.2763,
+      "eval_gen_len": 2.3118,
+      "eval_loss": 0.7734237909317017,
+      "eval_precision": 0.3711,
+      "eval_recall": 0.2742,
+      "eval_runtime": 18.3098,
+      "eval_samples_per_second": 266.032,
+      "step": 6120
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 2.5e-05,
+      "loss": 0.7279,
+      "step": 6375
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.4668,
+      "eval_f1_macro": 0.2753,
+      "eval_gen_len": 2.3069,
+      "eval_loss": 0.7742076516151428,
+      "eval_precision": 0.3749,
+      "eval_recall": 0.2717,
+      "eval_runtime": 18.319,
+      "eval_samples_per_second": 265.899,
+      "step": 6375
+    },
+    {
+      "epoch": 26.0,
+      "learning_rate": 2.4e-05,
+      "loss": 0.7251,
+      "step": 6630
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.4675,
+      "eval_f1_macro": 0.2824,
+      "eval_gen_len": 2.319,
+      "eval_loss": 0.777134358882904,
+      "eval_precision": 0.3585,
+      "eval_recall": 0.2806,
+      "eval_runtime": 18.2882,
+      "eval_samples_per_second": 266.346,
+      "step": 6630
+    },
+    {
+      "epoch": 27.0,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.7149,
+      "step": 6885
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.4699,
+      "eval_f1_macro": 0.2853,
+      "eval_gen_len": 2.316,
+      "eval_loss": 0.7695617079734802,
+      "eval_precision": 0.3587,
+      "eval_recall": 0.2807,
+      "eval_runtime": 18.3083,
+      "eval_samples_per_second": 266.054,
+      "step": 6885
+    },
+    {
+      "epoch": 28.0,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.7122,
+      "step": 7140
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.4644,
+      "eval_f1_macro": 0.2764,
+      "eval_gen_len": 2.3059,
+      "eval_loss": 0.7785841822624207,
+      "eval_precision": 0.3624,
+      "eval_recall": 0.2775,
+      "eval_runtime": 18.2576,
+      "eval_samples_per_second": 266.793,
+      "step": 7140
+    },
+    {
+      "epoch": 29.0,
+      "learning_rate": 2.1e-05,
+      "loss": 0.7105,
+      "step": 7395
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.4681,
+      "eval_f1_macro": 0.287,
+      "eval_gen_len": 2.2829,
+      "eval_loss": 0.7693188786506653,
+      "eval_precision": 0.3864,
+      "eval_recall": 0.2772,
+      "eval_runtime": 18.3321,
+      "eval_samples_per_second": 265.709,
+      "step": 7395
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 2e-05,
+      "loss": 0.7039,
+      "step": 7650
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.4666,
+      "eval_f1_macro": 0.2828,
+      "eval_gen_len": 2.3014,
+      "eval_loss": 0.7784000039100647,
+      "eval_precision": 0.3699,
+      "eval_recall": 0.278,
+      "eval_runtime": 18.3242,
+      "eval_samples_per_second": 265.823,
+      "step": 7650
+    },
+    {
+      "epoch": 31.0,
+      "learning_rate": 1.9e-05,
+      "loss": 0.6944,
+      "step": 7905
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.4689,
+      "eval_f1_macro": 0.2873,
+      "eval_gen_len": 2.3211,
+      "eval_loss": 0.7755969166755676,
+      "eval_precision": 0.3557,
+      "eval_recall": 0.2835,
+      "eval_runtime": 18.3091,
+      "eval_samples_per_second": 266.043,
+      "step": 7905
+    },
+    {
+      "epoch": 32.0,
+      "learning_rate": 1.8e-05,
+      "loss": 0.6949,
+      "step": 8160
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.4689,
+      "eval_f1_macro": 0.2854,
+      "eval_gen_len": 2.3176,
+      "eval_loss": 0.7752977609634399,
+      "eval_precision": 0.3604,
+      "eval_recall": 0.2814,
+      "eval_runtime": 18.2988,
+      "eval_samples_per_second": 266.193,
+      "step": 8160
+    },
+    {
+      "epoch": 33.0,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.6876,
+      "step": 8415
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.4712,
+      "eval_f1_macro": 0.2907,
+      "eval_gen_len": 2.3196,
+      "eval_loss": 0.7808494567871094,
+      "eval_precision": 0.3858,
+      "eval_recall": 0.2848,
+      "eval_runtime": 18.3097,
+      "eval_samples_per_second": 266.034,
+      "step": 8415
+    },
+    {
+      "epoch": 34.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.6872,
+      "step": 8670
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.4695,
+      "eval_f1_macro": 0.289,
+      "eval_gen_len": 2.311,
+      "eval_loss": 0.77425217628479,
+      "eval_precision": 0.3482,
+      "eval_recall": 0.2849,
+      "eval_runtime": 18.2885,
+      "eval_samples_per_second": 266.342,
+      "step": 8670
+    },
+    {
+      "epoch": 35.0,
+      "learning_rate": 1.5e-05,
+      "loss": 0.685,
+      "step": 8925
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.4677,
+      "eval_f1_macro": 0.2876,
+      "eval_gen_len": 2.3127,
+      "eval_loss": 0.7812894582748413,
+      "eval_precision": 0.3644,
+      "eval_recall": 0.2814,
+      "eval_runtime": 18.3325,
+      "eval_samples_per_second": 265.703,
+      "step": 8925
+    },
+    {
+      "epoch": 36.0,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.681,
+      "step": 9180
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.4636,
+      "eval_f1_macro": 0.2814,
+      "eval_gen_len": 2.3309,
+      "eval_loss": 0.7843227386474609,
+      "eval_precision": 0.3367,
+      "eval_recall": 0.2784,
+      "eval_runtime": 18.3007,
+      "eval_samples_per_second": 266.165,
+      "step": 9180
+    },
+    {
+      "epoch": 37.0,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.6777,
+      "step": 9435
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.4679,
+      "eval_f1_macro": 0.2887,
+      "eval_gen_len": 2.3244,
+      "eval_loss": 0.7880710363388062,
+      "eval_precision": 0.347,
+      "eval_recall": 0.2834,
+      "eval_runtime": 18.3303,
+      "eval_samples_per_second": 265.735,
+      "step": 9435
+    },
+    {
+      "epoch": 38.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.669,
+      "step": 9690
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.4689,
+      "eval_f1_macro": 0.2915,
+      "eval_gen_len": 2.3153,
+      "eval_loss": 0.7872263789176941,
+      "eval_precision": 0.3575,
+      "eval_recall": 0.2861,
+      "eval_runtime": 18.2879,
+      "eval_samples_per_second": 266.351,
+      "step": 9690
+    },
+    {
+      "epoch": 39.0,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.6724,
+      "step": 9945
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.4687,
+      "eval_f1_macro": 0.2886,
+      "eval_gen_len": 2.3387,
+      "eval_loss": 0.7843508124351501,
+      "eval_precision": 0.3525,
+      "eval_recall": 0.2867,
+      "eval_runtime": 18.3152,
+      "eval_samples_per_second": 265.954,
+      "step": 9945
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 1e-05,
+      "loss": 0.669,
+      "step": 10200
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.4662,
+      "eval_f1_macro": 0.2876,
+      "eval_gen_len": 2.3285,
+      "eval_loss": 0.7868720889091492,
+      "eval_precision": 0.348,
+      "eval_recall": 0.2836,
+      "eval_runtime": 18.2931,
+      "eval_samples_per_second": 266.276,
+      "step": 10200
+    },
+    {
+      "epoch": 41.0,
+      "learning_rate": 9e-06,
+      "loss": 0.6636,
+      "step": 10455
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.4683,
+      "eval_f1_macro": 0.2857,
+      "eval_gen_len": 2.3215,
+      "eval_loss": 0.790763795375824,
+      "eval_precision": 0.3488,
+      "eval_recall": 0.2821,
+      "eval_runtime": 18.3162,
+      "eval_samples_per_second": 265.94,
+      "step": 10455
+    },
+    {
+      "epoch": 42.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.6654,
+      "step": 10710
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.4705,
+      "eval_f1_macro": 0.2912,
+      "eval_gen_len": 2.3225,
+      "eval_loss": 0.78489089012146,
+      "eval_precision": 0.3519,
+      "eval_recall": 0.2872,
+      "eval_runtime": 18.2957,
+      "eval_samples_per_second": 266.237,
+      "step": 10710
+    },
+    {
+      "epoch": 43.0,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.6626,
+      "step": 10965
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.4707,
+      "eval_f1_macro": 0.2908,
+      "eval_gen_len": 2.3242,
+      "eval_loss": 0.7898949384689331,
+      "eval_precision": 0.3521,
+      "eval_recall": 0.2875,
+      "eval_runtime": 18.3173,
+      "eval_samples_per_second": 265.923,
+      "step": 10965
+    },
+    {
+      "epoch": 44.0,
+      "learning_rate": 6e-06,
+      "loss": 0.6619,
+      "step": 11220
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.467,
+      "eval_f1_macro": 0.2874,
+      "eval_gen_len": 2.3233,
+      "eval_loss": 0.7907114028930664,
+      "eval_precision": 0.347,
+      "eval_recall": 0.2835,
+      "eval_runtime": 18.2912,
+      "eval_samples_per_second": 266.303,
+      "step": 11220
+    },
+    {
+      "epoch": 45.0,
+      "learning_rate": 5e-06,
+      "loss": 0.6593,
+      "step": 11475
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.4687,
+      "eval_f1_macro": 0.2901,
+      "eval_gen_len": 2.3346,
+      "eval_loss": 0.7884129285812378,
+      "eval_precision": 0.3514,
+      "eval_recall": 0.2867,
+      "eval_runtime": 18.3091,
+      "eval_samples_per_second": 266.042,
+      "step": 11475
+    },
+    {
+      "epoch": 46.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.6562,
+      "step": 11730
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.4697,
+      "eval_f1_macro": 0.2898,
+      "eval_gen_len": 2.3299,
+      "eval_loss": 0.7906068563461304,
+      "eval_precision": 0.3527,
+      "eval_recall": 0.285,
+      "eval_runtime": 18.2501,
+      "eval_samples_per_second": 266.902,
+      "step": 11730
+    },
+    {
+      "epoch": 47.0,
+      "learning_rate": 3e-06,
+      "loss": 0.6573,
+      "step": 11985
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.4673,
+      "eval_f1_macro": 0.2879,
+      "eval_gen_len": 2.3285,
+      "eval_loss": 0.7910804748535156,
+      "eval_precision": 0.344,
+      "eval_recall": 0.2839,
+      "eval_runtime": 18.3029,
+      "eval_samples_per_second": 266.132,
+      "step": 11985
+    },
+    {
+      "epoch": 48.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6552,
+      "step": 12240
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.4687,
+      "eval_f1_macro": 0.2903,
+      "eval_gen_len": 2.3324,
+      "eval_loss": 0.7917013764381409,
+      "eval_precision": 0.344,
+      "eval_recall": 0.2863,
+      "eval_runtime": 18.2692,
+      "eval_samples_per_second": 266.624,
+      "step": 12240
+    },
+    {
+      "epoch": 49.0,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.6545,
+      "step": 12495
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.4685,
+      "eval_f1_macro": 0.2896,
+      "eval_gen_len": 2.3322,
+      "eval_loss": 0.7909209728240967,
+      "eval_precision": 0.3462,
+      "eval_recall": 0.2856,
+      "eval_runtime": 18.2849,
+      "eval_samples_per_second": 266.395,
+      "step": 12495
+    }
+  ],
+  "max_steps": 12750,
+  "num_train_epochs": 50,
+  "total_flos": 1.14107158131029e+17,
+  "trial_name": null,
+  "trial_params": null
+}