diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100755--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,5587 @@
+{
+  "best_metric": 0.5909090909090909,
+  "best_model_checkpoint": "/mnt/chenzhi/dialogzoo/finetune/txt2sql_picard_spider/checkpoint-3392",
+  "epoch": 1130.5857142857142,
+  "global_step": 3392,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001,
+      "loss": 9.0732,
+      "step": 1
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001,
+      "loss": 4.8824,
+      "step": 4
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0001,
+      "loss": 2.1843,
+      "step": 8
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 0.0001,
+      "loss": 1.2402,
+      "step": 12
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 0.0001,
+      "loss": 0.8986,
+      "step": 16
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 0.0001,
+      "loss": 0.6313,
+      "step": 20
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 0.0001,
+      "loss": 0.5105,
+      "step": 24
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 0.0001,
+      "loss": 0.4653,
+      "step": 28
+    },
+    {
+      "epoch": 10.59,
+      "learning_rate": 0.0001,
+      "loss": 0.3667,
+      "step": 32
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 0.0001,
+      "loss": 0.3282,
+      "step": 36
+    },
+    {
+      "epoch": 13.29,
+      "learning_rate": 0.0001,
+      "loss": 0.3399,
+      "step": 40
+    },
+    {
+      "epoch": 14.59,
+      "learning_rate": 0.0001,
+      "loss": 0.2716,
+      "step": 44
+    },
+    {
+      "epoch": 15.88,
+      "learning_rate": 0.0001,
+      "loss": 0.2606,
+      "step": 48
+    },
+    {
+      "epoch": 17.29,
+      "learning_rate": 0.0001,
+      "loss": 0.254,
+      "step": 52
+    },
+    {
+      "epoch": 18.59,
+      "learning_rate": 0.0001,
+      "loss": 0.2197,
+      "step": 56
+    },
+    {
+      "epoch": 19.88,
+      "learning_rate": 0.0001,
+      "loss": 0.2168,
+      "step": 60
+    },
+    {
+      "epoch": 21.29,
+      "learning_rate": 0.0001,
+      "loss": 0.2316,
+      "step": 64
+    },
+    {
+      "epoch": 21.29,
+      "eval_exact_match": 0.4071566731141199,
+      "eval_exec": 0.4400386847195358,
+      "eval_loss": 0.26413747668266296,
+      "eval_runtime": 110.5638,
+      "eval_samples_per_second": 9.352,
+      "step": 64
+    },
+    {
+      "epoch": 22.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1937,
+      "step": 68
+    },
+    {
+      "epoch": 23.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1791,
+      "step": 72
+    },
+    {
+      "epoch": 25.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1859,
+      "step": 76
+    },
+    {
+      "epoch": 26.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1742,
+      "step": 80
+    },
+    {
+      "epoch": 27.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1688,
+      "step": 84
+    },
+    {
+      "epoch": 29.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1793,
+      "step": 88
+    },
+    {
+      "epoch": 30.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1483,
+      "step": 92
+    },
+    {
+      "epoch": 31.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1396,
+      "step": 96
+    },
+    {
+      "epoch": 33.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1527,
+      "step": 100
+    },
+    {
+      "epoch": 34.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1404,
+      "step": 104
+    },
+    {
+      "epoch": 35.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1259,
+      "step": 108
+    },
+    {
+      "epoch": 37.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1322,
+      "step": 112
+    },
+    {
+      "epoch": 38.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1217,
+      "step": 116
+    },
+    {
+      "epoch": 39.88,
+      "learning_rate": 0.0001,
+      "loss": 0.115,
+      "step": 120
+    },
+    {
+      "epoch": 41.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1268,
+      "step": 124
+    },
+    {
+      "epoch": 42.59,
+      "learning_rate": 0.0001,
+      "loss": 0.1137,
+      "step": 128
+    },
+    {
+      "epoch": 42.59,
+      "eval_exact_match": 0.45938104448742745,
+      "eval_exec": 0.49032882011605416,
+      "eval_loss": 0.23041628301143646,
+      "eval_runtime": 152.3182,
+      "eval_samples_per_second": 6.788,
+      "step": 128
+    },
+    {
+      "epoch": 43.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1038,
+      "step": 132
+    },
+    {
+      "epoch": 45.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1112,
+      "step": 136
+    },
+    {
+      "epoch": 46.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0989,
+      "step": 140
+    },
+    {
+      "epoch": 47.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0955,
+      "step": 144
+    },
+    {
+      "epoch": 49.29,
+      "learning_rate": 0.0001,
+      "loss": 0.103,
+      "step": 148
+    },
+    {
+      "epoch": 50.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0954,
+      "step": 152
+    },
+    {
+      "epoch": 51.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0921,
+      "step": 156
+    },
+    {
+      "epoch": 53.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0941,
+      "step": 160
+    },
+    {
+      "epoch": 54.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0853,
+      "step": 164
+    },
+    {
+      "epoch": 55.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0838,
+      "step": 168
+    },
+    {
+      "epoch": 57.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0834,
+      "step": 172
+    },
+    {
+      "epoch": 58.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0759,
+      "step": 176
+    },
+    {
+      "epoch": 59.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0732,
+      "step": 180
+    },
+    {
+      "epoch": 61.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0819,
+      "step": 184
+    },
+    {
+      "epoch": 62.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0787,
+      "step": 188
+    },
+    {
+      "epoch": 63.88,
+      "learning_rate": 0.0001,
+      "loss": 0.066,
+      "step": 192
+    },
+    {
+      "epoch": 63.88,
+      "eval_exact_match": 0.4990328820116054,
+      "eval_exec": 0.5203094777562862,
+      "eval_loss": 0.2356981337070465,
+      "eval_runtime": 148.5976,
+      "eval_samples_per_second": 6.958,
+      "step": 192
+    },
+    {
+      "epoch": 65.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0701,
+      "step": 196
+    },
+    {
+      "epoch": 66.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0669,
+      "step": 200
+    },
+    {
+      "epoch": 67.88,
+      "learning_rate": 0.0001,
+      "loss": 0.066,
+      "step": 204
+    },
+    {
+      "epoch": 69.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0705,
+      "step": 208
+    },
+    {
+      "epoch": 70.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0581,
+      "step": 212
+    },
+    {
+      "epoch": 71.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0596,
+      "step": 216
+    },
+    {
+      "epoch": 73.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0621,
+      "step": 220
+    },
+    {
+      "epoch": 74.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0575,
+      "step": 224
+    },
+    {
+      "epoch": 75.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0571,
+      "step": 228
+    },
+    {
+      "epoch": 77.29,
+      "learning_rate": 0.0001,
+      "loss": 0.058,
+      "step": 232
+    },
+    {
+      "epoch": 78.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0516,
+      "step": 236
+    },
+    {
+      "epoch": 79.88,
+      "learning_rate": 0.0001,
+      "loss": 0.056,
+      "step": 240
+    },
+    {
+      "epoch": 81.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0545,
+      "step": 244
+    },
+    {
+      "epoch": 82.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0494,
+      "step": 248
+    },
+    {
+      "epoch": 83.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0494,
+      "step": 252
+    },
+    {
+      "epoch": 85.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0517,
+      "step": 256
+    },
+    {
+      "epoch": 85.29,
+      "eval_exact_match": 0.5029013539651838,
+      "eval_exec": 0.5174081237911026,
+      "eval_loss": 0.25896430015563965,
+      "eval_runtime": 156.1392,
+      "eval_samples_per_second": 6.622,
+      "step": 256
+    },
+    {
+      "epoch": 86.59,
+      "learning_rate": 0.0001,
+      "loss": 0.044,
+      "step": 260
+    },
+    {
+      "epoch": 87.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0451,
+      "step": 264
+    },
+    {
+      "epoch": 89.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0465,
+      "step": 268
+    },
+    {
+      "epoch": 90.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0428,
+      "step": 272
+    },
+    {
+      "epoch": 91.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0408,
+      "step": 276
+    },
+    {
+      "epoch": 93.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0423,
+      "step": 280
+    },
+    {
+      "epoch": 94.59,
+      "learning_rate": 0.0001,
+      "loss": 0.04,
+      "step": 284
+    },
+    {
+      "epoch": 95.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0399,
+      "step": 288
+    },
+    {
+      "epoch": 97.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0418,
+      "step": 292
+    },
+    {
+      "epoch": 98.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0368,
+      "step": 296
+    },
+    {
+      "epoch": 99.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0349,
+      "step": 300
+    },
+    {
+      "epoch": 101.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0366,
+      "step": 304
+    },
+    {
+      "epoch": 102.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0361,
+      "step": 308
+    },
+    {
+      "epoch": 103.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0377,
+      "step": 312
+    },
+    {
+      "epoch": 105.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0345,
+      "step": 316
+    },
+    {
+      "epoch": 106.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0302,
+      "step": 320
+    },
+    {
+      "epoch": 106.59,
+      "eval_exact_match": 0.5135396518375241,
+      "eval_exec": 0.5299806576402321,
+      "eval_loss": 0.2772854268550873,
+      "eval_runtime": 151.1172,
+      "eval_samples_per_second": 6.842,
+      "step": 320
+    },
+    {
+      "epoch": 107.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0303,
+      "step": 324
+    },
+    {
+      "epoch": 109.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0326,
+      "step": 328
+    },
+    {
+      "epoch": 110.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0331,
+      "step": 332
+    },
+    {
+      "epoch": 111.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0298,
+      "step": 336
+    },
+    {
+      "epoch": 113.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0302,
+      "step": 340
+    },
+    {
+      "epoch": 114.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0276,
+      "step": 344
+    },
+    {
+      "epoch": 115.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0307,
+      "step": 348
+    },
+    {
+      "epoch": 117.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0283,
+      "step": 352
+    },
+    {
+      "epoch": 118.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0267,
+      "step": 356
+    },
+    {
+      "epoch": 119.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0313,
+      "step": 360
+    },
+    {
+      "epoch": 121.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0274,
+      "step": 364
+    },
+    {
+      "epoch": 122.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0259,
+      "step": 368
+    },
+    {
+      "epoch": 123.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0264,
+      "step": 372
+    },
+    {
+      "epoch": 125.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0277,
+      "step": 376
+    },
+    {
+      "epoch": 126.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0225,
+      "step": 380
+    },
+    {
+      "epoch": 127.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0229,
+      "step": 384
+    },
+    {
+      "epoch": 127.88,
+      "eval_exact_match": 0.5309477756286267,
+      "eval_exec": 0.5406189555125726,
+      "eval_loss": 0.28500038385391235,
+      "eval_runtime": 149.4099,
+      "eval_samples_per_second": 6.921,
+      "step": 384
+    },
+    {
+      "epoch": 129.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0242,
+      "step": 388
+    },
+    {
+      "epoch": 130.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0212,
+      "step": 392
+    },
+    {
+      "epoch": 131.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0219,
+      "step": 396
+    },
+    {
+      "epoch": 133.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0237,
+      "step": 400
+    },
+    {
+      "epoch": 134.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0214,
+      "step": 404
+    },
+    {
+      "epoch": 135.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0198,
+      "step": 408
+    },
+    {
+      "epoch": 137.29,
+      "learning_rate": 0.0001,
+      "loss": 0.02,
+      "step": 412
+    },
+    {
+      "epoch": 138.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0176,
+      "step": 416
+    },
+    {
+      "epoch": 139.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0183,
+      "step": 420
+    },
+    {
+      "epoch": 141.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0221,
+      "step": 424
+    },
+    {
+      "epoch": 142.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0203,
+      "step": 428
+    },
+    {
+      "epoch": 143.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0182,
+      "step": 432
+    },
+    {
+      "epoch": 145.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0214,
+      "step": 436
+    },
+    {
+      "epoch": 146.59,
+      "learning_rate": 0.0001,
+      "loss": 0.017,
+      "step": 440
+    },
+    {
+      "epoch": 147.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0157,
+      "step": 444
+    },
+    {
+      "epoch": 149.29,
+      "learning_rate": 0.0001,
+      "loss": 0.017,
+      "step": 448
+    },
+    {
+      "epoch": 149.29,
+      "eval_exact_match": 0.5338491295938105,
+      "eval_exec": 0.5454545454545454,
+      "eval_loss": 0.3071914315223694,
+      "eval_runtime": 146.7029,
+      "eval_samples_per_second": 7.048,
+      "step": 448
+    },
+    {
+      "epoch": 150.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0164,
+      "step": 452
+    },
+    {
+      "epoch": 151.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0161,
+      "step": 456
+    },
+    {
+      "epoch": 153.29,
+      "learning_rate": 0.0001,
+      "loss": 0.016,
+      "step": 460
+    },
+    {
+      "epoch": 154.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0159,
+      "step": 464
+    },
+    {
+      "epoch": 155.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0144,
+      "step": 468
+    },
+    {
+      "epoch": 157.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0153,
+      "step": 472
+    },
+    {
+      "epoch": 158.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0147,
+      "step": 476
+    },
+    {
+      "epoch": 159.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0137,
+      "step": 480
+    },
+    {
+      "epoch": 161.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0147,
+      "step": 484
+    },
+    {
+      "epoch": 162.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0143,
+      "step": 488
+    },
+    {
+      "epoch": 163.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0135,
+      "step": 492
+    },
+    {
+      "epoch": 165.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0134,
+      "step": 496
+    },
+    {
+      "epoch": 166.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0125,
+      "step": 500
+    },
+    {
+      "epoch": 167.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0137,
+      "step": 504
+    },
+    {
+      "epoch": 169.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0128,
+      "step": 508
+    },
+    {
+      "epoch": 170.59,
+      "learning_rate": 0.0001,
+      "loss": 0.012,
+      "step": 512
+    },
+    {
+      "epoch": 170.59,
+      "eval_exact_match": 0.5464216634429401,
+      "eval_exec": 0.5551257253384912,
+      "eval_loss": 0.3156057894229889,
+      "eval_runtime": 155.4486,
+      "eval_samples_per_second": 6.652,
+      "step": 512
+    },
+    {
+      "epoch": 171.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0113,
+      "step": 516
+    },
+    {
+      "epoch": 173.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0121,
+      "step": 520
+    },
+    {
+      "epoch": 174.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0112,
+      "step": 524
+    },
+    {
+      "epoch": 175.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0118,
+      "step": 528
+    },
+    {
+      "epoch": 177.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0144,
+      "step": 532
+    },
+    {
+      "epoch": 178.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0135,
+      "step": 536
+    },
+    {
+      "epoch": 179.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0114,
+      "step": 540
+    },
+    {
+      "epoch": 181.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0114,
+      "step": 544
+    },
+    {
+      "epoch": 182.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0102,
+      "step": 548
+    },
+    {
+      "epoch": 183.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0105,
+      "step": 552
+    },
+    {
+      "epoch": 185.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0111,
+      "step": 556
+    },
+    {
+      "epoch": 186.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0097,
+      "step": 560
+    },
+    {
+      "epoch": 187.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0098,
+      "step": 564
+    },
+    {
+      "epoch": 189.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0119,
+      "step": 568
+    },
+    {
+      "epoch": 190.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0098,
+      "step": 572
+    },
+    {
+      "epoch": 191.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0093,
+      "step": 576
+    },
+    {
+      "epoch": 191.88,
+      "eval_exact_match": 0.5512572533849129,
+      "eval_exec": 0.5589941972920697,
+      "eval_loss": 0.3371215760707855,
+      "eval_runtime": 145.9635,
+      "eval_samples_per_second": 7.084,
+      "step": 576
+    },
+    {
+      "epoch": 193.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0098,
+      "step": 580
+    },
+    {
+      "epoch": 194.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0085,
+      "step": 584
+    },
+    {
+      "epoch": 195.88,
+      "learning_rate": 0.0001,
+      "loss": 0.008,
+      "step": 588
+    },
+    {
+      "epoch": 197.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0089,
+      "step": 592
+    },
+    {
+      "epoch": 198.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0077,
+      "step": 596
+    },
+    {
+      "epoch": 199.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0079,
+      "step": 600
+    },
+    {
+      "epoch": 201.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0085,
+      "step": 604
+    },
+    {
+      "epoch": 202.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0081,
+      "step": 608
+    },
+    {
+      "epoch": 203.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0084,
+      "step": 612
+    },
+    {
+      "epoch": 205.29,
+      "learning_rate": 0.0001,
+      "loss": 0.009,
+      "step": 616
+    },
+    {
+      "epoch": 206.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0079,
+      "step": 620
+    },
+    {
+      "epoch": 207.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0074,
+      "step": 624
+    },
+    {
+      "epoch": 209.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0077,
+      "step": 628
+    },
+    {
+      "epoch": 210.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0064,
+      "step": 632
+    },
+    {
+      "epoch": 211.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0069,
+      "step": 636
+    },
+    {
+      "epoch": 213.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0073,
+      "step": 640
+    },
+    {
+      "epoch": 213.29,
+      "eval_exact_match": 0.5696324951644101,
+      "eval_exec": 0.5812379110251451,
+      "eval_loss": 0.3502403795719147,
+      "eval_runtime": 151.5831,
+      "eval_samples_per_second": 6.821,
+      "step": 640
+    },
+    {
+      "epoch": 214.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0065,
+      "step": 644
+    },
+    {
+      "epoch": 215.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0064,
+      "step": 648
+    },
+    {
+      "epoch": 217.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0069,
+      "step": 652
+    },
+    {
+      "epoch": 218.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0067,
+      "step": 656
+    },
+    {
+      "epoch": 219.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0062,
+      "step": 660
+    },
+    {
+      "epoch": 221.29,
+      "learning_rate": 0.0001,
+      "loss": 0.007,
+      "step": 664
+    },
+    {
+      "epoch": 222.59,
+      "learning_rate": 0.0001,
+      "loss": 0.006,
+      "step": 668
+    },
+    {
+      "epoch": 223.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0056,
+      "step": 672
+    },
+    {
+      "epoch": 225.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0062,
+      "step": 676
+    },
+    {
+      "epoch": 226.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0063,
+      "step": 680
+    },
+    {
+      "epoch": 227.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0059,
+      "step": 684
+    },
+    {
+      "epoch": 229.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0063,
+      "step": 688
+    },
+    {
+      "epoch": 230.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0135,
+      "step": 692
+    },
+    {
+      "epoch": 231.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0068,
+      "step": 696
+    },
+    {
+      "epoch": 233.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0059,
+      "step": 700
+    },
+    {
+      "epoch": 234.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0056,
+      "step": 704
+    },
+    {
+      "epoch": 234.59,
+      "eval_exact_match": 0.5647969052224371,
+      "eval_exec": 0.5735009671179884,
+      "eval_loss": 0.3497712314128876,
+      "eval_runtime": 145.6537,
+      "eval_samples_per_second": 7.099,
+      "step": 704
+    },
+    {
+      "epoch": 235.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0053,
+      "step": 708
+    },
+    {
+      "epoch": 237.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0055,
+      "step": 712
+    },
+    {
+      "epoch": 238.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0047,
+      "step": 716
+    },
+    {
+      "epoch": 239.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0053,
+      "step": 720
+    },
+    {
+      "epoch": 241.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0114,
+      "step": 724
+    },
+    {
+      "epoch": 242.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0049,
+      "step": 728
+    },
+    {
+      "epoch": 243.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0049,
+      "step": 732
+    },
+    {
+      "epoch": 245.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0048,
+      "step": 736
+    },
+    {
+      "epoch": 246.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0044,
+      "step": 740
+    },
+    {
+      "epoch": 247.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0039,
+      "step": 744
+    },
+    {
+      "epoch": 249.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0046,
+      "step": 748
+    },
+    {
+      "epoch": 250.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0048,
+      "step": 752
+    },
+    {
+      "epoch": 251.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0057,
+      "step": 756
+    },
+    {
+      "epoch": 253.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0086,
+      "step": 760
+    },
+    {
+      "epoch": 254.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0046,
+      "step": 764
+    },
+    {
+      "epoch": 255.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0042,
+      "step": 768
+    },
+    {
+      "epoch": 255.88,
+      "eval_exact_match": 0.5560928433268859,
+      "eval_exec": 0.574468085106383,
+      "eval_loss": 0.35794734954833984,
+      "eval_runtime": 154.8692,
+      "eval_samples_per_second": 6.677,
+      "step": 768
+    },
+    {
+      "epoch": 257.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0044,
+      "step": 772
+    },
+    {
+      "epoch": 258.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0037,
+      "step": 776
+    },
+    {
+      "epoch": 259.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0039,
+      "step": 780
+    },
+    {
+      "epoch": 261.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0044,
+      "step": 784
+    },
+    {
+      "epoch": 262.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0038,
+      "step": 788
+    },
+    {
+      "epoch": 263.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0037,
+      "step": 792
+    },
+    {
+      "epoch": 265.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0041,
+      "step": 796
+    },
+    {
+      "epoch": 266.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0037,
+      "step": 800
+    },
+    {
+      "epoch": 267.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0039,
+      "step": 804
+    },
+    {
+      "epoch": 269.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0041,
+      "step": 808
+    },
+    {
+      "epoch": 270.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0036,
+      "step": 812
+    },
+    {
+      "epoch": 271.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 816
+    },
+    {
+      "epoch": 273.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0039,
+      "step": 820
+    },
+    {
+      "epoch": 274.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0034,
+      "step": 824
+    },
+    {
+      "epoch": 275.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 828
+    },
+    {
+      "epoch": 277.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 832
+    },
+    {
+      "epoch": 277.29,
+      "eval_exact_match": 0.5618955512572534,
+      "eval_exec": 0.5696324951644101,
+      "eval_loss": 0.3841744661331177,
+      "eval_runtime": 147.3603,
+      "eval_samples_per_second": 7.017,
+      "step": 832
+    },
+    {
+      "epoch": 278.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0034,
+      "step": 836
+    },
+    {
+      "epoch": 279.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0033,
+      "step": 840
+    },
+    {
+      "epoch": 281.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0038,
+      "step": 844
+    },
+    {
+      "epoch": 282.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0037,
+      "step": 848
+    },
+    {
+      "epoch": 283.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0034,
+      "step": 852
+    },
+    {
+      "epoch": 285.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0038,
+      "step": 856
+    },
+    {
+      "epoch": 286.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0057,
+      "step": 860
+    },
+    {
+      "epoch": 287.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 864
+    },
+    {
+      "epoch": 289.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 868
+    },
+    {
+      "epoch": 290.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 872
+    },
+    {
+      "epoch": 291.88,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 876
+    },
+    {
+      "epoch": 293.29,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 880
+    },
+    {
+      "epoch": 294.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0033,
+      "step": 884
+    },
+    {
+      "epoch": 295.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0031,
+      "step": 888
+    },
+    {
+      "epoch": 297.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0032,
+      "step": 892
+    },
+    {
+      "epoch": 298.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 896
+    },
+    {
+      "epoch": 298.59,
+      "eval_exact_match": 0.5676982591876208,
+      "eval_exec": 0.5802707930367504,
+      "eval_loss": 0.3835436701774597,
+      "eval_runtime": 146.0079,
+      "eval_samples_per_second": 7.082,
+      "step": 896
+    },
+    {
+      "epoch": 299.88,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 900
+    },
+    {
+      "epoch": 301.29,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 904
+    },
+    {
+      "epoch": 302.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 908
+    },
+    {
+      "epoch": 303.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 912
+    },
+    {
+      "epoch": 305.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 916
+    },
+    {
+      "epoch": 306.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 920
+    },
+    {
+      "epoch": 307.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 924
+    },
+    {
+      "epoch": 309.29,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 928
+    },
+    {
+      "epoch": 310.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 932
+    },
+    {
+      "epoch": 311.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 936
+    },
+    {
+      "epoch": 313.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 940
+    },
+    {
+      "epoch": 314.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 944
+    },
+    {
+      "epoch": 315.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 948
+    },
+    {
+      "epoch": 317.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 952
+    },
+    {
+      "epoch": 318.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 956
+    },
+    {
+      "epoch": 319.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 960
+    },
+    {
+      "epoch": 319.88,
+      "eval_exact_match": 0.5705996131528046,
+      "eval_exec": 0.5851063829787234,
+      "eval_loss": 0.40229931473731995,
+      "eval_runtime": 148.3785,
+      "eval_samples_per_second": 6.969,
+      "step": 960
+    },
+    {
+      "epoch": 321.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 964
+    },
+    {
+      "epoch": 322.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 968
+    },
+    {
+      "epoch": 323.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 972
+    },
+    {
+      "epoch": 325.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 976
+    },
+    {
+      "epoch": 326.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 980
+    },
+    {
+      "epoch": 327.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 984
+    },
+    {
+      "epoch": 329.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 988
+    },
+    {
+      "epoch": 330.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 992
+    },
+    {
+      "epoch": 331.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 996
+    },
+    {
+      "epoch": 333.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 1000
+    },
+    {
+      "epoch": 334.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 1004
+    },
+    {
+      "epoch": 335.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 1008
+    },
+    {
+      "epoch": 337.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 1012
+    },
+    {
+      "epoch": 338.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 1016
+    },
+    {
+      "epoch": 339.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 1020
+    },
+    {
+      "epoch": 341.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 1024
+    },
+    {
+      "epoch": 341.29,
+      "eval_exact_match": 0.562862669245648,
+      "eval_exec": 0.5812379110251451,
+      "eval_loss": 0.39506930112838745,
+      "eval_runtime": 149.0359,
+      "eval_samples_per_second": 6.938,
+      "step": 1024
+    },
+    {
+      "epoch": 342.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 1028
+    },
+    {
+      "epoch": 343.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 1032
+    },
+    {
+      "epoch": 345.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 1036
+    },
+    {
+      "epoch": 346.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 1040
+    },
+    {
+      "epoch": 347.88,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 1044
+    },
+    {
+      "epoch": 349.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 1048
+    },
+    {
+      "epoch": 350.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 1052
+    },
+    {
+      "epoch": 351.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 1056
+    },
+    {
+      "epoch": 353.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 1060
+    },
+    {
+      "epoch": 354.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 1064
+    },
+    {
+      "epoch": 355.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 1068
+    },
+    {
+      "epoch": 357.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 1072
+    },
+    {
+      "epoch": 358.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 1076
+    },
+    {
+      "epoch": 359.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1080
+    },
+    {
+      "epoch": 361.29,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 1084
+    },
+    {
+      "epoch": 362.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 1088
+    },
+    {
+      "epoch": 362.59,
+      "eval_exact_match": 0.5589941972920697,
+      "eval_exec": 0.5715667311411993,
+      "eval_loss": 0.40029463171958923,
+      "eval_runtime": 149.9391,
+      "eval_samples_per_second": 6.896,
+      "step": 1088
+    },
+    {
+      "epoch": 363.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 1092
+    },
+    {
+      "epoch": 365.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 1096
+    },
+    {
+      "epoch": 366.59,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 1100
+    },
+    {
+      "epoch": 367.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 1104
+    },
+    {
+      "epoch": 369.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1108
+    },
+    {
+      "epoch": 370.59,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 1112
+    },
+    {
+      "epoch": 371.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1116
+    },
+    {
+      "epoch": 373.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1120
+    },
+    {
+      "epoch": 374.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1124
+    },
+    {
+      "epoch": 375.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1128
+    },
+    {
+      "epoch": 377.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 1132
+    },
+    {
+      "epoch": 378.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1136
+    },
+    {
+      "epoch": 379.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 1140
+    },
+    {
+      "epoch": 381.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 1144
+    },
+    {
+      "epoch": 382.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1148
+    },
+    {
+      "epoch": 383.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1152
+    },
+    {
+      "epoch": 383.88,
+      "eval_exact_match": 0.558027079303675,
+      "eval_exec": 0.574468085106383,
+      "eval_loss": 0.4003511965274811,
+      "eval_runtime": 145.6547,
+      "eval_samples_per_second": 7.099,
+      "step": 1152
+    },
+    {
+      "epoch": 385.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1156
+    },
+    {
+      "epoch": 386.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1160
+    },
+    {
+      "epoch": 387.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1164
+    },
+    {
+      "epoch": 389.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1168
+    },
+    {
+      "epoch": 390.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1172
+    },
+    {
+      "epoch": 391.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1176
+    },
+    {
+      "epoch": 393.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1180
+    },
+    {
+      "epoch": 394.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 1184
+    },
+    {
+      "epoch": 395.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1188
+    },
+    {
+      "epoch": 397.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 1192
+    },
+    {
+      "epoch": 398.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1196
+    },
+    {
+      "epoch": 399.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1200
+    },
+    {
+      "epoch": 401.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1204
+    },
+    {
+      "epoch": 402.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 1208
+    },
+    {
+      "epoch": 403.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1212
+    },
+    {
+      "epoch": 405.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1216
+    },
+    {
+      "epoch": 405.29,
+      "eval_exact_match": 0.5667311411992263,
+      "eval_exec": 0.5831721470019342,
+      "eval_loss": 0.4143199026584625,
+      "eval_runtime": 149.8872,
+      "eval_samples_per_second": 6.899,
+      "step": 1216
+    },
+    {
+      "epoch": 406.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1220
+    },
+    {
+      "epoch": 407.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1224
+    },
+    {
+      "epoch": 409.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 1228
+    },
+    {
+      "epoch": 410.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1232
+    },
+    {
+      "epoch": 411.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1236
+    },
+    {
+      "epoch": 413.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1240
+    },
+    {
+      "epoch": 414.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1244
+    },
+    {
+      "epoch": 415.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 1248
+    },
+    {
+      "epoch": 417.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0071,
+      "step": 1252
+    },
+    {
+      "epoch": 418.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 1256
+    },
+    {
+      "epoch": 419.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1260
+    },
+    {
+      "epoch": 421.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1264
+    },
+    {
+      "epoch": 422.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1268
+    },
+    {
+      "epoch": 423.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1272
+    },
+    {
+      "epoch": 425.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1276
+    },
+    {
+      "epoch": 426.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1280
+    },
+    {
+      "epoch": 426.59,
+      "eval_exact_match": 0.5618955512572534,
+      "eval_exec": 0.5783365570599613,
+      "eval_loss": 0.42446255683898926,
+      "eval_runtime": 143.8874,
+      "eval_samples_per_second": 7.186,
+      "step": 1280
+    },
+    {
+      "epoch": 427.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1284
+    },
+    {
+      "epoch": 429.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1288
+    },
+    {
+      "epoch": 430.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1292
+    },
+    {
+      "epoch": 431.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1296
+    },
+    {
+      "epoch": 433.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1300
+    },
+    {
+      "epoch": 434.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1304
+    },
+    {
+      "epoch": 435.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1308
+    },
+    {
+      "epoch": 437.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1312
+    },
+    {
+      "epoch": 438.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1316
+    },
+    {
+      "epoch": 439.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1320
+    },
+    {
+      "epoch": 441.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1324
+    },
+    {
+      "epoch": 442.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1328
+    },
+    {
+      "epoch": 443.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1332
+    },
+    {
+      "epoch": 445.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1336
+    },
+    {
+      "epoch": 446.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1340
+    },
+    {
+      "epoch": 447.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1344
+    },
+    {
+      "epoch": 447.88,
+      "eval_exact_match": 0.558027079303675,
+      "eval_exec": 0.5754352030947776,
+      "eval_loss": 0.42454418540000916,
+      "eval_runtime": 148.0659,
+      "eval_samples_per_second": 6.983,
+      "step": 1344
+    },
+    {
+      "epoch": 449.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1348
+    },
+    {
+      "epoch": 450.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1352
+    },
+    {
+      "epoch": 451.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1356
+    },
+    {
+      "epoch": 453.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1360
+    },
+    {
+      "epoch": 454.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1364
+    },
+    {
+      "epoch": 455.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1368
+    },
+    {
+      "epoch": 457.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1372
+    },
+    {
+      "epoch": 458.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1376
+    },
+    {
+      "epoch": 459.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1380
+    },
+    {
+      "epoch": 461.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1384
+    },
+    {
+      "epoch": 462.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1388
+    },
+    {
+      "epoch": 463.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1392
+    },
+    {
+      "epoch": 465.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1396
+    },
+    {
+      "epoch": 466.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1400
+    },
+    {
+      "epoch": 467.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1404
+    },
+    {
+      "epoch": 469.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1408
+    },
+    {
+      "epoch": 469.29,
+      "eval_exact_match": 0.5618955512572534,
+      "eval_exec": 0.5802707930367504,
+      "eval_loss": 0.4586906433105469,
+      "eval_runtime": 149.7041,
+      "eval_samples_per_second": 6.907,
+      "step": 1408
+    },
+    {
+      "epoch": 470.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1412
+    },
+    {
+      "epoch": 471.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1416
+    },
+    {
+      "epoch": 473.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1420
+    },
+    {
+      "epoch": 474.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1424
+    },
+    {
+      "epoch": 475.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1428
+    },
+    {
+      "epoch": 477.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1432
+    },
+    {
+      "epoch": 478.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1436
+    },
+    {
+      "epoch": 479.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1440
+    },
+    {
+      "epoch": 481.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1444
+    },
+    {
+      "epoch": 482.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1448
+    },
+    {
+      "epoch": 483.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1452
+    },
+    {
+      "epoch": 485.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1456
+    },
+    {
+      "epoch": 486.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1460
+    },
+    {
+      "epoch": 487.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1464
+    },
+    {
+      "epoch": 489.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1468
+    },
+    {
+      "epoch": 490.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1472
+    },
+    {
+      "epoch": 490.59,
+      "eval_exact_match": 0.558027079303675,
+      "eval_exec": 0.5831721470019342,
+      "eval_loss": 0.4234982132911682,
+      "eval_runtime": 147.8428,
+      "eval_samples_per_second": 6.994,
+      "step": 1472
+    },
+    {
+      "epoch": 491.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1476
+    },
+    {
+      "epoch": 493.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1480
+    },
+    {
+      "epoch": 494.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1484
+    },
+    {
+      "epoch": 495.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1488
+    },
+    {
+      "epoch": 497.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1492
+    },
+    {
+      "epoch": 498.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1496
+    },
+    {
+      "epoch": 499.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1500
+    },
+    {
+      "epoch": 501.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1504
+    },
+    {
+      "epoch": 502.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1508
+    },
+    {
+      "epoch": 503.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1512
+    },
+    {
+      "epoch": 505.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1516
+    },
+    {
+      "epoch": 506.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1520
+    },
+    {
+      "epoch": 507.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1524
+    },
+    {
+      "epoch": 509.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1528
+    },
+    {
+      "epoch": 510.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1532
+    },
+    {
+      "epoch": 511.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1536
+    },
+    {
+      "epoch": 511.88,
+      "eval_exact_match": 0.5725338491295938,
+      "eval_exec": 0.5831721470019342,
+      "eval_loss": 0.4380647838115692,
+      "eval_runtime": 146.4649,
+      "eval_samples_per_second": 7.06,
+      "step": 1536
+    },
+    {
+      "epoch": 513.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1540
+    },
+    {
+      "epoch": 514.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1544
+    },
+    {
+      "epoch": 515.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1548
+    },
+    {
+      "epoch": 517.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1552
+    },
+    {
+      "epoch": 518.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 1556
+    },
+    {
+      "epoch": 519.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 1560
+    },
+    {
+      "epoch": 521.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1564
+    },
+    {
+      "epoch": 522.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1568
+    },
+    {
+      "epoch": 523.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1572
+    },
+    {
+      "epoch": 525.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1576
+    },
+    {
+      "epoch": 526.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1580
+    },
+    {
+      "epoch": 527.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1584
+    },
+    {
+      "epoch": 529.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1588
+    },
+    {
+      "epoch": 530.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1592
+    },
+    {
+      "epoch": 531.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1596
+    },
+    {
+      "epoch": 533.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1600
+    },
+    {
+      "epoch": 533.29,
+      "eval_exact_match": 0.5531914893617021,
+      "eval_exec": 0.5705996131528046,
+      "eval_loss": 0.44653236865997314,
+      "eval_runtime": 152.4236,
+      "eval_samples_per_second": 6.784,
+      "step": 1600
+    },
+    {
+      "epoch": 534.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1604
+    },
+    {
+      "epoch": 535.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1608
+    },
+    {
+      "epoch": 537.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1612
+    },
+    {
+      "epoch": 538.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1616
+    },
+    {
+      "epoch": 539.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1620
+    },
+    {
+      "epoch": 541.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1624
+    },
+    {
+      "epoch": 542.59,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1628
+    },
+    {
+      "epoch": 543.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1632
+    },
+    {
+      "epoch": 545.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1636
+    },
+    {
+      "epoch": 546.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1640
+    },
+    {
+      "epoch": 547.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1644
+    },
+    {
+      "epoch": 549.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1648
+    },
+    {
+      "epoch": 550.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1652
+    },
+    {
+      "epoch": 551.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1656
+    },
+    {
+      "epoch": 553.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0031,
+      "step": 1660
+    },
+    {
+      "epoch": 554.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1664
+    },
+    {
+      "epoch": 554.59,
+      "eval_exact_match": 0.5783365570599613,
+      "eval_exec": 0.59284332688588,
+      "eval_loss": 0.43879660964012146,
+      "eval_runtime": 145.1998,
+      "eval_samples_per_second": 7.121,
+      "step": 1664
+    },
+    {
+      "epoch": 555.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1668
+    },
+    {
+      "epoch": 557.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1672
+    },
+    {
+      "epoch": 558.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1676
+    },
+    {
+      "epoch": 559.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1680
+    },
+    {
+      "epoch": 561.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1684
+    },
+    {
+      "epoch": 562.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1688
+    },
+    {
+      "epoch": 563.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1692
+    },
+    {
+      "epoch": 565.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1696
+    },
+    {
+      "epoch": 566.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1700
+    },
+    {
+      "epoch": 567.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1704
+    },
+    {
+      "epoch": 569.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1708
+    },
+    {
+      "epoch": 570.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1712
+    },
+    {
+      "epoch": 571.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1716
+    },
+    {
+      "epoch": 573.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1720
+    },
+    {
+      "epoch": 574.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1724
+    },
+    {
+      "epoch": 575.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1728
+    },
+    {
+      "epoch": 575.88,
+      "eval_exact_match": 0.562862669245648,
+      "eval_exec": 0.5822050290135397,
+      "eval_loss": 0.4501326382160187,
+      "eval_runtime": 146.0158,
+      "eval_samples_per_second": 7.081,
+      "step": 1728
+    },
+    {
+      "epoch": 577.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1732
+    },
+    {
+      "epoch": 578.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1736
+    },
+    {
+      "epoch": 579.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1740
+    },
+    {
+      "epoch": 581.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1744
+    },
+    {
+      "epoch": 582.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1748
+    },
+    {
+      "epoch": 583.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1752
+    },
+    {
+      "epoch": 585.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1756
+    },
+    {
+      "epoch": 586.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1760
+    },
+    {
+      "epoch": 587.88,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 1764
+    },
+    {
+      "epoch": 589.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0071,
+      "step": 1768
+    },
+    {
+      "epoch": 590.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1772
+    },
+    {
+      "epoch": 591.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 1776
+    },
+    {
+      "epoch": 593.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1780
+    },
+    {
+      "epoch": 594.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1784
+    },
+    {
+      "epoch": 595.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 1788
+    },
+    {
+      "epoch": 597.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1792
+    },
+    {
+      "epoch": 597.29,
+      "eval_exact_match": 0.5589941972920697,
+      "eval_exec": 0.5822050290135397,
+      "eval_loss": 0.4375011622905731,
+      "eval_runtime": 148.7299,
+      "eval_samples_per_second": 6.952,
+      "step": 1792
+    },
+    {
+      "epoch": 598.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1796
+    },
+    {
+      "epoch": 599.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1800
+    },
+    {
+      "epoch": 601.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1804
+    },
+    {
+      "epoch": 602.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1808
+    },
+    {
+      "epoch": 603.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1812
+    },
+    {
+      "epoch": 605.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1816
+    },
+    {
+      "epoch": 606.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1820
+    },
+    {
+      "epoch": 607.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1824
+    },
+    {
+      "epoch": 609.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1828
+    },
+    {
+      "epoch": 610.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1832
+    },
+    {
+      "epoch": 611.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 1836
+    },
+    {
+      "epoch": 613.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0071,
+      "step": 1840
+    },
+    {
+      "epoch": 614.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1844
+    },
+    {
+      "epoch": 615.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1848
+    },
+    {
+      "epoch": 617.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1852
+    },
+    {
+      "epoch": 618.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1856
+    },
+    {
+      "epoch": 618.59,
+      "eval_exact_match": 0.574468085106383,
+      "eval_exec": 0.5918762088974855,
+      "eval_loss": 0.44161295890808105,
+      "eval_runtime": 150.3696,
+      "eval_samples_per_second": 6.876,
+      "step": 1856
+    },
+    {
+      "epoch": 619.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1860
+    },
+    {
+      "epoch": 621.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1864
+    },
+    {
+      "epoch": 622.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1868
+    },
+    {
+      "epoch": 623.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1872
+    },
+    {
+      "epoch": 625.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1876
+    },
+    {
+      "epoch": 626.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1880
+    },
+    {
+      "epoch": 627.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 1884
+    },
+    {
+      "epoch": 629.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1888
+    },
+    {
+      "epoch": 630.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 1892
+    },
+    {
+      "epoch": 631.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1896
+    },
+    {
+      "epoch": 633.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1900
+    },
+    {
+      "epoch": 634.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1904
+    },
+    {
+      "epoch": 635.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1908
+    },
+    {
+      "epoch": 637.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1912
+    },
+    {
+      "epoch": 638.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1916
+    },
+    {
+      "epoch": 639.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 1920
+    },
+    {
+      "epoch": 639.88,
+      "eval_exact_match": 0.5715667311411993,
+      "eval_exec": 0.5870406189555126,
+      "eval_loss": 0.4707731306552887,
+      "eval_runtime": 143.7262,
+      "eval_samples_per_second": 7.194,
+      "step": 1920
+    },
+    {
+      "epoch": 641.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1924
+    },
+    {
+      "epoch": 642.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1928
+    },
+    {
+      "epoch": 643.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 1932
+    },
+    {
+      "epoch": 645.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 1936
+    },
+    {
+      "epoch": 646.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 1940
+    },
+    {
+      "epoch": 647.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 1944
+    },
+    {
+      "epoch": 649.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1948
+    },
+    {
+      "epoch": 650.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1952
+    },
+    {
+      "epoch": 651.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 1956
+    },
+    {
+      "epoch": 653.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 1960
+    },
+    {
+      "epoch": 654.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1964
+    },
+    {
+      "epoch": 655.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 1968
+    },
+    {
+      "epoch": 657.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1972
+    },
+    {
+      "epoch": 658.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 1976
+    },
+    {
+      "epoch": 659.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1980
+    },
+    {
+      "epoch": 661.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 1984
+    },
+    {
+      "epoch": 661.29,
+      "eval_exact_match": 0.5667311411992263,
+      "eval_exec": 0.5822050290135397,
+      "eval_loss": 0.4614003896713257,
+      "eval_runtime": 146.4514,
+      "eval_samples_per_second": 7.06,
+      "step": 1984
+    },
+    {
+      "epoch": 662.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1988
+    },
+    {
+      "epoch": 663.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1992
+    },
+    {
+      "epoch": 665.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1996
+    },
+    {
+      "epoch": 666.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2000
+    },
+    {
+      "epoch": 667.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2004
+    },
+    {
+      "epoch": 669.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2008
+    },
+    {
+      "epoch": 670.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2012
+    },
+    {
+      "epoch": 671.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2016
+    },
+    {
+      "epoch": 673.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2020
+    },
+    {
+      "epoch": 674.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2024
+    },
+    {
+      "epoch": 675.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2028
+    },
+    {
+      "epoch": 677.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2032
+    },
+    {
+      "epoch": 678.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2036
+    },
+    {
+      "epoch": 679.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2040
+    },
+    {
+      "epoch": 681.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2044
+    },
+    {
+      "epoch": 682.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2048
+    },
+    {
+      "epoch": 682.59,
+      "eval_exact_match": 0.5638297872340425,
+      "eval_exec": 0.5822050290135397,
+      "eval_loss": 0.4639793932437897,
+      "eval_runtime": 146.7707,
+      "eval_samples_per_second": 7.045,
+      "step": 2048
+    },
+    {
+      "epoch": 683.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2052
+    },
+    {
+      "epoch": 685.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2056
+    },
+    {
+      "epoch": 686.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2060
+    },
+    {
+      "epoch": 687.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2064
+    },
+    {
+      "epoch": 689.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2068
+    },
+    {
+      "epoch": 690.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2072
+    },
+    {
+      "epoch": 691.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2076
+    },
+    {
+      "epoch": 693.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2080
+    },
+    {
+      "epoch": 694.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2084
+    },
+    {
+      "epoch": 695.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2088
+    },
+    {
+      "epoch": 697.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2092
+    },
+    {
+      "epoch": 698.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2096
+    },
+    {
+      "epoch": 699.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2100
+    },
+    {
+      "epoch": 701.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2104
+    },
+    {
+      "epoch": 702.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2108
+    },
+    {
+      "epoch": 703.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2112
+    },
+    {
+      "epoch": 703.88,
+      "eval_exact_match": 0.5676982591876208,
+      "eval_exec": 0.5841392649903289,
+      "eval_loss": 0.46682995557785034,
+      "eval_runtime": 142.6808,
+      "eval_samples_per_second": 7.247,
+      "step": 2112
+    },
+    {
+      "epoch": 705.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2116
+    },
+    {
+      "epoch": 706.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2120
+    },
+    {
+      "epoch": 707.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2124
+    },
+    {
+      "epoch": 709.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2128
+    },
+    {
+      "epoch": 710.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2132
+    },
+    {
+      "epoch": 711.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2136
+    },
+    {
+      "epoch": 713.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2140
+    },
+    {
+      "epoch": 714.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2144
+    },
+    {
+      "epoch": 715.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2148
+    },
+    {
+      "epoch": 717.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2152
+    },
+    {
+      "epoch": 718.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2156
+    },
+    {
+      "epoch": 719.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2160
+    },
+    {
+      "epoch": 721.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2164
+    },
+    {
+      "epoch": 722.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2168
+    },
+    {
+      "epoch": 723.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2172
+    },
+    {
+      "epoch": 725.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2176
+    },
+    {
+      "epoch": 725.29,
+      "eval_exact_match": 0.5618955512572534,
+      "eval_exec": 0.5773694390715667,
+      "eval_loss": 0.4697101414203644,
+      "eval_runtime": 152.233,
+      "eval_samples_per_second": 6.792,
+      "step": 2176
+    },
+    {
+      "epoch": 726.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2180
+    },
+    {
+      "epoch": 727.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2184
+    },
+    {
+      "epoch": 729.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2188
+    },
+    {
+      "epoch": 730.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2192
+    },
+    {
+      "epoch": 731.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2196
+    },
+    {
+      "epoch": 733.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2200
+    },
+    {
+      "epoch": 734.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2204
+    },
+    {
+      "epoch": 735.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2208
+    },
+    {
+      "epoch": 737.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2212
+    },
+    {
+      "epoch": 738.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2216
+    },
+    {
+      "epoch": 739.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2220
+    },
+    {
+      "epoch": 741.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2224
+    },
+    {
+      "epoch": 742.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2228
+    },
+    {
+      "epoch": 743.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2232
+    },
+    {
+      "epoch": 745.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2236
+    },
+    {
+      "epoch": 746.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2240
+    },
+    {
+      "epoch": 746.59,
+      "eval_exact_match": 0.5725338491295938,
+      "eval_exec": 0.5831721470019342,
+      "eval_loss": 0.4622710347175598,
+      "eval_runtime": 156.3741,
+      "eval_samples_per_second": 6.612,
+      "step": 2240
+    },
+    {
+      "epoch": 747.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2244
+    },
+    {
+      "epoch": 749.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2248
+    },
+    {
+      "epoch": 750.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2252
+    },
+    {
+      "epoch": 751.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2256
+    },
+    {
+      "epoch": 753.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2260
+    },
+    {
+      "epoch": 754.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2264
+    },
+    {
+      "epoch": 755.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2268
+    },
+    {
+      "epoch": 757.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2272
+    },
+    {
+      "epoch": 758.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2276
+    },
+    {
+      "epoch": 759.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2280
+    },
+    {
+      "epoch": 761.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2284
+    },
+    {
+      "epoch": 762.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2288
+    },
+    {
+      "epoch": 763.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2292
+    },
+    {
+      "epoch": 765.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 2296
+    },
+    {
+      "epoch": 766.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2300
+    },
+    {
+      "epoch": 767.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2304
+    },
+    {
+      "epoch": 767.88,
+      "eval_exact_match": 0.5676982591876208,
+      "eval_exec": 0.5793036750483559,
+      "eval_loss": 0.4578416049480438,
+      "eval_runtime": 148.569,
+      "eval_samples_per_second": 6.96,
+      "step": 2304
+    },
+    {
+      "epoch": 769.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2308
+    },
+    {
+      "epoch": 770.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2312
+    },
+    {
+      "epoch": 771.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2316
+    },
+    {
+      "epoch": 773.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2320
+    },
+    {
+      "epoch": 774.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2324
+    },
+    {
+      "epoch": 775.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2328
+    },
+    {
+      "epoch": 777.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2332
+    },
+    {
+      "epoch": 778.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2336
+    },
+    {
+      "epoch": 779.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2340
+    },
+    {
+      "epoch": 781.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2344
+    },
+    {
+      "epoch": 782.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2348
+    },
+    {
+      "epoch": 783.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 2352
+    },
+    {
+      "epoch": 785.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2356
+    },
+    {
+      "epoch": 786.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2360
+    },
+    {
+      "epoch": 787.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2364
+    },
+    {
+      "epoch": 789.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2368
+    },
+    {
+      "epoch": 789.29,
+      "eval_exact_match": 0.5599613152804642,
+      "eval_exec": 0.5725338491295938,
+      "eval_loss": 0.47208261489868164,
+      "eval_runtime": 145.1522,
+      "eval_samples_per_second": 7.124,
+      "step": 2368
+    },
+    {
+      "epoch": 790.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2372
+    },
+    {
+      "epoch": 791.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2376
+    },
+    {
+      "epoch": 793.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2380
+    },
+    {
+      "epoch": 794.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2384
+    },
+    {
+      "epoch": 795.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2388
+    },
+    {
+      "epoch": 797.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2392
+    },
+    {
+      "epoch": 798.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2396
+    },
+    {
+      "epoch": 799.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2400
+    },
+    {
+      "epoch": 801.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2404
+    },
+    {
+      "epoch": 802.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2408
+    },
+    {
+      "epoch": 803.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2412
+    },
+    {
+      "epoch": 805.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2416
+    },
+    {
+      "epoch": 806.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2420
+    },
+    {
+      "epoch": 807.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2424
+    },
+    {
+      "epoch": 809.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2428
+    },
+    {
+      "epoch": 810.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2432
+    },
+    {
+      "epoch": 810.59,
+      "eval_exact_match": 0.5609284332688588,
+      "eval_exec": 0.5754352030947776,
+      "eval_loss": 0.4775034785270691,
+      "eval_runtime": 140.5187,
+      "eval_samples_per_second": 7.358,
+      "step": 2432
+    },
+    {
+      "epoch": 811.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2436
+    },
+    {
+      "epoch": 813.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2440
+    },
+    {
+      "epoch": 814.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2444
+    },
+    {
+      "epoch": 815.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2448
+    },
+    {
+      "epoch": 817.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 2452
+    },
+    {
+      "epoch": 818.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 2456
+    },
+    {
+      "epoch": 819.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 2460
+    },
+    {
+      "epoch": 821.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2464
+    },
+    {
+      "epoch": 822.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2468
+    },
+    {
+      "epoch": 823.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2472
+    },
+    {
+      "epoch": 825.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2476
+    },
+    {
+      "epoch": 826.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2480
+    },
+    {
+      "epoch": 827.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2484
+    },
+    {
+      "epoch": 829.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2488
+    },
+    {
+      "epoch": 830.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2492
+    },
+    {
+      "epoch": 831.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2496
+    },
+    {
+      "epoch": 831.88,
+      "eval_exact_match": 0.5676982591876208,
+      "eval_exec": 0.5822050290135397,
+      "eval_loss": 0.46634814143180847,
+      "eval_runtime": 147.2976,
+      "eval_samples_per_second": 7.02,
+      "step": 2496
+    },
+    {
+      "epoch": 833.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2500
+    },
+    {
+      "epoch": 834.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2504
+    },
+    {
+      "epoch": 835.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2508
+    },
+    {
+      "epoch": 837.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2512
+    },
+    {
+      "epoch": 838.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2516
+    },
+    {
+      "epoch": 839.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2520
+    },
+    {
+      "epoch": 841.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2524
+    },
+    {
+      "epoch": 842.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2528
+    },
+    {
+      "epoch": 843.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2532
+    },
+    {
+      "epoch": 845.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2536
+    },
+    {
+      "epoch": 846.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2540
+    },
+    {
+      "epoch": 847.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2544
+    },
+    {
+      "epoch": 849.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2548
+    },
+    {
+      "epoch": 850.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2552
+    },
+    {
+      "epoch": 851.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2556
+    },
+    {
+      "epoch": 853.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2560
+    },
+    {
+      "epoch": 853.29,
+      "eval_exact_match": 0.562862669245648,
+      "eval_exec": 0.5870406189555126,
+      "eval_loss": 0.47793546319007874,
+      "eval_runtime": 144.726,
+      "eval_samples_per_second": 7.145,
+      "step": 2560
+    },
+    {
+      "epoch": 854.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2564
+    },
+    {
+      "epoch": 855.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2568
+    },
+    {
+      "epoch": 857.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2572
+    },
+    {
+      "epoch": 858.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2576
+    },
+    {
+      "epoch": 859.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2580
+    },
+    {
+      "epoch": 861.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2584
+    },
+    {
+      "epoch": 862.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2588
+    },
+    {
+      "epoch": 863.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2592
+    },
+    {
+      "epoch": 865.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2596
+    },
+    {
+      "epoch": 866.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2600
+    },
+    {
+      "epoch": 867.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2604
+    },
+    {
+      "epoch": 869.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2608
+    },
+    {
+      "epoch": 870.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2612
+    },
+    {
+      "epoch": 871.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0007,
+      "step": 2616
+    },
+    {
+      "epoch": 873.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 2620
+    },
+    {
+      "epoch": 874.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2624
+    },
+    {
+      "epoch": 874.59,
+      "eval_exact_match": 0.5657640232108317,
+      "eval_exec": 0.5822050290135397,
+      "eval_loss": 0.46636903285980225,
+      "eval_runtime": 145.0172,
+      "eval_samples_per_second": 7.13,
+      "step": 2624
+    },
+    {
+      "epoch": 875.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2628
+    },
+    {
+      "epoch": 877.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 2632
+    },
+    {
+      "epoch": 878.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2636
+    },
+    {
+      "epoch": 879.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2640
+    },
+    {
+      "epoch": 881.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2644
+    },
+    {
+      "epoch": 882.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2648
+    },
+    {
+      "epoch": 883.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2652
+    },
+    {
+      "epoch": 885.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2656
+    },
+    {
+      "epoch": 886.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2660
+    },
+    {
+      "epoch": 887.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2664
+    },
+    {
+      "epoch": 889.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2668
+    },
+    {
+      "epoch": 890.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2672
+    },
+    {
+      "epoch": 891.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2676
+    },
+    {
+      "epoch": 893.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2680
+    },
+    {
+      "epoch": 894.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2684
+    },
+    {
+      "epoch": 895.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2688
+    },
+    {
+      "epoch": 895.88,
+      "eval_exact_match": 0.5735009671179884,
+      "eval_exec": 0.5889748549323017,
+      "eval_loss": 0.48156842589378357,
+      "eval_runtime": 142.6086,
+      "eval_samples_per_second": 7.251,
+      "step": 2688
+    },
+    {
+      "epoch": 897.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2692
+    },
+    {
+      "epoch": 898.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2696
+    },
+    {
+      "epoch": 899.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2700
+    },
+    {
+      "epoch": 901.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2704
+    },
+    {
+      "epoch": 902.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2708
+    },
+    {
+      "epoch": 903.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2712
+    },
+    {
+      "epoch": 905.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2716
+    },
+    {
+      "epoch": 906.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2720
+    },
+    {
+      "epoch": 907.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2724
+    },
+    {
+      "epoch": 909.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2728
+    },
+    {
+      "epoch": 910.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2732
+    },
+    {
+      "epoch": 911.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2736
+    },
+    {
+      "epoch": 913.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2740
+    },
+    {
+      "epoch": 914.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 2744
+    },
+    {
+      "epoch": 915.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2748
+    },
+    {
+      "epoch": 917.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2752
+    },
+    {
+      "epoch": 917.29,
+      "eval_exact_match": 0.5686653771760155,
+      "eval_exec": 0.5802707930367504,
+      "eval_loss": 0.4817686080932617,
+      "eval_runtime": 145.4094,
+      "eval_samples_per_second": 7.111,
+      "step": 2752
+    },
+    {
+      "epoch": 918.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2756
+    },
+    {
+      "epoch": 919.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2760
+    },
+    {
+      "epoch": 921.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2764
+    },
+    {
+      "epoch": 922.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2768
+    },
+    {
+      "epoch": 923.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2772
+    },
+    {
+      "epoch": 925.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 2776
+    },
+    {
+      "epoch": 926.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0083,
+      "step": 2780
+    },
+    {
+      "epoch": 927.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2784
+    },
+    {
+      "epoch": 929.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2788
+    },
+    {
+      "epoch": 930.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2792
+    },
+    {
+      "epoch": 931.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2796
+    },
+    {
+      "epoch": 933.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2800
+    },
+    {
+      "epoch": 934.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2804
+    },
+    {
+      "epoch": 935.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2808
+    },
+    {
+      "epoch": 937.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2812
+    },
+    {
+      "epoch": 938.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2816
+    },
+    {
+      "epoch": 938.59,
+      "eval_exact_match": 0.5686653771760155,
+      "eval_exec": 0.5909090909090909,
+      "eval_loss": 0.4858631193637848,
+      "eval_runtime": 145.1632,
+      "eval_samples_per_second": 7.123,
+      "step": 2816
+    },
+    {
+      "epoch": 939.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2820
+    },
+    {
+      "epoch": 941.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2824
+    },
+    {
+      "epoch": 942.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2828
+    },
+    {
+      "epoch": 943.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2832
+    },
+    {
+      "epoch": 945.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 2836
+    },
+    {
+      "epoch": 946.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2840
+    },
+    {
+      "epoch": 947.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2844
+    },
+    {
+      "epoch": 949.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2848
+    },
+    {
+      "epoch": 950.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2852
+    },
+    {
+      "epoch": 951.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 2856
+    },
+    {
+      "epoch": 953.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2860
+    },
+    {
+      "epoch": 954.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2864
+    },
+    {
+      "epoch": 955.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 2868
+    },
+    {
+      "epoch": 957.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2872
+    },
+    {
+      "epoch": 958.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2876
+    },
+    {
+      "epoch": 959.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2880
+    },
+    {
+      "epoch": 959.88,
+      "eval_exact_match": 0.5880077369439072,
+      "eval_exec": 0.6015473887814313,
+      "eval_loss": 0.4901029169559479,
+      "eval_runtime": 142.6992,
+      "eval_samples_per_second": 7.246,
+      "step": 2880
+    },
+    {
+      "epoch": 961.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2884
+    },
+    {
+      "epoch": 962.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2888
+    },
+    {
+      "epoch": 963.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 2892
+    },
+    {
+      "epoch": 965.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2896
+    },
+    {
+      "epoch": 966.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2900
+    },
+    {
+      "epoch": 967.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2904
+    },
+    {
+      "epoch": 969.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2908
+    },
+    {
+      "epoch": 970.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2912
+    },
+    {
+      "epoch": 971.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2916
+    },
+    {
+      "epoch": 973.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2920
+    },
+    {
+      "epoch": 974.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2924
+    },
+    {
+      "epoch": 975.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2928
+    },
+    {
+      "epoch": 977.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2932
+    },
+    {
+      "epoch": 978.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2936
+    },
+    {
+      "epoch": 979.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2940
+    },
+    {
+      "epoch": 981.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2944
+    },
+    {
+      "epoch": 981.29,
+      "eval_exact_match": 0.5705996131528046,
+      "eval_exec": 0.5793036750483559,
+      "eval_loss": 0.48461684584617615,
+      "eval_runtime": 145.6186,
+      "eval_samples_per_second": 7.101,
+      "step": 2944
+    },
+    {
+      "epoch": 982.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2948
+    },
+    {
+      "epoch": 983.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2952
+    },
+    {
+      "epoch": 985.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2956
+    },
+    {
+      "epoch": 986.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2960
+    },
+    {
+      "epoch": 987.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2964
+    },
+    {
+      "epoch": 989.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2968
+    },
+    {
+      "epoch": 990.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2972
+    },
+    {
+      "epoch": 991.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2976
+    },
+    {
+      "epoch": 993.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2980
+    },
+    {
+      "epoch": 994.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2984
+    },
+    {
+      "epoch": 995.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2988
+    },
+    {
+      "epoch": 997.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 2992
+    },
+    {
+      "epoch": 998.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 2996
+    },
+    {
+      "epoch": 999.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3000
+    },
+    {
+      "epoch": 1001.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3004
+    },
+    {
+      "epoch": 1002.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3008
+    },
+    {
+      "epoch": 1002.59,
+      "eval_exact_match": 0.5667311411992263,
+      "eval_exec": 0.5822050290135397,
+      "eval_loss": 0.49284225702285767,
+      "eval_runtime": 144.5341,
+      "eval_samples_per_second": 7.154,
+      "step": 3008
+    },
+    {
+      "epoch": 1003.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3012
+    },
+    {
+      "epoch": 1005.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3016
+    },
+    {
+      "epoch": 1006.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3020
+    },
+    {
+      "epoch": 1007.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3024
+    },
+    {
+      "epoch": 1009.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3028
+    },
+    {
+      "epoch": 1010.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3032
+    },
+    {
+      "epoch": 1011.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3036
+    },
+    {
+      "epoch": 1013.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3040
+    },
+    {
+      "epoch": 1014.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3044
+    },
+    {
+      "epoch": 1015.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3048
+    },
+    {
+      "epoch": 1017.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3052
+    },
+    {
+      "epoch": 1018.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3056
+    },
+    {
+      "epoch": 1019.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3060
+    },
+    {
+      "epoch": 1021.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3064
+    },
+    {
+      "epoch": 1022.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3068
+    },
+    {
+      "epoch": 1023.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3072
+    },
+    {
+      "epoch": 1023.88,
+      "eval_exact_match": 0.5764023210831721,
+      "eval_exec": 0.5918762088974855,
+      "eval_loss": 0.49118873476982117,
+      "eval_runtime": 154.6804,
+      "eval_samples_per_second": 6.685,
+      "step": 3072
+    },
+    {
+      "epoch": 1025.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3076
+    },
+    {
+      "epoch": 1026.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3080
+    },
+    {
+      "epoch": 1027.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3084
+    },
+    {
+      "epoch": 1029.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3088
+    },
+    {
+      "epoch": 1030.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3092
+    },
+    {
+      "epoch": 1031.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3096
+    },
+    {
+      "epoch": 1033.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3100
+    },
+    {
+      "epoch": 1034.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3104
+    },
+    {
+      "epoch": 1035.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3108
+    },
+    {
+      "epoch": 1037.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3112
+    },
+    {
+      "epoch": 1038.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3116
+    },
+    {
+      "epoch": 1039.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3120
+    },
+    {
+      "epoch": 1041.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3124
+    },
+    {
+      "epoch": 1042.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3128
+    },
+    {
+      "epoch": 1043.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3132
+    },
+    {
+      "epoch": 1045.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3136
+    },
+    {
+      "epoch": 1045.29,
+      "eval_exact_match": 0.5754352030947776,
+      "eval_exec": 0.5851063829787234,
+      "eval_loss": 0.49213075637817383,
+      "eval_runtime": 146.5831,
+      "eval_samples_per_second": 7.054,
+      "step": 3136
+    },
+    {
+      "epoch": 1046.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3140
+    },
+    {
+      "epoch": 1047.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3144
+    },
+    {
+      "epoch": 1049.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3148
+    },
+    {
+      "epoch": 1050.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3152
+    },
+    {
+      "epoch": 1051.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3156
+    },
+    {
+      "epoch": 1053.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3160
+    },
+    {
+      "epoch": 1054.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3164
+    },
+    {
+      "epoch": 1055.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3168
+    },
+    {
+      "epoch": 1057.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3172
+    },
+    {
+      "epoch": 1058.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3176
+    },
+    {
+      "epoch": 1059.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3180
+    },
+    {
+      "epoch": 1061.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3184
+    },
+    {
+      "epoch": 1062.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3188
+    },
+    {
+      "epoch": 1063.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3192
+    },
+    {
+      "epoch": 1065.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3196
+    },
+    {
+      "epoch": 1066.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3200
+    },
+    {
+      "epoch": 1066.59,
+      "eval_exact_match": 0.5793036750483559,
+      "eval_exec": 0.5880077369439072,
+      "eval_loss": 0.505233645439148,
+      "eval_runtime": 144.9781,
+      "eval_samples_per_second": 7.132,
+      "step": 3200
+    },
+    {
+      "epoch": 1067.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3204
+    },
+    {
+      "epoch": 1069.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3208
+    },
+    {
+      "epoch": 1070.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3212
+    },
+    {
+      "epoch": 1071.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0005,
+      "step": 3216
+    },
+    {
+      "epoch": 1073.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3220
+    },
+    {
+      "epoch": 1074.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3224
+    },
+    {
+      "epoch": 1075.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3228
+    },
+    {
+      "epoch": 1077.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3232
+    },
+    {
+      "epoch": 1078.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3236
+    },
+    {
+      "epoch": 1079.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3240
+    },
+    {
+      "epoch": 1081.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3244
+    },
+    {
+      "epoch": 1082.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3248
+    },
+    {
+      "epoch": 1083.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3252
+    },
+    {
+      "epoch": 1085.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3256
+    },
+    {
+      "epoch": 1086.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3260
+    },
+    {
+      "epoch": 1087.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3264
+    },
+    {
+      "epoch": 1087.88,
+      "eval_exact_match": 0.5812379110251451,
+      "eval_exec": 0.5947775628626693,
+      "eval_loss": 0.5012010931968689,
+      "eval_runtime": 154.9379,
+      "eval_samples_per_second": 6.674,
+      "step": 3264
+    },
+    {
+      "epoch": 1089.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3268
+    },
+    {
+      "epoch": 1090.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3272
+    },
+    {
+      "epoch": 1091.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3276
+    },
+    {
+      "epoch": 1093.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3280
+    },
+    {
+      "epoch": 1094.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3284
+    },
+    {
+      "epoch": 1095.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3288
+    },
+    {
+      "epoch": 1097.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3292
+    },
+    {
+      "epoch": 1098.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3296
+    },
+    {
+      "epoch": 1099.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3300
+    },
+    {
+      "epoch": 1101.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3304
+    },
+    {
+      "epoch": 1102.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3308
+    },
+    {
+      "epoch": 1103.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3312
+    },
+    {
+      "epoch": 1105.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3316
+    },
+    {
+      "epoch": 1106.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3320
+    },
+    {
+      "epoch": 1107.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3324
+    },
+    {
+      "epoch": 1109.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3328
+    },
+    {
+      "epoch": 1109.29,
+      "eval_exact_match": 0.5696324951644101,
+      "eval_exec": 0.5870406189555126,
+      "eval_loss": 0.4975697994232178,
+      "eval_runtime": 147.4955,
+      "eval_samples_per_second": 7.01,
+      "step": 3328
+    },
+    {
+      "epoch": 1110.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3332
+    },
+    {
+      "epoch": 1111.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3336
+    },
+    {
+      "epoch": 1113.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3340
+    },
+    {
+      "epoch": 1114.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3344
+    },
+    {
+      "epoch": 1115.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3348
+    },
+    {
+      "epoch": 1117.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3352
+    },
+    {
+      "epoch": 1118.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3356
+    },
+    {
+      "epoch": 1119.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3360
+    },
+    {
+      "epoch": 1121.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3364
+    },
+    {
+      "epoch": 1122.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3368
+    },
+    {
+      "epoch": 1123.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3372
+    },
+    {
+      "epoch": 1125.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3376
+    },
+    {
+      "epoch": 1126.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3380
+    },
+    {
+      "epoch": 1127.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0004,
+      "step": 3384
+    },
+    {
+      "epoch": 1129.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0002,
+      "step": 3388
+    },
+    {
+      "epoch": 1130.59,
+      "learning_rate": 0.0001,
+      "loss": 0.0003,
+      "step": 3392
+    },
+    {
+      "epoch": 1130.59,
+      "eval_exact_match": 0.5909090909090909,
+      "eval_exec": 0.6015473887814313,
+      "eval_loss": 0.49673762917518616,
+      "eval_runtime": 148.9555,
+      "eval_samples_per_second": 6.942,
+      "step": 3392
+    }
+  ],
+  "max_steps": 9216,
+  "num_train_epochs": 3072,
+  "total_flos": 4.047905269271808e+18,
+  "trial_name": null,
+  "trial_params": null
+}