End of training

Browse files

Files changed (5) hide show

all_results.json +15 -0
eval_results.json +10 -0
logs/events.out.tfevents.1685517379.serv-9223.2803491.2 +3 -0
train_results.json +8 -0
trainer_state.json +2002 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 1.68,
+    "eval_accuracy": 0.04649617638874198,
+    "eval_loss": 7.248337268829346,
+    "eval_runtime": 1089.9778,
+    "eval_samples": 308356,
+    "eval_samples_per_second": 282.901,
+    "eval_steps_per_second": 4.421,
+    "perplexity": 1405.7654937797597,
+    "train_loss": 7.267765480606534,
+    "train_runtime": 107993.7891,
+    "train_samples": 5858758,
+    "train_samples_per_second": 271.254,
+    "train_steps_per_second": 4.238
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 1.68,
+    "eval_accuracy": 0.04649617638874198,
+    "eval_loss": 7.248337268829346,
+    "eval_runtime": 1089.9778,
+    "eval_samples": 308356,
+    "eval_samples_per_second": 282.901,
+    "eval_steps_per_second": 4.421,
+    "perplexity": 1405.7654937797597
+}

logs/events.out.tfevents.1685517379.serv-9223.2803491.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e37c1265ece6c2822d613cb339e4bf3c24651954feaf9f8119019191a6189a4
+size 369

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.68,
+    "train_loss": 7.267765480606534,
+    "train_runtime": 107993.7891,
+    "train_samples": 5858758,
+    "train_samples_per_second": 271.254,
+    "train_steps_per_second": 4.238
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2002 @@

+{
+  "best_metric": 7.248694896697998,
+  "best_model_checkpoint": "bert_12_layer_model_v1_complete_training_new_wt_init/checkpoint-10000",
+  "epoch": 1.6785370969151447,
+  "global_step": 153660,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0006747425010840046,
+      "loss": 7.3457,
+      "step": 500
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0007499999999999999,
+      "loss": 7.2893,
+      "step": 1000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007940228147639202,
+      "loss": 7.2584,
+      "step": 1500
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0008252574989159952,
+      "loss": 7.2503,
+      "step": 2000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0008494850021680092,
+      "loss": 7.2516,
+      "step": 2500
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0008692803136799154,
+      "loss": 7.2459,
+      "step": 3000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0008860170110875688,
+      "loss": 7.2518,
+      "step": 3500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0009005149978319905,
+      "loss": 7.2467,
+      "step": 4000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0009133031284438358,
+      "loss": 7.2471,
+      "step": 4500
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0009247425010840047,
+      "loss": 7.2529,
+      "step": 5000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0009350906723735609,
+      "loss": 7.2436,
+      "step": 5500
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0009445378125959107,
+      "loss": 7.2508,
+      "step": 6000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0009532283391607137,
+      "loss": 7.2413,
+      "step": 6500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000961274510003564,
+      "loss": 7.2417,
+      "step": 7000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000968765315847925,
+      "loss": 7.2471,
+      "step": 7500
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0009757724967479857,
+      "loss": 7.2455,
+      "step": 8000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.000982354731428573,
+      "loss": 7.2509,
+      "step": 8500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.000988560627359831,
+      "loss": 7.2504,
+      "step": 9000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009944309013222117,
+      "loss": 7.2441,
+      "step": 9500
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0009999999999999998,
+      "loss": 7.2428,
+      "step": 10000
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.046582492639500865,
+      "eval_loss": 7.248694896697998,
+      "eval_runtime": 1091.4066,
+      "eval_samples_per_second": 282.531,
+      "eval_steps_per_second": 4.415,
+      "step": 10000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0009988854641293666,
+      "loss": 7.2491,
+      "step": 10500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0009977686947199142,
+      "loss": 7.2456,
+      "step": 11000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0009966519253104618,
+      "loss": 7.241,
+      "step": 11500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0009955351559010096,
+      "loss": 7.2411,
+      "step": 12000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0009944183864915572,
+      "loss": 7.2474,
+      "step": 12500
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0009933016170821049,
+      "loss": 7.2471,
+      "step": 13000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0009921848476726527,
+      "loss": 7.2493,
+      "step": 13500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0009910680782632003,
+      "loss": 7.2503,
+      "step": 14000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.000989951308853748,
+      "loss": 7.249,
+      "step": 14500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0009888345394442955,
+      "loss": 7.2511,
+      "step": 15000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0009877177700348431,
+      "loss": 7.2494,
+      "step": 15500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.000986601000625391,
+      "loss": 7.2477,
+      "step": 16000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0009854842312159386,
+      "loss": 7.2449,
+      "step": 16500
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0009843674618064862,
+      "loss": 7.3275,
+      "step": 17000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000983250692397034,
+      "loss": 7.2854,
+      "step": 17500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0009821339229875816,
+      "loss": 7.2771,
+      "step": 18000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0009810171535781292,
+      "loss": 7.2762,
+      "step": 18500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0009799003841686768,
+      "loss": 7.2704,
+      "step": 19000
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0009787836147592244,
+      "loss": 7.2752,
+      "step": 19500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0009776668453497723,
+      "loss": 7.2794,
+      "step": 20000
+    },
+    {
+      "epoch": 0.22,
+      "eval_accuracy": 0.042795053620331966,
+      "eval_loss": 7.274324893951416,
+      "eval_runtime": 1087.5047,
+      "eval_samples_per_second": 283.545,
+      "eval_steps_per_second": 4.431,
+      "step": 20000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0009765500759403199,
+      "loss": 7.2712,
+      "step": 20500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0009754333065308675,
+      "loss": 7.2747,
+      "step": 21000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0009743165371214152,
+      "loss": 7.2696,
+      "step": 21500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0009731997677119628,
+      "loss": 7.2696,
+      "step": 22000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0009720829983025105,
+      "loss": 7.2731,
+      "step": 22500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0009709662288930582,
+      "loss": 7.279,
+      "step": 23000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0009698494594836058,
+      "loss": 7.2766,
+      "step": 23500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0009687326900741536,
+      "loss": 7.2746,
+      "step": 24000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0009676159206647012,
+      "loss": 7.2709,
+      "step": 24500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0009664991512552488,
+      "loss": 7.2734,
+      "step": 25000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0009653823818457965,
+      "loss": 7.2698,
+      "step": 25500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0009642656124363441,
+      "loss": 7.2707,
+      "step": 26000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0009631488430268918,
+      "loss": 7.2745,
+      "step": 26500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0009620320736174395,
+      "loss": 7.2758,
+      "step": 27000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0009609153042079872,
+      "loss": 7.2743,
+      "step": 27500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0009597985347985349,
+      "loss": 7.2691,
+      "step": 28000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0009586817653890825,
+      "loss": 7.274,
+      "step": 28500
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0009575649959796301,
+      "loss": 7.2672,
+      "step": 29000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0009564482265701778,
+      "loss": 7.271,
+      "step": 29500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0009553314571607254,
+      "loss": 7.2728,
+      "step": 30000
+    },
+    {
+      "epoch": 0.33,
+      "eval_accuracy": 0.04657237483272306,
+      "eval_loss": 7.2698187828063965,
+      "eval_runtime": 1086.2524,
+      "eval_samples_per_second": 283.871,
+      "eval_steps_per_second": 4.436,
+      "step": 30000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0009542146877512731,
+      "loss": 7.2713,
+      "step": 30500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0009530979183418209,
+      "loss": 7.2724,
+      "step": 31000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0009519811489323685,
+      "loss": 7.2695,
+      "step": 31500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0009508643795229162,
+      "loss": 7.2689,
+      "step": 32000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0009497476101134638,
+      "loss": 7.2713,
+      "step": 32500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0009486308407040115,
+      "loss": 7.2706,
+      "step": 33000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0009475140712945591,
+      "loss": 7.2713,
+      "step": 33500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0009463973018851067,
+      "loss": 7.2701,
+      "step": 34000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0009452805324756544,
+      "loss": 7.2678,
+      "step": 34500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0009441637630662021,
+      "loss": 7.2679,
+      "step": 35000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0009430469936567498,
+      "loss": 7.2654,
+      "step": 35500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0009419302242472975,
+      "loss": 7.2714,
+      "step": 36000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0009408134548378451,
+      "loss": 7.2653,
+      "step": 36500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0009396966854283928,
+      "loss": 7.2719,
+      "step": 37000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0009385799160189404,
+      "loss": 7.2651,
+      "step": 37500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.000937463146609488,
+      "loss": 7.2615,
+      "step": 38000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0009363463772000358,
+      "loss": 7.2741,
+      "step": 38500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0009352296077905834,
+      "loss": 7.2687,
+      "step": 39000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0009341128383811311,
+      "loss": 7.2716,
+      "step": 39500
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0009329960689716788,
+      "loss": 7.2677,
+      "step": 40000
+    },
+    {
+      "epoch": 0.44,
+      "eval_accuracy": 0.04655514477110356,
+      "eval_loss": 7.268786907196045,
+      "eval_runtime": 1084.8951,
+      "eval_samples_per_second": 284.227,
+      "eval_steps_per_second": 4.442,
+      "step": 40000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0009318792995622264,
+      "loss": 7.2671,
+      "step": 40500
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0009307625301527741,
+      "loss": 7.2686,
+      "step": 41000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0009296457607433217,
+      "loss": 7.2737,
+      "step": 41500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0009285289913338693,
+      "loss": 7.2704,
+      "step": 42000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0009274122219244171,
+      "loss": 7.2717,
+      "step": 42500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0009262954525149647,
+      "loss": 7.2626,
+      "step": 43000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0009251786831055124,
+      "loss": 7.2748,
+      "step": 43500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0009240619136960601,
+      "loss": 7.2737,
+      "step": 44000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0009229451442866077,
+      "loss": 7.2714,
+      "step": 44500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0009218283748771554,
+      "loss": 7.2675,
+      "step": 45000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.000920711605467703,
+      "loss": 7.2699,
+      "step": 45500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0009195948360582507,
+      "loss": 7.2672,
+      "step": 46000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0009184780666487984,
+      "loss": 7.2701,
+      "step": 46500
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000917361297239346,
+      "loss": 7.2675,
+      "step": 47000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0009162445278298936,
+      "loss": 7.2725,
+      "step": 47500
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0009151277584204414,
+      "loss": 7.2702,
+      "step": 48000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.000914010989010989,
+      "loss": 7.2685,
+      "step": 48500
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0009128942196015367,
+      "loss": 7.2693,
+      "step": 49000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0009117774501920844,
+      "loss": 7.2752,
+      "step": 49500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.000910660680782632,
+      "loss": 7.2689,
+      "step": 50000
+    },
+    {
+      "epoch": 0.55,
+      "eval_accuracy": 0.046565208288623344,
+      "eval_loss": 7.272010326385498,
+      "eval_runtime": 1088.5631,
+      "eval_samples_per_second": 283.269,
+      "eval_steps_per_second": 4.427,
+      "step": 50000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0009095439113731797,
+      "loss": 7.2674,
+      "step": 50500
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0009084271419637273,
+      "loss": 7.2741,
+      "step": 51000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.000907310372554275,
+      "loss": 7.2729,
+      "step": 51500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0009061936031448227,
+      "loss": 7.2733,
+      "step": 52000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0009050768337353703,
+      "loss": 7.2743,
+      "step": 52500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0009039600643259181,
+      "loss": 7.2686,
+      "step": 53000
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0009028432949164657,
+      "loss": 7.2707,
+      "step": 53500
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0009017265255070133,
+      "loss": 7.2664,
+      "step": 54000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.000900609756097561,
+      "loss": 7.2751,
+      "step": 54500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0008994929866881086,
+      "loss": 7.2689,
+      "step": 55000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0008983762172786563,
+      "loss": 7.2719,
+      "step": 55500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.000897259447869204,
+      "loss": 7.2722,
+      "step": 56000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0008961426784597516,
+      "loss": 7.268,
+      "step": 56500
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0008950259090502994,
+      "loss": 7.2691,
+      "step": 57000
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.000893909139640847,
+      "loss": 7.2717,
+      "step": 57500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0008927923702313946,
+      "loss": 7.2607,
+      "step": 58000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0008916756008219423,
+      "loss": 7.2684,
+      "step": 58500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0008905588314124899,
+      "loss": 7.2717,
+      "step": 59000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0008894420620030376,
+      "loss": 7.2674,
+      "step": 59500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0008883252925935854,
+      "loss": 7.272,
+      "step": 60000
+    },
+    {
+      "epoch": 0.66,
+      "eval_accuracy": 0.046516656493005064,
+      "eval_loss": 7.2692131996154785,
+      "eval_runtime": 1088.6486,
+      "eval_samples_per_second": 283.247,
+      "eval_steps_per_second": 4.427,
+      "step": 60000
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.000887208523184133,
+      "loss": 7.2717,
+      "step": 60500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0008860917537746807,
+      "loss": 7.2654,
+      "step": 61000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0008849749843652283,
+      "loss": 7.2754,
+      "step": 61500
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0008838582149557759,
+      "loss": 7.2691,
+      "step": 62000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0008827414455463236,
+      "loss": 7.2702,
+      "step": 62500
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0008816246761368712,
+      "loss": 7.2658,
+      "step": 63000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0008805079067274189,
+      "loss": 7.2613,
+      "step": 63500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0008793911373179666,
+      "loss": 7.2707,
+      "step": 64000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0008782743679085143,
+      "loss": 7.2716,
+      "step": 64500
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.000877157598499062,
+      "loss": 7.2707,
+      "step": 65000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0008760408290896096,
+      "loss": 7.2655,
+      "step": 65500
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0008749240596801573,
+      "loss": 7.272,
+      "step": 66000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0008738072902707049,
+      "loss": 7.2674,
+      "step": 66500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0008726905208612525,
+      "loss": 7.2663,
+      "step": 67000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0008715737514518003,
+      "loss": 7.2679,
+      "step": 67500
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0008704569820423479,
+      "loss": 7.2722,
+      "step": 68000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0008693402126328956,
+      "loss": 7.2663,
+      "step": 68500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0008682234432234433,
+      "loss": 7.266,
+      "step": 69000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0008671066738139909,
+      "loss": 7.2673,
+      "step": 69500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0008659899044045386,
+      "loss": 7.2686,
+      "step": 70000
+    },
+    {
+      "epoch": 0.76,
+      "eval_accuracy": 0.04650451752608111,
+      "eval_loss": 7.268359661102295,
+      "eval_runtime": 1090.6641,
+      "eval_samples_per_second": 282.723,
+      "eval_steps_per_second": 4.418,
+      "step": 70000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0008648731349950862,
+      "loss": 7.2689,
+      "step": 70500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0008637563655856338,
+      "loss": 7.2682,
+      "step": 71000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0008626395961761816,
+      "loss": 7.2702,
+      "step": 71500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0008615228267667292,
+      "loss": 7.2701,
+      "step": 72000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0008604060573572769,
+      "loss": 7.2738,
+      "step": 72500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0008592892879478246,
+      "loss": 7.2648,
+      "step": 73000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0008581725185383722,
+      "loss": 7.2679,
+      "step": 73500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0008570557491289199,
+      "loss": 7.2697,
+      "step": 74000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0008559389797194675,
+      "loss": 7.2714,
+      "step": 74500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0008548222103100152,
+      "loss": 7.2637,
+      "step": 75000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0008537054409005629,
+      "loss": 7.2676,
+      "step": 75500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0008525886714911105,
+      "loss": 7.2704,
+      "step": 76000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0008514719020816582,
+      "loss": 7.2661,
+      "step": 76500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0008503551326722059,
+      "loss": 7.274,
+      "step": 77000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0008492383632627535,
+      "loss": 7.2696,
+      "step": 77500
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0008481215938533012,
+      "loss": 7.2673,
+      "step": 78000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0008470048244438489,
+      "loss": 7.2704,
+      "step": 78500
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0008458880550343965,
+      "loss": 7.2714,
+      "step": 79000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0008447712856249442,
+      "loss": 7.2675,
+      "step": 79500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0008436545162154918,
+      "loss": 7.2649,
+      "step": 80000
+    },
+    {
+      "epoch": 0.87,
+      "eval_accuracy": 0.04651641092958247,
+      "eval_loss": 7.267496109008789,
+      "eval_runtime": 1088.4541,
+      "eval_samples_per_second": 283.297,
+      "eval_steps_per_second": 4.427,
+      "step": 80000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0008425377468060394,
+      "loss": 7.2678,
+      "step": 80500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0008414209773965872,
+      "loss": 7.2682,
+      "step": 81000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0008403042079871348,
+      "loss": 7.2695,
+      "step": 81500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0008391874385776826,
+      "loss": 7.2648,
+      "step": 82000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0008380706691682302,
+      "loss": 7.2695,
+      "step": 82500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0008369538997587778,
+      "loss": 7.2685,
+      "step": 83000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0008358371303493255,
+      "loss": 7.2704,
+      "step": 83500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0008347203609398731,
+      "loss": 7.2661,
+      "step": 84000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0008336035915304208,
+      "loss": 7.2687,
+      "step": 84500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0008324868221209685,
+      "loss": 7.2683,
+      "step": 85000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0008313700527115161,
+      "loss": 7.2707,
+      "step": 85500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0008302532833020639,
+      "loss": 7.2769,
+      "step": 86000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0008291365138926115,
+      "loss": 7.2631,
+      "step": 86500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0008280197444831591,
+      "loss": 7.2708,
+      "step": 87000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0008269029750737068,
+      "loss": 7.2678,
+      "step": 87500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0008257862056642544,
+      "loss": 7.2681,
+      "step": 88000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0008246694362548021,
+      "loss": 7.2667,
+      "step": 88500
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0008235526668453498,
+      "loss": 7.2678,
+      "step": 89000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0008224358974358975,
+      "loss": 7.2671,
+      "step": 89500
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0008213191280264452,
+      "loss": 7.2713,
+      "step": 90000
+    },
+    {
+      "epoch": 0.98,
+      "eval_accuracy": 0.04652993661252105,
+      "eval_loss": 7.270524024963379,
+      "eval_runtime": 1088.8596,
+      "eval_samples_per_second": 283.192,
+      "eval_steps_per_second": 4.426,
+      "step": 90000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0008202023586169928,
+      "loss": 7.2683,
+      "step": 90500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0008190855892075404,
+      "loss": 7.2668,
+      "step": 91000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0008179688197980881,
+      "loss": 7.2698,
+      "step": 91500
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0008168520503886357,
+      "loss": 7.2664,
+      "step": 92000
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0008157352809791834,
+      "loss": 7.2677,
+      "step": 92500
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0008146185115697312,
+      "loss": 7.2617,
+      "step": 93000
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0008135017421602788,
+      "loss": 7.2698,
+      "step": 93500
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0008123849727508265,
+      "loss": 7.2706,
+      "step": 94000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0008112682033413741,
+      "loss": 7.2693,
+      "step": 94500
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0008101514339319217,
+      "loss": 7.273,
+      "step": 95000
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0008090346645224694,
+      "loss": 7.2719,
+      "step": 95500
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.000807917895113017,
+      "loss": 7.2714,
+      "step": 96000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0008068011257035647,
+      "loss": 7.2701,
+      "step": 96500
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0008056843562941124,
+      "loss": 7.2703,
+      "step": 97000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0008045675868846601,
+      "loss": 7.267,
+      "step": 97500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0008034508174752078,
+      "loss": 7.2736,
+      "step": 98000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0008023340480657554,
+      "loss": 7.2707,
+      "step": 98500
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0008012172786563031,
+      "loss": 7.2649,
+      "step": 99000
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0008001005092468507,
+      "loss": 7.2702,
+      "step": 99500
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0007989837398373983,
+      "loss": 7.2728,
+      "step": 100000
+    },
+    {
+      "epoch": 1.09,
+      "eval_accuracy": 0.04651211896143458,
+      "eval_loss": 7.270782947540283,
+      "eval_runtime": 1094.1225,
+      "eval_samples_per_second": 281.829,
+      "eval_steps_per_second": 4.404,
+      "step": 100000
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0007978669704279461,
+      "loss": 7.2731,
+      "step": 100500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0007967502010184937,
+      "loss": 7.2706,
+      "step": 101000
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0007956334316090414,
+      "loss": 7.2676,
+      "step": 101500
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0007945166621995891,
+      "loss": 7.271,
+      "step": 102000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0007933998927901367,
+      "loss": 7.2642,
+      "step": 102500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0007922831233806844,
+      "loss": 7.2671,
+      "step": 103000
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.000791166353971232,
+      "loss": 7.2631,
+      "step": 103500
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0007900495845617796,
+      "loss": 7.273,
+      "step": 104000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0007889328151523274,
+      "loss": 7.2671,
+      "step": 104500
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.000787816045742875,
+      "loss": 7.2664,
+      "step": 105000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0007866992763334227,
+      "loss": 7.2712,
+      "step": 105500
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0007855825069239704,
+      "loss": 7.2707,
+      "step": 106000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.000784465737514518,
+      "loss": 7.2664,
+      "step": 106500
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0007833489681050657,
+      "loss": 7.2702,
+      "step": 107000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0007822321986956133,
+      "loss": 7.2677,
+      "step": 107500
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.000781115429286161,
+      "loss": 7.2708,
+      "step": 108000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0007799986598767087,
+      "loss": 7.2672,
+      "step": 108500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0007788818904672563,
+      "loss": 7.2637,
+      "step": 109000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0007777651210578039,
+      "loss": 7.2675,
+      "step": 109500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0007766483516483517,
+      "loss": 7.273,
+      "step": 110000
+    },
+    {
+      "epoch": 1.2,
+      "eval_accuracy": 0.046532255715385766,
+      "eval_loss": 7.270956516265869,
+      "eval_runtime": 1094.3831,
+      "eval_samples_per_second": 281.762,
+      "eval_steps_per_second": 4.403,
+      "step": 110000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0007755315822388993,
+      "loss": 7.2687,
+      "step": 110500
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.000774414812829447,
+      "loss": 7.2658,
+      "step": 111000
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0007732980434199947,
+      "loss": 7.2729,
+      "step": 111500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0007721812740105423,
+      "loss": 7.2713,
+      "step": 112000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00077106450460109,
+      "loss": 7.2724,
+      "step": 112500
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0007699477351916376,
+      "loss": 7.2769,
+      "step": 113000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0007688309657821853,
+      "loss": 7.2658,
+      "step": 113500
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.000767714196372733,
+      "loss": 7.2702,
+      "step": 114000
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0007665974269632806,
+      "loss": 7.2725,
+      "step": 114500
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0007654806575538284,
+      "loss": 7.2668,
+      "step": 115000
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.000764363888144376,
+      "loss": 7.273,
+      "step": 115500
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0007632471187349236,
+      "loss": 7.2701,
+      "step": 116000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0007621303493254713,
+      "loss": 7.2644,
+      "step": 116500
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0007610135799160189,
+      "loss": 7.2697,
+      "step": 117000
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0007599012775842044,
+      "loss": 7.2672,
+      "step": 117500
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0007592915214866435,
+      "loss": 7.2703,
+      "step": 118000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0007583243991780577,
+      "loss": 7.2689,
+      "step": 118500
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.000757263468239078,
+      "loss": 7.2631,
+      "step": 119000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0007562070043777362,
+      "loss": 7.2709,
+      "step": 119500
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0007551326722058429,
+      "loss": 7.2683,
+      "step": 120000
+    },
+    {
+      "epoch": 1.31,
+      "eval_accuracy": 0.0465121739230196,
+      "eval_loss": 7.268362045288086,
+      "eval_runtime": 1091.1438,
+      "eval_samples_per_second": 282.599,
+      "eval_steps_per_second": 4.416,
+      "step": 120000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0007540360046457607,
+      "loss": 7.2687,
+      "step": 120500
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.000752952738318592,
+      "loss": 7.2674,
+      "step": 121000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0007518940409184312,
+      "loss": 7.2711,
+      "step": 121500
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0007508353435182703,
+      "loss": 7.2674,
+      "step": 122000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0007497610113463772,
+      "loss": 7.2671,
+      "step": 122500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0007487291164120433,
+      "loss": 7.2716,
+      "step": 123000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0007476681854730636,
+      "loss": 7.2691,
+      "step": 123500
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0007465715179129814,
+      "loss": 7.2763,
+      "step": 124000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0007454748503528992,
+      "loss": 7.2664,
+      "step": 124500
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0007443848834092736,
+      "loss": 7.2707,
+      "step": 125000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0007432882158491915,
+      "loss": 7.2629,
+      "step": 125500
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0007422027159832038,
+      "loss": 7.2663,
+      "step": 126000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0007411105155007594,
+      "loss": 7.2709,
+      "step": 126500
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0007400160814794961,
+      "loss": 7.2721,
+      "step": 127000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0007389194139194139,
+      "loss": 7.2681,
+      "step": 127500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0007380818368623247,
+      "loss": 7.2673,
+      "step": 128000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0007371638524077548,
+      "loss": 7.2715,
+      "step": 128500
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0007360515500759404,
+      "loss": 7.2682,
+      "step": 129000
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0007349459483605825,
+      "loss": 7.2699,
+      "step": 129500
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0007338448137228625,
+      "loss": 7.2658,
+      "step": 130000
+    },
+    {
+      "epoch": 1.42,
+      "eval_accuracy": 0.04657166881035385,
+      "eval_loss": 7.269552230834961,
+      "eval_runtime": 1090.2314,
+      "eval_samples_per_second": 282.835,
+      "eval_steps_per_second": 4.42,
+      "step": 130000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0007327369784686858,
+      "loss": 7.2704,
+      "step": 130500
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.000731631376753328,
+      "loss": 7.2653,
+      "step": 131000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0007305213079603323,
+      "loss": 7.2669,
+      "step": 131500
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.000729406772089699,
+      "loss": 7.2659,
+      "step": 132000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0007282922362190655,
+      "loss": 7.2689,
+      "step": 132500
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0007271844009648888,
+      "loss": 7.268,
+      "step": 133000
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.000726078799249531,
+      "loss": 7.2711,
+      "step": 133500
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0007249798981506299,
+      "loss": 7.2786,
+      "step": 134000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0007238720628964531,
+      "loss": 7.2683,
+      "step": 134500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0007227753953363709,
+      "loss": 7.2767,
+      "step": 135000
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0007216764942374698,
+      "loss": 7.2753,
+      "step": 135500
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0007205753595997498,
+      "loss": 7.2683,
+      "step": 136000
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0007194675243455731,
+      "loss": 7.2705,
+      "step": 136500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0007183663897078531,
+      "loss": 7.2628,
+      "step": 137000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0007172741892254087,
+      "loss": 7.2654,
+      "step": 137500
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0007161641204324131,
+      "loss": 7.2707,
+      "step": 138000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0007150607522558742,
+      "loss": 7.2661,
+      "step": 138500
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0007139462163852408,
+      "loss": 7.2684,
+      "step": 139000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0007128316805146074,
+      "loss": 7.2689,
+      "step": 139500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0007117171446439739,
+      "loss": 7.2661,
+      "step": 140000
+    },
+    {
+      "epoch": 1.53,
+      "eval_accuracy": 0.04652100591929093,
+      "eval_loss": 7.268113613128662,
+      "eval_runtime": 1090.6844,
+      "eval_samples_per_second": 282.718,
+      "eval_steps_per_second": 4.418,
+      "step": 140000
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0007106048423121594,
+      "loss": 7.2681,
+      "step": 140500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0007094880729027071,
+      "loss": 7.2709,
+      "step": 141000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0007083735370320736,
+      "loss": 7.2623,
+      "step": 141500
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0007072567676226212,
+      "loss": 7.2711,
+      "step": 142000
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.000706139998213169,
+      "loss": 7.2674,
+      "step": 142500
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0007050254623425355,
+      "loss": 7.2687,
+      "step": 143000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0007039109264719021,
+      "loss": 7.2694,
+      "step": 143500
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.000702950504779773,
+      "loss": 7.2683,
+      "step": 144000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0007022648083623694,
+      "loss": 7.2654,
+      "step": 144500
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0007013870276065398,
+      "loss": 7.2666,
+      "step": 145000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0007005114803895292,
+      "loss": 7.2721,
+      "step": 145500
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0006998503528991333,
+      "loss": 7.2676,
+      "step": 146000
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0006990351112302332,
+      "loss": 7.2668,
+      "step": 146500
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0006983025104976325,
+      "loss": 7.2704,
+      "step": 147000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0006975565085321183,
+      "loss": 7.2688,
+      "step": 147500
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0006967278656303047,
+      "loss": 7.2689,
+      "step": 148000
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0006959572947377826,
+      "loss": 7.2724,
+      "step": 148500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0006951465201465201,
+      "loss": 7.2622,
+      "step": 149000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0006942062003037613,
+      "loss": 7.2653,
+      "step": 149500
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0006932636469221835,
+      "loss": 7.2668,
+      "step": 150000
+    },
+    {
+      "epoch": 1.64,
+      "eval_accuracy": 0.04653411066611076,
+      "eval_loss": 7.2728753089904785,
+      "eval_runtime": 1088.7608,
+      "eval_samples_per_second": 283.217,
+      "eval_steps_per_second": 4.426,
+      "step": 150000
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0006924618064861967,
+      "loss": 7.2663,
+      "step": 150500
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0006920687036540695,
+      "loss": 7.2669,
+      "step": 151000
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0006917470740641473,
+      "loss": 7.2626,
+      "step": 151500
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0006911842222817832,
+      "loss": 7.2692,
+      "step": 152000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0006904002501563478,
+      "loss": 7.2672,
+      "step": 152500
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0006894487626194943,
+      "loss": 7.2682,
+      "step": 153000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0006884861073885465,
+      "loss": 7.2701,
+      "step": 153500
+    },
+    {
+      "epoch": 1.68,
+      "step": 153660,
+      "total_flos": 2.913743352694309e+18,
+      "train_loss": 7.267765480606534,
+      "train_runtime": 107993.7891,
+      "train_samples_per_second": 271.254,
+      "train_steps_per_second": 4.238
+    }
+  ],
+  "max_steps": 457720,
+  "num_train_epochs": 5,
+  "total_flos": 2.913743352694309e+18,
+  "trial_name": null,
+  "trial_params": null
+}