{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 640,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0078125,
      "grad_norm": 4487.662174517055,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 14.0537,
      "step": 5
    },
    {
      "epoch": 0.015625,
      "grad_norm": 3265.096963107133,
      "learning_rate": 2.25e-06,
      "loss": 13.5061,
      "step": 10
    },
    {
      "epoch": 0.0234375,
      "grad_norm": 4019.1529344819937,
      "learning_rate": 3.5e-06,
      "loss": 10.2522,
      "step": 15
    },
    {
      "epoch": 0.03125,
      "grad_norm": 338.18628553133266,
      "learning_rate": 4.75e-06,
      "loss": 7.6669,
      "step": 20
    },
    {
      "epoch": 0.0390625,
      "grad_norm": 543.0311725735058,
      "learning_rate": 4.999486510586282e-06,
      "loss": 5.5188,
      "step": 25
    },
    {
      "epoch": 0.046875,
      "grad_norm": 246.23088738753083,
      "learning_rate": 4.9974008213559725e-06,
      "loss": 3.8606,
      "step": 30
    },
    {
      "epoch": 0.0546875,
      "grad_norm": 119.09382078616744,
      "learning_rate": 4.993712176889086e-06,
      "loss": 3.9223,
      "step": 35
    },
    {
      "epoch": 0.0625,
      "grad_norm": 369.14487711524765,
      "learning_rate": 4.988422944739889e-06,
      "loss": 3.7582,
      "step": 40
    },
    {
      "epoch": 0.0703125,
      "grad_norm": 73.68641210467196,
      "learning_rate": 4.981536519798899e-06,
      "loss": 4.3581,
      "step": 45
    },
    {
      "epoch": 0.078125,
      "grad_norm": 143.98864514567893,
      "learning_rate": 4.973057322113883e-06,
      "loss": 4.1023,
      "step": 50
    },
    {
      "epoch": 0.0859375,
      "grad_norm": 129.86219911163266,
      "learning_rate": 4.962990794052847e-06,
      "loss": 3.3248,
      "step": 55
    },
    {
      "epoch": 0.09375,
      "grad_norm": 213.93081161843782,
      "learning_rate": 4.95134339681086e-06,
      "loss": 3.5744,
      "step": 60
    },
    {
      "epoch": 0.1015625,
      "grad_norm": 43.57647693525295,
      "learning_rate": 4.938122606262935e-06,
      "loss": 3.0606,
      "step": 65
    },
    {
      "epoch": 0.109375,
      "grad_norm": 24.136487456562335,
      "learning_rate": 4.923336908165649e-06,
      "loss": 3.2941,
      "step": 70
    },
    {
      "epoch": 0.1171875,
      "grad_norm": 79.3928477087145,
      "learning_rate": 4.906995792710559e-06,
      "loss": 3.466,
      "step": 75
    },
    {
      "epoch": 0.125,
      "grad_norm": 20.979020201181374,
      "learning_rate": 4.889109748432932e-06,
      "loss": 3.0447,
      "step": 80
    },
    {
      "epoch": 0.1328125,
      "grad_norm": 33.10678605914481,
      "learning_rate": 4.8696902554796824e-06,
      "loss": 2.9834,
      "step": 85
    },
    {
      "epoch": 0.140625,
      "grad_norm": 37.842992430043786,
      "learning_rate": 4.84874977824085e-06,
      "loss": 3.3414,
      "step": 90
    },
    {
      "epoch": 0.1484375,
      "grad_norm": 15.354073559162247,
      "learning_rate": 4.826301757349337e-06,
      "loss": 3.4018,
      "step": 95
    },
    {
      "epoch": 0.15625,
      "grad_norm": 41.07210772695517,
      "learning_rate": 4.802360601054042e-06,
      "loss": 3.3653,
      "step": 100
    },
    {
      "epoch": 0.1640625,
      "grad_norm": 34.46675403978081,
      "learning_rate": 4.776941675971941e-06,
      "loss": 2.8566,
      "step": 105
    },
    {
      "epoch": 0.171875,
      "grad_norm": 30.438715655532075,
      "learning_rate": 4.750061297225028e-06,
      "loss": 2.9337,
      "step": 110
    },
    {
      "epoch": 0.1796875,
      "grad_norm": 47.52097975604328,
      "learning_rate": 4.721736717968465e-06,
      "loss": 3.0085,
      "step": 115
    },
    {
      "epoch": 0.1875,
      "grad_norm": 32.91467336279922,
      "learning_rate": 4.691986118316654e-06,
      "loss": 2.7027,
      "step": 120
    },
    {
      "epoch": 0.1953125,
      "grad_norm": 31.817561483162603,
      "learning_rate": 4.660828593674344e-06,
      "loss": 3.0477,
      "step": 125
    },
    {
      "epoch": 0.203125,
      "grad_norm": 68.38396573292292,
      "learning_rate": 4.628284142480256e-06,
      "loss": 3.1287,
      "step": 130
    },
    {
      "epoch": 0.2109375,
      "grad_norm": 48.99060766773029,
      "learning_rate": 4.594373653371095e-06,
      "loss": 3.0499,
      "step": 135
    },
    {
      "epoch": 0.21875,
      "grad_norm": 29.811323317057937,
      "learning_rate": 4.559118891774188e-06,
      "loss": 2.6658,
      "step": 140
    },
    {
      "epoch": 0.2265625,
      "grad_norm": 16.757192674214547,
      "learning_rate": 4.522542485937369e-06,
      "loss": 2.7111,
      "step": 145
    },
    {
      "epoch": 0.234375,
      "grad_norm": 854.2596861814334,
      "learning_rate": 4.484667912405038e-06,
      "loss": 2.7731,
      "step": 150
    },
    {
      "epoch": 0.2421875,
      "grad_norm": 41.03420716766998,
      "learning_rate": 4.445519480949761e-06,
      "loss": 3.0335,
      "step": 155
    },
    {
      "epoch": 0.25,
      "grad_norm": 37.20268617216472,
      "learning_rate": 4.4051223189690585e-06,
      "loss": 2.6551,
      "step": 160
    },
    {
      "epoch": 0.2578125,
      "grad_norm": 35.47333065284907,
      "learning_rate": 4.3635023553574e-06,
      "loss": 2.5314,
      "step": 165
    },
    {
      "epoch": 0.265625,
      "grad_norm": 34.11952544419604,
      "learning_rate": 4.320686303863752e-06,
      "loss": 2.4063,
      "step": 170
    },
    {
      "epoch": 0.2734375,
      "grad_norm": 31.337300080344246,
      "learning_rate": 4.276701645945384e-06,
      "loss": 2.8953,
      "step": 175
    },
    {
      "epoch": 0.28125,
      "grad_norm": 71.0076530183938,
      "learning_rate": 4.231576613128902e-06,
      "loss": 2.7765,
      "step": 180
    },
    {
      "epoch": 0.2890625,
      "grad_norm": 35.89471866430099,
      "learning_rate": 4.185340168889869e-06,
      "loss": 2.6225,
      "step": 185
    },
    {
      "epoch": 0.296875,
      "grad_norm": 34.718088237273705,
      "learning_rate": 4.138021990062606e-06,
      "loss": 2.6321,
      "step": 190
    },
    {
      "epoch": 0.3046875,
      "grad_norm": 21.190370232623685,
      "learning_rate": 4.089652447792141e-06,
      "loss": 2.3654,
      "step": 195
    },
    {
      "epoch": 0.3125,
      "grad_norm": 24.28207185282827,
      "learning_rate": 4.040262588040503e-06,
      "loss": 2.439,
      "step": 200
    },
    {
      "epoch": 0.3203125,
      "grad_norm": 30.270563671656443,
      "learning_rate": 3.989884111659893e-06,
      "loss": 2.6155,
      "step": 205
    },
    {
      "epoch": 0.328125,
      "grad_norm": 30.374998546903175,
      "learning_rate": 3.938549354045508e-06,
      "loss": 2.5646,
      "step": 210
    },
    {
      "epoch": 0.3359375,
      "grad_norm": 28.01955269110465,
      "learning_rate": 3.8862912643810895e-06,
      "loss": 2.1882,
      "step": 215
    },
    {
      "epoch": 0.34375,
      "grad_norm": 43.01312536445347,
      "learning_rate": 3.833143384490506e-06,
      "loss": 2.6895,
      "step": 220
    },
    {
      "epoch": 0.3515625,
      "grad_norm": 34.41155110572982,
      "learning_rate": 3.7791398273089562e-06,
      "loss": 2.5118,
      "step": 225
    },
    {
      "epoch": 0.359375,
      "grad_norm": 112.57991856629606,
      "learning_rate": 3.7243152549875995e-06,
      "loss": 2.223,
      "step": 230
    },
    {
      "epoch": 0.3671875,
      "grad_norm": 76.22091458973803,
      "learning_rate": 3.6687048566456783e-06,
      "loss": 2.5385,
      "step": 235
    },
    {
      "epoch": 0.375,
      "grad_norm": 47.102411590390844,
      "learning_rate": 3.6123443257843985e-06,
      "loss": 2.0943,
      "step": 240
    },
    {
      "epoch": 0.3828125,
      "grad_norm": 73.15900084042869,
      "learning_rate": 3.55526983737708e-06,
      "loss": 2.4384,
      "step": 245
    },
    {
      "epoch": 0.390625,
      "grad_norm": 54.222406085796,
      "learning_rate": 3.4975180246502694e-06,
      "loss": 2.5384,
      "step": 250
    },
    {
      "epoch": 0.3984375,
      "grad_norm": 81.39267333279535,
      "learning_rate": 3.4391259555707258e-06,
      "loss": 2.4972,
      "step": 255
    },
    {
      "epoch": 0.40625,
      "grad_norm": 67.5323257615502,
      "learning_rate": 3.3801311090533713e-06,
      "loss": 1.8014,
      "step": 260
    },
    {
      "epoch": 0.4140625,
      "grad_norm": 26.26948979836602,
      "learning_rate": 3.320571350905466e-06,
      "loss": 1.773,
      "step": 265
    },
    {
      "epoch": 0.421875,
      "grad_norm": 44.03138506176169,
      "learning_rate": 3.2604849095224666e-06,
      "loss": 2.0221,
      "step": 270
    },
    {
      "epoch": 0.4296875,
      "grad_norm": 43.260012330071866,
      "learning_rate": 3.1999103513511528e-06,
      "loss": 2.2129,
      "step": 275
    },
    {
      "epoch": 0.4375,
      "grad_norm": 26.951615470416954,
      "learning_rate": 3.1388865561357727e-06,
      "loss": 2.2301,
      "step": 280
    },
    {
      "epoch": 0.4453125,
      "grad_norm": 46.519629142166174,
      "learning_rate": 3.077452691963109e-06,
      "loss": 2.3289,
      "step": 285
    },
    {
      "epoch": 0.453125,
      "grad_norm": 48.39622358551033,
      "learning_rate": 3.0156481901224573e-06,
      "loss": 1.795,
      "step": 290
    },
    {
      "epoch": 0.4609375,
      "grad_norm": 52.06374998250507,
      "learning_rate": 2.953512719796683e-06,
      "loss": 2.2433,
      "step": 295
    },
    {
      "epoch": 0.46875,
      "grad_norm": 474.92706894375743,
      "learning_rate": 2.8910861626005774e-06,
      "loss": 1.7952,
      "step": 300
    },
    {
      "epoch": 0.4765625,
      "grad_norm": 74.9957849628404,
      "learning_rate": 2.8284085869828664e-06,
      "loss": 2.3712,
      "step": 305
    },
    {
      "epoch": 0.484375,
      "grad_norm": 51.21339523637916,
      "learning_rate": 2.765520222508302e-06,
      "loss": 1.9892,
      "step": 310
    },
    {
      "epoch": 0.4921875,
      "grad_norm": 131.64456956757485,
      "learning_rate": 2.7024614340363365e-06,
      "loss": 1.9972,
      "step": 315
    },
    {
      "epoch": 0.5,
      "grad_norm": 31.52894208660832,
      "learning_rate": 2.6392726958129653e-06,
      "loss": 1.5076,
      "step": 320
    },
    {
      "epoch": 0.5078125,
      "grad_norm": 106.27601023204515,
      "learning_rate": 2.5759945654923575e-06,
      "loss": 2.0369,
      "step": 325
    },
    {
      "epoch": 0.515625,
      "grad_norm": 47.324062545245894,
      "learning_rate": 2.5126676581049413e-06,
      "loss": 1.8094,
      "step": 330
    },
    {
      "epoch": 0.5234375,
      "grad_norm": 76.05234123339977,
      "learning_rate": 2.4493326199886813e-06,
      "loss": 1.9059,
      "step": 335
    },
    {
      "epoch": 0.53125,
      "grad_norm": 115.507138279873,
      "learning_rate": 2.3860301027002432e-06,
      "loss": 1.9663,
      "step": 340
    },
    {
      "epoch": 0.5390625,
      "grad_norm": 81.81607613481519,
      "learning_rate": 2.322800736922818e-06,
      "loss": 2.1141,
      "step": 345
    },
    {
      "epoch": 0.546875,
      "grad_norm": 97.43878259958254,
      "learning_rate": 2.259685106387345e-06,
      "loss": 2.0336,
      "step": 350
    },
    {
      "epoch": 0.5546875,
      "grad_norm": 42.91394725301739,
      "learning_rate": 2.196723721823863e-06,
      "loss": 2.038,
      "step": 355
    },
    {
      "epoch": 0.5625,
      "grad_norm": 37.32603199657443,
      "learning_rate": 2.1339569949597284e-06,
      "loss": 1.7698,
      "step": 360
    },
    {
      "epoch": 0.5703125,
      "grad_norm": 200.45931632492386,
      "learning_rate": 2.0714252125813667e-06,
      "loss": 1.9531,
      "step": 365
    },
    {
      "epoch": 0.578125,
      "grad_norm": 31.963910575975373,
      "learning_rate": 2.0091685106762233e-06,
      "loss": 1.8749,
      "step": 370
    },
    {
      "epoch": 0.5859375,
      "grad_norm": 89.03310789583136,
      "learning_rate": 1.947226848671508e-06,
      "loss": 2.0674,
      "step": 375
    },
    {
      "epoch": 0.59375,
      "grad_norm": 31.937502854280478,
      "learning_rate": 1.8856399837862552e-06,
      "loss": 1.6382,
      "step": 380
    },
    {
      "epoch": 0.6015625,
      "grad_norm": 39.761140346439326,
      "learning_rate": 1.824447445513179e-06,
      "loss": 1.6946,
      "step": 385
    },
    {
      "epoch": 0.609375,
      "grad_norm": 46.64848349398602,
      "learning_rate": 1.7636885102466907e-06,
      "loss": 1.5179,
      "step": 390
    },
    {
      "epoch": 0.6171875,
      "grad_norm": 20.613416865713134,
      "learning_rate": 1.7034021760733712e-06,
      "loss": 1.437,
      "step": 395
    },
    {
      "epoch": 0.625,
      "grad_norm": 70.94522606308973,
      "learning_rate": 1.6436271377410667e-06,
      "loss": 2.2482,
      "step": 400
    },
    {
      "epoch": 0.6328125,
      "grad_norm": 43.35603987077311,
      "learning_rate": 1.5844017618226934e-06,
      "loss": 1.6283,
      "step": 405
    },
    {
      "epoch": 0.640625,
      "grad_norm": 117.64561093792364,
      "learning_rate": 1.525764062090671e-06,
      "loss": 1.5861,
      "step": 410
    },
    {
      "epoch": 0.6484375,
      "grad_norm": 51.13049033408944,
      "learning_rate": 1.46775167511781e-06,
      "loss": 1.7587,
      "step": 415
    },
    {
      "epoch": 0.65625,
      "grad_norm": 23.67179139062178,
      "learning_rate": 1.4104018361202947e-06,
      "loss": 1.6897,
      "step": 420
    },
    {
      "epoch": 0.6640625,
      "grad_norm": 29.890157693144154,
      "learning_rate": 1.3537513550582853e-06,
      "loss": 1.8858,
      "step": 425
    },
    {
      "epoch": 0.671875,
      "grad_norm": 120.12084561754483,
      "learning_rate": 1.2978365930094645e-06,
      "loss": 1.6889,
      "step": 430
    },
    {
      "epoch": 0.6796875,
      "grad_norm": 29.265397717275942,
      "learning_rate": 1.2426934388307059e-06,
      "loss": 1.6589,
      "step": 435
    },
    {
      "epoch": 0.6875,
      "grad_norm": 147.8296220293303,
      "learning_rate": 1.1883572861228255e-06,
      "loss": 2.3553,
      "step": 440
    },
    {
      "epoch": 0.6953125,
      "grad_norm": 75.42228430231394,
      "learning_rate": 1.1348630105132253e-06,
      "loss": 1.7002,
      "step": 445
    },
    {
      "epoch": 0.703125,
      "grad_norm": 50.39104505021309,
      "learning_rate": 1.0822449472709907e-06,
      "loss": 1.9122,
      "step": 450
    },
    {
      "epoch": 0.7109375,
      "grad_norm": 61.50703160486361,
      "learning_rate": 1.0305368692688175e-06,
      "loss": 1.536,
      "step": 455
    },
    {
      "epoch": 0.71875,
      "grad_norm": 73.8503299397507,
      "learning_rate": 9.797719653059176e-07,
      "loss": 1.7232,
      "step": 460
    },
    {
      "epoch": 0.7265625,
      "grad_norm": 67.88315535620379,
      "learning_rate": 9.299828188058013e-07,
      "loss": 1.7666,
      "step": 465
    },
    {
      "epoch": 0.734375,
      "grad_norm": 83.76797348985389,
      "learning_rate": 8.812013869026334e-07,
      "loss": 1.6567,
      "step": 470
    },
    {
      "epoch": 0.7421875,
      "grad_norm": 136.16919333944256,
      "learning_rate": 8.334589799295592e-07,
      "loss": 1.6399,
      "step": 475
    },
    {
      "epoch": 0.75,
      "grad_norm": 50.54545692566125,
      "learning_rate": 7.867862413221894e-07,
      "loss": 1.5422,
      "step": 480
    },
    {
      "epoch": 0.7578125,
      "grad_norm": 243.07205145310937,
      "learning_rate": 7.412131279501297e-07,
      "loss": 1.4785,
      "step": 485
    },
    {
      "epoch": 0.765625,
      "grad_norm": 45.010451945401705,
      "learning_rate": 6.967688908891793e-07,
      "loss": 1.884,
      "step": 490
    },
    {
      "epoch": 0.7734375,
      "grad_norm": 48.23699940972905,
      "learning_rate": 6.534820566465464e-07,
      "loss": 1.7596,
      "step": 495
    },
    {
      "epoch": 0.78125,
      "grad_norm": 90.74839489958582,
      "learning_rate": 6.113804088511261e-07,
      "loss": 1.6985,
      "step": 500
    },
    {
      "epoch": 0.7890625,
      "grad_norm": 26.31053939307125,
      "learning_rate": 5.704909704205949e-07,
      "loss": 1.7385,
      "step": 505
    },
    {
      "epoch": 0.796875,
      "grad_norm": 58.47989097161682,
      "learning_rate": 5.308399862167693e-07,
      "loss": 1.9481,
      "step": 510
    },
    {
      "epoch": 0.8046875,
      "grad_norm": 796.9462628456254,
      "learning_rate": 4.924529062003522e-07,
      "loss": 1.762,
      "step": 515
    },
    {
      "epoch": 0.8125,
      "grad_norm": 39.897170110050865,
      "learning_rate": 4.553543690958939e-07,
      "loss": 1.2992,
      "step": 520
    },
    {
      "epoch": 0.8203125,
      "grad_norm": 53.31172241007692,
      "learning_rate": 4.1956818657744065e-07,
      "loss": 1.8682,
      "step": 525
    },
    {
      "epoch": 0.828125,
      "grad_norm": 35.918165546768364,
      "learning_rate": 3.851173279850251e-07,
      "loss": 1.6464,
      "step": 530
    },
    {
      "epoch": 0.8359375,
      "grad_norm": 47.70548947871064,
      "learning_rate": 3.5202390558181145e-07,
      "loss": 2.157,
      "step": 535
    },
    {
      "epoch": 0.84375,
      "grad_norm": 81.91605468065885,
      "learning_rate": 3.2030916036134866e-07,
      "loss": 1.6421,
      "step": 540
    },
    {
      "epoch": 0.8515625,
      "grad_norm": 53.06973167494431,
      "learning_rate": 2.8999344841405377e-07,
      "loss": 1.6688,
      "step": 545
    },
    {
      "epoch": 0.859375,
      "grad_norm": 88.49158154638214,
      "learning_rate": 2.61096227861668e-07,
      "loss": 1.702,
      "step": 550
    },
    {
      "epoch": 0.8671875,
      "grad_norm": 120.59801382869998,
      "learning_rate": 2.3363604636807065e-07,
      "loss": 1.3829,
      "step": 555
    },
    {
      "epoch": 0.875,
      "grad_norm": 139.01600571943374,
      "learning_rate": 2.0763052923447214e-07,
      "loss": 1.6871,
      "step": 560
    },
    {
      "epoch": 0.8828125,
      "grad_norm": 45.50934842650282,
      "learning_rate": 1.830963680866285e-07,
      "loss": 1.4887,
      "step": 565
    },
    {
      "epoch": 0.890625,
      "grad_norm": 35.76953954334381,
      "learning_rate": 1.600493101613268e-07,
      "loss": 1.6375,
      "step": 570
    },
    {
      "epoch": 0.8984375,
      "grad_norm": 37.27719885211302,
      "learning_rate": 1.3850414819903235e-07,
      "loss": 1.7941,
      "step": 575
    },
    {
      "epoch": 0.90625,
      "grad_norm": 39.534848671404404,
      "learning_rate": 1.1847471094917711e-07,
      "loss": 1.7665,
      "step": 580
    },
    {
      "epoch": 0.9140625,
      "grad_norm": 50.50325344773253,
      "learning_rate": 9.997385429418555e-08,
      "loss": 1.8857,
      "step": 585
    },
    {
      "epoch": 0.921875,
      "grad_norm": 31.729549388411133,
      "learning_rate": 8.301345299793374e-08,
      "loss": 1.5837,
      "step": 590
    },
    {
      "epoch": 0.9296875,
      "grad_norm": 29.796478369791654,
      "learning_rate": 6.760439308393763e-08,
      "loss": 1.963,
      "step": 595
    },
    {
      "epoch": 0.9375,
      "grad_norm": 37.3072954627531,
      "learning_rate": 5.3756564848168325e-08,
      "loss": 1.507,
      "step": 600
    },
    {
      "epoch": 0.9453125,
      "grad_norm": 32.75001709716989,
      "learning_rate": 4.147885651096861e-08,
      "loss": 1.6399,
      "step": 605
    },
    {
      "epoch": 0.953125,
      "grad_norm": 53.42892228692126,
      "learning_rate": 3.077914851215585e-08,
      "loss": 1.7654,
      "step": 610
    },
    {
      "epoch": 0.9609375,
      "grad_norm": 91.78268048604703,
      "learning_rate": 2.1664308452965798e-08,
      "loss": 1.4882,
      "step": 615
    },
    {
      "epoch": 0.96875,
      "grad_norm": 52.95012166005466,
      "learning_rate": 1.4140186688086365e-08,
      "loss": 1.5379,
      "step": 620
    },
    {
      "epoch": 0.9765625,
      "grad_norm": 114.57655882499603,
      "learning_rate": 8.211612570611927e-09,
      "loss": 1.5018,
      "step": 625
    },
    {
      "epoch": 0.984375,
      "grad_norm": 96.85859485649613,
      "learning_rate": 3.882391352324766e-09,
      "loss": 1.4683,
      "step": 630
    },
    {
      "epoch": 0.9921875,
      "grad_norm": 37.14188481057337,
      "learning_rate": 1.1553017412971323e-09,
      "loss": 1.8316,
      "step": 635
    },
    {
      "epoch": 1.0,
      "grad_norm": 34.77706091063119,
      "learning_rate": 3.2094118379288885e-11,
      "loss": 1.6444,
      "step": 640
    },
    {
      "epoch": 1.0,
      "step": 640,
      "total_flos": 61131755814912.0,
      "train_loss": 2.5290436543524266,
      "train_runtime": 1576.5021,
      "train_samples_per_second": 3.245,
      "train_steps_per_second": 0.406
    }
  ],
  "logging_steps": 5,
  "max_steps": 640,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 640.0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 61131755814912.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}