Upload 9 files

Browse files

Files changed (5) hide show

config.json +2 -0
model.safetensors +1 -1
rng_state.pth +1 -1
trainer_state.json +686 -686
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -4,6 +4,7 @@
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "attn_implementation": "sdpa",
   "bos_token_id": 50281,
   "classifier_activation": "gelu",
@@ -20,6 +21,7 @@
   "global_rope_theta": 160000.0,
   "gradient_checkpointing": false,
   "hidden_activation": "gelu",
   "hidden_size": 1024,
   "initializer_cutoff_factor": 2.0,
   "initializer_range": 0.02,

   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
+  "attention_probs_dropout_prob": 0.1,
   "attn_implementation": "sdpa",
   "bos_token_id": 50281,
   "classifier_activation": "gelu",
   "global_rope_theta": 160000.0,
   "gradient_checkpointing": false,
   "hidden_activation": "gelu",
+  "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,
   "initializer_cutoff_factor": 2.0,
   "initializer_range": 0.02,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c513c87136b7061f89a0058cf57e10feabc8eaa6dc84ac77ff0f5a223c2f19c
 size 1583544840

 version https://git-lfs.github.com/spec/v1
+oid sha256:d99e23c9c5e198f1a7197faedddc865f198f1ac2bcdc84e3402a78043d8ae5c8
 size 1583544840

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:449e44f9adf4d083aec6625b9110f6a9a09baba982e3a32de94ff0c135c00f4d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:73ce21f5865b864b77c3be4b62e9a259611aacea0d4451a245cb98c83253561d
 size 14645

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.08784,
   "eval_steps": 1000,
   "global_step": 25000,
   "is_hyper_param_search": false,
@@ -11,1959 +11,1959 @@
   "log_history": [
     {
       "epoch": 4e-05,
-      "grad_norm": 0.911555290222168,
       "learning_rate": 0.0,
-      "loss": 0.7505,
       "step": 1
     },
     {
       "epoch": 0.004,
-      "grad_norm": 1.2557882070541382,
       "learning_rate": 9.9e-07,
-      "loss": 0.831,
       "step": 100
     },
     {
       "epoch": 0.008,
-      "grad_norm": 0.9086900353431702,
       "learning_rate": 1.9900000000000004e-06,
-      "loss": 0.8295,
       "step": 200
     },
     {
       "epoch": 0.012,
-      "grad_norm": 0.9221948385238647,
       "learning_rate": 2.4999758220143106e-06,
-      "loss": 0.8411,
       "step": 300
     },
     {
       "epoch": 0.016,
-      "grad_norm": 0.8809811472892761,
       "learning_rate": 2.4997764426529066e-06,
-      "loss": 0.8288,
       "step": 400
     },
     {
       "epoch": 0.02,
-      "grad_norm": 1.3145067691802979,
       "learning_rate": 2.499375702067717e-06,
-      "loss": 0.8312,
       "step": 500
     },
     {
       "epoch": 0.024,
-      "grad_norm": 0.9034631252288818,
       "learning_rate": 2.4987736648251815e-06,
-      "loss": 0.8385,
       "step": 600
     },
     {
       "epoch": 0.028,
-      "grad_norm": 0.8681179881095886,
       "learning_rate": 2.497970427924213e-06,
-      "loss": 0.8175,
       "step": 700
     },
     {
       "epoch": 0.032,
-      "grad_norm": 0.9303165674209595,
       "learning_rate": 2.496966120780569e-06,
-      "loss": 0.8281,
       "step": 800
     },
     {
       "epoch": 0.036,
-      "grad_norm": 0.9573058485984802,
       "learning_rate": 2.4957609052060012e-06,
-      "loss": 0.8326,
       "step": 900
     },
     {
       "epoch": 0.04,
-      "grad_norm": 0.9730055928230286,
       "learning_rate": 2.4943549753821847e-06,
-      "loss": 0.8391,
       "step": 1000
     },
     {
       "epoch": 0.04,
-      "eval_loss": 1.5264503955841064,
-      "eval_runtime": 104.8997,
-      "eval_samples_per_second": 130.553,
-      "eval_steps_per_second": 2.04,
       "step": 1000
     },
     {
       "epoch": 0.044,
-      "grad_norm": 0.8237825632095337,
       "learning_rate": 2.4927485578294313e-06,
-      "loss": 0.8176,
       "step": 1100
     },
     {
       "epoch": 0.048,
-      "grad_norm": 0.9133234620094299,
       "learning_rate": 2.4909419113701947e-06,
-      "loss": 0.8303,
       "step": 1200
     },
     {
       "epoch": 0.052,
-      "grad_norm": 0.9377557635307312,
       "learning_rate": 2.4889353270873663e-06,
-      "loss": 0.8159,
       "step": 1300
     },
     {
       "epoch": 0.056,
-      "grad_norm": 0.9034435749053955,
       "learning_rate": 2.4867291282773805e-06,
-      "loss": 0.8145,
       "step": 1400
     },
     {
       "epoch": 0.06,
-      "grad_norm": 1.0601003170013428,
       "learning_rate": 2.4843236703981235e-06,
-      "loss": 0.8317,
       "step": 1500
     },
     {
       "epoch": 0.064,
-      "grad_norm": 0.9157763719558716,
       "learning_rate": 2.481719341011662e-06,
-      "loss": 0.8355,
       "step": 1600
     },
     {
       "epoch": 0.068,
-      "grad_norm": 0.9011576175689697,
       "learning_rate": 2.4789165597218035e-06,
-      "loss": 0.8319,
       "step": 1700
     },
     {
       "epoch": 0.072,
-      "grad_norm": 0.8954268097877502,
       "learning_rate": 2.475915778106486e-06,
-      "loss": 0.8156,
       "step": 1800
     },
     {
       "epoch": 0.076,
-      "grad_norm": 0.8911709189414978,
       "learning_rate": 2.4727174796450266e-06,
-      "loss": 0.8365,
       "step": 1900
     },
     {
       "epoch": 0.08,
-      "grad_norm": 0.9407449960708618,
       "learning_rate": 2.4693221796402166e-06,
-      "loss": 0.8288,
       "step": 2000
     },
     {
       "epoch": 0.08,
-      "eval_loss": 1.5217734575271606,
-      "eval_runtime": 98.2235,
-      "eval_samples_per_second": 139.427,
-      "eval_steps_per_second": 2.179,
       "step": 2000
     },
     {
       "epoch": 0.084,
-      "grad_norm": 0.8769101500511169,
       "learning_rate": 2.4657304251353047e-06,
-      "loss": 0.8131,
       "step": 2100
     },
     {
       "epoch": 0.088,
-      "grad_norm": 0.8608514070510864,
       "learning_rate": 2.4619427948258547e-06,
-      "loss": 0.8088,
       "step": 2200
     },
     {
       "epoch": 0.092,
-      "grad_norm": 0.9365686178207397,
       "learning_rate": 2.4579598989665065e-06,
-      "loss": 0.8286,
       "step": 2300
     },
     {
       "epoch": 0.096,
-      "grad_norm": 0.928945779800415,
       "learning_rate": 2.453782379272657e-06,
-      "loss": 0.8109,
       "step": 2400
     },
     {
       "epoch": 0.1,
-      "grad_norm": 0.9162323474884033,
       "learning_rate": 2.449410908817064e-06,
-      "loss": 0.806,
       "step": 2500
     },
     {
       "epoch": 0.104,
-      "grad_norm": 0.9436105489730835,
       "learning_rate": 2.444846191921406e-06,
-      "loss": 0.7969,
       "step": 2600
     },
     {
       "epoch": 0.108,
-      "grad_norm": 0.9459385871887207,
       "learning_rate": 2.4400889640427992e-06,
-      "loss": 0.8315,
       "step": 2700
     },
     {
       "epoch": 0.112,
-      "grad_norm": 0.9575082063674927,
       "learning_rate": 2.435139991655308e-06,
-      "loss": 0.8324,
       "step": 2800
     },
     {
       "epoch": 0.116,
-      "grad_norm": 0.927148163318634,
       "learning_rate": 2.4300000721264466e-06,
-      "loss": 0.8267,
       "step": 2900
     },
     {
       "epoch": 0.12,
-      "grad_norm": 0.9774505496025085,
       "learning_rate": 2.4246700335887123e-06,
-      "loss": 0.8262,
       "step": 3000
     },
     {
       "epoch": 0.12,
-      "eval_loss": 1.5202959775924683,
-      "eval_runtime": 98.5199,
-      "eval_samples_per_second": 139.007,
-      "eval_steps_per_second": 2.172,
       "step": 3000
     },
     {
       "epoch": 0.124,
-      "grad_norm": 0.9433075785636902,
       "learning_rate": 2.4191507348061575e-06,
-      "loss": 0.803,
       "step": 3100
     },
     {
       "epoch": 0.128,
-      "grad_norm": 0.9418466091156006,
       "learning_rate": 2.4134430650360284e-06,
-      "loss": 0.8088,
       "step": 3200
     },
     {
       "epoch": 0.132,
-      "grad_norm": 0.9223436713218689,
       "learning_rate": 2.407547943885489e-06,
-      "loss": 0.8116,
       "step": 3300
     },
     {
       "epoch": 0.136,
-      "grad_norm": 0.9359924793243408,
       "learning_rate": 2.4014663211634552e-06,
-      "loss": 0.8232,
       "step": 3400
     },
     {
       "epoch": 0.14,
-      "grad_norm": 0.9347231388092041,
       "learning_rate": 2.395199176727567e-06,
-      "loss": 0.8131,
       "step": 3500
     },
     {
       "epoch": 0.144,
-      "grad_norm": 0.9255951046943665,
       "learning_rate": 2.388747520326311e-06,
-      "loss": 0.8064,
       "step": 3600
     },
     {
       "epoch": 0.148,
-      "grad_norm": 0.8580342531204224,
       "learning_rate": 2.3821123914363374e-06,
-      "loss": 0.8247,
       "step": 3700
     },
     {
       "epoch": 0.152,
-      "grad_norm": 0.8920683860778809,
       "learning_rate": 2.3752948590949766e-06,
-      "loss": 0.8058,
       "step": 3800
     },
     {
       "epoch": 0.156,
-      "grad_norm": 0.8848472237586975,
       "learning_rate": 2.368296021728002e-06,
-      "loss": 0.8209,
       "step": 3900
     },
     {
       "epoch": 0.16,
-      "grad_norm": 0.9708815217018127,
       "learning_rate": 2.3611170069726532e-06,
-      "loss": 0.8216,
       "step": 4000
     },
     {
       "epoch": 0.16,
-      "eval_loss": 1.5283503532409668,
-      "eval_runtime": 98.9755,
-      "eval_samples_per_second": 138.368,
-      "eval_steps_per_second": 2.162,
       "step": 4000
     },
     {
       "epoch": 0.164,
-      "grad_norm": 0.8715313673019409,
       "learning_rate": 2.3537589714959523e-06,
-      "loss": 0.8185,
       "step": 4100
     },
     {
       "epoch": 0.168,
-      "grad_norm": 0.9748795032501221,
       "learning_rate": 2.346223100808346e-06,
-      "loss": 0.8172,
       "step": 4200
     },
     {
       "epoch": 0.172,
-      "grad_norm": 0.900182843208313,
       "learning_rate": 2.3385106090726974e-06,
-      "loss": 0.8101,
       "step": 4300
     },
     {
       "epoch": 0.176,
-      "grad_norm": 0.8882376551628113,
       "learning_rate": 2.330622738908663e-06,
-      "loss": 0.8004,
       "step": 4400
     },
     {
       "epoch": 0.18,
-      "grad_norm": 0.9087768793106079,
       "learning_rate": 2.322560761192485e-06,
-      "loss": 0.8028,
       "step": 4500
     },
     {
       "epoch": 0.184,
-      "grad_norm": 0.9928045868873596,
       "learning_rate": 2.3143259748522308e-06,
-      "loss": 0.8257,
       "step": 4600
     },
     {
       "epoch": 0.188,
-      "grad_norm": 0.9519675970077515,
       "learning_rate": 2.3059197066585126e-06,
-      "loss": 0.817,
       "step": 4700
     },
     {
       "epoch": 0.192,
-      "grad_norm": 0.970738410949707,
       "learning_rate": 2.297343311010719e-06,
-      "loss": 0.8109,
       "step": 4800
     },
     {
       "epoch": 0.196,
-      "grad_norm": 0.9740980267524719,
       "learning_rate": 2.2885981697188002e-06,
-      "loss": 0.8168,
       "step": 4900
     },
     {
       "epoch": 0.2,
-      "grad_norm": 0.9454805850982666,
       "learning_rate": 2.2796856917806313e-06,
-      "loss": 0.8305,
       "step": 5000
     },
     {
       "epoch": 0.2,
-      "eval_loss": 1.5317082405090332,
-      "eval_runtime": 98.9715,
-      "eval_samples_per_second": 138.373,
       "eval_steps_per_second": 2.162,
       "step": 5000
     },
     {
       "epoch": 0.204,
-      "grad_norm": 0.9181498289108276,
       "learning_rate": 2.270607313155e-06,
-      "loss": 0.807,
       "step": 5100
     },
     {
       "epoch": 0.208,
-      "grad_norm": 0.8452897071838379,
       "learning_rate": 2.2613644965302456e-06,
-      "loss": 0.802,
       "step": 5200
     },
     {
       "epoch": 0.212,
-      "grad_norm": 0.8827036619186401,
       "learning_rate": 2.251958731088596e-06,
-      "loss": 0.8001,
       "step": 5300
     },
     {
       "epoch": 0.216,
-      "grad_norm": 0.8728039264678955,
       "learning_rate": 2.242391532266232e-06,
-      "loss": 0.8211,
       "step": 5400
     },
     {
       "epoch": 0.22,
-      "grad_norm": 0.9410618543624878,
       "learning_rate": 2.2326644415091264e-06,
-      "loss": 0.7996,
       "step": 5500
     },
     {
       "epoch": 0.224,
-      "grad_norm": 0.9829330444335938,
       "learning_rate": 2.2227790260246856e-06,
-      "loss": 0.7971,
       "step": 5600
     },
     {
       "epoch": 0.228,
-      "grad_norm": 0.9688398241996765,
       "learning_rate": 2.2127368785292484e-06,
-      "loss": 0.7854,
       "step": 5700
     },
     {
       "epoch": 0.232,
-      "grad_norm": 0.864470362663269,
       "learning_rate": 2.2025396169914697e-06,
-      "loss": 0.8192,
       "step": 5800
     },
     {
       "epoch": 0.236,
-      "grad_norm": 0.9038395881652832,
       "learning_rate": 2.1921888843716356e-06,
-      "loss": 0.8005,
       "step": 5900
     },
     {
       "epoch": 0.24,
-      "grad_norm": 0.8807651996612549,
       "learning_rate": 2.181686348356955e-06,
-      "loss": 0.806,
       "step": 6000
     },
     {
       "epoch": 0.24,
-      "eval_loss": 1.524116039276123,
-      "eval_runtime": 99.2477,
-      "eval_samples_per_second": 137.988,
-      "eval_steps_per_second": 2.156,
       "step": 6000
     },
     {
       "epoch": 0.244,
-      "grad_norm": 1.0644515752792358,
       "learning_rate": 2.1710337010928655e-06,
-      "loss": 0.8232,
       "step": 6100
     },
     {
       "epoch": 0.248,
-      "grad_norm": 0.9187564253807068,
       "learning_rate": 2.1602326589103967e-06,
-      "loss": 0.8036,
       "step": 6200
     },
     {
       "epoch": 0.252,
-      "grad_norm": 0.9233301877975464,
       "learning_rate": 2.1492849620496414e-06,
-      "loss": 0.8118,
       "step": 6300
     },
     {
       "epoch": 0.256,
-      "grad_norm": 0.9559895396232605,
       "learning_rate": 2.13819237437937e-06,
-      "loss": 0.7959,
       "step": 6400
     },
     {
       "epoch": 0.26,
-      "grad_norm": 0.8455320000648499,
       "learning_rate": 2.126956683112842e-06,
-      "loss": 0.8254,
       "step": 6500
     },
     {
       "epoch": 0.264,
-      "grad_norm": 0.942471444606781,
       "learning_rate": 2.1155796985198495e-06,
-      "loss": 0.808,
       "step": 6600
     },
     {
       "epoch": 0.268,
-      "grad_norm": 0.8535305261611938,
       "learning_rate": 2.1040632536350573e-06,
-      "loss": 0.8182,
       "step": 6700
     },
     {
       "epoch": 0.272,
-      "grad_norm": 0.8879380226135254,
       "learning_rate": 2.092409203962663e-06,
-      "loss": 0.8177,
       "step": 6800
     },
     {
       "epoch": 0.276,
-      "grad_norm": 0.8684147000312805,
       "learning_rate": 2.080619427177443e-06,
-      "loss": 0.7982,
       "step": 6900
     },
     {
       "epoch": 0.28,
-      "grad_norm": 0.9437069892883301,
       "learning_rate": 2.0686958228222298e-06,
-      "loss": 0.7984,
       "step": 7000
     },
     {
       "epoch": 0.28,
-      "eval_loss": 1.530232548713684,
-      "eval_runtime": 99.3518,
-      "eval_samples_per_second": 137.844,
-      "eval_steps_per_second": 2.154,
       "step": 7000
     },
     {
       "epoch": 0.284,
-      "grad_norm": 0.9226755499839783,
       "learning_rate": 2.056640312001856e-06,
-      "loss": 0.8072,
       "step": 7100
     },
     {
       "epoch": 0.288,
-      "grad_norm": 0.9192745685577393,
       "learning_rate": 2.0444548370736335e-06,
-      "loss": 0.8081,
       "step": 7200
     },
     {
       "epoch": 0.292,
-      "grad_norm": 1.026985764503479,
       "learning_rate": 2.032141361334406e-06,
-      "loss": 0.8074,
       "step": 7300
     },
     {
       "epoch": 0.296,
-      "grad_norm": 0.8428290486335754,
       "learning_rate": 2.019701868704224e-06,
-      "loss": 0.8081,
       "step": 7400
     },
     {
       "epoch": 0.3,
-      "grad_norm": 0.9866459369659424,
       "learning_rate": 2.007138363406702e-06,
-      "loss": 0.8241,
       "step": 7500
     },
     {
       "epoch": 0.304,
-      "grad_norm": 0.9240759015083313,
       "learning_rate": 1.9944528696461016e-06,
-      "loss": 0.8089,
       "step": 7600
     },
     {
       "epoch": 0.308,
-      "grad_norm": 0.8980386853218079,
       "learning_rate": 1.9816474312811984e-06,
-      "loss": 0.7995,
       "step": 7700
     },
     {
       "epoch": 0.312,
-      "grad_norm": 0.9766695499420166,
       "learning_rate": 1.9687241114959753e-06,
-      "loss": 0.7969,
       "step": 7800
     },
     {
       "epoch": 0.316,
-      "grad_norm": 0.8739997148513794,
       "learning_rate": 1.955684992467211e-06,
-      "loss": 0.8053,
       "step": 7900
     },
     {
       "epoch": 0.32,
-      "grad_norm": 0.9071422219276428,
       "learning_rate": 1.942532175029003e-06,
-      "loss": 0.7896,
       "step": 8000
     },
     {
       "epoch": 0.32,
-      "eval_loss": 1.5243619680404663,
-      "eval_runtime": 99.5243,
-      "eval_samples_per_second": 137.605,
-      "eval_steps_per_second": 2.15,
       "step": 8000
     },
     {
       "epoch": 0.324,
-      "grad_norm": 0.9778127670288086,
       "learning_rate": 1.929267778334285e-06,
-      "loss": 0.7878,
       "step": 8100
     },
     {
       "epoch": 0.328,
-      "grad_norm": 0.9122934937477112,
       "learning_rate": 1.915893939513396e-06,
-      "loss": 0.7967,
       "step": 8200
     },
     {
       "epoch": 0.332,
-      "grad_norm": 0.90513676404953,
       "learning_rate": 1.9024128133297467e-06,
-      "loss": 0.8048,
       "step": 8300
     },
     {
       "epoch": 0.336,
-      "grad_norm": 0.9107154607772827,
       "learning_rate": 1.8888265718326532e-06,
-      "loss": 0.7944,
       "step": 8400
     },
     {
       "epoch": 0.34,
-      "grad_norm": 0.8964477777481079,
       "learning_rate": 1.8751374040073774e-06,
-      "loss": 0.7958,
       "step": 8500
     },
     {
       "epoch": 0.344,
-      "grad_norm": 0.9018213152885437,
       "learning_rate": 1.8613475154224456e-06,
-      "loss": 0.8065,
       "step": 8600
     },
     {
       "epoch": 0.348,
-      "grad_norm": 0.9653429985046387,
       "learning_rate": 1.8474591278742894e-06,
-      "loss": 0.8194,
       "step": 8700
     },
     {
       "epoch": 0.352,
-      "grad_norm": 0.9324017763137817,
       "learning_rate": 1.8334744790292766e-06,
-      "loss": 0.796,
       "step": 8800
     },
     {
       "epoch": 0.356,
-      "grad_norm": 1.0298709869384766,
       "learning_rate": 1.8193958220631833e-06,
-      "loss": 0.8268,
       "step": 8900
     },
     {
       "epoch": 0.36,
-      "grad_norm": 0.8846196532249451,
       "learning_rate": 1.805225425298166e-06,
-      "loss": 0.825,
       "step": 9000
     },
     {
       "epoch": 0.36,
-      "eval_loss": 1.5243308544158936,
-      "eval_runtime": 100.5198,
-      "eval_samples_per_second": 136.242,
-      "eval_steps_per_second": 2.129,
       "step": 9000
     },
     {
       "epoch": 0.364,
-      "grad_norm": 0.8830705881118774,
       "learning_rate": 1.790965571837296e-06,
-      "loss": 0.8233,
       "step": 9100
     },
     {
       "epoch": 0.368,
-      "grad_norm": 0.9197975993156433,
       "learning_rate": 1.7766185591967092e-06,
-      "loss": 0.8299,
       "step": 9200
     },
     {
       "epoch": 0.372,
-      "grad_norm": 1.0428673028945923,
       "learning_rate": 1.762186698935437e-06,
-      "loss": 0.8182,
       "step": 9300
     },
     {
       "epoch": 0.376,
-      "grad_norm": 0.9466006755828857,
       "learning_rate": 1.7476723162829723e-06,
-      "loss": 0.8255,
       "step": 9400
     },
     {
       "epoch": 0.38,
-      "grad_norm": 0.9237021803855896,
       "learning_rate": 1.7330777497646328e-06,
-      "loss": 0.7672,
       "step": 9500
     },
     {
       "epoch": 0.384,
-      "grad_norm": 0.917202353477478,
       "learning_rate": 1.7184053508247853e-06,
-      "loss": 0.8427,
       "step": 9600
     },
     {
       "epoch": 0.388,
-      "grad_norm": 0.9462612271308899,
       "learning_rate": 1.703657483447983e-06,
-      "loss": 0.8409,
       "step": 9700
     },
     {
       "epoch": 0.392,
-      "grad_norm": 0.8924245834350586,
       "learning_rate": 1.6888365237780886e-06,
-      "loss": 0.8335,
       "step": 9800
     },
     {
       "epoch": 0.396,
-      "grad_norm": 0.9719087481498718,
       "learning_rate": 1.6739448597354327e-06,
-      "loss": 0.826,
       "step": 9900
     },
     {
       "epoch": 0.4,
-      "grad_norm": 0.8893173336982727,
       "learning_rate": 1.6589848906320794e-06,
-      "loss": 0.8326,
       "step": 10000
     },
     {
       "epoch": 0.4,
-      "eval_loss": 1.5264792442321777,
-      "eval_runtime": 101.5699,
-      "eval_samples_per_second": 134.833,
-      "eval_steps_per_second": 2.107,
       "step": 10000
     },
     {
       "epoch": 0.404,
-      "grad_norm": 0.8719335198402405,
       "learning_rate": 1.6439590267852528e-06,
-      "loss": 0.8198,
       "step": 10100
     },
     {
       "epoch": 0.408,
-      "grad_norm": 0.8997857570648193,
       "learning_rate": 1.6288696891289938e-06,
-      "loss": 0.8103,
       "step": 10200
     },
     {
       "epoch": 0.412,
-      "grad_norm": 0.9756138920783997,
       "learning_rate": 1.6137193088241021e-06,
-      "loss": 0.8245,
       "step": 10300
     },
     {
       "epoch": 0.416,
-      "grad_norm": 1.009027123451233,
       "learning_rate": 1.598510326866435e-06,
-      "loss": 0.8226,
       "step": 10400
     },
     {
       "epoch": 0.42,
-      "grad_norm": 0.9941139221191406,
       "learning_rate": 1.583245193693619e-06,
-      "loss": 0.8154,
       "step": 10500
     },
     {
       "epoch": 0.424,
-      "grad_norm": 0.9156614542007446,
       "learning_rate": 1.5679263687902402e-06,
-      "loss": 0.8194,
       "step": 10600
     },
     {
       "epoch": 0.428,
-      "grad_norm": 0.9270005226135254,
       "learning_rate": 1.552556320291578e-06,
-      "loss": 0.8144,
       "step": 10700
     },
     {
       "epoch": 0.432,
-      "grad_norm": 0.9664807915687561,
       "learning_rate": 1.5371375245859446e-06,
-      "loss": 0.823,
       "step": 10800
     },
     {
       "epoch": 0.436,
-      "grad_norm": 0.9909628629684448,
       "learning_rate": 1.5216724659156944e-06,
-      "loss": 0.8319,
       "step": 10900
     },
     {
       "epoch": 0.44,
-      "grad_norm": 1.0144808292388916,
       "learning_rate": 1.506163635976969e-06,
-      "loss": 0.8272,
       "step": 11000
     },
     {
       "epoch": 0.44,
-      "eval_loss": 1.5209919214248657,
-      "eval_runtime": 101.3638,
-      "eval_samples_per_second": 135.107,
-      "eval_steps_per_second": 2.111,
       "step": 11000
     },
     {
       "epoch": 0.444,
-      "grad_norm": 0.9689117074012756,
       "learning_rate": 1.49061353351824e-06,
-      "loss": 0.8408,
       "step": 11100
     },
     {
       "epoch": 0.448,
-      "grad_norm": 1.0267921686172485,
       "learning_rate": 1.4750246639377161e-06,
-      "loss": 0.8362,
       "step": 11200
     },
     {
       "epoch": 0.452,
-      "grad_norm": 0.920600175857544,
       "learning_rate": 1.4593995388796797e-06,
-      "loss": 0.8343,
       "step": 11300
     },
     {
       "epoch": 0.456,
-      "grad_norm": 1.025995135307312,
       "learning_rate": 1.4437406758298156e-06,
-      "loss": 0.8255,
       "step": 11400
     },
     {
       "epoch": 0.46,
-      "grad_norm": 0.889402449131012,
       "learning_rate": 1.428050597709599e-06,
-      "loss": 0.839,
       "step": 11500
     },
     {
       "epoch": 0.464,
-      "grad_norm": 0.8957056999206543,
       "learning_rate": 1.412331832469809e-06,
-      "loss": 0.8304,
       "step": 11600
     },
     {
       "epoch": 0.468,
-      "grad_norm": 0.9389684796333313,
       "learning_rate": 1.39658691268323e-06,
-      "loss": 0.8523,
       "step": 11700
     },
     {
       "epoch": 0.472,
-      "grad_norm": 0.9115435481071472,
       "learning_rate": 1.3808183751366089e-06,
-      "loss": 0.8421,
       "step": 11800
     },
     {
       "epoch": 0.476,
-      "grad_norm": 0.9521908164024353,
       "learning_rate": 1.3650287604219342e-06,
-      "loss": 0.8704,
       "step": 11900
     },
     {
       "epoch": 0.48,
-      "grad_norm": 0.9166862964630127,
       "learning_rate": 1.3492206125271016e-06,
-      "loss": 0.8527,
       "step": 12000
     },
     {
       "epoch": 0.48,
-      "eval_loss": 1.5229912996292114,
-      "eval_runtime": 101.6086,
-      "eval_samples_per_second": 134.782,
-      "eval_steps_per_second": 2.106,
       "step": 12000
     },
     {
       "epoch": 0.484,
-      "grad_norm": 0.9557492733001709,
       "learning_rate": 1.333396478426031e-06,
-      "loss": 0.8499,
       "step": 12100
     },
     {
       "epoch": 0.488,
-      "grad_norm": 0.9957550764083862,
       "learning_rate": 1.317558907668306e-06,
-      "loss": 0.8534,
       "step": 12200
     },
     {
       "epoch": 0.492,
-      "grad_norm": 1.1370068788528442,
       "learning_rate": 1.3017104519683932e-06,
-      "loss": 0.8336,
       "step": 12300
     },
     {
       "epoch": 0.496,
-      "grad_norm": 0.9006808400154114,
       "learning_rate": 1.285853664794518e-06,
-      "loss": 0.8196,
       "step": 12400
     },
     {
       "epoch": 0.5,
-      "grad_norm": 0.9441719651222229,
       "learning_rate": 1.269991100957254e-06,
-      "loss": 0.844,
       "step": 12500
     },
     {
       "epoch": 0.504,
-      "grad_norm": 0.8616164922714233,
       "learning_rate": 1.2541253161978986e-06,
-      "loss": 0.8319,
       "step": 12600
     },
     {
       "epoch": 0.508,
-      "grad_norm": 0.9243165850639343,
       "learning_rate": 1.238258866776697e-06,
-      "loss": 0.8307,
       "step": 12700
     },
     {
       "epoch": 0.512,
-      "grad_norm": 0.9617546796798706,
       "learning_rate": 1.222394309060982e-06,
-      "loss": 0.8562,
       "step": 12800
     },
     {
       "epoch": 0.516,
-      "grad_norm": 0.8897221684455872,
       "learning_rate": 1.2065341991133013e-06,
-      "loss": 0.8344,
       "step": 12900
     },
     {
       "epoch": 0.52,
-      "grad_norm": 0.8364721536636353,
       "learning_rate": 1.1906810922795864e-06,
-      "loss": 0.8389,
       "step": 13000
     },
     {
       "epoch": 0.52,
-      "eval_loss": 1.5288289785385132,
-      "eval_runtime": 101.5647,
-      "eval_samples_per_second": 134.84,
-      "eval_steps_per_second": 2.107,
       "step": 13000
     },
     {
       "epoch": 0.524,
-      "grad_norm": 1.0084967613220215,
       "learning_rate": 1.1748375427774422e-06,
-      "loss": 0.8498,
       "step": 13100
     },
     {
       "epoch": 0.528,
-      "grad_norm": 0.9439749717712402,
       "learning_rate": 1.1590061032846182e-06,
-      "loss": 0.8509,
       "step": 13200
     },
     {
       "epoch": 0.532,
-      "grad_norm": 0.8930461406707764,
       "learning_rate": 1.1431893245277262e-06,
-      "loss": 0.8384,
       "step": 13300
     },
     {
       "epoch": 0.536,
-      "grad_norm": 1.0605283975601196,
       "learning_rate": 1.1273897548712726e-06,
-      "loss": 0.8557,
       "step": 13400
     },
     {
       "epoch": 0.54,
-      "grad_norm": 0.8892098069190979,
       "learning_rate": 1.11160993990707e-06,
-      "loss": 0.8378,
       "step": 13500
     },
     {
       "epoch": 0.544,
-      "grad_norm": 0.9008782505989075,
       "learning_rate": 1.0958524220440999e-06,
-      "loss": 0.8437,
       "step": 13600
     },
     {
       "epoch": 0.548,
-      "grad_norm": 0.8771668672561646,
       "learning_rate": 1.0801197400988838e-06,
-      "loss": 0.8512,
       "step": 13700
     },
     {
       "epoch": 0.552,
-      "grad_norm": 0.9245998859405518,
       "learning_rate": 1.0644144288864352e-06,
-      "loss": 0.8671,
       "step": 13800
     },
     {
       "epoch": 0.556,
-      "grad_norm": 0.9122968912124634,
       "learning_rate": 1.048739018811855e-06,
-      "loss": 0.8328,
       "step": 13900
     },
     {
       "epoch": 0.56,
-      "grad_norm": 0.9968782067298889,
       "learning_rate": 1.0330960354626384e-06,
-      "loss": 0.851,
       "step": 14000
     },
     {
       "epoch": 0.56,
-      "eval_loss": 1.5260618925094604,
-      "eval_runtime": 101.9042,
-      "eval_samples_per_second": 134.391,
-      "eval_steps_per_second": 2.1,
       "step": 14000
     },
     {
       "epoch": 0.564,
-      "grad_norm": 1.0338596105575562,
       "learning_rate": 1.0174879992017586e-06,
-      "loss": 0.8374,
       "step": 14100
     },
     {
       "epoch": 0.568,
-      "grad_norm": 0.9291728734970093,
       "learning_rate": 1.0019174247615919e-06,
-      "loss": 0.8356,
       "step": 14200
     },
     {
       "epoch": 0.572,
-      "grad_norm": 0.8955647945404053,
       "learning_rate": 9.863868208387473e-07,
-      "loss": 0.839,
       "step": 14300
     },
     {
       "epoch": 0.576,
-      "grad_norm": 0.9726178050041199,
       "learning_rate": 9.708986896898727e-07,
-      "loss": 0.8396,
       "step": 14400
     },
     {
       "epoch": 0.58,
-      "grad_norm": 0.9720205068588257,
       "learning_rate": 9.554555267284956e-07,
-      "loss": 0.8334,
       "step": 14500
     },
     {
       "epoch": 0.584,
-      "grad_norm": 0.9503899216651917,
       "learning_rate": 9.400598201229705e-07,
-      "loss": 0.8165,
       "step": 14600
     },
     {
       "epoch": 0.588,
-      "grad_norm": 0.8789735436439514,
       "learning_rate": 9.247140503955863e-07,
-      "loss": 0.8262,
       "step": 14700
     },
     {
       "epoch": 0.592,
-      "grad_norm": 1.4387589693069458,
       "learning_rate": 9.09420690022913e-07,
-      "loss": 0.8378,
       "step": 14800
     },
     {
       "epoch": 0.596,
-      "grad_norm": 1.1762765645980835,
       "learning_rate": 8.941822030374405e-07,
-      "loss": 0.8428,
       "step": 14900
     },
     {
       "epoch": 0.6,
-      "grad_norm": 0.880807638168335,
       "learning_rate": 8.790010446305814e-07,
-      "loss": 0.8254,
       "step": 15000
     },
     {
       "epoch": 0.6,
-      "eval_loss": 1.5283499956130981,
-      "eval_runtime": 103.2419,
-      "eval_samples_per_second": 132.65,
-      "eval_steps_per_second": 2.073,
       "step": 15000
     },
     {
       "epoch": 0.604,
-      "grad_norm": 0.9635188579559326,
       "learning_rate": 8.63879660757092e-07,
-      "loss": 0.798,
       "step": 15100
     },
     {
       "epoch": 0.608,
-      "grad_norm": 0.9472705721855164,
       "learning_rate": 8.488204877409884e-07,
-      "loss": 0.8033,
       "step": 15200
     },
     {
       "epoch": 0.612,
-      "grad_norm": 0.8378113508224487,
       "learning_rate": 8.338259518830106e-07,
-      "loss": 0.8012,
       "step": 15300
     },
     {
       "epoch": 0.616,
-      "grad_norm": 0.9451029300689697,
       "learning_rate": 8.18898469069703e-07,
-      "loss": 0.8047,
       "step": 15400
     },
     {
       "epoch": 0.62,
-      "grad_norm": 0.9609344005584717,
       "learning_rate": 8.040404443841701e-07,
-      "loss": 0.7927,
       "step": 15500
     },
     {
       "epoch": 0.624,
-      "grad_norm": 0.8947242498397827,
       "learning_rate": 7.892542717185766e-07,
-      "loss": 0.7885,
       "step": 15600
     },
     {
       "epoch": 0.628,
-      "grad_norm": 0.9105751514434814,
       "learning_rate": 7.745423333884483e-07,
-      "loss": 0.801,
       "step": 15700
     },
     {
       "epoch": 0.632,
-      "grad_norm": 0.899936854839325,
       "learning_rate": 7.599069997488386e-07,
-      "loss": 0.8005,
       "step": 15800
     },
     {
       "epoch": 0.636,
-      "grad_norm": 1.0273375511169434,
       "learning_rate": 7.453506288124224e-07,
-      "loss": 0.8015,
       "step": 15900
     },
     {
       "epoch": 0.64,
-      "grad_norm": 0.8960332274436951,
       "learning_rate": 7.308755658695775e-07,
-      "loss": 0.8074,
       "step": 16000
     },
     {
       "epoch": 0.64,
-      "eval_loss": 1.5343570709228516,
-      "eval_runtime": 102.3372,
-      "eval_samples_per_second": 133.822,
-      "eval_steps_per_second": 2.091,
       "step": 16000
     },
     {
       "epoch": 0.644,
-      "grad_norm": 0.8942509293556213,
       "learning_rate": 7.164841431105172e-07,
-      "loss": 0.796,
       "step": 16100
     },
     {
       "epoch": 0.648,
-      "grad_norm": 0.9353269934654236,
       "learning_rate": 7.021786792495325e-07,
-      "loss": 0.8196,
       "step": 16200
     },
     {
       "epoch": 0.652,
-      "grad_norm": 0.985683262348175,
       "learning_rate": 6.879614791514075e-07,
-      "loss": 0.808,
       "step": 16300
     },
     {
       "epoch": 0.656,
-      "grad_norm": 0.8981220722198486,
       "learning_rate": 6.738348334600634e-07,
-      "loss": 0.8015,
       "step": 16400
     },
     {
       "epoch": 0.66,
-      "grad_norm": 0.9412031173706055,
       "learning_rate": 6.598010182294938e-07,
-      "loss": 0.8009,
       "step": 16500
     },
     {
       "epoch": 0.664,
-      "grad_norm": 0.8926331996917725,
       "learning_rate": 6.458622945570538e-07,
-      "loss": 0.783,
       "step": 16600
     },
     {
       "epoch": 0.668,
-      "grad_norm": 0.8715830445289612,
       "learning_rate": 6.320209082191569e-07,
-      "loss": 0.8127,
       "step": 16700
     },
     {
       "epoch": 0.672,
-      "grad_norm": 0.8215272426605225,
       "learning_rate": 6.182790893094402e-07,
-      "loss": 0.7958,
       "step": 16800
     },
     {
       "epoch": 0.676,
-      "grad_norm": 0.9258244037628174,
       "learning_rate": 6.046390518794556e-07,
-      "loss": 0.7931,
       "step": 16900
     },
     {
       "epoch": 0.68,
-      "grad_norm": 0.8930866122245789,
       "learning_rate": 5.911029935819468e-07,
-      "loss": 0.7811,
       "step": 17000
     },
     {
       "epoch": 0.68,
-      "eval_loss": 1.5324440002441406,
-      "eval_runtime": 102.3251,
-      "eval_samples_per_second": 133.838,
-      "eval_steps_per_second": 2.091,
       "step": 17000
     },
     {
       "epoch": 0.684,
-      "grad_norm": 0.9415869116783142,
       "learning_rate": 5.776730953167705e-07,
-      "loss": 0.8003,
       "step": 17100
     },
     {
       "epoch": 0.688,
-      "grad_norm": 0.892819344997406,
       "learning_rate": 5.643515208795141e-07,
-      "loss": 0.7943,
       "step": 17200
     },
     {
       "epoch": 0.692,
-      "grad_norm": 0.9383297562599182,
       "learning_rate": 5.511404166128647e-07,
-      "loss": 0.7998,
       "step": 17300
     },
     {
       "epoch": 0.696,
-      "grad_norm": 0.8630228638648987,
       "learning_rate": 5.380419110608033e-07,
-      "loss": 0.7949,
       "step": 17400
     },
     {
       "epoch": 0.7,
-      "grad_norm": 0.9032106995582581,
       "learning_rate": 5.250581146256524e-07,
-      "loss": 0.7928,
       "step": 17500
     },
     {
-      "epoch": 0.704,
-      "grad_norm": 0.9039574265480042,
       "learning_rate": 5.121911192280557e-07,
-      "loss": 0.8012,
       "step": 17600
     },
     {
-      "epoch": 0.708,
-      "grad_norm": 0.9616802334785461,
       "learning_rate": 4.994429979699302e-07,
-      "loss": 0.7964,
       "step": 17700
     },
     {
-      "epoch": 0.712,
-      "grad_norm": 0.9427072405815125,
       "learning_rate": 4.868158048004537e-07,
-      "loss": 0.805,
       "step": 17800
     },
     {
-      "epoch": 0.716,
-      "grad_norm": 0.9399961829185486,
       "learning_rate": 4.743115741851383e-07,
-      "loss": 0.7913,
       "step": 17900
     },
     {
-      "epoch": 0.72,
-      "grad_norm": 0.8884769678115845,
       "learning_rate": 4.6193232077804006e-07,
-      "loss": 0.7985,
       "step": 18000
     },
     {
-      "epoch": 0.72,
-      "eval_loss": 1.5309633016586304,
-      "eval_runtime": 102.8962,
-      "eval_samples_per_second": 133.095,
-      "eval_steps_per_second": 2.08,
       "step": 18000
     },
     {
-      "epoch": 0.724,
-      "grad_norm": 0.9725548028945923,
       "learning_rate": 4.4968003909716243e-07,
-      "loss": 0.8162,
       "step": 18100
     },
     {
-      "epoch": 0.728,
-      "grad_norm": 1.0075186491012573,
       "learning_rate": 4.3755670320310443e-07,
-      "loss": 0.8054,
       "step": 18200
     },
     {
-      "epoch": 0.732,
-      "grad_norm": 0.8749048113822937,
       "learning_rate": 4.2556426638100555e-07,
-      "loss": 0.8056,
       "step": 18300
     },
     {
-      "epoch": 0.736,
-      "grad_norm": 0.9941290616989136,
       "learning_rate": 4.1370466082583353e-07,
-      "loss": 0.8052,
       "step": 18400
     },
     {
-      "epoch": 0.74,
-      "grad_norm": 0.8676705956459045,
       "learning_rate": 4.0197979733107755e-07,
-      "loss": 0.7861,
       "step": 18500
     },
     {
-      "epoch": 0.744,
-      "grad_norm": 0.9036993980407715,
       "learning_rate": 3.903915649808812e-07,
-      "loss": 0.8081,
       "step": 18600
     },
     {
-      "epoch": 0.748,
-      "grad_norm": 0.9067134261131287,
       "learning_rate": 3.789418308456812e-07,
-      "loss": 0.7956,
       "step": 18700
     },
     {
-      "epoch": 0.752,
-      "grad_norm": 0.8146563768386841,
       "learning_rate": 3.676324396813856e-07,
-      "loss": 0.8031,
       "step": 18800
     },
     {
-      "epoch": 0.756,
-      "grad_norm": 0.9973321557044983,
       "learning_rate": 3.5646521363215447e-07,
-      "loss": 0.794,
       "step": 18900
     },
     {
-      "epoch": 0.76,
-      "grad_norm": 0.9761902689933777,
       "learning_rate": 3.4544195193681615e-07,
-      "loss": 0.7816,
       "step": 19000
     },
     {
-      "epoch": 0.76,
-      "eval_loss": 1.5294893980026245,
-      "eval_runtime": 102.4113,
-      "eval_samples_per_second": 133.726,
-      "eval_steps_per_second": 2.09,
       "step": 19000
     },
     {
-      "epoch": 0.764,
-      "grad_norm": 0.8643273115158081,
       "learning_rate": 3.3456443063898157e-07,
-      "loss": 0.7917,
       "step": 19100
     },
     {
-      "epoch": 0.768,
-      "grad_norm": 0.9306071400642395,
       "learning_rate": 3.238344023008888e-07,
-      "loss": 0.8012,
       "step": 19200
     },
     {
-      "epoch": 0.772,
-      "grad_norm": 0.9324482083320618,
       "learning_rate": 3.132535957210366e-07,
-      "loss": 0.7929,
       "step": 19300
     },
     {
-      "epoch": 0.776,
-      "grad_norm": 0.8625467419624329,
       "learning_rate": 3.0282371565564324e-07,
-      "loss": 0.7815,
       "step": 19400
     },
     {
-      "epoch": 0.78,
-      "grad_norm": 0.8669098019599915,
       "learning_rate": 2.925464425439789e-07,
-      "loss": 0.8214,
       "step": 19500
     },
     {
-      "epoch": 0.784,
-      "grad_norm": 0.8781657814979553,
       "learning_rate": 2.824234322376185e-07,
-      "loss": 0.7941,
       "step": 19600
     },
     {
-      "epoch": 0.788,
-      "grad_norm": 0.8899013996124268,
       "learning_rate": 2.724563157336542e-07,
-      "loss": 0.7966,
       "step": 19700
     },
     {
-      "epoch": 0.792,
-      "grad_norm": 0.9773925542831421,
       "learning_rate": 2.626466989119131e-07,
-      "loss": 0.8009,
       "step": 19800
     },
     {
-      "epoch": 0.796,
-      "grad_norm": 0.912438690662384,
       "learning_rate": 2.5299616227621946e-07,
-      "loss": 0.7902,
       "step": 19900
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.9557161927223206,
       "learning_rate": 2.435062606997499e-07,
-      "loss": 0.7889,
       "step": 20000
     },
     {
-      "epoch": 0.8,
-      "eval_loss": 1.5292094945907593,
-      "eval_runtime": 102.5763,
-      "eval_samples_per_second": 133.51,
-      "eval_steps_per_second": 2.086,
       "step": 20000
     },
     {
-      "epoch": 0.804,
-      "grad_norm": 0.8561129570007324,
       "learning_rate": 2.3417852317451418e-07,
-      "loss": 0.8033,
       "step": 20100
     },
     {
-      "epoch": 0.808,
-      "grad_norm": 0.9422599673271179,
       "learning_rate": 2.250144525650086e-07,
-      "loss": 0.7985,
       "step": 20200
     },
     {
-      "epoch": 0.812,
-      "grad_norm": 0.8980026245117188,
       "learning_rate": 2.160155253660759e-07,
-      "loss": 0.7951,
       "step": 20300
     },
     {
-      "epoch": 0.816,
-      "grad_norm": 0.8675551414489746,
       "learning_rate": 2.071831914650173e-07,
-      "loss": 0.7994,
       "step": 20400
     },
     {
-      "epoch": 0.82,
-      "grad_norm": 0.8988806009292603,
       "learning_rate": 1.9851887390798922e-07,
-      "loss": 0.7875,
       "step": 20500
     },
     {
-      "epoch": 0.824,
-      "grad_norm": 0.9102202653884888,
       "learning_rate": 1.9002396867072587e-07,
-      "loss": 0.7993,
       "step": 20600
     },
     {
-      "epoch": 0.828,
-      "grad_norm": 0.9096868634223938,
       "learning_rate": 1.816998444336214e-07,
-      "loss": 0.7704,
       "step": 20700
     },
     {
-      "epoch": 0.832,
-      "grad_norm": 0.9461880922317505,
       "learning_rate": 1.7354784236121206e-07,
-      "loss": 0.7853,
       "step": 20800
     },
     {
-      "epoch": 0.836,
-      "grad_norm": 0.9219881296157837,
       "learning_rate": 1.6556927588609078e-07,
-      "loss": 0.7857,
       "step": 20900
     },
     {
-      "epoch": 0.84,
-      "grad_norm": 0.8964762687683105,
       "learning_rate": 1.577654304972899e-07,
-      "loss": 0.7872,
       "step": 21000
     },
     {
-      "epoch": 0.84,
-      "eval_loss": 1.524131178855896,
-      "eval_runtime": 102.4749,
-      "eval_samples_per_second": 133.642,
-      "eval_steps_per_second": 2.088,
       "step": 21000
     },
     {
-      "epoch": 0.844,
-      "grad_norm": 0.9355736970901489,
       "learning_rate": 1.501375635331652e-07,
-      "loss": 0.7957,
       "step": 21100
     },
     {
-      "epoch": 0.848,
-      "grad_norm": 0.8686819076538086,
       "learning_rate": 1.4268690397881675e-07,
-      "loss": 0.793,
       "step": 21200
     },
     {
-      "epoch": 0.852,
-      "grad_norm": 0.874756395816803,
       "learning_rate": 1.3541465226807813e-07,
-      "loss": 0.7878,
       "step": 21300
     },
     {
-      "epoch": 0.856,
-      "grad_norm": 0.9285154342651367,
       "learning_rate": 1.283219800901045e-07,
-      "loss": 0.7547,
       "step": 21400
     },
     {
-      "epoch": 0.86,
-      "grad_norm": 0.9496791958808899,
       "learning_rate": 1.2141003020059273e-07,
-      "loss": 0.7885,
       "step": 21500
     },
     {
-      "epoch": 0.864,
-      "grad_norm": 0.879410445690155,
       "learning_rate": 1.1467991623766287e-07,
-      "loss": 0.8123,
       "step": 21600
     },
     {
-      "epoch": 0.868,
-      "grad_norm": 0.942361056804657,
       "learning_rate": 1.081327225424321e-07,
-      "loss": 0.817,
       "step": 21700
     },
     {
-      "epoch": 0.872,
-      "grad_norm": 0.9548047184944153,
       "learning_rate": 1.0176950398430752e-07,
-      "loss": 0.7925,
       "step": 21800
     },
     {
-      "epoch": 0.876,
-      "grad_norm": 0.8643764853477478,
       "learning_rate": 9.559128579102767e-08,
-      "loss": 0.7985,
       "step": 21900
     },
     {
-      "epoch": 0.88,
-      "grad_norm": 0.9450801014900208,
       "learning_rate": 8.959906338348007e-08,
-      "loss": 0.7975,
       "step": 22000
     },
     {
-      "epoch": 0.88,
-      "eval_loss": 1.5321519374847412,
-      "eval_runtime": 103.5374,
-      "eval_samples_per_second": 132.271,
-      "eval_steps_per_second": 2.067,
       "step": 22000
     },
     {
-      "epoch": 0.884,
-      "grad_norm": 0.9130359292030334,
       "learning_rate": 8.37938022153223e-08,
-      "loss": 0.8005,
       "step": 22100
     },
     {
-      "epoch": 0.888,
-      "grad_norm": 0.8732690215110779,
       "learning_rate": 7.817643761742891e-08,
-      "loss": 0.7857,
       "step": 22200
     },
     {
-      "epoch": 0.892,
-      "grad_norm": 0.9094323515892029,
       "learning_rate": 7.274787464719338e-08,
-      "loss": 0.8096,
       "step": 22300
     },
     {
-      "epoch": 0.896,
-      "grad_norm": 0.8987523913383484,
       "learning_rate": 6.75089879427078e-08,
-      "loss": 0.8072,
       "step": 22400
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 0.9105306267738342,
       "learning_rate": 6.246062158184241e-08,
-      "loss": 0.7968,
       "step": 22500
     },
     {
-      "epoch": 0.904,
-      "grad_norm": 0.8889061808586121,
       "learning_rate": 5.7603588946250064e-08,
-      "loss": 0.7971,
       "step": 22600
     },
     {
-      "epoch": 0.908,
-      "grad_norm": 0.9296440482139587,
       "learning_rate": 5.293867259031568e-08,
-      "loss": 0.7896,
       "step": 22700
     },
     {
-      "epoch": 0.912,
-      "grad_norm": 1.0374181270599365,
       "learning_rate": 4.8466624115073164e-08,
-      "loss": 0.808,
       "step": 22800
     },
     {
-      "epoch": 1.00384,
-      "grad_norm": 0.8791893124580383,
       "learning_rate": 4.4188164047108403e-08,
-      "loss": 0.7835,
       "step": 22900
     },
     {
-      "epoch": 1.00784,
-      "grad_norm": 0.8789498209953308,
       "learning_rate": 4.010398172247104e-08,
-      "loss": 0.7987,
       "step": 23000
     },
     {
-      "epoch": 1.00784,
-      "eval_loss": 1.5310029983520508,
-      "eval_runtime": 101.8479,
-      "eval_samples_per_second": 134.465,
-      "eval_steps_per_second": 2.101,
       "step": 23000
     },
     {
-      "epoch": 1.01184,
-      "grad_norm": 0.9262071847915649,
       "learning_rate": 3.6214735175608004e-08,
-      "loss": 0.7966,
       "step": 23100
     },
     {
-      "epoch": 1.01584,
-      "grad_norm": 0.8986383676528931,
       "learning_rate": 3.252105103334499e-08,
-      "loss": 0.7954,
       "step": 23200
     },
     {
-      "epoch": 1.01984,
-      "grad_norm": 0.9548205733299255,
       "learning_rate": 2.9023524413923365e-08,
-      "loss": 0.7934,
       "step": 23300
     },
     {
-      "epoch": 1.02384,
-      "grad_norm": 0.9211428165435791,
       "learning_rate": 2.5722718831117656e-08,
-      "loss": 0.8068,
       "step": 23400
     },
     {
-      "epoch": 1.02784,
-      "grad_norm": 0.9240931272506714,
       "learning_rate": 2.26191661034425e-08,
-      "loss": 0.787,
       "step": 23500
     },
     {
-      "epoch": 1.03184,
-      "grad_norm": 0.9866804480552673,
       "learning_rate": 1.9713366268468148e-08,
-      "loss": 0.7929,
       "step": 23600
     },
     {
-      "epoch": 1.03584,
-      "grad_norm": 0.9947385787963867,
       "learning_rate": 1.700578750225432e-08,
-      "loss": 0.7973,
       "step": 23700
     },
     {
-      "epoch": 1.03984,
-      "grad_norm": 0.8872534036636353,
       "learning_rate": 1.4496866043919865e-08,
-      "loss": 0.7995,
       "step": 23800
     },
     {
-      "epoch": 1.04384,
-      "grad_norm": 0.8726480007171631,
       "learning_rate": 1.2187006125356087e-08,
-      "loss": 0.7929,
       "step": 23900
     },
     {
-      "epoch": 1.04784,
-      "grad_norm": 0.881963849067688,
       "learning_rate": 1.0076579906098255e-08,
-      "loss": 0.8044,
       "step": 24000
     },
     {
-      "epoch": 1.04784,
-      "eval_loss": 1.5276943445205688,
-      "eval_runtime": 99.4561,
-      "eval_samples_per_second": 137.699,
-      "eval_steps_per_second": 2.152,
       "step": 24000
     },
     {
-      "epoch": 1.0518399999999999,
-      "grad_norm": 0.8809722065925598,
       "learning_rate": 8.16592741336386e-09,
-      "loss": 0.7832,
       "step": 24100
     },
     {
-      "epoch": 1.05584,
-      "grad_norm": 0.8471363186836243,
       "learning_rate": 6.455356487267833e-09,
-      "loss": 0.7815,
       "step": 24200
     },
     {
-      "epoch": 1.05984,
-      "grad_norm": 0.9595879912376404,
       "learning_rate": 4.9451427312251224e-09,
-      "loss": 0.7943,
       "step": 24300
     },
     {
-      "epoch": 1.06384,
-      "grad_norm": 0.8937146663665771,
       "learning_rate": 3.635529467544696e-09,
-      "loss": 0.8066,
       "step": 24400
     },
     {
-      "epoch": 1.06784,
-      "grad_norm": 0.9749945998191833,
       "learning_rate": 2.526727698227288e-09,
-      "loss": 0.802,
       "step": 24500
     },
     {
-      "epoch": 1.07184,
-      "grad_norm": 0.919170081615448,
       "learning_rate": 1.6189160709680074e-09,
-      "loss": 0.79,
       "step": 24600
     },
     {
-      "epoch": 1.07584,
-      "grad_norm": 0.9579231142997742,
       "learning_rate": 9.122408503739466e-10,
-      "loss": 0.8092,
       "step": 24700
     },
     {
-      "epoch": 1.07984,
-      "grad_norm": 0.8257275223731995,
       "learning_rate": 4.0681589439789395e-10,
-      "loss": 0.8028,
       "step": 24800
     },
     {
-      "epoch": 1.08384,
-      "grad_norm": 0.8641030788421631,
       "learning_rate": 1.0272263599411803e-10,
-      "loss": 0.7852,
       "step": 24900
     },
     {
-      "epoch": 1.08784,
-      "grad_norm": 0.929093062877655,
       "learning_rate": 1.006999733599301e-14,
-      "loss": 0.7867,
       "step": 25000
     },
     {
-      "epoch": 1.08784,
-      "eval_loss": 1.5288399457931519,
-      "eval_runtime": 99.9402,
-      "eval_samples_per_second": 137.032,
-      "eval_steps_per_second": 2.141,
       "step": 25000
     }
   ],
@@ -1984,7 +1984,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3846277778817024e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.29912,
   "eval_steps": 1000,
   "global_step": 25000,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 4e-05,
+      "grad_norm": 0.8918513655662537,
       "learning_rate": 0.0,
+      "loss": 0.7598,
       "step": 1
     },
     {
       "epoch": 0.004,
+      "grad_norm": 0.884207010269165,
       "learning_rate": 9.9e-07,
+      "loss": 0.7961,
       "step": 100
     },
     {
       "epoch": 0.008,
+      "grad_norm": 1.007287621498108,
       "learning_rate": 1.9900000000000004e-06,
+      "loss": 0.7856,
       "step": 200
     },
     {
       "epoch": 0.012,
+      "grad_norm": 0.8807647228240967,
       "learning_rate": 2.4999758220143106e-06,
+      "loss": 0.7875,
       "step": 300
     },
     {
       "epoch": 0.016,
+      "grad_norm": 0.9170143008232117,
       "learning_rate": 2.4997764426529066e-06,
+      "loss": 0.7709,
       "step": 400
     },
     {
       "epoch": 0.02,
+      "grad_norm": 0.9494316577911377,
       "learning_rate": 2.499375702067717e-06,
+      "loss": 0.8038,
       "step": 500
     },
     {
       "epoch": 0.024,
+      "grad_norm": 0.8737604022026062,
       "learning_rate": 2.4987736648251815e-06,
+      "loss": 0.7807,
       "step": 600
     },
     {
       "epoch": 0.028,
+      "grad_norm": 0.9298632740974426,
       "learning_rate": 2.497970427924213e-06,
+      "loss": 0.7916,
       "step": 700
     },
     {
       "epoch": 0.032,
+      "grad_norm": 0.8767964243888855,
       "learning_rate": 2.496966120780569e-06,
+      "loss": 0.8052,
       "step": 800
     },
     {
       "epoch": 0.036,
+      "grad_norm": 0.9334876537322998,
       "learning_rate": 2.4957609052060012e-06,
+      "loss": 0.7916,
       "step": 900
     },
     {
       "epoch": 0.04,
+      "grad_norm": 0.8898613452911377,
       "learning_rate": 2.4943549753821847e-06,
+      "loss": 0.7895,
       "step": 1000
     },
     {
       "epoch": 0.04,
+      "eval_loss": 1.534223198890686,
+      "eval_runtime": 104.6575,
+      "eval_samples_per_second": 130.855,
+      "eval_steps_per_second": 2.045,
       "step": 1000
     },
     {
       "epoch": 0.044,
+      "grad_norm": 0.9141249656677246,
       "learning_rate": 2.4927485578294313e-06,
+      "loss": 0.7806,
       "step": 1100
     },
     {
       "epoch": 0.048,
+      "grad_norm": 0.891128659248352,
       "learning_rate": 2.4909419113701947e-06,
+      "loss": 0.794,
       "step": 1200
     },
     {
       "epoch": 0.052,
+      "grad_norm": 0.8805925846099854,
       "learning_rate": 2.4889353270873663e-06,
+      "loss": 0.7984,
       "step": 1300
     },
     {
       "epoch": 0.056,
+      "grad_norm": 0.9282805919647217,
       "learning_rate": 2.4867291282773805e-06,
+      "loss": 0.8041,
       "step": 1400
     },
     {
       "epoch": 0.06,
+      "grad_norm": 0.9669321179389954,
       "learning_rate": 2.4843236703981235e-06,
+      "loss": 0.7924,
       "step": 1500
     },
     {
       "epoch": 0.064,
+      "grad_norm": 0.891028106212616,
       "learning_rate": 2.481719341011662e-06,
+      "loss": 0.789,
       "step": 1600
     },
     {
       "epoch": 0.068,
+      "grad_norm": 0.8550590872764587,
       "learning_rate": 2.4789165597218035e-06,
+      "loss": 0.784,
       "step": 1700
     },
     {
       "epoch": 0.072,
+      "grad_norm": 0.8960260152816772,
       "learning_rate": 2.475915778106486e-06,
+      "loss": 0.7901,
       "step": 1800
     },
     {
       "epoch": 0.076,
+      "grad_norm": 0.940194845199585,
       "learning_rate": 2.4727174796450266e-06,
+      "loss": 0.7909,
       "step": 1900
     },
     {
       "epoch": 0.08,
+      "grad_norm": 0.9140194058418274,
       "learning_rate": 2.4693221796402166e-06,
+      "loss": 0.793,
       "step": 2000
     },
     {
       "epoch": 0.08,
+      "eval_loss": 1.5293817520141602,
+      "eval_runtime": 97.8828,
+      "eval_samples_per_second": 139.912,
+      "eval_steps_per_second": 2.186,
       "step": 2000
     },
     {
       "epoch": 0.084,
+      "grad_norm": 0.8168792128562927,
       "learning_rate": 2.4657304251353047e-06,
+      "loss": 0.8011,
       "step": 2100
     },
     {
       "epoch": 0.088,
+      "grad_norm": 0.9001737833023071,
       "learning_rate": 2.4619427948258547e-06,
+      "loss": 0.7997,
       "step": 2200
     },
     {
       "epoch": 0.092,
+      "grad_norm": 0.9699570536613464,
       "learning_rate": 2.4579598989665065e-06,
+      "loss": 0.797,
       "step": 2300
     },
     {
       "epoch": 0.096,
+      "grad_norm": 0.9276746511459351,
       "learning_rate": 2.453782379272657e-06,
+      "loss": 0.78,
       "step": 2400
     },
     {
       "epoch": 0.1,
+      "grad_norm": 0.8759055733680725,
       "learning_rate": 2.449410908817064e-06,
+      "loss": 0.7799,
       "step": 2500
     },
     {
       "epoch": 0.104,
+      "grad_norm": 0.860933244228363,
       "learning_rate": 2.444846191921406e-06,
+      "loss": 0.7884,
       "step": 2600
     },
     {
       "epoch": 0.108,
+      "grad_norm": 0.9049354195594788,
       "learning_rate": 2.4400889640427992e-06,
+      "loss": 0.7802,
       "step": 2700
     },
     {
       "epoch": 0.112,
+      "grad_norm": 0.9561330080032349,
       "learning_rate": 2.435139991655308e-06,
+      "loss": 0.7677,
       "step": 2800
     },
     {
       "epoch": 0.116,
+      "grad_norm": 0.9253368377685547,
       "learning_rate": 2.4300000721264466e-06,
+      "loss": 0.7845,
       "step": 2900
     },
     {
       "epoch": 0.12,
+      "grad_norm": 0.9350365400314331,
       "learning_rate": 2.4246700335887123e-06,
+      "loss": 0.783,
       "step": 3000
     },
     {
       "epoch": 0.12,
+      "eval_loss": 1.5278704166412354,
+      "eval_runtime": 98.3389,
+      "eval_samples_per_second": 139.263,
+      "eval_steps_per_second": 2.176,
       "step": 3000
     },
     {
       "epoch": 0.124,
+      "grad_norm": 0.8862438797950745,
       "learning_rate": 2.4191507348061575e-06,
+      "loss": 0.7816,
       "step": 3100
     },
     {
       "epoch": 0.128,
+      "grad_norm": 0.8396490812301636,
       "learning_rate": 2.4134430650360284e-06,
+      "loss": 0.783,
       "step": 3200
     },
     {
       "epoch": 0.132,
+      "grad_norm": 0.9647367596626282,
       "learning_rate": 2.407547943885489e-06,
+      "loss": 0.7829,
       "step": 3300
     },
     {
       "epoch": 0.136,
+      "grad_norm": 0.9121189713478088,
       "learning_rate": 2.4014663211634552e-06,
+      "loss": 0.8046,
       "step": 3400
     },
     {
       "epoch": 0.14,
+      "grad_norm": 0.9058841466903687,
       "learning_rate": 2.395199176727567e-06,
+      "loss": 0.7856,
       "step": 3500
     },
     {
       "epoch": 0.144,
+      "grad_norm": 0.9816420078277588,
       "learning_rate": 2.388747520326311e-06,
+      "loss": 0.7993,
       "step": 3600
     },
     {
       "epoch": 0.148,
+      "grad_norm": 0.9734699726104736,
       "learning_rate": 2.3821123914363374e-06,
+      "loss": 0.8116,
       "step": 3700
     },
     {
       "epoch": 0.152,
+      "grad_norm": 1.0234724283218384,
       "learning_rate": 2.3752948590949766e-06,
+      "loss": 0.8049,
       "step": 3800
     },
     {
       "epoch": 0.156,
+      "grad_norm": 0.9250158667564392,
       "learning_rate": 2.368296021728002e-06,
+      "loss": 0.8132,
       "step": 3900
     },
     {
       "epoch": 0.16,
+      "grad_norm": 0.8814631104469299,
       "learning_rate": 2.3611170069726532e-06,
+      "loss": 0.8051,
       "step": 4000
     },
     {
       "epoch": 0.16,
+      "eval_loss": 1.533823847770691,
+      "eval_runtime": 98.6455,
+      "eval_samples_per_second": 138.83,
+      "eval_steps_per_second": 2.169,
       "step": 4000
     },
     {
       "epoch": 0.164,
+      "grad_norm": 0.8858230710029602,
       "learning_rate": 2.3537589714959523e-06,
+      "loss": 0.8123,
       "step": 4100
     },
     {
       "epoch": 0.168,
+      "grad_norm": 0.9251588582992554,
       "learning_rate": 2.346223100808346e-06,
+      "loss": 0.7421,
       "step": 4200
     },
     {
       "epoch": 0.172,
+      "grad_norm": 0.9473935961723328,
       "learning_rate": 2.3385106090726974e-06,
+      "loss": 0.8236,
       "step": 4300
     },
     {
       "epoch": 0.176,
+      "grad_norm": 0.9739401936531067,
       "learning_rate": 2.330622738908663e-06,
+      "loss": 0.817,
       "step": 4400
     },
     {
       "epoch": 0.18,
+      "grad_norm": 0.8801769614219666,
       "learning_rate": 2.322560761192485e-06,
+      "loss": 0.8118,
       "step": 4500
     },
     {
       "epoch": 0.184,
+      "grad_norm": 0.9835686087608337,
       "learning_rate": 2.3143259748522308e-06,
+      "loss": 0.8223,
       "step": 4600
     },
     {
       "epoch": 0.188,
+      "grad_norm": 0.9962617754936218,
       "learning_rate": 2.3059197066585126e-06,
+      "loss": 0.8198,
       "step": 4700
     },
     {
       "epoch": 0.192,
+      "grad_norm": 0.9080422520637512,
       "learning_rate": 2.297343311010719e-06,
+      "loss": 0.8065,
       "step": 4800
     },
     {
       "epoch": 0.196,
+      "grad_norm": 0.922578752040863,
       "learning_rate": 2.2885981697188002e-06,
+      "loss": 0.7944,
       "step": 4900
     },
     {
       "epoch": 0.2,
+      "grad_norm": 1.0266526937484741,
       "learning_rate": 2.2796856917806313e-06,
+      "loss": 0.8053,
       "step": 5000
     },
     {
       "epoch": 0.2,
+      "eval_loss": 1.537758231163025,
+      "eval_runtime": 98.9909,
+      "eval_samples_per_second": 138.346,
       "eval_steps_per_second": 2.162,
       "step": 5000
     },
     {
       "epoch": 0.204,
+      "grad_norm": 0.9883342981338501,
       "learning_rate": 2.270607313155e-06,
+      "loss": 0.7974,
       "step": 5100
     },
     {
       "epoch": 0.208,
+      "grad_norm": 0.9677822589874268,
       "learning_rate": 2.2613644965302456e-06,
+      "loss": 0.8085,
       "step": 5200
     },
     {
       "epoch": 0.212,
+      "grad_norm": 0.9194427132606506,
       "learning_rate": 2.251958731088596e-06,
+      "loss": 0.812,
       "step": 5300
     },
     {
       "epoch": 0.216,
+      "grad_norm": 0.895246684551239,
       "learning_rate": 2.242391532266232e-06,
+      "loss": 0.7911,
       "step": 5400
     },
     {
       "epoch": 0.22,
+      "grad_norm": 0.8815901279449463,
       "learning_rate": 2.2326644415091264e-06,
+      "loss": 0.8114,
       "step": 5500
     },
     {
       "epoch": 0.224,
+      "grad_norm": 0.921257495880127,
       "learning_rate": 2.2227790260246856e-06,
+      "loss": 0.8107,
       "step": 5600
     },
     {
       "epoch": 0.228,
+      "grad_norm": 0.9411821365356445,
       "learning_rate": 2.2127368785292484e-06,
+      "loss": 0.8051,
       "step": 5700
     },
     {
       "epoch": 0.232,
+      "grad_norm": 0.9523917436599731,
       "learning_rate": 2.2025396169914697e-06,
+      "loss": 0.8324,
       "step": 5800
     },
     {
       "epoch": 0.236,
+      "grad_norm": 0.9265521764755249,
       "learning_rate": 2.1921888843716356e-06,
+      "loss": 0.8152,
       "step": 5900
     },
     {
       "epoch": 0.24,
+      "grad_norm": 0.8343620300292969,
       "learning_rate": 2.181686348356955e-06,
+      "loss": 0.8146,
       "step": 6000
     },
     {
       "epoch": 0.24,
+      "eval_loss": 1.5309844017028809,
+      "eval_runtime": 99.1981,
+      "eval_samples_per_second": 138.057,
+      "eval_steps_per_second": 2.157,
       "step": 6000
     },
     {
       "epoch": 0.244,
+      "grad_norm": 0.9226271510124207,
       "learning_rate": 2.1710337010928655e-06,
+      "loss": 0.8101,
       "step": 6100
     },
     {
       "epoch": 0.248,
+      "grad_norm": 0.9523386359214783,
       "learning_rate": 2.1602326589103967e-06,
+      "loss": 0.8236,
       "step": 6200
     },
     {
       "epoch": 0.252,
+      "grad_norm": 0.967309296131134,
       "learning_rate": 2.1492849620496414e-06,
+      "loss": 0.8101,
       "step": 6300
     },
     {
       "epoch": 0.256,
+      "grad_norm": 0.9258893132209778,
       "learning_rate": 2.13819237437937e-06,
+      "loss": 0.8379,
       "step": 6400
     },
     {
       "epoch": 0.26,
+      "grad_norm": 0.9850086569786072,
       "learning_rate": 2.126956683112842e-06,
+      "loss": 0.8156,
       "step": 6500
     },
     {
       "epoch": 0.264,
+      "grad_norm": 0.9868414998054504,
       "learning_rate": 2.1155796985198495e-06,
+      "loss": 0.8565,
       "step": 6600
     },
     {
       "epoch": 0.268,
+      "grad_norm": 0.9697744250297546,
       "learning_rate": 2.1040632536350573e-06,
+      "loss": 0.8287,
       "step": 6700
     },
     {
       "epoch": 0.272,
+      "grad_norm": 0.8494826555252075,
       "learning_rate": 2.092409203962663e-06,
+      "loss": 0.8363,
       "step": 6800
     },
     {
       "epoch": 0.276,
+      "grad_norm": 0.9729273915290833,
       "learning_rate": 2.080619427177443e-06,
+      "loss": 0.842,
       "step": 6900
     },
     {
       "epoch": 0.28,
+      "grad_norm": 0.8614193201065063,
       "learning_rate": 2.0686958228222298e-06,
+      "loss": 0.8083,
       "step": 7000
     },
     {
       "epoch": 0.28,
+      "eval_loss": 1.5380674600601196,
+      "eval_runtime": 99.1938,
+      "eval_samples_per_second": 138.063,
+      "eval_steps_per_second": 2.157,
       "step": 7000
     },
     {
       "epoch": 0.284,
+      "grad_norm": 0.886326253414154,
       "learning_rate": 2.056640312001856e-06,
+      "loss": 0.8144,
       "step": 7100
     },
     {
       "epoch": 0.288,
+      "grad_norm": 0.9302154183387756,
       "learning_rate": 2.0444548370736335e-06,
+      "loss": 0.8195,
       "step": 7200
     },
     {
       "epoch": 0.292,
+      "grad_norm": 0.9282687902450562,
       "learning_rate": 2.032141361334406e-06,
+      "loss": 0.8105,
       "step": 7300
     },
     {
       "epoch": 0.296,
+      "grad_norm": 0.9001493453979492,
       "learning_rate": 2.019701868704224e-06,
+      "loss": 0.8129,
       "step": 7400
     },
     {
       "epoch": 0.3,
+      "grad_norm": 1.1394405364990234,
       "learning_rate": 2.007138363406702e-06,
+      "loss": 0.8323,
       "step": 7500
     },
     {
       "epoch": 0.304,
+      "grad_norm": 0.8882161378860474,
       "learning_rate": 1.9944528696461016e-06,
+      "loss": 0.8335,
       "step": 7600
     },
     {
       "epoch": 0.308,
+      "grad_norm": 0.9058473110198975,
       "learning_rate": 1.9816474312811984e-06,
+      "loss": 0.8275,
       "step": 7700
     },
     {
       "epoch": 0.312,
+      "grad_norm": 0.8733384609222412,
       "learning_rate": 1.9687241114959753e-06,
+      "loss": 0.8153,
       "step": 7800
     },
     {
       "epoch": 0.316,
+      "grad_norm": 0.926038920879364,
       "learning_rate": 1.955684992467211e-06,
+      "loss": 0.8372,
       "step": 7900
     },
     {
       "epoch": 0.32,
+      "grad_norm": 0.8697761297225952,
       "learning_rate": 1.942532175029003e-06,
+      "loss": 0.8299,
       "step": 8000
     },
     {
       "epoch": 0.32,
+      "eval_loss": 1.533625602722168,
+      "eval_runtime": 99.4163,
+      "eval_samples_per_second": 137.754,
+      "eval_steps_per_second": 2.153,
       "step": 8000
     },
     {
       "epoch": 0.324,
+      "grad_norm": 0.8937378525733948,
       "learning_rate": 1.929267778334285e-06,
+      "loss": 0.833,
       "step": 8100
     },
     {
       "epoch": 0.328,
+      "grad_norm": 0.8287638425827026,
       "learning_rate": 1.915893939513396e-06,
+      "loss": 0.8177,
       "step": 8200
     },
     {
       "epoch": 0.332,
+      "grad_norm": 0.8690105080604553,
       "learning_rate": 1.9024128133297467e-06,
+      "loss": 0.8248,
       "step": 8300
     },
     {
       "epoch": 0.336,
+      "grad_norm": 0.8646178841590881,
       "learning_rate": 1.8888265718326532e-06,
+      "loss": 0.823,
       "step": 8400
     },
     {
       "epoch": 0.34,
+      "grad_norm": 0.9007936716079712,
       "learning_rate": 1.8751374040073774e-06,
+      "loss": 0.8452,
       "step": 8500
     },
     {
       "epoch": 0.344,
+      "grad_norm": 0.9151228666305542,
       "learning_rate": 1.8613475154224456e-06,
+      "loss": 0.8223,
       "step": 8600
     },
     {
       "epoch": 0.348,
+      "grad_norm": 0.9274579882621765,
       "learning_rate": 1.8474591278742894e-06,
+      "loss": 0.8319,
       "step": 8700
     },
     {
       "epoch": 0.352,
+      "grad_norm": 0.9464965462684631,
       "learning_rate": 1.8334744790292766e-06,
+      "loss": 0.8232,
       "step": 8800
     },
     {
       "epoch": 0.356,
+      "grad_norm": 0.9213349223136902,
       "learning_rate": 1.8193958220631833e-06,
+      "loss": 0.8256,
       "step": 8900
     },
     {
       "epoch": 0.36,
+      "grad_norm": 0.8790585994720459,
       "learning_rate": 1.805225425298166e-06,
+      "loss": 0.8155,
       "step": 9000
     },
     {
       "epoch": 0.36,
+      "eval_loss": 1.5332763195037842,
+      "eval_runtime": 99.7769,
+      "eval_samples_per_second": 137.256,
+      "eval_steps_per_second": 2.145,
       "step": 9000
     },
     {
       "epoch": 0.364,
+      "grad_norm": 0.8666992783546448,
       "learning_rate": 1.790965571837296e-06,
+      "loss": 0.8276,
       "step": 9100
     },
     {
       "epoch": 0.368,
+      "grad_norm": 0.9162755012512207,
       "learning_rate": 1.7766185591967092e-06,
+      "loss": 0.814,
       "step": 9200
     },
     {
       "epoch": 0.372,
+      "grad_norm": 0.849520206451416,
       "learning_rate": 1.762186698935437e-06,
+      "loss": 0.8035,
       "step": 9300
     },
     {
       "epoch": 0.376,
+      "grad_norm": 0.8899989724159241,
       "learning_rate": 1.7476723162829723e-06,
+      "loss": 0.8045,
       "step": 9400
     },
     {
       "epoch": 0.38,
+      "grad_norm": 0.9177680015563965,
       "learning_rate": 1.7330777497646328e-06,
+      "loss": 0.8203,
       "step": 9500
     },
     {
       "epoch": 0.384,
+      "grad_norm": 0.8827778100967407,
       "learning_rate": 1.7184053508247853e-06,
+      "loss": 0.8308,
       "step": 9600
     },
     {
       "epoch": 0.388,
+      "grad_norm": 0.9426102042198181,
       "learning_rate": 1.703657483447983e-06,
+      "loss": 0.8027,
       "step": 9700
     },
     {
       "epoch": 0.392,
+      "grad_norm": 1.2273017168045044,
       "learning_rate": 1.6888365237780886e-06,
+      "loss": 0.8023,
       "step": 9800
     },
     {
       "epoch": 0.396,
+      "grad_norm": 0.8210641145706177,
       "learning_rate": 1.6739448597354327e-06,
+      "loss": 0.7839,
       "step": 9900
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.96668940782547,
       "learning_rate": 1.6589848906320794e-06,
+      "loss": 0.7787,
       "step": 10000
     },
     {
       "epoch": 0.4,
+      "eval_loss": 1.536078929901123,
+      "eval_runtime": 100.89,
+      "eval_samples_per_second": 135.742,
+      "eval_steps_per_second": 2.121,
       "step": 10000
     },
     {
       "epoch": 0.404,
+      "grad_norm": 0.8324722051620483,
       "learning_rate": 1.6439590267852528e-06,
+      "loss": 0.7875,
       "step": 10100
     },
     {
       "epoch": 0.408,
+      "grad_norm": 0.8992891907691956,
       "learning_rate": 1.6288696891289938e-06,
+      "loss": 0.7833,
       "step": 10200
     },
     {
       "epoch": 0.412,
+      "grad_norm": 0.935984194278717,
       "learning_rate": 1.6137193088241021e-06,
+      "loss": 0.7715,
       "step": 10300
     },
     {
       "epoch": 0.416,
+      "grad_norm": 0.9280077815055847,
       "learning_rate": 1.598510326866435e-06,
+      "loss": 0.7841,
       "step": 10400
     },
     {
       "epoch": 0.42,
+      "grad_norm": 0.8835504055023193,
       "learning_rate": 1.583245193693619e-06,
+      "loss": 0.7851,
       "step": 10500
     },
     {
       "epoch": 0.424,
+      "grad_norm": 0.9455707669258118,
       "learning_rate": 1.5679263687902402e-06,
+      "loss": 0.789,
       "step": 10600
     },
     {
       "epoch": 0.428,
+      "grad_norm": 0.9059398770332336,
       "learning_rate": 1.552556320291578e-06,
+      "loss": 0.7905,
       "step": 10700
     },
     {
       "epoch": 0.432,
+      "grad_norm": 0.992311418056488,
       "learning_rate": 1.5371375245859446e-06,
+      "loss": 0.7824,
       "step": 10800
     },
     {
       "epoch": 0.436,
+      "grad_norm": 0.9719735383987427,
       "learning_rate": 1.5216724659156944e-06,
+      "loss": 0.7952,
       "step": 10900
     },
     {
       "epoch": 0.44,
+      "grad_norm": 0.879607617855072,
       "learning_rate": 1.506163635976969e-06,
+      "loss": 0.7901,
       "step": 11000
     },
     {
       "epoch": 0.44,
+      "eval_loss": 1.5309207439422607,
+      "eval_runtime": 101.145,
+      "eval_samples_per_second": 135.4,
+      "eval_steps_per_second": 2.116,
       "step": 11000
     },
     {
       "epoch": 0.444,
+      "grad_norm": 0.8977655172348022,
       "learning_rate": 1.49061353351824e-06,
+      "loss": 0.7903,
       "step": 11100
     },
     {
       "epoch": 0.448,
+      "grad_norm": 0.9356399178504944,
       "learning_rate": 1.4750246639377161e-06,
+      "loss": 0.7906,
       "step": 11200
     },
     {
       "epoch": 0.452,
+      "grad_norm": 0.9783302545547485,
       "learning_rate": 1.4593995388796797e-06,
+      "loss": 0.7658,
       "step": 11300
     },
     {
       "epoch": 0.456,
+      "grad_norm": 0.9520688652992249,
       "learning_rate": 1.4437406758298156e-06,
+      "loss": 0.7962,
       "step": 11400
     },
     {
       "epoch": 0.46,
+      "grad_norm": 0.9219170808792114,
       "learning_rate": 1.428050597709599e-06,
+      "loss": 0.7857,
       "step": 11500
     },
     {
       "epoch": 0.464,
+      "grad_norm": 0.973076343536377,
       "learning_rate": 1.412331832469809e-06,
+      "loss": 0.7711,
       "step": 11600
     },
     {
       "epoch": 0.468,
+      "grad_norm": 0.918262779712677,
       "learning_rate": 1.39658691268323e-06,
+      "loss": 0.7708,
       "step": 11700
     },
     {
       "epoch": 0.472,
+      "grad_norm": 0.8629575371742249,
       "learning_rate": 1.3808183751366089e-06,
+      "loss": 0.7785,
       "step": 11800
     },
     {
       "epoch": 0.476,
+      "grad_norm": 0.9668097496032715,
       "learning_rate": 1.3650287604219342e-06,
+      "loss": 0.7756,
       "step": 11900
     },
     {
       "epoch": 0.48,
+      "grad_norm": 0.8705388307571411,
       "learning_rate": 1.3492206125271016e-06,
+      "loss": 0.7856,
       "step": 12000
     },
     {
       "epoch": 0.48,
+      "eval_loss": 1.5304718017578125,
+      "eval_runtime": 101.3541,
+      "eval_samples_per_second": 135.12,
+      "eval_steps_per_second": 2.111,
       "step": 12000
     },
     {
       "epoch": 0.484,
+      "grad_norm": 0.9626092314720154,
       "learning_rate": 1.333396478426031e-06,
+      "loss": 0.7866,
       "step": 12100
     },
     {
       "epoch": 0.488,
+      "grad_norm": 0.9647358655929565,
       "learning_rate": 1.317558907668306e-06,
+      "loss": 0.7718,
       "step": 12200
     },
     {
       "epoch": 0.492,
+      "grad_norm": 0.8542793393135071,
       "learning_rate": 1.3017104519683932e-06,
+      "loss": 0.7894,
       "step": 12300
     },
     {
       "epoch": 0.496,
+      "grad_norm": 0.9130584001541138,
       "learning_rate": 1.285853664794518e-06,
+      "loss": 0.7854,
       "step": 12400
     },
     {
       "epoch": 0.5,
+      "grad_norm": 0.9400973320007324,
       "learning_rate": 1.269991100957254e-06,
+      "loss": 0.7803,
       "step": 12500
     },
     {
       "epoch": 0.504,
+      "grad_norm": 0.9699378609657288,
       "learning_rate": 1.2541253161978986e-06,
+      "loss": 0.7809,
       "step": 12600
     },
     {
       "epoch": 0.508,
+      "grad_norm": 0.9242445826530457,
       "learning_rate": 1.238258866776697e-06,
+      "loss": 0.7724,
       "step": 12700
     },
     {
       "epoch": 0.512,
+      "grad_norm": 0.899358868598938,
       "learning_rate": 1.222394309060982e-06,
+      "loss": 0.7883,
       "step": 12800
     },
     {
       "epoch": 0.516,
+      "grad_norm": 0.9915406107902527,
       "learning_rate": 1.2065341991133013e-06,
+      "loss": 0.7908,
       "step": 12900
     },
     {
       "epoch": 0.52,
+      "grad_norm": 0.9488005042076111,
       "learning_rate": 1.1906810922795864e-06,
+      "loss": 0.7955,
       "step": 13000
     },
     {
       "epoch": 0.52,
+      "eval_loss": 1.5362560749053955,
+      "eval_runtime": 101.5086,
+      "eval_samples_per_second": 134.915,
+      "eval_steps_per_second": 2.108,
       "step": 13000
     },
     {
       "epoch": 0.524,
+      "grad_norm": 0.9982778429985046,
       "learning_rate": 1.1748375427774422e-06,
+      "loss": 0.7781,
       "step": 13100
     },
     {
       "epoch": 0.528,
+      "grad_norm": 0.9015283584594727,
       "learning_rate": 1.1590061032846182e-06,
+      "loss": 0.7729,
       "step": 13200
     },
     {
       "epoch": 0.532,
+      "grad_norm": 0.9279696941375732,
       "learning_rate": 1.1431893245277262e-06,
+      "loss": 0.7818,
       "step": 13300
     },
     {
       "epoch": 0.536,
+      "grad_norm": 0.8429758548736572,
       "learning_rate": 1.1273897548712726e-06,
+      "loss": 0.7977,
       "step": 13400
     },
     {
       "epoch": 0.54,
+      "grad_norm": 0.9567962288856506,
       "learning_rate": 1.11160993990707e-06,
+      "loss": 0.7762,
       "step": 13500
     },
     {
       "epoch": 0.544,
+      "grad_norm": 0.8935989737510681,
       "learning_rate": 1.0958524220440999e-06,
+      "loss": 0.7862,
       "step": 13600
     },
     {
       "epoch": 0.548,
+      "grad_norm": 0.9136532545089722,
       "learning_rate": 1.0801197400988838e-06,
+      "loss": 0.7656,
       "step": 13700
     },
     {
       "epoch": 0.552,
+      "grad_norm": 0.9243994355201721,
       "learning_rate": 1.0644144288864352e-06,
+      "loss": 0.7751,
       "step": 13800
     },
     {
       "epoch": 0.556,
+      "grad_norm": 0.9153244495391846,
       "learning_rate": 1.048739018811855e-06,
+      "loss": 0.7776,
       "step": 13900
     },
     {
       "epoch": 0.56,
+      "grad_norm": 0.8624141812324524,
       "learning_rate": 1.0330960354626384e-06,
+      "loss": 0.7831,
       "step": 14000
     },
     {
       "epoch": 0.56,
+      "eval_loss": 1.5321879386901855,
+      "eval_runtime": 101.7151,
+      "eval_samples_per_second": 134.641,
+      "eval_steps_per_second": 2.104,
       "step": 14000
     },
     {
       "epoch": 0.564,
+      "grad_norm": 0.944176971912384,
       "learning_rate": 1.0174879992017586e-06,
+      "loss": 0.7646,
       "step": 14100
     },
     {
       "epoch": 0.568,
+      "grad_norm": 1.0256272554397583,
       "learning_rate": 1.0019174247615919e-06,
+      "loss": 0.7966,
       "step": 14200
     },
     {
       "epoch": 0.572,
+      "grad_norm": 1.0110539197921753,
       "learning_rate": 9.863868208387473e-07,
+      "loss": 0.7878,
       "step": 14300
     },
     {
       "epoch": 0.576,
+      "grad_norm": 0.9285057783126831,
       "learning_rate": 9.708986896898727e-07,
+      "loss": 0.7826,
       "step": 14400
     },
     {
       "epoch": 0.58,
+      "grad_norm": 0.9270790219306946,
       "learning_rate": 9.554555267284956e-07,
+      "loss": 0.7832,
       "step": 14500
     },
     {
       "epoch": 0.584,
+      "grad_norm": 0.901900053024292,
       "learning_rate": 9.400598201229705e-07,
+      "loss": 0.7747,
       "step": 14600
     },
     {
       "epoch": 0.588,
+      "grad_norm": 0.9428499341011047,
       "learning_rate": 9.247140503955863e-07,
+      "loss": 0.7724,
       "step": 14700
     },
     {
       "epoch": 0.592,
+      "grad_norm": 0.8610336780548096,
       "learning_rate": 9.09420690022913e-07,
+      "loss": 0.7818,
       "step": 14800
     },
     {
       "epoch": 0.596,
+      "grad_norm": 0.9091448783874512,
       "learning_rate": 8.941822030374405e-07,
+      "loss": 0.7833,
       "step": 14900
     },
     {
       "epoch": 0.6,
+      "grad_norm": 0.9281105995178223,
       "learning_rate": 8.790010446305814e-07,
+      "loss": 0.7762,
       "step": 15000
     },
     {
       "epoch": 0.6,
+      "eval_loss": 1.5338356494903564,
+      "eval_runtime": 101.6428,
+      "eval_samples_per_second": 134.736,
+      "eval_steps_per_second": 2.105,
       "step": 15000
     },
     {
       "epoch": 0.604,
+      "grad_norm": 0.9168809056282043,
       "learning_rate": 8.63879660757092e-07,
+      "loss": 0.7757,
       "step": 15100
     },
     {
       "epoch": 0.608,
+      "grad_norm": 0.9485521912574768,
       "learning_rate": 8.488204877409884e-07,
+      "loss": 0.7722,
       "step": 15200
     },
     {
       "epoch": 0.612,
+      "grad_norm": 0.9768329858779907,
       "learning_rate": 8.338259518830106e-07,
+      "loss": 0.7677,
       "step": 15300
     },
     {
       "epoch": 0.616,
+      "grad_norm": 0.9104267954826355,
       "learning_rate": 8.18898469069703e-07,
+      "loss": 0.7703,
       "step": 15400
     },
     {
       "epoch": 0.62,
+      "grad_norm": 0.9525657296180725,
       "learning_rate": 8.040404443841701e-07,
+      "loss": 0.7567,
       "step": 15500
     },
     {
       "epoch": 0.624,
+      "grad_norm": 0.8855301737785339,
       "learning_rate": 7.892542717185766e-07,
+      "loss": 0.7668,
       "step": 15600
     },
     {
       "epoch": 0.628,
+      "grad_norm": 0.9275020956993103,
       "learning_rate": 7.745423333884483e-07,
+      "loss": 0.77,
       "step": 15700
     },
     {
       "epoch": 0.632,
+      "grad_norm": 0.9016631841659546,
       "learning_rate": 7.599069997488386e-07,
+      "loss": 0.7769,
       "step": 15800
     },
     {
       "epoch": 0.636,
+      "grad_norm": 0.9669123291969299,
       "learning_rate": 7.453506288124224e-07,
+      "loss": 0.776,
       "step": 15900
     },
     {
       "epoch": 0.64,
+      "grad_norm": 0.9893669486045837,
       "learning_rate": 7.308755658695775e-07,
+      "loss": 0.7784,
       "step": 16000
     },
     {
       "epoch": 0.64,
+      "eval_loss": 1.5408803224563599,
+      "eval_runtime": 101.8477,
+      "eval_samples_per_second": 134.465,
+      "eval_steps_per_second": 2.101,
       "step": 16000
     },
     {
       "epoch": 0.644,
+      "grad_norm": 0.9406617879867554,
       "learning_rate": 7.164841431105172e-07,
+      "loss": 0.7253,
       "step": 16100
     },
     {
       "epoch": 0.648,
+      "grad_norm": 0.9569827914237976,
       "learning_rate": 7.021786792495325e-07,
+      "loss": 0.7643,
       "step": 16200
     },
     {
       "epoch": 0.652,
+      "grad_norm": 0.910629391670227,
       "learning_rate": 6.879614791514075e-07,
+      "loss": 0.7921,
       "step": 16300
     },
     {
       "epoch": 0.656,
+      "grad_norm": 0.9068129658699036,
       "learning_rate": 6.738348334600634e-07,
+      "loss": 0.7982,
       "step": 16400
     },
     {
       "epoch": 0.66,
+      "grad_norm": 0.9654185175895691,
       "learning_rate": 6.598010182294938e-07,
+      "loss": 0.7691,
       "step": 16500
     },
     {
       "epoch": 0.664,
+      "grad_norm": 0.8514201641082764,
       "learning_rate": 6.458622945570538e-07,
+      "loss": 0.7763,
       "step": 16600
     },
     {
       "epoch": 0.668,
+      "grad_norm": 0.9092292189598083,
       "learning_rate": 6.320209082191569e-07,
+      "loss": 0.7707,
       "step": 16700
     },
     {
       "epoch": 0.672,
+      "grad_norm": 0.9370847940444946,
       "learning_rate": 6.182790893094402e-07,
+      "loss": 0.7861,
       "step": 16800
     },
     {
       "epoch": 0.676,
+      "grad_norm": 0.9759059548377991,
       "learning_rate": 6.046390518794556e-07,
+      "loss": 0.7661,
       "step": 16900
     },
     {
       "epoch": 0.68,
+      "grad_norm": 0.9293698072433472,
       "learning_rate": 5.911029935819468e-07,
+      "loss": 0.7833,
       "step": 17000
     },
     {
       "epoch": 0.68,
+      "eval_loss": 1.5393362045288086,
+      "eval_runtime": 102.1612,
+      "eval_samples_per_second": 134.053,
+      "eval_steps_per_second": 2.095,
       "step": 17000
     },
     {
       "epoch": 0.684,
+      "grad_norm": 0.8583377003669739,
       "learning_rate": 5.776730953167705e-07,
+      "loss": 0.783,
       "step": 17100
     },
     {
       "epoch": 0.688,
+      "grad_norm": 0.9435706734657288,
       "learning_rate": 5.643515208795141e-07,
+      "loss": 0.7795,
       "step": 17200
     },
     {
       "epoch": 0.692,
+      "grad_norm": 0.9650281667709351,
       "learning_rate": 5.511404166128647e-07,
+      "loss": 0.7861,
       "step": 17300
     },
     {
       "epoch": 0.696,
+      "grad_norm": 0.8666310906410217,
       "learning_rate": 5.380419110608033e-07,
+      "loss": 0.7635,
       "step": 17400
     },
     {
       "epoch": 0.7,
+      "grad_norm": 0.9947652816772461,
       "learning_rate": 5.250581146256524e-07,
+      "loss": 0.7823,
       "step": 17500
     },
     {
+      "epoch": 1.00312,
+      "grad_norm": 0.9741705060005188,
       "learning_rate": 5.121911192280557e-07,
+      "loss": 0.7853,
       "step": 17600
     },
     {
+      "epoch": 1.00712,
+      "grad_norm": 0.9121885299682617,
       "learning_rate": 4.994429979699302e-07,
+      "loss": 0.7667,
       "step": 17700
     },
     {
+      "epoch": 1.01112,
+      "grad_norm": 0.9591026902198792,
       "learning_rate": 4.868158048004537e-07,
+      "loss": 0.7719,
       "step": 17800
     },
     {
+      "epoch": 1.01512,
+      "grad_norm": 0.8141223192214966,
       "learning_rate": 4.743115741851383e-07,
+      "loss": 0.7512,
       "step": 17900
     },
     {
+      "epoch": 1.01912,
+      "grad_norm": 0.9282773733139038,
       "learning_rate": 4.6193232077804006e-07,
+      "loss": 0.7685,
       "step": 18000
     },
     {
+      "epoch": 1.01912,
+      "eval_loss": 1.5338866710662842,
+      "eval_runtime": 101.9336,
+      "eval_samples_per_second": 134.352,
+      "eval_steps_per_second": 2.099,
       "step": 18000
     },
     {
+      "epoch": 1.02312,
+      "grad_norm": 0.9288948774337769,
       "learning_rate": 4.4968003909716243e-07,
+      "loss": 0.7806,
       "step": 18100
     },
     {
+      "epoch": 1.02712,
+      "grad_norm": 0.8646376729011536,
       "learning_rate": 4.3755670320310443e-07,
+      "loss": 0.7555,
       "step": 18200
     },
     {
+      "epoch": 1.03112,
+      "grad_norm": 0.9440610408782959,
       "learning_rate": 4.2556426638100555e-07,
+      "loss": 0.7835,
       "step": 18300
     },
     {
+      "epoch": 1.03512,
+      "grad_norm": 0.8950068354606628,
       "learning_rate": 4.1370466082583353e-07,
+      "loss": 0.7765,
       "step": 18400
     },
     {
+      "epoch": 1.03912,
+      "grad_norm": 0.9245269298553467,
       "learning_rate": 4.0197979733107755e-07,
+      "loss": 0.7707,
       "step": 18500
     },
     {
+      "epoch": 1.04312,
+      "grad_norm": 0.9309988021850586,
       "learning_rate": 3.903915649808812e-07,
+      "loss": 0.7608,
       "step": 18600
     },
     {
+      "epoch": 1.04712,
+      "grad_norm": 0.9837161898612976,
       "learning_rate": 3.789418308456812e-07,
+      "loss": 0.7731,
       "step": 18700
     },
     {
+      "epoch": 1.05112,
+      "grad_norm": 0.8932573795318604,
       "learning_rate": 3.676324396813856e-07,
+      "loss": 0.7901,
       "step": 18800
     },
     {
+      "epoch": 1.05512,
+      "grad_norm": 0.9325317144393921,
       "learning_rate": 3.5646521363215447e-07,
+      "loss": 0.771,
       "step": 18900
     },
     {
+      "epoch": 1.05912,
+      "grad_norm": 0.8987941741943359,
       "learning_rate": 3.4544195193681615e-07,
+      "loss": 0.779,
       "step": 19000
     },
     {
+      "epoch": 1.05912,
+      "eval_loss": 1.5388661623001099,
+      "eval_runtime": 99.4571,
+      "eval_samples_per_second": 137.698,
+      "eval_steps_per_second": 2.152,
       "step": 19000
     },
     {
+      "epoch": 1.06312,
+      "grad_norm": 0.9514444470405579,
       "learning_rate": 3.3456443063898157e-07,
+      "loss": 0.7715,
       "step": 19100
     },
     {
+      "epoch": 1.06712,
+      "grad_norm": 0.9194713234901428,
       "learning_rate": 3.238344023008888e-07,
+      "loss": 0.7666,
       "step": 19200
     },
     {
+      "epoch": 1.07112,
+      "grad_norm": 0.8961077928543091,
       "learning_rate": 3.132535957210366e-07,
+      "loss": 0.7686,
       "step": 19300
     },
     {
+      "epoch": 1.07512,
+      "grad_norm": 0.9342730045318604,
       "learning_rate": 3.0282371565564324e-07,
+      "loss": 0.7812,
       "step": 19400
     },
     {
+      "epoch": 1.07912,
+      "grad_norm": 0.8818745613098145,
       "learning_rate": 2.925464425439789e-07,
+      "loss": 0.7694,
       "step": 19500
     },
     {
+      "epoch": 1.08312,
+      "grad_norm": 0.8581619262695312,
       "learning_rate": 2.824234322376185e-07,
+      "loss": 0.7791,
       "step": 19600
     },
     {
+      "epoch": 1.08712,
+      "grad_norm": 1.0447196960449219,
       "learning_rate": 2.724563157336542e-07,
+      "loss": 0.7864,
       "step": 19700
     },
     {
+      "epoch": 1.09112,
+      "grad_norm": 0.9621513485908508,
       "learning_rate": 2.626466989119131e-07,
+      "loss": 0.7753,
       "step": 19800
     },
     {
+      "epoch": 1.09512,
+      "grad_norm": 1.0203659534454346,
       "learning_rate": 2.5299616227621946e-07,
+      "loss": 0.7626,
       "step": 19900
     },
     {
+      "epoch": 1.09912,
+      "grad_norm": 1.0235393047332764,
       "learning_rate": 2.435062606997499e-07,
+      "loss": 0.7727,
       "step": 20000
     },
     {
+      "epoch": 1.09912,
+      "eval_loss": 1.5318886041641235,
+      "eval_runtime": 99.8132,
+      "eval_samples_per_second": 137.206,
+      "eval_steps_per_second": 2.144,
       "step": 20000
     },
     {
+      "epoch": 1.10312,
+      "grad_norm": 0.9197788834571838,
       "learning_rate": 2.3417852317451418e-07,
+      "loss": 0.7668,
       "step": 20100
     },
     {
+      "epoch": 1.10712,
+      "grad_norm": 0.9011102914810181,
       "learning_rate": 2.250144525650086e-07,
+      "loss": 0.7605,
       "step": 20200
     },
     {
+      "epoch": 1.11112,
+      "grad_norm": 0.9056942462921143,
       "learning_rate": 2.160155253660759e-07,
+      "loss": 0.7541,
       "step": 20300
     },
     {
+      "epoch": 1.1151200000000001,
+      "grad_norm": 0.9336057305335999,
       "learning_rate": 2.071831914650173e-07,
+      "loss": 0.7635,
       "step": 20400
     },
     {
+      "epoch": 1.1191200000000001,
+      "grad_norm": 0.886619508266449,
       "learning_rate": 1.9851887390798922e-07,
+      "loss": 0.7738,
       "step": 20500
     },
     {
+      "epoch": 1.12312,
+      "grad_norm": 1.0144513845443726,
       "learning_rate": 1.9002396867072587e-07,
+      "loss": 0.7649,
       "step": 20600
     },
     {
+      "epoch": 1.1271200000000001,
+      "grad_norm": 1.0580683946609497,
       "learning_rate": 1.816998444336214e-07,
+      "loss": 0.7703,
       "step": 20700
     },
     {
+      "epoch": 1.13112,
+      "grad_norm": 0.9610932469367981,
       "learning_rate": 1.7354784236121206e-07,
+      "loss": 0.7649,
       "step": 20800
     },
     {
+      "epoch": 1.13512,
+      "grad_norm": 0.9152004718780518,
       "learning_rate": 1.6556927588609078e-07,
+      "loss": 0.7774,
       "step": 20900
     },
     {
+      "epoch": 1.13912,
+      "grad_norm": 0.9117056131362915,
       "learning_rate": 1.577654304972899e-07,
+      "loss": 0.7794,
       "step": 21000
     },
     {
+      "epoch": 1.13912,
+      "eval_loss": 1.5366367101669312,
+      "eval_runtime": 100.0918,
+      "eval_samples_per_second": 136.824,
+      "eval_steps_per_second": 2.138,
       "step": 21000
     },
     {
+      "epoch": 1.14312,
+      "grad_norm": 0.8991335034370422,
       "learning_rate": 1.501375635331652e-07,
+      "loss": 0.769,
       "step": 21100
     },
     {
+      "epoch": 1.14712,
+      "grad_norm": 0.9642401933670044,
       "learning_rate": 1.4268690397881675e-07,
+      "loss": 0.802,
       "step": 21200
     },
     {
+      "epoch": 1.15112,
+      "grad_norm": 0.986643373966217,
       "learning_rate": 1.3541465226807813e-07,
+      "loss": 0.7899,
       "step": 21300
     },
     {
+      "epoch": 1.15512,
+      "grad_norm": 1.0371657609939575,
       "learning_rate": 1.283219800901045e-07,
+      "loss": 0.7921,
       "step": 21400
     },
     {
+      "epoch": 1.15912,
+      "grad_norm": 0.9209062457084656,
       "learning_rate": 1.2141003020059273e-07,
+      "loss": 0.7882,
       "step": 21500
     },
     {
+      "epoch": 1.16312,
+      "grad_norm": 0.9286125898361206,
       "learning_rate": 1.1467991623766287e-07,
+      "loss": 0.7936,
       "step": 21600
     },
     {
+      "epoch": 1.16712,
+      "grad_norm": 0.9320632219314575,
       "learning_rate": 1.081327225424321e-07,
+      "loss": 0.7274,
       "step": 21700
     },
     {
+      "epoch": 1.17112,
+      "grad_norm": 0.9366289377212524,
       "learning_rate": 1.0176950398430752e-07,
+      "loss": 0.8088,
       "step": 21800
     },
     {
+      "epoch": 1.17512,
+      "grad_norm": 0.9981914162635803,
       "learning_rate": 9.559128579102767e-08,
+      "loss": 0.8001,
       "step": 21900
     },
     {
+      "epoch": 1.17912,
+      "grad_norm": 0.9554498791694641,
       "learning_rate": 8.959906338348007e-08,
+      "loss": 0.8014,
       "step": 22000
     },
     {
+      "epoch": 1.17912,
+      "eval_loss": 1.536007046699524,
+      "eval_runtime": 100.6846,
+      "eval_samples_per_second": 136.019,
+      "eval_steps_per_second": 2.125,
       "step": 22000
     },
     {
+      "epoch": 1.18312,
+      "grad_norm": 0.9604577422142029,
       "learning_rate": 8.37938022153223e-08,
+      "loss": 0.8021,
       "step": 22100
     },
     {
+      "epoch": 1.18712,
+      "grad_norm": 0.9202996492385864,
       "learning_rate": 7.817643761742891e-08,
+      "loss": 0.8013,
       "step": 22200
     },
     {
+      "epoch": 1.19112,
+      "grad_norm": 0.8438488841056824,
       "learning_rate": 7.274787464719338e-08,
+      "loss": 0.7858,
       "step": 22300
     },
     {
+      "epoch": 1.19512,
+      "grad_norm": 0.8734295964241028,
       "learning_rate": 6.75089879427078e-08,
+      "loss": 0.7898,
       "step": 22400
     },
     {
+      "epoch": 1.19912,
+      "grad_norm": 0.9023377299308777,
       "learning_rate": 6.246062158184241e-08,
+      "loss": 0.7807,
       "step": 22500
     },
     {
+      "epoch": 1.20312,
+      "grad_norm": 0.8997081518173218,
       "learning_rate": 5.7603588946250064e-08,
+      "loss": 0.8005,
       "step": 22600
     },
     {
+      "epoch": 1.20712,
+      "grad_norm": 0.8866868019104004,
       "learning_rate": 5.293867259031568e-08,
+      "loss": 0.7906,
       "step": 22700
     },
     {
+      "epoch": 1.21112,
+      "grad_norm": 1.0144649744033813,
       "learning_rate": 4.8466624115073164e-08,
+      "loss": 0.7948,
       "step": 22800
     },
     {
+      "epoch": 1.21512,
+      "grad_norm": 0.9594987034797668,
       "learning_rate": 4.4188164047108403e-08,
+      "loss": 0.7796,
       "step": 22900
     },
     {
+      "epoch": 1.21912,
+      "grad_norm": 0.9683875441551208,
       "learning_rate": 4.010398172247104e-08,
+      "loss": 0.7967,
       "step": 23000
     },
     {
+      "epoch": 1.21912,
+      "eval_loss": 1.5381661653518677,
+      "eval_runtime": 100.7572,
+      "eval_samples_per_second": 135.921,
+      "eval_steps_per_second": 2.124,
       "step": 23000
     },
     {
+      "epoch": 1.22312,
+      "grad_norm": 0.982801079750061,
       "learning_rate": 3.6214735175608004e-08,
+      "loss": 0.7876,
       "step": 23100
     },
     {
+      "epoch": 1.22712,
+      "grad_norm": 0.944310188293457,
       "learning_rate": 3.252105103334499e-08,
+      "loss": 0.8015,
       "step": 23200
     },
     {
+      "epoch": 1.23112,
+      "grad_norm": 1.016548991203308,
       "learning_rate": 2.9023524413923365e-08,
+      "loss": 0.8183,
       "step": 23300
     },
     {
+      "epoch": 1.23512,
+      "grad_norm": 0.9078572392463684,
       "learning_rate": 2.5722718831117656e-08,
+      "loss": 0.7934,
       "step": 23400
     },
     {
+      "epoch": 1.23912,
+      "grad_norm": 0.9393835067749023,
       "learning_rate": 2.26191661034425e-08,
+      "loss": 0.8127,
       "step": 23500
     },
     {
+      "epoch": 1.24312,
+      "grad_norm": 0.9347549080848694,
       "learning_rate": 1.9713366268468148e-08,
+      "loss": 0.7918,
       "step": 23600
     },
     {
+      "epoch": 1.24712,
+      "grad_norm": 0.9802634716033936,
       "learning_rate": 1.700578750225432e-08,
+      "loss": 0.8041,
       "step": 23700
     },
     {
+      "epoch": 1.25112,
+      "grad_norm": 0.9110268950462341,
       "learning_rate": 1.4496866043919865e-08,
+      "loss": 0.8109,
       "step": 23800
     },
     {
+      "epoch": 1.25512,
+      "grad_norm": 1.0479713678359985,
       "learning_rate": 1.2187006125356087e-08,
+      "loss": 0.8167,
       "step": 23900
     },
     {
+      "epoch": 1.25912,
+      "grad_norm": 0.9281754493713379,
       "learning_rate": 1.0076579906098255e-08,
+      "loss": 0.8093,
       "step": 24000
     },
     {
+      "epoch": 1.25912,
+      "eval_loss": 1.5352606773376465,
+      "eval_runtime": 100.7374,
+      "eval_samples_per_second": 135.948,
+      "eval_steps_per_second": 2.124,
       "step": 24000
     },
     {
+      "epoch": 1.26312,
+      "grad_norm": 0.9759633541107178,
       "learning_rate": 8.16592741336386e-09,
+      "loss": 0.848,
       "step": 24100
     },
     {
+      "epoch": 1.26712,
+      "grad_norm": 0.8610565066337585,
       "learning_rate": 6.455356487267833e-09,
+      "loss": 0.8128,
       "step": 24200
     },
     {
+      "epoch": 1.27112,
+      "grad_norm": 0.9373227953910828,
       "learning_rate": 4.9451427312251224e-09,
+      "loss": 0.8322,
       "step": 24300
     },
     {
+      "epoch": 1.27512,
+      "grad_norm": 0.9395922422409058,
       "learning_rate": 3.635529467544696e-09,
+      "loss": 0.828,
       "step": 24400
     },
     {
+      "epoch": 1.27912,
+      "grad_norm": 0.9699512720108032,
       "learning_rate": 2.526727698227288e-09,
+      "loss": 0.8161,
       "step": 24500
     },
     {
+      "epoch": 1.28312,
+      "grad_norm": 0.9437727332115173,
       "learning_rate": 1.6189160709680074e-09,
+      "loss": 0.8013,
       "step": 24600
     },
     {
+      "epoch": 1.28712,
+      "grad_norm": 0.9620960354804993,
       "learning_rate": 9.122408503739466e-10,
+      "loss": 0.8119,
       "step": 24700
     },
     {
+      "epoch": 1.29112,
+      "grad_norm": 0.8797083497047424,
       "learning_rate": 4.0681589439789395e-10,
+      "loss": 0.8052,
       "step": 24800
     },
     {
+      "epoch": 1.29512,
+      "grad_norm": 0.9612630605697632,
       "learning_rate": 1.0272263599411803e-10,
+      "loss": 0.8062,
       "step": 24900
     },
     {
+      "epoch": 1.29912,
+      "grad_norm": 1.0144433975219727,
       "learning_rate": 1.006999733599301e-14,
+      "loss": 0.8193,
       "step": 25000
     },
     {
+      "epoch": 1.29912,
+      "eval_loss": 1.534403920173645,
+      "eval_runtime": 101.277,
+      "eval_samples_per_second": 135.223,
+      "eval_steps_per_second": 2.113,
       "step": 25000
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 3.384632008699478e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8468e002e14d69abcb2f7de8e401f9fa2561c9e9f59ee528d9d623ec438f38ae
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f45ebc3b5cfb179371730040033cc60cf9d8216007feceb0c4d7cbbf1cda1e6
 size 5841