Training in progress, step 10000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1603 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5055764d8bf73f79ca7a428dd271da991268e85a2d9756a29b72f1bbefb9104a
 size 560983656

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c8e6799b936bbb72f55d38f901d37d73eb48aa2c7687d5081feb69086f1ca29
 size 560983656

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f66e663ef1782e6f78f2a436a2d29f26ecfb1c44e1adbfb0b37aba90dd2d164
 size 246053739

 version https://git-lfs.github.com/spec/v1
+oid sha256:8459e376ea931998d33c038080ed53ca14e8b5c5ec8f7e930035f963ea0160eb
 size 246053739

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97ee020279a22b6910a66d68f6a36548720e0f741299e197d68a0300097035d6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:713b57f62ca2b5f71e37e51f362f0a8f37b5504e2e104de0c5deeb68a0b57d4c
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0153ef62604f0a19d6db352c0efdd59e737e890fcf932261c593f4cb5173e799
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:581a3b97e73590097d6ffd55f019c06921d3c41b5bf808069d22c75dbddbf820
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2715b803771bb9f0f36fe0c01e062993d36b56f916510bbea310e555c567b4cf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b24df43f2a8c3c00021031b8f6e5b0ecb8e2da1059013876673704ecfc7bfbf7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.008392204648945687,
   "eval_steps": 50,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1608,6 +1608,1606 @@
       "eval_samples_per_second": 5.614,
       "eval_steps_per_second": 2.245,
       "step": 5000
     }
   ],
   "logging_steps": 50,
@@ -1627,7 +3227,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8043289130117280.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.016784409297891375,
   "eval_steps": 50,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.614,
       "eval_steps_per_second": 2.245,
       "step": 5000
+    },
+    {
+      "epoch": 0.008476126695435144,
+      "grad_norm": 6.474329471588135,
+      "learning_rate": 4.9576445431367715e-05,
+      "loss": 1.8228,
+      "step": 5050
+    },
+    {
+      "epoch": 0.008476126695435144,
+      "eval_loss": 1.4911173582077026,
+      "eval_masked_accuracy": 0.71875,
+      "eval_runtime": 1.8052,
+      "eval_samples_per_second": 5.54,
+      "eval_steps_per_second": 2.216,
+      "step": 5050
+    },
+    {
+      "epoch": 0.0085600487419246,
+      "grad_norm": 4.493051052093506,
+      "learning_rate": 4.9572249329043244e-05,
+      "loss": 1.5526,
+      "step": 5100
+    },
+    {
+      "epoch": 0.0085600487419246,
+      "eval_loss": 1.4060901403427124,
+      "eval_masked_accuracy": 0.7131474018096924,
+      "eval_runtime": 1.8193,
+      "eval_samples_per_second": 5.497,
+      "eval_steps_per_second": 2.199,
+      "step": 5100
+    },
+    {
+      "epoch": 0.008643970788414057,
+      "grad_norm": 5.657381057739258,
+      "learning_rate": 4.956805322671877e-05,
+      "loss": 1.5743,
+      "step": 5150
+    },
+    {
+      "epoch": 0.008643970788414057,
+      "eval_loss": 1.7347627878189087,
+      "eval_masked_accuracy": 0.6392694115638733,
+      "eval_runtime": 1.7632,
+      "eval_samples_per_second": 5.671,
+      "eval_steps_per_second": 2.269,
+      "step": 5150
+    },
+    {
+      "epoch": 0.008727892834903515,
+      "grad_norm": 5.059664726257324,
+      "learning_rate": 4.9563941046440784e-05,
+      "loss": 1.5923,
+      "step": 5200
+    },
+    {
+      "epoch": 0.008727892834903515,
+      "eval_loss": 1.7108001708984375,
+      "eval_masked_accuracy": 0.6759999990463257,
+      "eval_runtime": 1.7312,
+      "eval_samples_per_second": 5.776,
+      "eval_steps_per_second": 2.311,
+      "step": 5200
+    },
+    {
+      "epoch": 0.008811814881392972,
+      "grad_norm": 6.256536483764648,
+      "learning_rate": 4.955974494411631e-05,
+      "loss": 1.5454,
+      "step": 5250
+    },
+    {
+      "epoch": 0.008811814881392972,
+      "eval_loss": 1.8423763513565063,
+      "eval_masked_accuracy": 0.6590909361839294,
+      "eval_runtime": 1.7323,
+      "eval_samples_per_second": 5.773,
+      "eval_steps_per_second": 2.309,
+      "step": 5250
+    },
+    {
+      "epoch": 0.008895736927882428,
+      "grad_norm": 6.45760440826416,
+      "learning_rate": 4.955554884179184e-05,
+      "loss": 1.5381,
+      "step": 5300
+    },
+    {
+      "epoch": 0.008895736927882428,
+      "eval_loss": 1.8820030689239502,
+      "eval_masked_accuracy": 0.6486486196517944,
+      "eval_runtime": 1.7529,
+      "eval_samples_per_second": 5.705,
+      "eval_steps_per_second": 2.282,
+      "step": 5300
+    },
+    {
+      "epoch": 0.008979658974371885,
+      "grad_norm": 7.668667793273926,
+      "learning_rate": 4.955135273946737e-05,
+      "loss": 1.6363,
+      "step": 5350
+    },
+    {
+      "epoch": 0.008979658974371885,
+      "eval_loss": 1.631400465965271,
+      "eval_masked_accuracy": 0.7160493731498718,
+      "eval_runtime": 1.7511,
+      "eval_samples_per_second": 5.711,
+      "eval_steps_per_second": 2.284,
+      "step": 5350
+    },
+    {
+      "epoch": 0.009063581020861342,
+      "grad_norm": 7.2050018310546875,
+      "learning_rate": 4.954715663714289e-05,
+      "loss": 1.5738,
+      "step": 5400
+    },
+    {
+      "epoch": 0.009063581020861342,
+      "eval_loss": 1.5917881727218628,
+      "eval_masked_accuracy": 0.7405857443809509,
+      "eval_runtime": 1.75,
+      "eval_samples_per_second": 5.714,
+      "eval_steps_per_second": 2.286,
+      "step": 5400
+    },
+    {
+      "epoch": 0.0091475030673508,
+      "grad_norm": 6.094969749450684,
+      "learning_rate": 4.954296053481842e-05,
+      "loss": 1.7321,
+      "step": 5450
+    },
+    {
+      "epoch": 0.0091475030673508,
+      "eval_loss": 1.5327577590942383,
+      "eval_masked_accuracy": 0.707317054271698,
+      "eval_runtime": 1.7423,
+      "eval_samples_per_second": 5.74,
+      "eval_steps_per_second": 2.296,
+      "step": 5450
+    },
+    {
+      "epoch": 0.009231425113840256,
+      "grad_norm": 8.869881629943848,
+      "learning_rate": 4.953876443249395e-05,
+      "loss": 1.5768,
+      "step": 5500
+    },
+    {
+      "epoch": 0.009231425113840256,
+      "eval_loss": 1.3501726388931274,
+      "eval_masked_accuracy": 0.7801724076271057,
+      "eval_runtime": 1.7732,
+      "eval_samples_per_second": 5.64,
+      "eval_steps_per_second": 2.256,
+      "step": 5500
+    },
+    {
+      "epoch": 0.009315347160329713,
+      "grad_norm": 4.408574104309082,
+      "learning_rate": 4.9534568330169476e-05,
+      "loss": 1.5802,
+      "step": 5550
+    },
+    {
+      "epoch": 0.009315347160329713,
+      "eval_loss": 1.7055152654647827,
+      "eval_masked_accuracy": 0.6707317233085632,
+      "eval_runtime": 1.7418,
+      "eval_samples_per_second": 5.741,
+      "eval_steps_per_second": 2.296,
+      "step": 5550
+    },
+    {
+      "epoch": 0.00939926920681917,
+      "grad_norm": 5.3869147300720215,
+      "learning_rate": 4.9530372227845e-05,
+      "loss": 1.5547,
+      "step": 5600
+    },
+    {
+      "epoch": 0.00939926920681917,
+      "eval_loss": 1.3663699626922607,
+      "eval_masked_accuracy": 0.6974790096282959,
+      "eval_runtime": 1.7338,
+      "eval_samples_per_second": 5.768,
+      "eval_steps_per_second": 2.307,
+      "step": 5600
+    },
+    {
+      "epoch": 0.009483191253308626,
+      "grad_norm": 4.417982578277588,
+      "learning_rate": 4.9526176125520526e-05,
+      "loss": 1.5658,
+      "step": 5650
+    },
+    {
+      "epoch": 0.009483191253308626,
+      "eval_loss": 1.6572059392929077,
+      "eval_masked_accuracy": 0.6520000100135803,
+      "eval_runtime": 1.7583,
+      "eval_samples_per_second": 5.687,
+      "eval_steps_per_second": 2.275,
+      "step": 5650
+    },
+    {
+      "epoch": 0.009567113299798084,
+      "grad_norm": 5.2137861251831055,
+      "learning_rate": 4.9521980023196055e-05,
+      "loss": 1.5929,
+      "step": 5700
+    },
+    {
+      "epoch": 0.009567113299798084,
+      "eval_loss": 1.4574190378189087,
+      "eval_masked_accuracy": 0.6694560647010803,
+      "eval_runtime": 1.7352,
+      "eval_samples_per_second": 5.763,
+      "eval_steps_per_second": 2.305,
+      "step": 5700
+    },
+    {
+      "epoch": 0.00965103534628754,
+      "grad_norm": 6.848864555358887,
+      "learning_rate": 4.951778392087158e-05,
+      "loss": 1.6008,
+      "step": 5750
+    },
+    {
+      "epoch": 0.00965103534628754,
+      "eval_loss": 2.133417844772339,
+      "eval_masked_accuracy": 0.6540084481239319,
+      "eval_runtime": 1.8568,
+      "eval_samples_per_second": 5.386,
+      "eval_steps_per_second": 2.154,
+      "step": 5750
+    },
+    {
+      "epoch": 0.009734957392776997,
+      "grad_norm": 3.9827840328216553,
+      "learning_rate": 4.9513587818547105e-05,
+      "loss": 1.5811,
+      "step": 5800
+    },
+    {
+      "epoch": 0.009734957392776997,
+      "eval_loss": 1.403198003768921,
+      "eval_masked_accuracy": 0.7085201740264893,
+      "eval_runtime": 1.749,
+      "eval_samples_per_second": 5.717,
+      "eval_steps_per_second": 2.287,
+      "step": 5800
+    },
+    {
+      "epoch": 0.009818879439266454,
+      "grad_norm": 4.541887283325195,
+      "learning_rate": 4.950939171622263e-05,
+      "loss": 1.558,
+      "step": 5850
+    },
+    {
+      "epoch": 0.009818879439266454,
+      "eval_loss": 1.4281632900238037,
+      "eval_masked_accuracy": 0.7195122241973877,
+      "eval_runtime": 1.7523,
+      "eval_samples_per_second": 5.707,
+      "eval_steps_per_second": 2.283,
+      "step": 5850
+    },
+    {
+      "epoch": 0.00990280148575591,
+      "grad_norm": 8.121429443359375,
+      "learning_rate": 4.950519561389816e-05,
+      "loss": 1.5583,
+      "step": 5900
+    },
+    {
+      "epoch": 0.00990280148575591,
+      "eval_loss": 1.608547568321228,
+      "eval_masked_accuracy": 0.6582278609275818,
+      "eval_runtime": 1.7405,
+      "eval_samples_per_second": 5.745,
+      "eval_steps_per_second": 2.298,
+      "step": 5900
+    },
+    {
+      "epoch": 0.009986723532245369,
+      "grad_norm": 4.750977039337158,
+      "learning_rate": 4.950099951157369e-05,
+      "loss": 1.5378,
+      "step": 5950
+    },
+    {
+      "epoch": 0.009986723532245369,
+      "eval_loss": 1.3912121057510376,
+      "eval_masked_accuracy": 0.701298713684082,
+      "eval_runtime": 1.7623,
+      "eval_samples_per_second": 5.674,
+      "eval_steps_per_second": 2.27,
+      "step": 5950
+    },
+    {
+      "epoch": 0.010070645578734825,
+      "grad_norm": 4.445640563964844,
+      "learning_rate": 4.949680340924922e-05,
+      "loss": 1.5063,
+      "step": 6000
+    },
+    {
+      "epoch": 0.010070645578734825,
+      "eval_loss": 1.6513465642929077,
+      "eval_masked_accuracy": 0.6796537041664124,
+      "eval_runtime": 1.7424,
+      "eval_samples_per_second": 5.739,
+      "eval_steps_per_second": 2.296,
+      "step": 6000
+    },
+    {
+      "epoch": 0.010154567625224282,
+      "grad_norm": 13.394184112548828,
+      "learning_rate": 4.949260730692475e-05,
+      "loss": 1.5155,
+      "step": 6050
+    },
+    {
+      "epoch": 0.010154567625224282,
+      "eval_loss": 1.5842430591583252,
+      "eval_masked_accuracy": 0.6853448152542114,
+      "eval_runtime": 1.7416,
+      "eval_samples_per_second": 5.742,
+      "eval_steps_per_second": 2.297,
+      "step": 6050
+    },
+    {
+      "epoch": 0.010238489671713738,
+      "grad_norm": 7.441386699676514,
+      "learning_rate": 4.948841120460027e-05,
+      "loss": 1.5009,
+      "step": 6100
+    },
+    {
+      "epoch": 0.010238489671713738,
+      "eval_loss": 1.512109637260437,
+      "eval_masked_accuracy": 0.6987447738647461,
+      "eval_runtime": 1.7546,
+      "eval_samples_per_second": 5.699,
+      "eval_steps_per_second": 2.28,
+      "step": 6100
+    },
+    {
+      "epoch": 0.010322411718203195,
+      "grad_norm": 6.1988749504089355,
+      "learning_rate": 4.94842151022758e-05,
+      "loss": 1.5567,
+      "step": 6150
+    },
+    {
+      "epoch": 0.010322411718203195,
+      "eval_loss": 1.5210555791854858,
+      "eval_masked_accuracy": 0.7109375,
+      "eval_runtime": 1.7524,
+      "eval_samples_per_second": 5.707,
+      "eval_steps_per_second": 2.283,
+      "step": 6150
+    },
+    {
+      "epoch": 0.010406333764692651,
+      "grad_norm": 4.782381057739258,
+      "learning_rate": 4.9480018999951325e-05,
+      "loss": 1.6125,
+      "step": 6200
+    },
+    {
+      "epoch": 0.010406333764692651,
+      "eval_loss": 1.6434142589569092,
+      "eval_masked_accuracy": 0.6638655662536621,
+      "eval_runtime": 1.7489,
+      "eval_samples_per_second": 5.718,
+      "eval_steps_per_second": 2.287,
+      "step": 6200
+    },
+    {
+      "epoch": 0.01049025581118211,
+      "grad_norm": 5.14832878112793,
+      "learning_rate": 4.9475822897626854e-05,
+      "loss": 1.6089,
+      "step": 6250
+    },
+    {
+      "epoch": 0.01049025581118211,
+      "eval_loss": 1.239379644393921,
+      "eval_masked_accuracy": 0.7427386045455933,
+      "eval_runtime": 1.7532,
+      "eval_samples_per_second": 5.704,
+      "eval_steps_per_second": 2.282,
+      "step": 6250
+    },
+    {
+      "epoch": 0.010574177857671566,
+      "grad_norm": 5.390649795532227,
+      "learning_rate": 4.947162679530238e-05,
+      "loss": 1.6357,
+      "step": 6300
+    },
+    {
+      "epoch": 0.010574177857671566,
+      "eval_loss": 1.5129663944244385,
+      "eval_masked_accuracy": 0.692307710647583,
+      "eval_runtime": 1.7523,
+      "eval_samples_per_second": 5.707,
+      "eval_steps_per_second": 2.283,
+      "step": 6300
+    },
+    {
+      "epoch": 0.010658099904161023,
+      "grad_norm": 4.3327412605285645,
+      "learning_rate": 4.9467430692977904e-05,
+      "loss": 1.5318,
+      "step": 6350
+    },
+    {
+      "epoch": 0.010658099904161023,
+      "eval_loss": 1.7716737985610962,
+      "eval_masked_accuracy": 0.6942148804664612,
+      "eval_runtime": 1.7284,
+      "eval_samples_per_second": 5.786,
+      "eval_steps_per_second": 2.314,
+      "step": 6350
+    },
+    {
+      "epoch": 0.01074202195065048,
+      "grad_norm": 5.145776271820068,
+      "learning_rate": 4.946323459065343e-05,
+      "loss": 1.6081,
+      "step": 6400
+    },
+    {
+      "epoch": 0.01074202195065048,
+      "eval_loss": 1.6661970615386963,
+      "eval_masked_accuracy": 0.6882591247558594,
+      "eval_runtime": 1.7486,
+      "eval_samples_per_second": 5.719,
+      "eval_steps_per_second": 2.288,
+      "step": 6400
+    },
+    {
+      "epoch": 0.010825943997139936,
+      "grad_norm": 5.037006855010986,
+      "learning_rate": 4.945903848832896e-05,
+      "loss": 1.5028,
+      "step": 6450
+    },
+    {
+      "epoch": 0.010825943997139936,
+      "eval_loss": 1.4679136276245117,
+      "eval_masked_accuracy": 0.714893639087677,
+      "eval_runtime": 1.7514,
+      "eval_samples_per_second": 5.71,
+      "eval_steps_per_second": 2.284,
+      "step": 6450
+    },
+    {
+      "epoch": 0.010909866043629394,
+      "grad_norm": 5.618253707885742,
+      "learning_rate": 4.945484238600449e-05,
+      "loss": 1.5477,
+      "step": 6500
+    },
+    {
+      "epoch": 0.010909866043629394,
+      "eval_loss": 1.6666347980499268,
+      "eval_masked_accuracy": 0.7094017267227173,
+      "eval_runtime": 1.7486,
+      "eval_samples_per_second": 5.719,
+      "eval_steps_per_second": 2.288,
+      "step": 6500
+    },
+    {
+      "epoch": 0.01099378809011885,
+      "grad_norm": 14.34435749053955,
+      "learning_rate": 4.945064628368002e-05,
+      "loss": 1.6291,
+      "step": 6550
+    },
+    {
+      "epoch": 0.01099378809011885,
+      "eval_loss": 1.8381481170654297,
+      "eval_masked_accuracy": 0.6547085046768188,
+      "eval_runtime": 1.7548,
+      "eval_samples_per_second": 5.699,
+      "eval_steps_per_second": 2.279,
+      "step": 6550
+    },
+    {
+      "epoch": 0.011077710136608307,
+      "grad_norm": 4.846654891967773,
+      "learning_rate": 4.9446450181355546e-05,
+      "loss": 1.6077,
+      "step": 6600
+    },
+    {
+      "epoch": 0.011077710136608307,
+      "eval_loss": 1.5568077564239502,
+      "eval_masked_accuracy": 0.6872428059577942,
+      "eval_runtime": 1.7324,
+      "eval_samples_per_second": 5.772,
+      "eval_steps_per_second": 2.309,
+      "step": 6600
+    },
+    {
+      "epoch": 0.011161632183097764,
+      "grad_norm": 5.304859161376953,
+      "learning_rate": 4.944225407903107e-05,
+      "loss": 1.5758,
+      "step": 6650
+    },
+    {
+      "epoch": 0.011161632183097764,
+      "eval_loss": 1.3110054731369019,
+      "eval_masked_accuracy": 0.7312775254249573,
+      "eval_runtime": 1.7439,
+      "eval_samples_per_second": 5.734,
+      "eval_steps_per_second": 2.294,
+      "step": 6650
+    },
+    {
+      "epoch": 0.01124555422958722,
+      "grad_norm": 6.187143802642822,
+      "learning_rate": 4.9438057976706596e-05,
+      "loss": 1.5817,
+      "step": 6700
+    },
+    {
+      "epoch": 0.01124555422958722,
+      "eval_loss": 1.7989356517791748,
+      "eval_masked_accuracy": 0.6666666865348816,
+      "eval_runtime": 1.754,
+      "eval_samples_per_second": 5.701,
+      "eval_steps_per_second": 2.28,
+      "step": 6700
+    },
+    {
+      "epoch": 0.011329476276076679,
+      "grad_norm": 5.595826148986816,
+      "learning_rate": 4.9433861874382124e-05,
+      "loss": 1.6367,
+      "step": 6750
+    },
+    {
+      "epoch": 0.011329476276076679,
+      "eval_loss": 1.7425569295883179,
+      "eval_masked_accuracy": 0.6583333611488342,
+      "eval_runtime": 1.7467,
+      "eval_samples_per_second": 5.725,
+      "eval_steps_per_second": 2.29,
+      "step": 6750
+    },
+    {
+      "epoch": 0.011413398322566135,
+      "grad_norm": 4.125125408172607,
+      "learning_rate": 4.942966577205765e-05,
+      "loss": 1.641,
+      "step": 6800
+    },
+    {
+      "epoch": 0.011413398322566135,
+      "eval_loss": 1.728715181350708,
+      "eval_masked_accuracy": 0.6652892827987671,
+      "eval_runtime": 1.772,
+      "eval_samples_per_second": 5.643,
+      "eval_steps_per_second": 2.257,
+      "step": 6800
+    },
+    {
+      "epoch": 0.011497320369055592,
+      "grad_norm": 6.3898844718933105,
+      "learning_rate": 4.942546966973318e-05,
+      "loss": 1.6574,
+      "step": 6850
+    },
+    {
+      "epoch": 0.011497320369055592,
+      "eval_loss": 1.8261781930923462,
+      "eval_masked_accuracy": 0.6752136945724487,
+      "eval_runtime": 1.7446,
+      "eval_samples_per_second": 5.732,
+      "eval_steps_per_second": 2.293,
+      "step": 6850
+    },
+    {
+      "epoch": 0.011581242415545048,
+      "grad_norm": 5.9191155433654785,
+      "learning_rate": 4.942127356740871e-05,
+      "loss": 1.5732,
+      "step": 6900
+    },
+    {
+      "epoch": 0.011581242415545048,
+      "eval_loss": 1.2290430068969727,
+      "eval_masked_accuracy": 0.7573221921920776,
+      "eval_runtime": 1.7438,
+      "eval_samples_per_second": 5.735,
+      "eval_steps_per_second": 2.294,
+      "step": 6900
+    },
+    {
+      "epoch": 0.011665164462034505,
+      "grad_norm": 5.910600185394287,
+      "learning_rate": 4.941707746508423e-05,
+      "loss": 1.5018,
+      "step": 6950
+    },
+    {
+      "epoch": 0.011665164462034505,
+      "eval_loss": 1.3011202812194824,
+      "eval_masked_accuracy": 0.746835470199585,
+      "eval_runtime": 1.739,
+      "eval_samples_per_second": 5.751,
+      "eval_steps_per_second": 2.3,
+      "step": 6950
+    },
+    {
+      "epoch": 0.011749086508523963,
+      "grad_norm": 7.273187637329102,
+      "learning_rate": 4.941288136275976e-05,
+      "loss": 1.6083,
+      "step": 7000
+    },
+    {
+      "epoch": 0.011749086508523963,
+      "eval_loss": 1.7945482730865479,
+      "eval_masked_accuracy": 0.6719367504119873,
+      "eval_runtime": 1.7495,
+      "eval_samples_per_second": 5.716,
+      "eval_steps_per_second": 2.286,
+      "step": 7000
+    },
+    {
+      "epoch": 0.01183300855501342,
+      "grad_norm": 5.980038642883301,
+      "learning_rate": 4.940868526043529e-05,
+      "loss": 1.7157,
+      "step": 7050
+    },
+    {
+      "epoch": 0.01183300855501342,
+      "eval_loss": 1.6633656024932861,
+      "eval_masked_accuracy": 0.6859503984451294,
+      "eval_runtime": 1.7603,
+      "eval_samples_per_second": 5.681,
+      "eval_steps_per_second": 2.272,
+      "step": 7050
+    },
+    {
+      "epoch": 0.011916930601502876,
+      "grad_norm": 4.222002029418945,
+      "learning_rate": 4.9404489158110817e-05,
+      "loss": 1.4124,
+      "step": 7100
+    },
+    {
+      "epoch": 0.011916930601502876,
+      "eval_loss": 1.7207615375518799,
+      "eval_masked_accuracy": 0.6793248653411865,
+      "eval_runtime": 1.753,
+      "eval_samples_per_second": 5.704,
+      "eval_steps_per_second": 2.282,
+      "step": 7100
+    },
+    {
+      "epoch": 0.012000852647992333,
+      "grad_norm": 8.79937744140625,
+      "learning_rate": 4.9400293055786345e-05,
+      "loss": 1.5698,
+      "step": 7150
+    },
+    {
+      "epoch": 0.012000852647992333,
+      "eval_loss": 1.5078874826431274,
+      "eval_masked_accuracy": 0.7276119589805603,
+      "eval_runtime": 1.866,
+      "eval_samples_per_second": 5.359,
+      "eval_steps_per_second": 2.144,
+      "step": 7150
+    },
+    {
+      "epoch": 0.01208477469448179,
+      "grad_norm": 6.331279754638672,
+      "learning_rate": 4.939609695346187e-05,
+      "loss": 1.5354,
+      "step": 7200
+    },
+    {
+      "epoch": 0.01208477469448179,
+      "eval_loss": 1.3983685970306396,
+      "eval_masked_accuracy": 0.7590909004211426,
+      "eval_runtime": 1.7632,
+      "eval_samples_per_second": 5.672,
+      "eval_steps_per_second": 2.269,
+      "step": 7200
+    },
+    {
+      "epoch": 0.012168696740971246,
+      "grad_norm": 4.12935733795166,
+      "learning_rate": 4.9391900851137395e-05,
+      "loss": 1.4778,
+      "step": 7250
+    },
+    {
+      "epoch": 0.012168696740971246,
+      "eval_loss": 1.7603422403335571,
+      "eval_masked_accuracy": 0.686956524848938,
+      "eval_runtime": 1.7504,
+      "eval_samples_per_second": 5.713,
+      "eval_steps_per_second": 2.285,
+      "step": 7250
+    },
+    {
+      "epoch": 0.012252618787460704,
+      "grad_norm": 5.025778293609619,
+      "learning_rate": 4.9387704748812923e-05,
+      "loss": 1.5175,
+      "step": 7300
+    },
+    {
+      "epoch": 0.012252618787460704,
+      "eval_loss": 1.7313247919082642,
+      "eval_masked_accuracy": 0.6872428059577942,
+      "eval_runtime": 1.745,
+      "eval_samples_per_second": 5.731,
+      "eval_steps_per_second": 2.292,
+      "step": 7300
+    },
+    {
+      "epoch": 0.01233654083395016,
+      "grad_norm": 9.704473495483398,
+      "learning_rate": 4.938350864648845e-05,
+      "loss": 1.4634,
+      "step": 7350
+    },
+    {
+      "epoch": 0.01233654083395016,
+      "eval_loss": 1.271333932876587,
+      "eval_masked_accuracy": 0.7397260069847107,
+      "eval_runtime": 1.7484,
+      "eval_samples_per_second": 5.72,
+      "eval_steps_per_second": 2.288,
+      "step": 7350
+    },
+    {
+      "epoch": 0.012420462880439617,
+      "grad_norm": 6.080599308013916,
+      "learning_rate": 4.937931254416398e-05,
+      "loss": 1.5937,
+      "step": 7400
+    },
+    {
+      "epoch": 0.012420462880439617,
+      "eval_loss": 1.4850938320159912,
+      "eval_masked_accuracy": 0.7280701994895935,
+      "eval_runtime": 1.7517,
+      "eval_samples_per_second": 5.709,
+      "eval_steps_per_second": 2.284,
+      "step": 7400
+    },
+    {
+      "epoch": 0.012504384926929074,
+      "grad_norm": 3.824946880340576,
+      "learning_rate": 4.937511644183951e-05,
+      "loss": 1.6026,
+      "step": 7450
+    },
+    {
+      "epoch": 0.012504384926929074,
+      "eval_loss": 1.5267841815948486,
+      "eval_masked_accuracy": 0.7058823704719543,
+      "eval_runtime": 1.7438,
+      "eval_samples_per_second": 5.734,
+      "eval_steps_per_second": 2.294,
+      "step": 7450
+    },
+    {
+      "epoch": 0.01258830697341853,
+      "grad_norm": 4.5395989418029785,
+      "learning_rate": 4.937092033951503e-05,
+      "loss": 1.4575,
+      "step": 7500
+    },
+    {
+      "epoch": 0.01258830697341853,
+      "eval_loss": 1.4801056385040283,
+      "eval_masked_accuracy": 0.680672287940979,
+      "eval_runtime": 1.7409,
+      "eval_samples_per_second": 5.744,
+      "eval_steps_per_second": 2.298,
+      "step": 7500
+    },
+    {
+      "epoch": 0.012672229019907989,
+      "grad_norm": 6.853204250335693,
+      "learning_rate": 4.936672423719056e-05,
+      "loss": 1.4224,
+      "step": 7550
+    },
+    {
+      "epoch": 0.012672229019907989,
+      "eval_loss": 1.6892282962799072,
+      "eval_masked_accuracy": 0.6551724076271057,
+      "eval_runtime": 1.7414,
+      "eval_samples_per_second": 5.742,
+      "eval_steps_per_second": 2.297,
+      "step": 7550
+    },
+    {
+      "epoch": 0.012756151066397445,
+      "grad_norm": 5.53077507019043,
+      "learning_rate": 4.936252813486609e-05,
+      "loss": 1.6706,
+      "step": 7600
+    },
+    {
+      "epoch": 0.012756151066397445,
+      "eval_loss": 1.4235472679138184,
+      "eval_masked_accuracy": 0.7426160573959351,
+      "eval_runtime": 1.8082,
+      "eval_samples_per_second": 5.53,
+      "eval_steps_per_second": 2.212,
+      "step": 7600
+    },
+    {
+      "epoch": 0.012840073112886902,
+      "grad_norm": 4.5907087326049805,
+      "learning_rate": 4.9358332032541616e-05,
+      "loss": 1.6674,
+      "step": 7650
+    },
+    {
+      "epoch": 0.012840073112886902,
+      "eval_loss": 1.4942524433135986,
+      "eval_masked_accuracy": 0.7172995805740356,
+      "eval_runtime": 1.7449,
+      "eval_samples_per_second": 5.731,
+      "eval_steps_per_second": 2.292,
+      "step": 7650
+    },
+    {
+      "epoch": 0.012923995159376358,
+      "grad_norm": 8.004353523254395,
+      "learning_rate": 4.9354135930217144e-05,
+      "loss": 1.4294,
+      "step": 7700
+    },
+    {
+      "epoch": 0.012923995159376358,
+      "eval_loss": 1.7548024654388428,
+      "eval_masked_accuracy": 0.6547619104385376,
+      "eval_runtime": 1.7767,
+      "eval_samples_per_second": 5.628,
+      "eval_steps_per_second": 2.251,
+      "step": 7700
+    },
+    {
+      "epoch": 0.013007917205865815,
+      "grad_norm": 6.963031768798828,
+      "learning_rate": 4.934993982789267e-05,
+      "loss": 1.5078,
+      "step": 7750
+    },
+    {
+      "epoch": 0.013007917205865815,
+      "eval_loss": 1.4269187450408936,
+      "eval_masked_accuracy": 0.7027027010917664,
+      "eval_runtime": 1.7471,
+      "eval_samples_per_second": 5.724,
+      "eval_steps_per_second": 2.29,
+      "step": 7750
+    },
+    {
+      "epoch": 0.013091839252355273,
+      "grad_norm": 6.4043288230896,
+      "learning_rate": 4.9345743725568194e-05,
+      "loss": 1.604,
+      "step": 7800
+    },
+    {
+      "epoch": 0.013091839252355273,
+      "eval_loss": 1.4502145051956177,
+      "eval_masked_accuracy": 0.7172995805740356,
+      "eval_runtime": 1.748,
+      "eval_samples_per_second": 5.721,
+      "eval_steps_per_second": 2.288,
+      "step": 7800
+    },
+    {
+      "epoch": 0.01317576129884473,
+      "grad_norm": 5.293691158294678,
+      "learning_rate": 4.934154762324372e-05,
+      "loss": 1.6301,
+      "step": 7850
+    },
+    {
+      "epoch": 0.01317576129884473,
+      "eval_loss": 1.3547624349594116,
+      "eval_masked_accuracy": 0.7759336233139038,
+      "eval_runtime": 1.7437,
+      "eval_samples_per_second": 5.735,
+      "eval_steps_per_second": 2.294,
+      "step": 7850
+    },
+    {
+      "epoch": 0.013259683345334186,
+      "grad_norm": 7.364100933074951,
+      "learning_rate": 4.933735152091925e-05,
+      "loss": 1.5163,
+      "step": 7900
+    },
+    {
+      "epoch": 0.013259683345334186,
+      "eval_loss": 1.6089417934417725,
+      "eval_masked_accuracy": 0.6610878705978394,
+      "eval_runtime": 1.753,
+      "eval_samples_per_second": 5.704,
+      "eval_steps_per_second": 2.282,
+      "step": 7900
+    },
+    {
+      "epoch": 0.013343605391823643,
+      "grad_norm": 7.704033851623535,
+      "learning_rate": 4.933315541859478e-05,
+      "loss": 1.6564,
+      "step": 7950
+    },
+    {
+      "epoch": 0.013343605391823643,
+      "eval_loss": 1.4759953022003174,
+      "eval_masked_accuracy": 0.6958333253860474,
+      "eval_runtime": 1.7614,
+      "eval_samples_per_second": 5.677,
+      "eval_steps_per_second": 2.271,
+      "step": 7950
+    },
+    {
+      "epoch": 0.0134275274383131,
+      "grad_norm": 5.562460899353027,
+      "learning_rate": 4.932895931627031e-05,
+      "loss": 1.5703,
+      "step": 8000
+    },
+    {
+      "epoch": 0.0134275274383131,
+      "eval_loss": 1.735896348953247,
+      "eval_masked_accuracy": 0.6875,
+      "eval_runtime": 1.7493,
+      "eval_samples_per_second": 5.717,
+      "eval_steps_per_second": 2.287,
+      "step": 8000
+    },
+    {
+      "epoch": 0.013511449484802556,
+      "grad_norm": 8.801225662231445,
+      "learning_rate": 4.9324763213945836e-05,
+      "loss": 1.5328,
+      "step": 8050
+    },
+    {
+      "epoch": 0.013511449484802556,
+      "eval_loss": 1.2792503833770752,
+      "eval_masked_accuracy": 0.7292576432228088,
+      "eval_runtime": 1.7802,
+      "eval_samples_per_second": 5.617,
+      "eval_steps_per_second": 2.247,
+      "step": 8050
+    },
+    {
+      "epoch": 0.013595371531292014,
+      "grad_norm": 5.510076999664307,
+      "learning_rate": 4.932056711162136e-05,
+      "loss": 1.5086,
+      "step": 8100
+    },
+    {
+      "epoch": 0.013595371531292014,
+      "eval_loss": 1.811342477798462,
+      "eval_masked_accuracy": 0.6508620977401733,
+      "eval_runtime": 1.7772,
+      "eval_samples_per_second": 5.627,
+      "eval_steps_per_second": 2.251,
+      "step": 8100
+    },
+    {
+      "epoch": 0.01367929357778147,
+      "grad_norm": 4.370019912719727,
+      "learning_rate": 4.9316371009296886e-05,
+      "loss": 1.5992,
+      "step": 8150
+    },
+    {
+      "epoch": 0.01367929357778147,
+      "eval_loss": 1.7015224695205688,
+      "eval_masked_accuracy": 0.6945606470108032,
+      "eval_runtime": 1.7399,
+      "eval_samples_per_second": 5.747,
+      "eval_steps_per_second": 2.299,
+      "step": 8150
+    },
+    {
+      "epoch": 0.013763215624270927,
+      "grad_norm": 5.960280895233154,
+      "learning_rate": 4.9312174906972415e-05,
+      "loss": 1.6392,
+      "step": 8200
+    },
+    {
+      "epoch": 0.013763215624270927,
+      "eval_loss": 1.4644631147384644,
+      "eval_masked_accuracy": 0.7004830837249756,
+      "eval_runtime": 1.7493,
+      "eval_samples_per_second": 5.717,
+      "eval_steps_per_second": 2.287,
+      "step": 8200
+    },
+    {
+      "epoch": 0.013847137670760384,
+      "grad_norm": 5.401033878326416,
+      "learning_rate": 4.930797880464794e-05,
+      "loss": 1.6492,
+      "step": 8250
+    },
+    {
+      "epoch": 0.013847137670760384,
+      "eval_loss": 1.5244245529174805,
+      "eval_masked_accuracy": 0.688034176826477,
+      "eval_runtime": 1.7597,
+      "eval_samples_per_second": 5.683,
+      "eval_steps_per_second": 2.273,
+      "step": 8250
+    },
+    {
+      "epoch": 0.01393105971724984,
+      "grad_norm": 7.356916427612305,
+      "learning_rate": 4.930378270232347e-05,
+      "loss": 1.5673,
+      "step": 8300
+    },
+    {
+      "epoch": 0.01393105971724984,
+      "eval_loss": 1.4024368524551392,
+      "eval_masked_accuracy": 0.7016806602478027,
+      "eval_runtime": 1.7463,
+      "eval_samples_per_second": 5.726,
+      "eval_steps_per_second": 2.291,
+      "step": 8300
+    },
+    {
+      "epoch": 0.014014981763739299,
+      "grad_norm": 5.370472431182861,
+      "learning_rate": 4.929958659999899e-05,
+      "loss": 1.5267,
+      "step": 8350
+    },
+    {
+      "epoch": 0.014014981763739299,
+      "eval_loss": 1.7430174350738525,
+      "eval_masked_accuracy": 0.6653061509132385,
+      "eval_runtime": 1.7353,
+      "eval_samples_per_second": 5.763,
+      "eval_steps_per_second": 2.305,
+      "step": 8350
+    },
+    {
+      "epoch": 0.014098903810228755,
+      "grad_norm": 6.4656500816345215,
+      "learning_rate": 4.929539049767452e-05,
+      "loss": 1.5918,
+      "step": 8400
+    },
+    {
+      "epoch": 0.014098903810228755,
+      "eval_loss": 1.691054344177246,
+      "eval_masked_accuracy": 0.6849315166473389,
+      "eval_runtime": 1.746,
+      "eval_samples_per_second": 5.727,
+      "eval_steps_per_second": 2.291,
+      "step": 8400
+    },
+    {
+      "epoch": 0.014182825856718212,
+      "grad_norm": 5.481358051300049,
+      "learning_rate": 4.929119439535005e-05,
+      "loss": 1.5156,
+      "step": 8450
+    },
+    {
+      "epoch": 0.014182825856718212,
+      "eval_loss": 1.6469824314117432,
+      "eval_masked_accuracy": 0.6516393423080444,
+      "eval_runtime": 1.7423,
+      "eval_samples_per_second": 5.74,
+      "eval_steps_per_second": 2.296,
+      "step": 8450
+    },
+    {
+      "epoch": 0.014266747903207668,
+      "grad_norm": 4.755044937133789,
+      "learning_rate": 4.928699829302558e-05,
+      "loss": 1.5223,
+      "step": 8500
+    },
+    {
+      "epoch": 0.014266747903207668,
+      "eval_loss": 1.667824387550354,
+      "eval_masked_accuracy": 0.7068965435028076,
+      "eval_runtime": 1.7979,
+      "eval_samples_per_second": 5.562,
+      "eval_steps_per_second": 2.225,
+      "step": 8500
+    },
+    {
+      "epoch": 0.014350669949697125,
+      "grad_norm": 6.595943450927734,
+      "learning_rate": 4.928280219070111e-05,
+      "loss": 1.4699,
+      "step": 8550
+    },
+    {
+      "epoch": 0.014350669949697125,
+      "eval_loss": 1.2367641925811768,
+      "eval_masked_accuracy": 0.7447698712348938,
+      "eval_runtime": 1.7387,
+      "eval_samples_per_second": 5.752,
+      "eval_steps_per_second": 2.301,
+      "step": 8550
+    },
+    {
+      "epoch": 0.014434591996186583,
+      "grad_norm": 3.9210710525512695,
+      "learning_rate": 4.9278606088376635e-05,
+      "loss": 1.5695,
+      "step": 8600
+    },
+    {
+      "epoch": 0.014434591996186583,
+      "eval_loss": 1.3033006191253662,
+      "eval_masked_accuracy": 0.693965494632721,
+      "eval_runtime": 1.7554,
+      "eval_samples_per_second": 5.697,
+      "eval_steps_per_second": 2.279,
+      "step": 8600
+    },
+    {
+      "epoch": 0.01451851404267604,
+      "grad_norm": 4.682461261749268,
+      "learning_rate": 4.927440998605216e-05,
+      "loss": 1.5371,
+      "step": 8650
+    },
+    {
+      "epoch": 0.01451851404267604,
+      "eval_loss": 1.727216124534607,
+      "eval_masked_accuracy": 0.6639004349708557,
+      "eval_runtime": 1.7387,
+      "eval_samples_per_second": 5.751,
+      "eval_steps_per_second": 2.301,
+      "step": 8650
+    },
+    {
+      "epoch": 0.014602436089165496,
+      "grad_norm": 4.478100776672363,
+      "learning_rate": 4.9270213883727685e-05,
+      "loss": 1.5679,
+      "step": 8700
+    },
+    {
+      "epoch": 0.014602436089165496,
+      "eval_loss": 1.4694969654083252,
+      "eval_masked_accuracy": 0.7364016771316528,
+      "eval_runtime": 1.7474,
+      "eval_samples_per_second": 5.723,
+      "eval_steps_per_second": 2.289,
+      "step": 8700
+    },
+    {
+      "epoch": 0.014686358135654953,
+      "grad_norm": 8.149710655212402,
+      "learning_rate": 4.9266017781403214e-05,
+      "loss": 1.4814,
+      "step": 8750
+    },
+    {
+      "epoch": 0.014686358135654953,
+      "eval_loss": 1.9258610010147095,
+      "eval_masked_accuracy": 0.6228070259094238,
+      "eval_runtime": 1.7513,
+      "eval_samples_per_second": 5.71,
+      "eval_steps_per_second": 2.284,
+      "step": 8750
+    },
+    {
+      "epoch": 0.01477028018214441,
+      "grad_norm": 4.727016925811768,
+      "learning_rate": 4.926182167907874e-05,
+      "loss": 1.609,
+      "step": 8800
+    },
+    {
+      "epoch": 0.01477028018214441,
+      "eval_loss": 1.6111774444580078,
+      "eval_masked_accuracy": 0.6590038537979126,
+      "eval_runtime": 1.7579,
+      "eval_samples_per_second": 5.689,
+      "eval_steps_per_second": 2.275,
+      "step": 8800
+    },
+    {
+      "epoch": 0.014854202228633867,
+      "grad_norm": 5.348945140838623,
+      "learning_rate": 4.925762557675427e-05,
+      "loss": 1.5557,
+      "step": 8850
+    },
+    {
+      "epoch": 0.014854202228633867,
+      "eval_loss": 1.3535053730010986,
+      "eval_masked_accuracy": 0.7245762944221497,
+      "eval_runtime": 1.8639,
+      "eval_samples_per_second": 5.365,
+      "eval_steps_per_second": 2.146,
+      "step": 8850
+    },
+    {
+      "epoch": 0.014938124275123324,
+      "grad_norm": 6.573589324951172,
+      "learning_rate": 4.92534294744298e-05,
+      "loss": 1.6389,
+      "step": 8900
+    },
+    {
+      "epoch": 0.014938124275123324,
+      "eval_loss": 1.8509418964385986,
+      "eval_masked_accuracy": 0.7085201740264893,
+      "eval_runtime": 1.7536,
+      "eval_samples_per_second": 5.703,
+      "eval_steps_per_second": 2.281,
+      "step": 8900
+    },
+    {
+      "epoch": 0.01502204632161278,
+      "grad_norm": 7.373574256896973,
+      "learning_rate": 4.924923337210532e-05,
+      "loss": 1.4773,
+      "step": 8950
+    },
+    {
+      "epoch": 0.01502204632161278,
+      "eval_loss": 1.7772554159164429,
+      "eval_masked_accuracy": 0.6640625,
+      "eval_runtime": 1.7655,
+      "eval_samples_per_second": 5.664,
+      "eval_steps_per_second": 2.266,
+      "step": 8950
+    },
+    {
+      "epoch": 0.015105968368102237,
+      "grad_norm": 5.861003875732422,
+      "learning_rate": 4.924503726978085e-05,
+      "loss": 1.3842,
+      "step": 9000
+    },
+    {
+      "epoch": 0.015105968368102237,
+      "eval_loss": 1.6182334423065186,
+      "eval_masked_accuracy": 0.7183098793029785,
+      "eval_runtime": 1.7386,
+      "eval_samples_per_second": 5.752,
+      "eval_steps_per_second": 2.301,
+      "step": 9000
+    },
+    {
+      "epoch": 0.015189890414591694,
+      "grad_norm": 5.086306571960449,
+      "learning_rate": 4.924084116745638e-05,
+      "loss": 1.6445,
+      "step": 9050
+    },
+    {
+      "epoch": 0.015189890414591694,
+      "eval_loss": 1.3457679748535156,
+      "eval_masked_accuracy": 0.752293586730957,
+      "eval_runtime": 1.7595,
+      "eval_samples_per_second": 5.684,
+      "eval_steps_per_second": 2.273,
+      "step": 9050
+    },
+    {
+      "epoch": 0.01527381246108115,
+      "grad_norm": 7.099021911621094,
+      "learning_rate": 4.9236645065131906e-05,
+      "loss": 1.5536,
+      "step": 9100
+    },
+    {
+      "epoch": 0.01527381246108115,
+      "eval_loss": 1.8317623138427734,
+      "eval_masked_accuracy": 0.6588628888130188,
+      "eval_runtime": 1.8424,
+      "eval_samples_per_second": 5.428,
+      "eval_steps_per_second": 2.171,
+      "step": 9100
+    },
+    {
+      "epoch": 0.015357734507570608,
+      "grad_norm": 6.620283126831055,
+      "learning_rate": 4.9232448962807434e-05,
+      "loss": 1.5151,
+      "step": 9150
+    },
+    {
+      "epoch": 0.015357734507570608,
+      "eval_loss": 1.4230843782424927,
+      "eval_masked_accuracy": 0.700421929359436,
+      "eval_runtime": 1.7611,
+      "eval_samples_per_second": 5.678,
+      "eval_steps_per_second": 2.271,
+      "step": 9150
+    },
+    {
+      "epoch": 0.015441656554060065,
+      "grad_norm": 7.231357097625732,
+      "learning_rate": 4.922825286048296e-05,
+      "loss": 1.6078,
+      "step": 9200
+    },
+    {
+      "epoch": 0.015441656554060065,
+      "eval_loss": 1.7547998428344727,
+      "eval_masked_accuracy": 0.6745283007621765,
+      "eval_runtime": 1.8328,
+      "eval_samples_per_second": 5.456,
+      "eval_steps_per_second": 2.182,
+      "step": 9200
+    },
+    {
+      "epoch": 0.015525578600549522,
+      "grad_norm": 4.755532264709473,
+      "learning_rate": 4.9224140680204975e-05,
+      "loss": 1.5938,
+      "step": 9250
+    },
+    {
+      "epoch": 0.015525578600549522,
+      "eval_loss": 1.3346257209777832,
+      "eval_masked_accuracy": 0.7244444489479065,
+      "eval_runtime": 1.7553,
+      "eval_samples_per_second": 5.697,
+      "eval_steps_per_second": 2.279,
+      "step": 9250
+    },
+    {
+      "epoch": 0.015609500647038978,
+      "grad_norm": 5.728196620941162,
+      "learning_rate": 4.92199445778805e-05,
+      "loss": 1.5542,
+      "step": 9300
+    },
+    {
+      "epoch": 0.015609500647038978,
+      "eval_loss": 1.6833394765853882,
+      "eval_masked_accuracy": 0.6654929518699646,
+      "eval_runtime": 1.7516,
+      "eval_samples_per_second": 5.709,
+      "eval_steps_per_second": 2.284,
+      "step": 9300
+    },
+    {
+      "epoch": 0.015693422693528435,
+      "grad_norm": 5.66224479675293,
+      "learning_rate": 4.921574847555603e-05,
+      "loss": 1.6099,
+      "step": 9350
+    },
+    {
+      "epoch": 0.015693422693528435,
+      "eval_loss": 1.442452311515808,
+      "eval_masked_accuracy": 0.6905829310417175,
+      "eval_runtime": 1.7553,
+      "eval_samples_per_second": 5.697,
+      "eval_steps_per_second": 2.279,
+      "step": 9350
+    },
+    {
+      "epoch": 0.015777344740017893,
+      "grad_norm": 6.560795307159424,
+      "learning_rate": 4.921155237323155e-05,
+      "loss": 1.4188,
+      "step": 9400
+    },
+    {
+      "epoch": 0.015777344740017893,
+      "eval_loss": 1.539738416671753,
+      "eval_masked_accuracy": 0.68359375,
+      "eval_runtime": 1.7406,
+      "eval_samples_per_second": 5.745,
+      "eval_steps_per_second": 2.298,
+      "step": 9400
+    },
+    {
+      "epoch": 0.015861266786507348,
+      "grad_norm": 4.9847025871276855,
+      "learning_rate": 4.920735627090708e-05,
+      "loss": 1.6344,
+      "step": 9450
+    },
+    {
+      "epoch": 0.015861266786507348,
+      "eval_loss": 1.244769811630249,
+      "eval_masked_accuracy": 0.7078189253807068,
+      "eval_runtime": 1.77,
+      "eval_samples_per_second": 5.65,
+      "eval_steps_per_second": 2.26,
+      "step": 9450
+    },
+    {
+      "epoch": 0.015945188832996806,
+      "grad_norm": 6.173788070678711,
+      "learning_rate": 4.920316016858261e-05,
+      "loss": 1.6249,
+      "step": 9500
+    },
+    {
+      "epoch": 0.015945188832996806,
+      "eval_loss": 2.0483577251434326,
+      "eval_masked_accuracy": 0.607594907283783,
+      "eval_runtime": 1.7538,
+      "eval_samples_per_second": 5.702,
+      "eval_steps_per_second": 2.281,
+      "step": 9500
+    },
+    {
+      "epoch": 0.016029110879486264,
+      "grad_norm": 4.4076828956604,
+      "learning_rate": 4.919896406625814e-05,
+      "loss": 1.505,
+      "step": 9550
+    },
+    {
+      "epoch": 0.016029110879486264,
+      "eval_loss": 1.7403160333633423,
+      "eval_masked_accuracy": 0.7048457860946655,
+      "eval_runtime": 1.7491,
+      "eval_samples_per_second": 5.717,
+      "eval_steps_per_second": 2.287,
+      "step": 9550
+    },
+    {
+      "epoch": 0.01611303292597572,
+      "grad_norm": 6.358312129974365,
+      "learning_rate": 4.919476796393366e-05,
+      "loss": 1.655,
+      "step": 9600
+    },
+    {
+      "epoch": 0.01611303292597572,
+      "eval_loss": 1.8444688320159912,
+      "eval_masked_accuracy": 0.6808510422706604,
+      "eval_runtime": 1.7573,
+      "eval_samples_per_second": 5.691,
+      "eval_steps_per_second": 2.276,
+      "step": 9600
+    },
+    {
+      "epoch": 0.016196954972465177,
+      "grad_norm": 6.645698547363281,
+      "learning_rate": 4.919057186160919e-05,
+      "loss": 1.5926,
+      "step": 9650
+    },
+    {
+      "epoch": 0.016196954972465177,
+      "eval_loss": 1.6228317022323608,
+      "eval_masked_accuracy": 0.65625,
+      "eval_runtime": 1.8422,
+      "eval_samples_per_second": 5.428,
+      "eval_steps_per_second": 2.171,
+      "step": 9650
+    },
+    {
+      "epoch": 0.016280877018954632,
+      "grad_norm": 5.672697067260742,
+      "learning_rate": 4.918637575928472e-05,
+      "loss": 1.4762,
+      "step": 9700
+    },
+    {
+      "epoch": 0.016280877018954632,
+      "eval_loss": 1.5051512718200684,
+      "eval_masked_accuracy": 0.6943231225013733,
+      "eval_runtime": 1.7515,
+      "eval_samples_per_second": 5.709,
+      "eval_steps_per_second": 2.284,
+      "step": 9700
+    },
+    {
+      "epoch": 0.01636479906544409,
+      "grad_norm": 5.369190216064453,
+      "learning_rate": 4.9182179656960245e-05,
+      "loss": 1.5021,
+      "step": 9750
+    },
+    {
+      "epoch": 0.01636479906544409,
+      "eval_loss": 1.7301708459854126,
+      "eval_masked_accuracy": 0.6593886613845825,
+      "eval_runtime": 1.7374,
+      "eval_samples_per_second": 5.756,
+      "eval_steps_per_second": 2.302,
+      "step": 9750
+    },
+    {
+      "epoch": 0.01644872111193355,
+      "grad_norm": 4.986740589141846,
+      "learning_rate": 4.917798355463577e-05,
+      "loss": 1.5618,
+      "step": 9800
+    },
+    {
+      "epoch": 0.01644872111193355,
+      "eval_loss": 1.3315510749816895,
+      "eval_masked_accuracy": 0.700421929359436,
+      "eval_runtime": 1.7373,
+      "eval_samples_per_second": 5.756,
+      "eval_steps_per_second": 2.302,
+      "step": 9800
+    },
+    {
+      "epoch": 0.016532643158423004,
+      "grad_norm": 7.441061973571777,
+      "learning_rate": 4.9173787452311295e-05,
+      "loss": 1.5428,
+      "step": 9850
+    },
+    {
+      "epoch": 0.016532643158423004,
+      "eval_loss": 1.6381117105484009,
+      "eval_masked_accuracy": 0.6695652008056641,
+      "eval_runtime": 1.7386,
+      "eval_samples_per_second": 5.752,
+      "eval_steps_per_second": 2.301,
+      "step": 9850
+    },
+    {
+      "epoch": 0.016616565204912462,
+      "grad_norm": 6.459640979766846,
+      "learning_rate": 4.9169591349986824e-05,
+      "loss": 1.4702,
+      "step": 9900
+    },
+    {
+      "epoch": 0.016616565204912462,
+      "eval_loss": 1.537841796875,
+      "eval_masked_accuracy": 0.6741573214530945,
+      "eval_runtime": 1.7482,
+      "eval_samples_per_second": 5.72,
+      "eval_steps_per_second": 2.288,
+      "step": 9900
+    },
+    {
+      "epoch": 0.016700487251401917,
+      "grad_norm": 6.058482646942139,
+      "learning_rate": 4.916539524766235e-05,
+      "loss": 1.5765,
+      "step": 9950
+    },
+    {
+      "epoch": 0.016700487251401917,
+      "eval_loss": 1.688913345336914,
+      "eval_masked_accuracy": 0.692307710647583,
+      "eval_runtime": 1.7482,
+      "eval_samples_per_second": 5.72,
+      "eval_steps_per_second": 2.288,
+      "step": 9950
+    },
+    {
+      "epoch": 0.016784409297891375,
+      "grad_norm": 4.960835933685303,
+      "learning_rate": 4.916119914533788e-05,
+      "loss": 1.544,
+      "step": 10000
+    },
+    {
+      "epoch": 0.016784409297891375,
+      "eval_loss": 1.7901655435562134,
+      "eval_masked_accuracy": 0.6443514823913574,
+      "eval_runtime": 1.7882,
+      "eval_samples_per_second": 5.592,
+      "eval_steps_per_second": 2.237,
+      "step": 10000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.617791736784392e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null