Azrail
/

smallm_70_rope

@@ -1,7 +1,6 @@
 ---
 library_name: transformers
 tags:
-- smallm
 - generated_from_trainer
 model-index:
 - name: smallm_70_rope
@@ -15,8 +14,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.8819
-- Num Input Tokens Seen: 15728640000
 ## Model description
@@ -44,7 +43,7 @@ The following hyperparameters were used during training:
 - optimizer: Use OptimizerNames.ADAMW_APEX_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: warmup_stable_decay
 - lr_scheduler_warmup_steps: 500
-- training_steps: 60000
 ### Training results
@@ -170,6 +169,26 @@ The following hyperparameters were used during training:
 | 2.9856        | 0.3969 | 59000 | 2.8846          | 15466496000       |
 | 2.9824        | 0.4002 | 59500 | 2.8822          | 15597568000       |
 | 2.9789        | 0.4036 | 60000 | 2.8819          | 15728640000       |
 ### Framework versions

 ---
 library_name: transformers
 tags:
 - generated_from_trainer
 model-index:
 - name: smallm_70_rope
 This model is a fine-tuned version of [](https://huggingface.co/) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.8645
+- Num Input Tokens Seen: 18350080000
 ## Model description
 - optimizer: Use OptimizerNames.ADAMW_APEX_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: warmup_stable_decay
 - lr_scheduler_warmup_steps: 500
+- training_steps: 70000
 ### Training results
 | 2.9856        | 0.3969 | 59000 | 2.8846          | 15466496000       |
 | 2.9824        | 0.4002 | 59500 | 2.8822          | 15597568000       |
 | 2.9789        | 0.4036 | 60000 | 2.8819          | 15728640000       |
+| 3.0132        | 0.4070 | 60500 | 2.9149          | 15859712000       |
+| 3.0125        | 0.4103 | 61000 | 2.9137          | 15990784000       |
+| 3.0115        | 0.4137 | 61500 | 2.9049          | 16121856000       |
+| 3.0079        | 0.4170 | 62000 | 2.9013          | 16252928000       |
+| 3.0055        | 0.4204 | 62500 | 2.8968          | 16384000000       |
+| 2.9823        | 0.4238 | 63000 | 2.8930          | 16515072000       |
+| 3.0004        | 0.4271 | 63500 | 2.8904          | 16646144000       |
+| 2.9839        | 0.4305 | 64000 | 2.8860          | 16777216000       |
+| 2.9789        | 0.4339 | 64500 | 2.8814          | 16908288000       |
+| 2.9876        | 0.4372 | 65000 | 2.8793          | 17039360000       |
+| 2.9804        | 0.4406 | 65500 | 2.8758          | 17170432000       |
+| 2.9851        | 0.4439 | 66000 | 2.8729          | 17301504000       |
+| 2.9651        | 0.4473 | 66500 | 2.8710          | 17432576000       |
+| 2.9704        | 0.4507 | 67000 | 2.8692          | 17563648000       |
+| 2.9785        | 0.4540 | 67500 | 2.8678          | 17694720000       |
+| 2.9724        | 0.4574 | 68000 | 2.8663          | 17825792000       |
+| 2.9732        | 0.4608 | 68500 | 2.8653          | 17956864000       |
+| 2.9622        | 0.4641 | 69000 | 2.8648          | 18087936000       |
+| 2.964         | 0.4675 | 69500 | 2.8646          | 18219008000       |
+| 2.9684        | 0.4709 | 70000 | 2.8645          | 18350080000       |
 ### Framework versions

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.40358993244913505,
   "eval_steps": 500,
-  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10690,20 +10690,1800 @@
       "step": 60000
     },
     {
-      "epoch": 0.40358993244913505,
-      "num_input_tokens_seen": 15728640000,
-      "step": 60000,
-      "total_flos": 4.2075647115264e+18,
-      "train_loss": 0.7609903035481771,
-      "train_runtime": 21458.0072,
-      "train_samples_per_second": 715.817,
-      "train_steps_per_second": 2.796,
-      "train_tokens_per_second": 732996.306
     }
   ],
   "logging_steps": 50,
-  "max_steps": 60000,
-  "num_input_tokens_seen": 15728640000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10718,7 +12498,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.2075647115264e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4708549211906576,
   "eval_steps": 500,
+  "global_step": 70000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 60000
     },
     {
+      "epoch": 0.40392625739284266,
+      "grad_norm": 0.2130047082901001,
+      "learning_rate": 0.0006867974850262581,
+      "loss": 3.0074,
+      "num_input_tokens_seen": 15741747200,
+      "step": 60050
+    },
+    {
+      "epoch": 0.40426258233655027,
+      "grad_norm": 0.18596570193767548,
+      "learning_rate": 0.000682235249939575,
+      "loss": 2.9981,
+      "num_input_tokens_seen": 15754854400,
+      "step": 60100
+    },
+    {
+      "epoch": 0.4045989072802579,
+      "grad_norm": 0.2774942219257355,
+      "learning_rate": 0.0006776554506402081,
+      "loss": 3.0024,
+      "num_input_tokens_seen": 15767961600,
+      "step": 60150
+    },
+    {
+      "epoch": 0.4049352322239655,
+      "grad_norm": 0.19329522550106049,
+      "learning_rate": 0.0006730585285387465,
+      "loss": 3.0101,
+      "num_input_tokens_seen": 15781068800,
+      "step": 60200
+    },
+    {
+      "epoch": 0.4052715571676731,
+      "grad_norm": 0.21384254097938538,
+      "learning_rate": 0.0006684449266961101,
+      "loss": 3.0095,
+      "num_input_tokens_seen": 15794176000,
+      "step": 60250
+    },
+    {
+      "epoch": 0.4056078821113807,
+      "grad_norm": 0.3892166018486023,
+      "learning_rate": 0.0006638150897808468,
+      "loss": 3.0101,
+      "num_input_tokens_seen": 15807283200,
+      "step": 60300
+    },
+    {
+      "epoch": 0.4059442070550883,
+      "grad_norm": 0.27356287837028503,
+      "learning_rate": 0.0006591694640262749,
+      "loss": 3.0322,
+      "num_input_tokens_seen": 15820390400,
+      "step": 60350
+    },
+    {
+      "epoch": 0.40628053199879594,
+      "grad_norm": 0.20498153567314148,
+      "learning_rate": 0.0006545084971874737,
+      "loss": 3.0064,
+      "num_input_tokens_seen": 15833497600,
+      "step": 60400
+    },
+    {
+      "epoch": 0.40661685694250355,
+      "grad_norm": 0.19939659535884857,
+      "learning_rate": 0.0006498326384981283,
+      "loss": 3.0158,
+      "num_input_tokens_seen": 15846604800,
+      "step": 60450
+    },
+    {
+      "epoch": 0.40695318188621116,
+      "grad_norm": 0.24545226991176605,
+      "learning_rate": 0.0006451423386272311,
+      "loss": 3.0132,
+      "num_input_tokens_seen": 15859712000,
+      "step": 60500
+    },
+    {
+      "epoch": 0.40695318188621116,
+      "eval_loss": 2.914865255355835,
+      "eval_runtime": 51.2039,
+      "eval_samples_per_second": 97.649,
+      "eval_steps_per_second": 24.412,
+      "num_input_tokens_seen": 15859712000,
+      "step": 60500
+    },
+    {
+      "epoch": 0.40728950682991877,
+      "grad_norm": 0.2364359349012375,
+      "learning_rate": 0.0006404380496356461,
+      "loss": 3.0102,
+      "num_input_tokens_seen": 15872819200,
+      "step": 60550
+    },
+    {
+      "epoch": 0.4076258317736264,
+      "grad_norm": 0.19283762574195862,
+      "learning_rate": 0.0006357202249325371,
+      "loss": 3.0132,
+      "num_input_tokens_seen": 15885926400,
+      "step": 60600
+    },
+    {
+      "epoch": 0.40796215671733405,
+      "grad_norm": 0.19770501554012299,
+      "learning_rate": 0.0006309893192316686,
+      "loss": 3.0106,
+      "num_input_tokens_seen": 15899033600,
+      "step": 60650
+    },
+    {
+      "epoch": 0.40829848166104166,
+      "grad_norm": 0.18395134806632996,
+      "learning_rate": 0.000626245788507579,
+      "loss": 3.005,
+      "num_input_tokens_seen": 15912140800,
+      "step": 60700
+    },
+    {
+      "epoch": 0.40863480660474927,
+      "grad_norm": 0.21380823850631714,
+      "learning_rate": 0.000621490089951632,
+      "loss": 3.0106,
+      "num_input_tokens_seen": 15925248000,
+      "step": 60750
+    },
+    {
+      "epoch": 0.4089711315484569,
+      "grad_norm": 0.17995478212833405,
+      "learning_rate": 0.0006167226819279528,
+      "loss": 3.0237,
+      "num_input_tokens_seen": 15938355200,
+      "step": 60800
+    },
+    {
+      "epoch": 0.4093074564921645,
+      "grad_norm": 0.31993716955184937,
+      "learning_rate": 0.0006119440239292493,
+      "loss": 3.0158,
+      "num_input_tokens_seen": 15951462400,
+      "step": 60850
+    },
+    {
+      "epoch": 0.4096437814358721,
+      "grad_norm": 0.19210565090179443,
+      "learning_rate": 0.0006071545765325253,
+      "loss": 3.0121,
+      "num_input_tokens_seen": 15964569600,
+      "step": 60900
+    },
+    {
+      "epoch": 0.4099801063795797,
+      "grad_norm": 0.4126472771167755,
+      "learning_rate": 0.0006023548013546899,
+      "loss": 3.0215,
+      "num_input_tokens_seen": 15977676800,
+      "step": 60950
+    },
+    {
+      "epoch": 0.4103164313232873,
+      "grad_norm": 0.26418012380599976,
+      "learning_rate": 0.0005975451610080642,
+      "loss": 3.0125,
+      "num_input_tokens_seen": 15990784000,
+      "step": 61000
+    },
+    {
+      "epoch": 0.4103164313232873,
+      "eval_loss": 2.913696765899658,
+      "eval_runtime": 52.0924,
+      "eval_samples_per_second": 95.983,
+      "eval_steps_per_second": 23.996,
+      "num_input_tokens_seen": 15990784000,
+      "step": 61000
+    },
+    {
+      "epoch": 0.41065275626699493,
+      "grad_norm": 0.3535885810852051,
+      "learning_rate": 0.0005927261190557954,
+      "loss": 3.0102,
+      "num_input_tokens_seen": 16003891200,
+      "step": 61050
+    },
+    {
+      "epoch": 0.41098908121070254,
+      "grad_norm": 0.2633107304573059,
+      "learning_rate": 0.0005878981399671774,
+      "loss": 3.0424,
+      "num_input_tokens_seen": 16016998400,
+      "step": 61100
+    },
+    {
+      "epoch": 0.41132540615441016,
+      "grad_norm": 0.3054018020629883,
+      "learning_rate": 0.0005830616890728827,
+      "loss": 3.0233,
+      "num_input_tokens_seen": 16030105600,
+      "step": 61150
+    },
+    {
+      "epoch": 0.41166173109811777,
+      "grad_norm": 0.21453993022441864,
+      "learning_rate": 0.0005782172325201155,
+      "loss": 3.018,
+      "num_input_tokens_seen": 16043212800,
+      "step": 61200
+    },
+    {
+      "epoch": 0.4119980560418254,
+      "grad_norm": 0.27815598249435425,
+      "learning_rate": 0.0005733652372276809,
+      "loss": 3.0254,
+      "num_input_tokens_seen": 16056320000,
+      "step": 61250
+    },
+    {
+      "epoch": 0.412334380985533,
+      "grad_norm": 0.20687313377857208,
+      "learning_rate": 0.0005685061708409841,
+      "loss": 3.0165,
+      "num_input_tokens_seen": 16069427200,
+      "step": 61300
+    },
+    {
+      "epoch": 0.4126707059292406,
+      "grad_norm": 0.1985252946615219,
+      "learning_rate": 0.0005636405016869566,
+      "loss": 3.0164,
+      "num_input_tokens_seen": 16082534400,
+      "step": 61350
+    },
+    {
+      "epoch": 0.4130070308729482,
+      "grad_norm": 0.26703181862831116,
+      "learning_rate": 0.0005587686987289189,
+      "loss": 3.0001,
+      "num_input_tokens_seen": 16095641600,
+      "step": 61400
+    },
+    {
+      "epoch": 0.4133433558166558,
+      "grad_norm": 0.1948036104440689,
+      "learning_rate": 0.0005538912315213797,
+      "loss": 3.0058,
+      "num_input_tokens_seen": 16108748800,
+      "step": 61450
+    },
+    {
+      "epoch": 0.41367968076036343,
+      "grad_norm": 0.20653308928012848,
+      "learning_rate": 0.0005490085701647804,
+      "loss": 3.0115,
+      "num_input_tokens_seen": 16121856000,
+      "step": 61500
+    },
+    {
+      "epoch": 0.41367968076036343,
+      "eval_loss": 2.9048781394958496,
+      "eval_runtime": 53.8207,
+      "eval_samples_per_second": 92.901,
+      "eval_steps_per_second": 23.225,
+      "num_input_tokens_seen": 16121856000,
+      "step": 61500
+    },
+    {
+      "epoch": 0.41401600570407104,
+      "grad_norm": 0.19605295360088348,
+      "learning_rate": 0.0005441211852601849,
+      "loss": 3.0225,
+      "num_input_tokens_seen": 16134963200,
+      "step": 61550
+    },
+    {
+      "epoch": 0.41435233064777865,
+      "grad_norm": 0.17526155710220337,
+      "learning_rate": 0.0005392295478639225,
+      "loss": 3.0117,
+      "num_input_tokens_seen": 16148070400,
+      "step": 61600
+    },
+    {
+      "epoch": 0.41468865559148627,
+      "grad_norm": 0.17657403647899628,
+      "learning_rate": 0.0005343341294421868,
+      "loss": 3.0107,
+      "num_input_tokens_seen": 16161177600,
+      "step": 61650
+    },
+    {
+      "epoch": 0.4150249805351939,
+      "grad_norm": 0.18658681213855743,
+      "learning_rate": 0.0005294354018255945,
+      "loss": 3.0085,
+      "num_input_tokens_seen": 16174284800,
+      "step": 61700
+    },
+    {
+      "epoch": 0.4153613054789015,
+      "grad_norm": 0.24781519174575806,
+      "learning_rate": 0.0005245338371637091,
+      "loss": 2.9939,
+      "num_input_tokens_seen": 16187392000,
+      "step": 61750
+    },
+    {
+      "epoch": 0.4156976304226091,
+      "grad_norm": 0.20824941992759705,
+      "learning_rate": 0.0005196299078795343,
+      "loss": 3.0038,
+      "num_input_tokens_seen": 16200499200,
+      "step": 61800
+    },
+    {
+      "epoch": 0.4160339553663167,
+      "grad_norm": 0.38262441754341125,
+      "learning_rate": 0.0005147240866239817,
+      "loss": 3.0141,
+      "num_input_tokens_seen": 16213606400,
+      "step": 61850
+    },
+    {
+      "epoch": 0.4163702803100243,
+      "grad_norm": 0.200628861784935,
+      "learning_rate": 0.0005098168462303141,
+      "loss": 3.0187,
+      "num_input_tokens_seen": 16226713600,
+      "step": 61900
+    },
+    {
+      "epoch": 0.41670660525373193,
+      "grad_norm": 0.18858259916305542,
+      "learning_rate": 0.000504908659668575,
+      "loss": 3.0049,
+      "num_input_tokens_seen": 16239820800,
+      "step": 61950
+    },
+    {
+      "epoch": 0.41704293019743954,
+      "grad_norm": 0.19025108218193054,
+      "learning_rate": 0.0005,
+      "loss": 3.0079,
+      "num_input_tokens_seen": 16252928000,
+      "step": 62000
+    },
+    {
+      "epoch": 0.41704293019743954,
+      "eval_loss": 2.9012608528137207,
+      "eval_runtime": 52.7052,
+      "eval_samples_per_second": 94.867,
+      "eval_steps_per_second": 23.717,
+      "num_input_tokens_seen": 16252928000,
+      "step": 62000
+    },
+    {
+      "epoch": 0.41737925514114715,
+      "grad_norm": 0.19505389034748077,
+      "learning_rate": 0.0004950913403314252,
+      "loss": 2.9995,
+      "num_input_tokens_seen": 16266035200,
+      "step": 62050
+    },
+    {
+      "epoch": 0.41771558008485477,
+      "grad_norm": 0.18988089263439178,
+      "learning_rate": 0.0004901831537696859,
+      "loss": 3.0041,
+      "num_input_tokens_seen": 16279142400,
+      "step": 62100
+    },
+    {
+      "epoch": 0.4180519050285624,
+      "grad_norm": 0.19544407725334167,
+      "learning_rate": 0.0004852759133760184,
+      "loss": 3.0073,
+      "num_input_tokens_seen": 16292249600,
+      "step": 62150
+    },
+    {
+      "epoch": 0.41838822997227,
+      "grad_norm": 0.1884351521730423,
+      "learning_rate": 0.00048037009212046586,
+      "loss": 3.0035,
+      "num_input_tokens_seen": 16305356800,
+      "step": 62200
+    },
+    {
+      "epoch": 0.4187245549159776,
+      "grad_norm": 0.17927390336990356,
+      "learning_rate": 0.000475466162836291,
+      "loss": 2.9921,
+      "num_input_tokens_seen": 16318464000,
+      "step": 62250
+    },
+    {
+      "epoch": 0.4190608798596852,
+      "grad_norm": 0.18687283992767334,
+      "learning_rate": 0.00047056459817440544,
+      "loss": 3.0042,
+      "num_input_tokens_seen": 16331571200,
+      "step": 62300
+    },
+    {
+      "epoch": 0.4193972048033928,
+      "grad_norm": 0.18783149123191833,
+      "learning_rate": 0.00046566587055781316,
+      "loss": 3.0003,
+      "num_input_tokens_seen": 16344678400,
+      "step": 62350
+    },
+    {
+      "epoch": 0.41973352974710043,
+      "grad_norm": 0.18625770509243011,
+      "learning_rate": 0.0004607704521360776,
+      "loss": 3.0061,
+      "num_input_tokens_seen": 16357785600,
+      "step": 62400
+    },
+    {
+      "epoch": 0.4200698546908081,
+      "grad_norm": 0.20189669728279114,
+      "learning_rate": 0.00045587881473981533,
+      "loss": 2.9976,
+      "num_input_tokens_seen": 16370892800,
+      "step": 62450
+    },
+    {
+      "epoch": 0.4204061796345157,
+      "grad_norm": 0.19049198925495148,
+      "learning_rate": 0.0004509914298352197,
+      "loss": 3.0055,
+      "num_input_tokens_seen": 16384000000,
+      "step": 62500
+    },
+    {
+      "epoch": 0.4204061796345157,
+      "eval_loss": 2.896798849105835,
+      "eval_runtime": 52.8908,
+      "eval_samples_per_second": 94.534,
+      "eval_steps_per_second": 23.634,
+      "num_input_tokens_seen": 16384000000,
+      "step": 62500
+    },
+    {
+      "epoch": 0.4207425045782233,
+      "grad_norm": 0.1667575091123581,
+      "learning_rate": 0.00044610876847862033,
+      "loss": 2.9929,
+      "num_input_tokens_seen": 16397107200,
+      "step": 62550
+    },
+    {
+      "epoch": 0.42107882952193093,
+      "grad_norm": 0.7176526188850403,
+      "learning_rate": 0.00044123130127108126,
+      "loss": 2.9918,
+      "num_input_tokens_seen": 16410214400,
+      "step": 62600
+    },
+    {
+      "epoch": 0.42141515446563854,
+      "grad_norm": 0.20578069984912872,
+      "learning_rate": 0.00043635949831304343,
+      "loss": 3.0037,
+      "num_input_tokens_seen": 16423321600,
+      "step": 62650
+    },
+    {
+      "epoch": 0.42175147940934615,
+      "grad_norm": 0.19712655246257782,
+      "learning_rate": 0.0004314938291590161,
+      "loss": 3.0142,
+      "num_input_tokens_seen": 16436428800,
+      "step": 62700
+    },
+    {
+      "epoch": 0.42208780435305376,
+      "grad_norm": 0.20189446210861206,
+      "learning_rate": 0.00042663476277231917,
+      "loss": 2.9983,
+      "num_input_tokens_seen": 16449536000,
+      "step": 62750
+    },
+    {
+      "epoch": 0.4224241292967614,
+      "grad_norm": 0.18463867902755737,
+      "learning_rate": 0.0004217827674798845,
+      "loss": 2.9971,
+      "num_input_tokens_seen": 16462643200,
+      "step": 62800
+    },
+    {
+      "epoch": 0.422760454240469,
+      "grad_norm": 0.17639389634132385,
+      "learning_rate": 0.0004169383109271174,
+      "loss": 3.0032,
+      "num_input_tokens_seen": 16475750400,
+      "step": 62850
+    },
+    {
+      "epoch": 0.4230967791841766,
+      "grad_norm": 0.1733781099319458,
+      "learning_rate": 0.00041210186003282274,
+      "loss": 2.9932,
+      "num_input_tokens_seen": 16488857600,
+      "step": 62900
+    },
+    {
+      "epoch": 0.4234331041278842,
+      "grad_norm": 0.17753124237060547,
+      "learning_rate": 0.00040727388094420456,
+      "loss": 3.0012,
+      "num_input_tokens_seen": 16501964800,
+      "step": 62950
+    },
+    {
+      "epoch": 0.4237694290715918,
+      "grad_norm": 0.180925652384758,
+      "learning_rate": 0.00040245483899193594,
+      "loss": 2.9823,
+      "num_input_tokens_seen": 16515072000,
+      "step": 63000
+    },
+    {
+      "epoch": 0.4237694290715918,
+      "eval_loss": 2.8929545879364014,
+      "eval_runtime": 53.37,
+      "eval_samples_per_second": 93.686,
+      "eval_steps_per_second": 23.421,
+      "num_input_tokens_seen": 16515072000,
+      "step": 63000
+    },
+    {
+      "epoch": 0.42410575401529943,
+      "grad_norm": 0.15995506942272186,
+      "learning_rate": 0.00039764519864531023,
+      "loss": 2.9898,
+      "num_input_tokens_seen": 16528179200,
+      "step": 63050
+    },
+    {
+      "epoch": 0.42444207895900704,
+      "grad_norm": 0.16034817695617676,
+      "learning_rate": 0.0003928454234674747,
+      "loss": 2.9884,
+      "num_input_tokens_seen": 16541286400,
+      "step": 63100
+    },
+    {
+      "epoch": 0.42477840390271465,
+      "grad_norm": 0.17681469023227692,
+      "learning_rate": 0.00038805597607075075,
+      "loss": 2.9952,
+      "num_input_tokens_seen": 16554393600,
+      "step": 63150
+    },
+    {
+      "epoch": 0.42511472884642226,
+      "grad_norm": 0.18527273833751678,
+      "learning_rate": 0.00038327731807204744,
+      "loss": 2.9947,
+      "num_input_tokens_seen": 16567500800,
+      "step": 63200
+    },
+    {
+      "epoch": 0.4254510537901299,
+      "grad_norm": 0.16262546181678772,
+      "learning_rate": 0.0003785099100483681,
+      "loss": 2.9972,
+      "num_input_tokens_seen": 16580608000,
+      "step": 63250
+    },
+    {
+      "epoch": 0.4257873787338375,
+      "grad_norm": 0.1709870994091034,
+      "learning_rate": 0.00037375421149242103,
+      "loss": 2.999,
+      "num_input_tokens_seen": 16593715200,
+      "step": 63300
+    },
+    {
+      "epoch": 0.4261237036775451,
+      "grad_norm": 0.1716383844614029,
+      "learning_rate": 0.0003690106807683313,
+      "loss": 2.9964,
+      "num_input_tokens_seen": 16606822400,
+      "step": 63350
+    },
+    {
+      "epoch": 0.4264600286212527,
+      "grad_norm": 0.18682868778705597,
+      "learning_rate": 0.0003642797750674629,
+      "loss": 3.0037,
+      "num_input_tokens_seen": 16619929600,
+      "step": 63400
+    },
+    {
+      "epoch": 0.4267963535649603,
+      "grad_norm": 0.16003596782684326,
+      "learning_rate": 0.00035956195036435405,
+      "loss": 2.9893,
+      "num_input_tokens_seen": 16633036800,
+      "step": 63450
+    },
+    {
+      "epoch": 0.42713267850866793,
+      "grad_norm": 0.17876048386096954,
+      "learning_rate": 0.0003548576613727689,
+      "loss": 3.0004,
+      "num_input_tokens_seen": 16646144000,
+      "step": 63500
+    },
+    {
+      "epoch": 0.42713267850866793,
+      "eval_loss": 2.8903579711914062,
+      "eval_runtime": 53.0482,
+      "eval_samples_per_second": 94.254,
+      "eval_steps_per_second": 23.563,
+      "num_input_tokens_seen": 16646144000,
+      "step": 63500
+    },
+    {
+      "epoch": 0.42746900345237554,
+      "grad_norm": 0.21229425072669983,
+      "learning_rate": 0.00035016736150187165,
+      "loss": 2.9925,
+      "num_input_tokens_seen": 16659251200,
+      "step": 63550
+    },
+    {
+      "epoch": 0.42780532839608315,
+      "grad_norm": 0.19477584958076477,
+      "learning_rate": 0.00034549150281252633,
+      "loss": 2.9892,
+      "num_input_tokens_seen": 16672358400,
+      "step": 63600
+    },
+    {
+      "epoch": 0.42814165333979076,
+      "grad_norm": 0.1866609901189804,
+      "learning_rate": 0.0003408305359737252,
+      "loss": 2.9913,
+      "num_input_tokens_seen": 16685465600,
+      "step": 63650
+    },
+    {
+      "epoch": 0.4284779782834984,
+      "grad_norm": 0.19487887620925903,
+      "learning_rate": 0.0003361849102191533,
+      "loss": 2.9875,
+      "num_input_tokens_seen": 16698572800,
+      "step": 63700
+    },
+    {
+      "epoch": 0.428814303227206,
+      "grad_norm": 0.15979841351509094,
+      "learning_rate": 0.00033155507330389,
+      "loss": 2.9894,
+      "num_input_tokens_seen": 16711680000,
+      "step": 63750
+    },
+    {
+      "epoch": 0.4291506281709136,
+      "grad_norm": 0.1749998778104782,
+      "learning_rate": 0.0003269414714612534,
+      "loss": 2.9945,
+      "num_input_tokens_seen": 16724787200,
+      "step": 63800
+    },
+    {
+      "epoch": 0.4294869531146212,
+      "grad_norm": 0.16839075088500977,
+      "learning_rate": 0.00032234454935979205,
+      "loss": 2.9989,
+      "num_input_tokens_seen": 16737894400,
+      "step": 63850
+    },
+    {
+      "epoch": 0.4298232780583288,
+      "grad_norm": 0.19226372241973877,
+      "learning_rate": 0.0003177647500604252,
+      "loss": 2.9854,
+      "num_input_tokens_seen": 16751001600,
+      "step": 63900
+    },
+    {
+      "epoch": 0.43015960300203643,
+      "grad_norm": 0.15530380606651306,
+      "learning_rate": 0.0003132025149737419,
+      "loss": 2.9903,
+      "num_input_tokens_seen": 16764108800,
+      "step": 63950
+    },
+    {
+      "epoch": 0.43049592794574404,
+      "grad_norm": 0.17773845791816711,
+      "learning_rate": 0.0003086582838174551,
+      "loss": 2.9839,
+      "num_input_tokens_seen": 16777216000,
+      "step": 64000
+    },
+    {
+      "epoch": 0.43049592794574404,
+      "eval_loss": 2.8860437870025635,
+      "eval_runtime": 53.1514,
+      "eval_samples_per_second": 94.071,
+      "eval_steps_per_second": 23.518,
+      "num_input_tokens_seen": 16777216000,
+      "step": 64000
+    },
+    {
+      "epoch": 0.43083225288945165,
+      "grad_norm": 0.15883377194404602,
+      "learning_rate": 0.000304132494574022,
+      "loss": 2.9851,
+      "num_input_tokens_seen": 16790323200,
+      "step": 64050
+    },
+    {
+      "epoch": 0.43116857783315926,
+      "grad_norm": 0.176467627286911,
+      "learning_rate": 0.00029962558344842963,
+      "loss": 2.9865,
+      "num_input_tokens_seen": 16803430400,
+      "step": 64100
+    },
+    {
+      "epoch": 0.43150490277686687,
+      "grad_norm": 0.16392388939857483,
+      "learning_rate": 0.00029513798482615227,
+      "loss": 2.9788,
+      "num_input_tokens_seen": 16816537600,
+      "step": 64150
+    },
+    {
+      "epoch": 0.4318412277205745,
+      "grad_norm": 0.15614169836044312,
+      "learning_rate": 0.0002906701312312861,
+      "loss": 2.9769,
+      "num_input_tokens_seen": 16829644800,
+      "step": 64200
+    },
+    {
+      "epoch": 0.43217755266428215,
+      "grad_norm": 0.16225555539131165,
+      "learning_rate": 0.00028622245328485907,
+      "loss": 2.9881,
+      "num_input_tokens_seen": 16842752000,
+      "step": 64250
+    },
+    {
+      "epoch": 0.43251387760798976,
+      "grad_norm": 0.16419048607349396,
+      "learning_rate": 0.0002817953796633289,
+      "loss": 2.99,
+      "num_input_tokens_seen": 16855859200,
+      "step": 64300
+    },
+    {
+      "epoch": 0.43285020255169737,
+      "grad_norm": 0.16654469072818756,
+      "learning_rate": 0.000277389337057266,
+      "loss": 2.9919,
+      "num_input_tokens_seen": 16868966400,
+      "step": 64350
+    },
+    {
+      "epoch": 0.433186527495405,
+      "grad_norm": 0.1688661277294159,
+      "learning_rate": 0.00027300475013022663,
+      "loss": 2.9844,
+      "num_input_tokens_seen": 16882073600,
+      "step": 64400
+    },
+    {
+      "epoch": 0.4335228524391126,
+      "grad_norm": 0.162180095911026,
+      "learning_rate": 0.000268642041477825,
+      "loss": 2.9847,
+      "num_input_tokens_seen": 16895180800,
+      "step": 64450
+    },
+    {
+      "epoch": 0.4338591773828202,
+      "grad_norm": 0.18244421482086182,
+      "learning_rate": 0.00026430163158700117,
+      "loss": 2.9789,
+      "num_input_tokens_seen": 16908288000,
+      "step": 64500
+    },
+    {
+      "epoch": 0.4338591773828202,
+      "eval_loss": 2.8813860416412354,
+      "eval_runtime": 53.1806,
+      "eval_samples_per_second": 94.019,
+      "eval_steps_per_second": 23.505,
+      "num_input_tokens_seen": 16908288000,
+      "step": 64500
+    },
+    {
+      "epoch": 0.4341955023265278,
+      "grad_norm": 0.15887753665447235,
+      "learning_rate": 0.00025998393879549445,
+      "loss": 2.9723,
+      "num_input_tokens_seen": 16921395200,
+      "step": 64550
+    },
+    {
+      "epoch": 0.4345318272702354,
+      "grad_norm": 0.17573221027851105,
+      "learning_rate": 0.0002556893792515227,
+      "loss": 2.99,
+      "num_input_tokens_seen": 16934502400,
+      "step": 64600
+    },
+    {
+      "epoch": 0.43486815221394304,
+      "grad_norm": 0.1790430247783661,
+      "learning_rate": 0.0002514183668736727,
+      "loss": 2.9887,
+      "num_input_tokens_seen": 16947609600,
+      "step": 64650
+    },
+    {
+      "epoch": 0.43520447715765065,
+      "grad_norm": 0.16031622886657715,
+      "learning_rate": 0.0002471713133110078,
+      "loss": 2.9835,
+      "num_input_tokens_seen": 16960716800,
+      "step": 64700
+    },
+    {
+      "epoch": 0.43554080210135826,
+      "grad_norm": 0.1702345311641693,
+      "learning_rate": 0.0002429486279033892,
+      "loss": 2.9862,
+      "num_input_tokens_seen": 16973824000,
+      "step": 64750
+    },
+    {
+      "epoch": 0.43587712704506587,
+      "grad_norm": 0.16080138087272644,
+      "learning_rate": 0.00023875071764202561,
+      "loss": 2.9785,
+      "num_input_tokens_seen": 16986931200,
+      "step": 64800
+    },
+    {
+      "epoch": 0.4362134519887735,
+      "grad_norm": 0.17694465816020966,
+      "learning_rate": 0.0002345779871302453,
+      "loss": 2.9962,
+      "num_input_tokens_seen": 17000038400,
+      "step": 64850
+    },
+    {
+      "epoch": 0.4365497769324811,
+      "grad_norm": 0.15310978889465332,
+      "learning_rate": 0.00023043083854449987,
+      "loss": 2.98,
+      "num_input_tokens_seen": 17013145600,
+      "step": 64900
+    },
+    {
+      "epoch": 0.4368861018761887,
+      "grad_norm": 0.15505504608154297,
+      "learning_rate": 0.0002263096715956019,
+      "loss": 2.9825,
+      "num_input_tokens_seen": 17026252800,
+      "step": 64950
+    },
+    {
+      "epoch": 0.4372224268198963,
+      "grad_norm": 0.15211448073387146,
+      "learning_rate": 0.00022221488349019903,
+      "loss": 2.9876,
+      "num_input_tokens_seen": 17039360000,
+      "step": 65000
+    },
+    {
+      "epoch": 0.4372224268198963,
+      "eval_loss": 2.8792829513549805,
+      "eval_runtime": 53.0249,
+      "eval_samples_per_second": 94.295,
+      "eval_steps_per_second": 23.574,
+      "num_input_tokens_seen": 17039360000,
+      "step": 65000
+    },
+    {
+      "epoch": 0.4375587517636039,
+      "grad_norm": 0.16188842058181763,
+      "learning_rate": 0.00021814686889249158,
+      "loss": 2.9812,
+      "num_input_tokens_seen": 17052467200,
+      "step": 65050
+    },
+    {
+      "epoch": 0.43789507670731154,
+      "grad_norm": 0.14550812542438507,
+      "learning_rate": 0.00021410601988619394,
+      "loss": 2.9856,
+      "num_input_tokens_seen": 17065574400,
+      "step": 65100
+    },
+    {
+      "epoch": 0.43823140165101915,
+      "grad_norm": 0.1500539779663086,
+      "learning_rate": 0.00021009272593674322,
+      "loss": 2.9827,
+      "num_input_tokens_seen": 17078681600,
+      "step": 65150
+    },
+    {
+      "epoch": 0.43856772659472676,
+      "grad_norm": 0.1571357101202011,
+      "learning_rate": 0.00020610737385376348,
+      "loss": 2.9788,
+      "num_input_tokens_seen": 17091788800,
+      "step": 65200
+    },
+    {
+      "epoch": 0.43890405153843437,
+      "grad_norm": 0.1671544760465622,
+      "learning_rate": 0.00020215034775378332,
+      "loss": 2.9758,
+      "num_input_tokens_seen": 17104896000,
+      "step": 65250
+    },
+    {
+      "epoch": 0.439240376482142,
+      "grad_norm": 0.15525776147842407,
+      "learning_rate": 0.0001982220290232143,
+      "loss": 2.9823,
+      "num_input_tokens_seen": 17118003200,
+      "step": 65300
+    },
+    {
+      "epoch": 0.4395767014258496,
+      "grad_norm": 0.14799903333187103,
+      "learning_rate": 0.00019432279628159188,
+      "loss": 2.9781,
+      "num_input_tokens_seen": 17131110400,
+      "step": 65350
+    },
+    {
+      "epoch": 0.4399130263695572,
+      "grad_norm": 0.16087676584720612,
+      "learning_rate": 0.00019045302534508295,
+      "loss": 2.9805,
+      "num_input_tokens_seen": 17144217600,
+      "step": 65400
+    },
+    {
+      "epoch": 0.4402493513132648,
+      "grad_norm": 0.15892113745212555,
+      "learning_rate": 0.0001866130891902653,
+      "loss": 2.9823,
+      "num_input_tokens_seen": 17157324800,
+      "step": 65450
+    },
+    {
+      "epoch": 0.4405856762569724,
+      "grad_norm": 0.187602236866951,
+      "learning_rate": 0.00018280335791817732,
+      "loss": 2.9804,
+      "num_input_tokens_seen": 17170432000,
+      "step": 65500
+    },
+    {
+      "epoch": 0.4405856762569724,
+      "eval_loss": 2.875824451446533,
+      "eval_runtime": 53.0867,
+      "eval_samples_per_second": 94.186,
+      "eval_steps_per_second": 23.546,
+      "num_input_tokens_seen": 17170432000,
+      "step": 65500
+    },
+    {
+      "epoch": 0.44092200120068004,
+      "grad_norm": 0.15579210221767426,
+      "learning_rate": 0.0001790241987186485,
+      "loss": 2.9734,
+      "num_input_tokens_seen": 17183539200,
+      "step": 65550
+    },
+    {
+      "epoch": 0.44125832614438765,
+      "grad_norm": 0.15250550210475922,
+      "learning_rate": 0.00017527597583490823,
+      "loss": 2.9787,
+      "num_input_tokens_seen": 17196646400,
+      "step": 65600
+    },
+    {
+      "epoch": 0.44159465108809526,
+      "grad_norm": 0.15954890847206116,
+      "learning_rate": 0.00017155905052847938,
+      "loss": 2.978,
+      "num_input_tokens_seen": 17209753600,
+      "step": 65650
+    },
+    {
+      "epoch": 0.44193097603180287,
+      "grad_norm": 0.15598754584789276,
+      "learning_rate": 0.00016787378104435928,
+      "loss": 2.9809,
+      "num_input_tokens_seen": 17222860800,
+      "step": 65700
+    },
+    {
+      "epoch": 0.4422673009755105,
+      "grad_norm": 0.14709477126598358,
+      "learning_rate": 0.00016422052257649078,
+      "loss": 2.9793,
+      "num_input_tokens_seen": 17235968000,
+      "step": 65750
+    },
+    {
+      "epoch": 0.4426036259192181,
+      "grad_norm": 0.15505217015743256,
+      "learning_rate": 0.0001605996272335291,
+      "loss": 2.9763,
+      "num_input_tokens_seen": 17249075200,
+      "step": 65800
+    },
+    {
+      "epoch": 0.4429399508629257,
+      "grad_norm": 0.14491549134254456,
+      "learning_rate": 0.0001570114440049037,
+      "loss": 2.9756,
+      "num_input_tokens_seen": 17262182400,
+      "step": 65850
+    },
+    {
+      "epoch": 0.4432762758066333,
+      "grad_norm": 0.1571652740240097,
+      "learning_rate": 0.00015345631872718213,
+      "loss": 2.977,
+      "num_input_tokens_seen": 17275289600,
+      "step": 65900
+    },
+    {
+      "epoch": 0.4436126007503409,
+      "grad_norm": 0.18299035727977753,
+      "learning_rate": 0.00014993459405073824,
+      "loss": 2.9788,
+      "num_input_tokens_seen": 17288396800,
+      "step": 65950
+    },
+    {
+      "epoch": 0.44394892569404854,
+      "grad_norm": 0.14829285442829132,
+      "learning_rate": 0.00014644660940672628,
+      "loss": 2.9851,
+      "num_input_tokens_seen": 17301504000,
+      "step": 66000
+    },
+    {
+      "epoch": 0.44394892569404854,
+      "eval_loss": 2.8729286193847656,
+      "eval_runtime": 53.2839,
+      "eval_samples_per_second": 93.837,
+      "eval_steps_per_second": 23.459,
+      "num_input_tokens_seen": 17301504000,
+      "step": 66000
+    },
+    {
+      "epoch": 0.4442852506377562,
+      "grad_norm": 0.14435406029224396,
+      "learning_rate": 0.0001429927009743659,
+      "loss": 2.9718,
+      "num_input_tokens_seen": 17314611200,
+      "step": 66050
+    },
+    {
+      "epoch": 0.4446215755814638,
+      "grad_norm": 0.1603071242570877,
+      "learning_rate": 0.0001395732016485406,
+      "loss": 2.9731,
+      "num_input_tokens_seen": 17327718400,
+      "step": 66100
+    },
+    {
+      "epoch": 0.4449579005251714,
+      "grad_norm": 0.14310726523399353,
+      "learning_rate": 0.00013618844100771256,
+      "loss": 2.9665,
+      "num_input_tokens_seen": 17340825600,
+      "step": 66150
+    },
+    {
+      "epoch": 0.44529422546887903,
+      "grad_norm": 0.276594340801239,
+      "learning_rate": 0.00013283874528215734,
+      "loss": 2.9711,
+      "num_input_tokens_seen": 17353932800,
+      "step": 66200
+    },
+    {
+      "epoch": 0.44563055041258665,
+      "grad_norm": 0.1535540074110031,
+      "learning_rate": 0.00012952443732252057,
+      "loss": 2.9693,
+      "num_input_tokens_seen": 17367040000,
+      "step": 66250
+    },
+    {
+      "epoch": 0.44596687535629426,
+      "grad_norm": 0.15807458758354187,
+      "learning_rate": 0.00012624583656870153,
+      "loss": 2.9754,
+      "num_input_tokens_seen": 17380147200,
+      "step": 66300
+    },
+    {
+      "epoch": 0.44630320030000187,
+      "grad_norm": 0.14477893710136414,
+      "learning_rate": 0.00012300325901906528,
+      "loss": 2.9735,
+      "num_input_tokens_seen": 17393254400,
+      "step": 66350
+    },
+    {
+      "epoch": 0.4466395252437095,
+      "grad_norm": 0.14505073428153992,
+      "learning_rate": 0.00011979701719998454,
+      "loss": 2.9783,
+      "num_input_tokens_seen": 17406361600,
+      "step": 66400
+    },
+    {
+      "epoch": 0.4469758501874171,
+      "grad_norm": 0.15850161015987396,
+      "learning_rate": 0.00011662742013571926,
+      "loss": 2.967,
+      "num_input_tokens_seen": 17419468800,
+      "step": 66450
+    },
+    {
+      "epoch": 0.4473121751311247,
+      "grad_norm": 0.14653578400611877,
+      "learning_rate": 0.00011349477331863151,
+      "loss": 2.9651,
+      "num_input_tokens_seen": 17432576000,
+      "step": 66500
+    },
+    {
+      "epoch": 0.4473121751311247,
+      "eval_loss": 2.8710148334503174,
+      "eval_runtime": 53.2889,
+      "eval_samples_per_second": 93.828,
+      "eval_steps_per_second": 23.457,
+      "num_input_tokens_seen": 17432576000,
+      "step": 66500
+    },
+    {
+      "epoch": 0.4476485000748323,
+      "grad_norm": 0.15636616945266724,
+      "learning_rate": 0.00011039937867974164,
+      "loss": 2.9758,
+      "num_input_tokens_seen": 17445683200,
+      "step": 66550
+    },
+    {
+      "epoch": 0.4479848250185399,
+      "grad_norm": 0.14427579939365387,
+      "learning_rate": 0.00010734153455962764,
+      "loss": 2.9594,
+      "num_input_tokens_seen": 17458790400,
+      "step": 66600
+    },
+    {
+      "epoch": 0.44832114996224753,
+      "grad_norm": 0.15148353576660156,
+      "learning_rate": 0.00010432153567966984,
+      "loss": 2.9684,
+      "num_input_tokens_seen": 17471897600,
+      "step": 66650
+    },
+    {
+      "epoch": 0.44865747490595514,
+      "grad_norm": 0.1541094332933426,
+      "learning_rate": 0.0001013396731136465,
+      "loss": 2.9685,
+      "num_input_tokens_seen": 17485004800,
+      "step": 66700
+    },
+    {
+      "epoch": 0.44899379984966276,
+      "grad_norm": 0.14267295598983765,
+      "learning_rate": 9.839623425967759e-05,
+      "loss": 2.9728,
+      "num_input_tokens_seen": 17498112000,
+      "step": 66750
+    },
+    {
+      "epoch": 0.44933012479337037,
+      "grad_norm": 0.1437918245792389,
+      "learning_rate": 9.549150281252633e-05,
+      "loss": 2.9752,
+      "num_input_tokens_seen": 17511219200,
+      "step": 66800
+    },
+    {
+      "epoch": 0.449666449737078,
+      "grad_norm": 0.1517232209444046,
+      "learning_rate": 9.262575873625529e-05,
+      "loss": 2.9729,
+      "num_input_tokens_seen": 17524326400,
+      "step": 66850
+    },
+    {
+      "epoch": 0.4500027746807856,
+      "grad_norm": 0.15286608040332794,
+      "learning_rate": 8.979927823724321e-05,
+      "loss": 2.9687,
+      "num_input_tokens_seen": 17537433600,
+      "step": 66900
+    },
+    {
+      "epoch": 0.4503390996244932,
+      "grad_norm": 0.14875057339668274,
+      "learning_rate": 8.70123337375635e-05,
+      "loss": 2.9758,
+      "num_input_tokens_seen": 17550540800,
+      "step": 66950
+    },
+    {
+      "epoch": 0.4506754245682008,
+      "grad_norm": 0.1493612825870514,
+      "learning_rate": 8.426519384872733e-05,
+      "loss": 2.9704,
+      "num_input_tokens_seen": 17563648000,
+      "step": 67000
+    },
+    {
+      "epoch": 0.4506754245682008,
+      "eval_loss": 2.869231939315796,
+      "eval_runtime": 53.2491,
+      "eval_samples_per_second": 93.898,
+      "eval_steps_per_second": 23.475,
+      "num_input_tokens_seen": 17563648000,
+      "step": 67000
+    },
+    {
+      "epoch": 0.4510117495119084,
+      "grad_norm": 0.14675357937812805,
+      "learning_rate": 8.155812334579532e-05,
+      "loss": 2.9682,
+      "num_input_tokens_seen": 17576755200,
+      "step": 67050
+    },
+    {
+      "epoch": 0.45134807445561603,
+      "grad_norm": 0.14341385662555695,
+      "learning_rate": 7.889138314185678e-05,
+      "loss": 2.9749,
+      "num_input_tokens_seen": 17589862400,
+      "step": 67100
+    },
+    {
+      "epoch": 0.45168439939932364,
+      "grad_norm": 0.1442009061574936,
+      "learning_rate": 7.626523026288279e-05,
+      "loss": 2.9637,
+      "num_input_tokens_seen": 17602969600,
+      "step": 67150
+    },
+    {
+      "epoch": 0.45202072434303125,
+      "grad_norm": 0.14580078423023224,
+      "learning_rate": 7.367991782295391e-05,
+      "loss": 2.9636,
+      "num_input_tokens_seen": 17616076800,
+      "step": 67200
+    },
+    {
+      "epoch": 0.45235704928673887,
+      "grad_norm": 0.13888555765151978,
+      "learning_rate": 7.1135694999864e-05,
+      "loss": 2.9737,
+      "num_input_tokens_seen": 17629184000,
+      "step": 67250
+    },
+    {
+      "epoch": 0.4526933742304465,
+      "grad_norm": 0.14820803701877594,
+      "learning_rate": 6.863280701110408e-05,
+      "loss": 2.9778,
+      "num_input_tokens_seen": 17642291200,
+      "step": 67300
+    },
+    {
+      "epoch": 0.4530296991741541,
+      "grad_norm": 0.14933691918849945,
+      "learning_rate": 6.617149509022808e-05,
+      "loss": 2.9667,
+      "num_input_tokens_seen": 17655398400,
+      "step": 67350
+    },
+    {
+      "epoch": 0.4533660241178617,
+      "grad_norm": 0.14829853177070618,
+      "learning_rate": 6.375199646360142e-05,
+      "loss": 2.9691,
+      "num_input_tokens_seen": 17668505600,
+      "step": 67400
+    },
+    {
+      "epoch": 0.4537023490615693,
+      "grad_norm": 0.14731477200984955,
+      "learning_rate": 6.137454432753797e-05,
+      "loss": 2.9731,
+      "num_input_tokens_seen": 17681612800,
+      "step": 67450
+    },
+    {
+      "epoch": 0.4540386740052769,
+      "grad_norm": 0.14357906579971313,
+      "learning_rate": 5.903936782582253e-05,
+      "loss": 2.9785,
+      "num_input_tokens_seen": 17694720000,
+      "step": 67500
+    },
+    {
+      "epoch": 0.4540386740052769,
+      "eval_loss": 2.867840528488159,
+      "eval_runtime": 53.8197,
+      "eval_samples_per_second": 92.903,
+      "eval_steps_per_second": 23.226,
+      "num_input_tokens_seen": 17694720000,
+      "step": 67500
+    },
+    {
+      "epoch": 0.45437499894898453,
+      "grad_norm": 0.1438903659582138,
+      "learning_rate": 5.6746692027626835e-05,
+      "loss": 2.9733,
+      "num_input_tokens_seen": 17707827200,
+      "step": 67550
+    },
+    {
+      "epoch": 0.45471132389269214,
+      "grad_norm": 0.14171506464481354,
+      "learning_rate": 5.449673790581611e-05,
+      "loss": 2.9637,
+      "num_input_tokens_seen": 17720934400,
+      "step": 67600
+    },
+    {
+      "epoch": 0.45504764883639975,
+      "grad_norm": 0.1645549088716507,
+      "learning_rate": 5.2289722315651546e-05,
+      "loss": 2.9668,
+      "num_input_tokens_seen": 17734041600,
+      "step": 67650
+    },
+    {
+      "epoch": 0.45538397378010737,
+      "grad_norm": 0.1390199065208435,
+      "learning_rate": 5.0125857973889355e-05,
+      "loss": 2.9762,
+      "num_input_tokens_seen": 17747148800,
+      "step": 67700
+    },
+    {
+      "epoch": 0.455720298723815,
+      "grad_norm": 0.14667369425296783,
+      "learning_rate": 4.800535343827833e-05,
+      "loss": 2.9724,
+      "num_input_tokens_seen": 17760256000,
+      "step": 67750
+    },
+    {
+      "epoch": 0.4560566236675226,
+      "grad_norm": 0.14203302562236786,
+      "learning_rate": 4.592841308745932e-05,
+      "loss": 2.9679,
+      "num_input_tokens_seen": 17773363200,
+      "step": 67800
+    },
+    {
+      "epoch": 0.45639294861123025,
+      "grad_norm": 0.1517883837223053,
+      "learning_rate": 4.389523710126619e-05,
+      "loss": 2.9723,
+      "num_input_tokens_seen": 17786470400,
+      "step": 67850
+    },
+    {
+      "epoch": 0.45672927355493786,
+      "grad_norm": 0.1438019722700119,
+      "learning_rate": 4.190602144143207e-05,
+      "loss": 2.973,
+      "num_input_tokens_seen": 17799577600,
+      "step": 67900
+    },
+    {
+      "epoch": 0.4570655984986455,
+      "grad_norm": 0.14281606674194336,
+      "learning_rate": 3.9960957832702595e-05,
+      "loss": 2.9733,
+      "num_input_tokens_seen": 17812684800,
+      "step": 67950
+    },
+    {
+      "epoch": 0.4574019234423531,
+      "grad_norm": 0.14911025762557983,
+      "learning_rate": 3.806023374435663e-05,
+      "loss": 2.9724,
+      "num_input_tokens_seen": 17825792000,
+      "step": 68000
+    },
+    {
+      "epoch": 0.4574019234423531,
+      "eval_loss": 2.8663442134857178,
+      "eval_runtime": 53.8853,
+      "eval_samples_per_second": 92.79,
+      "eval_steps_per_second": 23.197,
+      "num_input_tokens_seen": 17825792000,
+      "step": 68000
+    },
+    {
+      "epoch": 0.4577382483860607,
+      "grad_norm": 0.14517797529697418,
+      "learning_rate": 3.6204032372137984e-05,
+      "loss": 2.9674,
+      "num_input_tokens_seen": 17838899200,
+      "step": 68050
+    },
+    {
+      "epoch": 0.4580745733297683,
+      "grad_norm": 0.14154207706451416,
+      "learning_rate": 3.439253262059822e-05,
+      "loss": 2.9627,
+      "num_input_tokens_seen": 17852006400,
+      "step": 68100
+    },
+    {
+      "epoch": 0.4584108982734759,
+      "grad_norm": 0.14251314103603363,
+      "learning_rate": 3.2625909085853776e-05,
+      "loss": 2.9681,
+      "num_input_tokens_seen": 17865113600,
+      "step": 68150
+    },
+    {
+      "epoch": 0.45874722321718353,
+      "grad_norm": 0.15670983493328094,
+      "learning_rate": 3.0904332038757974e-05,
+      "loss": 2.9708,
+      "num_input_tokens_seen": 17878220800,
+      "step": 68200
+    },
+    {
+      "epoch": 0.45908354816089114,
+      "grad_norm": 0.1453925371170044,
+      "learning_rate": 2.9227967408489654e-05,
+      "loss": 2.9686,
+      "num_input_tokens_seen": 17891328000,
+      "step": 68250
+    },
+    {
+      "epoch": 0.45941987310459875,
+      "grad_norm": 0.13307476043701172,
+      "learning_rate": 2.7596976766560976e-05,
+      "loss": 2.9595,
+      "num_input_tokens_seen": 17904435200,
+      "step": 68300
+    },
+    {
+      "epoch": 0.45975619804830636,
+      "grad_norm": 0.14958307147026062,
+      "learning_rate": 2.6011517311244848e-05,
+      "loss": 2.9661,
+      "num_input_tokens_seen": 17917542400,
+      "step": 68350
+    },
+    {
+      "epoch": 0.460092522992014,
+      "grad_norm": 0.14210085570812225,
+      "learning_rate": 2.4471741852423235e-05,
+      "loss": 2.9737,
+      "num_input_tokens_seen": 17930649600,
+      "step": 68400
+    },
+    {
+      "epoch": 0.4604288479357216,
+      "grad_norm": 0.15127155184745789,
+      "learning_rate": 2.2977798796859794e-05,
+      "loss": 2.9627,
+      "num_input_tokens_seen": 17943756800,
+      "step": 68450
+    },
+    {
+      "epoch": 0.4607651728794292,
+      "grad_norm": 0.14184921979904175,
+      "learning_rate": 2.152983213389559e-05,
+      "loss": 2.9732,
+      "num_input_tokens_seen": 17956864000,
+      "step": 68500
+    },
+    {
+      "epoch": 0.4607651728794292,
+      "eval_loss": 2.865307331085205,
+      "eval_runtime": 53.2908,
+      "eval_samples_per_second": 93.825,
+      "eval_steps_per_second": 23.456,
+      "num_input_tokens_seen": 17956864000,
+      "step": 68500
+    },
+    {
+      "epoch": 0.4611014978231368,
+      "grad_norm": 0.14755961298942566,
+      "learning_rate": 2.0127981421571295e-05,
+      "loss": 2.9687,
+      "num_input_tokens_seen": 17969971200,
+      "step": 68550
+    },
+    {
+      "epoch": 0.4614378227668444,
+      "grad_norm": 0.1370965540409088,
+      "learning_rate": 1.8772381773176416e-05,
+      "loss": 2.9711,
+      "num_input_tokens_seen": 17983078400,
+      "step": 68600
+    },
+    {
+      "epoch": 0.46177414771055203,
+      "grad_norm": 0.14454130828380585,
+      "learning_rate": 1.7463163844226305e-05,
+      "loss": 2.9633,
+      "num_input_tokens_seen": 17996185600,
+      "step": 68650
+    },
+    {
+      "epoch": 0.46211047265425964,
+      "grad_norm": 0.13908445835113525,
+      "learning_rate": 1.620045381987012e-05,
+      "loss": 2.9662,
+      "num_input_tokens_seen": 18009292800,
+      "step": 68700
+    },
+    {
+      "epoch": 0.46244679759796725,
+      "grad_norm": 0.2359876185655594,
+      "learning_rate": 1.4984373402728013e-05,
+      "loss": 2.9671,
+      "num_input_tokens_seen": 18022400000,
+      "step": 68750
+    },
+    {
+      "epoch": 0.46278312254167486,
+      "grad_norm": 0.13809122145175934,
+      "learning_rate": 1.3815039801161721e-05,
+      "loss": 2.9684,
+      "num_input_tokens_seen": 18035507200,
+      "step": 68800
+    },
+    {
+      "epoch": 0.4631194474853825,
+      "grad_norm": 0.14375115931034088,
+      "learning_rate": 1.26925657179775e-05,
+      "loss": 2.9677,
+      "num_input_tokens_seen": 18048614400,
+      "step": 68850
+    },
+    {
+      "epoch": 0.4634557724290901,
+      "grad_norm": 0.14648525416851044,
+      "learning_rate": 1.1617059339563806e-05,
+      "loss": 2.9625,
+      "num_input_tokens_seen": 18061721600,
+      "step": 68900
+    },
+    {
+      "epoch": 0.4637920973727977,
+      "grad_norm": 0.1428016871213913,
+      "learning_rate": 1.058862432546387e-05,
+      "loss": 2.9717,
+      "num_input_tokens_seen": 18074828800,
+      "step": 68950
+    },
+    {
+      "epoch": 0.4641284223165053,
+      "grad_norm": 0.14518927037715912,
+      "learning_rate": 9.607359798384786e-06,
+      "loss": 2.9622,
+      "num_input_tokens_seen": 18087936000,
+      "step": 69000
+    },
+    {
+      "epoch": 0.4641284223165053,
+      "eval_loss": 2.8647797107696533,
+      "eval_runtime": 53.1259,
+      "eval_samples_per_second": 94.116,
+      "eval_steps_per_second": 23.529,
+      "num_input_tokens_seen": 18087936000,
+      "step": 69000
+    },
+    {
+      "epoch": 0.4644647472602129,
+      "grad_norm": 0.1424110382795334,
+      "learning_rate": 8.67336033464411e-06,
+      "loss": 2.9591,
+      "num_input_tokens_seen": 18101043200,
+      "step": 69050
+    },
+    {
+      "epoch": 0.46480107220392053,
+      "grad_norm": 0.14686723053455353,
+      "learning_rate": 7.786715955054202e-06,
+      "loss": 2.9561,
+      "num_input_tokens_seen": 18114150400,
+      "step": 69100
+    },
+    {
+      "epoch": 0.46513739714762814,
+      "grad_norm": 0.13719068467617035,
+      "learning_rate": 6.947512116245669e-06,
+      "loss": 2.9629,
+      "num_input_tokens_seen": 18127257600,
+      "step": 69150
+    },
+    {
+      "epoch": 0.46547372209133575,
+      "grad_norm": 0.14337210357189178,
+      "learning_rate": 6.15582970243117e-06,
+      "loss": 2.9713,
+      "num_input_tokens_seen": 18140364800,
+      "step": 69200
+    },
+    {
+      "epoch": 0.46581004703504336,
+      "grad_norm": 0.18305008113384247,
+      "learning_rate": 5.411745017609493e-06,
+      "loss": 2.9659,
+      "num_input_tokens_seen": 18153472000,
+      "step": 69250
+    },
+    {
+      "epoch": 0.466146371978751,
+      "grad_norm": 0.137322798371315,
+      "learning_rate": 4.715329778211374e-06,
+      "loss": 2.9678,
+      "num_input_tokens_seen": 18166579200,
+      "step": 69300
+    },
+    {
+      "epoch": 0.4664826969224586,
+      "grad_norm": 0.13300293684005737,
+      "learning_rate": 4.066651106186981e-06,
+      "loss": 2.9647,
+      "num_input_tokens_seen": 18179686400,
+      "step": 69350
+    },
+    {
+      "epoch": 0.4668190218661662,
+      "grad_norm": 0.13357709348201752,
+      "learning_rate": 3.4657715225368535e-06,
+      "loss": 2.965,
+      "num_input_tokens_seen": 18192793600,
+      "step": 69400
+    },
+    {
+      "epoch": 0.4671553468098738,
+      "grad_norm": 0.13399702310562134,
+      "learning_rate": 2.9127489412859033e-06,
+      "loss": 2.9614,
+      "num_input_tokens_seen": 18205900800,
+      "step": 69450
+    },
+    {
+      "epoch": 0.4674916717535814,
+      "grad_norm": 0.13703274726867676,
+      "learning_rate": 2.4076366639015913e-06,
+      "loss": 2.964,
+      "num_input_tokens_seen": 18219008000,
+      "step": 69500
+    },
+    {
+      "epoch": 0.4674916717535814,
+      "eval_loss": 2.8645894527435303,
+      "eval_runtime": 53.3524,
+      "eval_samples_per_second": 93.716,
+      "eval_steps_per_second": 23.429,
+      "num_input_tokens_seen": 18219008000,
+      "step": 69500
+    },
+    {
+      "epoch": 0.46782799669728903,
+      "grad_norm": 0.3837803900241852,
+      "learning_rate": 1.950483374156431e-06,
+      "loss": 2.9665,
+      "num_input_tokens_seen": 18232115200,
+      "step": 69550
+    },
+    {
+      "epoch": 0.46816432164099664,
+      "grad_norm": 0.13585589826107025,
+      "learning_rate": 1.541333133436018e-06,
+      "loss": 2.9579,
+      "num_input_tokens_seen": 18245222400,
+      "step": 69600
+    },
+    {
+      "epoch": 0.4685006465847043,
+      "grad_norm": 0.13347585499286652,
+      "learning_rate": 1.18022537649215e-06,
+      "loss": 2.9636,
+      "num_input_tokens_seen": 18258329600,
+      "step": 69650
+    },
+    {
+      "epoch": 0.4688369715284119,
+      "grad_norm": 0.13726544380187988,
+      "learning_rate": 8.671949076420882e-07,
+      "loss": 2.9626,
+      "num_input_tokens_seen": 18271436800,
+      "step": 69700
+    },
+    {
+      "epoch": 0.4691732964721195,
+      "grad_norm": 0.14254987239837646,
+      "learning_rate": 6.022718974137975e-07,
+      "loss": 2.9698,
+      "num_input_tokens_seen": 18284544000,
+      "step": 69750
+    },
+    {
+      "epoch": 0.46950962141582714,
+      "grad_norm": 0.1329219937324524,
+      "learning_rate": 3.854818796385495e-07,
+      "loss": 2.96,
+      "num_input_tokens_seen": 18297651200,
+      "step": 69800
+    },
+    {
+      "epoch": 0.46984594635953475,
+      "grad_norm": 0.1384582668542862,
+      "learning_rate": 2.1684574898939157e-07,
+      "loss": 2.9693,
+      "num_input_tokens_seen": 18310758400,
+      "step": 69850
+    },
+    {
+      "epoch": 0.47018227130324236,
+      "grad_norm": 0.14365264773368835,
+      "learning_rate": 9.637975896759077e-08,
+      "loss": 2.9686,
+      "num_input_tokens_seen": 18323865600,
+      "step": 69900
+    },
+    {
+      "epoch": 0.47051859624694997,
+      "grad_norm": 0.13613733649253845,
+      "learning_rate": 2.4095520335998265e-08,
+      "loss": 2.9607,
+      "num_input_tokens_seen": 18336972800,
+      "step": 69950
+    },
+    {
+      "epoch": 0.4708549211906576,
+      "grad_norm": 0.14377959072589874,
+      "learning_rate": 0.0,
+      "loss": 2.9684,
+      "num_input_tokens_seen": 18350080000,
+      "step": 70000
+    },
+    {
+      "epoch": 0.4708549211906576,
+      "eval_loss": 2.8644959926605225,
+      "eval_runtime": 54.0337,
+      "eval_samples_per_second": 92.535,
+      "eval_steps_per_second": 23.134,
+      "num_input_tokens_seen": 18350080000,
+      "step": 70000
+    },
+    {
+      "epoch": 0.4708549211906576,
+      "num_input_tokens_seen": 18350080000,
+      "step": 70000,
+      "total_flos": 4.9088254967808e+18,
+      "train_loss": 0.4265073311941964,
+      "train_runtime": 14322.5496,
+      "train_samples_per_second": 1251.174,
+      "train_steps_per_second": 4.887,
+      "train_tokens_per_second": 1281202.057
     }
   ],
   "logging_steps": 50,
+  "max_steps": 70000,
+  "num_input_tokens_seen": 18350080000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.9088254967808e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null