jbenbudd commited on Apr 6, 2025

Commit

7ba0b05

1 Parent(s): ed92ab1

Initial commit of the LoRA/adapter model

Browse files

Files changed (16) hide show

README.md +18 -26
adapter_config.json +13 -7
adapter_model.safetensors +2 -2
all_results.json +11 -11
eval_results.json +6 -6
llamaboard_config.yaml +2 -2
model_eval_results.csv +0 -0
running_log.txt +0 -0
special_tokens_map.json +7 -1
tokenizer_config.json +1 -1
trainer_log.jsonl +0 -0
trainer_state.json +702 -1989
training_args.bin +1 -1
training_args.yaml +5 -4
training_eval_loss.png +2 -2
training_loss.png +2 -2

README.md CHANGED Viewed

@@ -1,25 +1,25 @@
 ---
 library_name: peft
 license: other
-base_model: GreatCaptainNemo/ProLLaMA_Stage_1
 tags:
 - llama-factory
 - lora
 - generated_from_trainer
 model-index:
-- name: train_2025-03-11-22-40-04
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# train_2025-03-11-22-40-04
-This model is a fine-tuned version of [GreatCaptainNemo/ProLLaMA_Stage_1](https://huggingface.co/GreatCaptainNemo/ProLLaMA_Stage_1) on the adpr_train dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0947
-- Num Input Tokens Seen: 8867536
 ## Model description
@@ -39,11 +39,11 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 8
-- total_train_batch_size: 64
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 20
@@ -53,26 +53,18 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Input Tokens Seen |
 |:-------------:|:------:|:----:|:---------------:|:-----------------:|
-| 0.1778        | 0.2114 | 100  | 0.1754          | 624768            |
-| 0.1668        | 0.4228 | 200  | 0.1641          | 1249984           |
-| 0.1569        | 0.6342 | 300  | 0.1600          | 1875648           |
-| 0.1313        | 0.8457 | 400  | 0.1339          | 2500800           |
-| 0.1134        | 1.0571 | 500  | 0.1193          | 3124224           |
-| 0.1059        | 1.2685 | 600  | 0.1088          | 3750336           |
-| 0.096         | 1.4799 | 700  | 0.1083          | 4375808           |
-| 0.0998        | 1.6913 | 800  | 0.1001          | 5000128           |
-| 0.1083        | 1.9027 | 900  | 0.0991          | 5624576           |
-| 0.0953        | 2.1142 | 1000 | 0.0972          | 6248320           |
-| 0.0887        | 2.3256 | 1100 | 0.0964          | 6873152           |
-| 0.0889        | 2.5370 | 1200 | 0.0954          | 7498688           |
-| 0.0859        | 2.7484 | 1300 | 0.0950          | 8124864           |
-| 0.0883        | 2.9598 | 1400 | 0.0947          | 8749760           |
 ### Framework versions
-- PEFT 0.12.0
-- Transformers 4.48.3
 - Pytorch 2.3.1+cu121
-- Datasets 3.3.2
 - Tokenizers 0.21.0

 ---
 library_name: peft
 license: other
+base_model: GreatCaptainNemo/ProLLaMA
 tags:
 - llama-factory
 - lora
 - generated_from_trainer
 model-index:
+- name: train_2025-04-05-23-57-03
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# train_2025-04-05-23-57-03
+This model is a fine-tuned version of [GreatCaptainNemo/ProLLaMA](https://huggingface.co/GreatCaptainNemo/ProLLaMA) on the adpr_train dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2991
+- Num Input Tokens Seen: 8057088
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 16
+- eval_batch_size: 16
 - seed: 42
 - gradient_accumulation_steps: 8
+- total_train_batch_size: 128
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 20
 | Training Loss | Epoch  | Step | Validation Loss | Input Tokens Seen |
 |:-------------:|:------:|:----:|:---------------:|:-----------------:|
+| 0.46          | 0.4561 | 100  | 0.4706          | 1229824           |
+| 0.4222        | 0.9122 | 200  | 0.4173          | 2457344           |
+| 0.382         | 1.3649 | 300  | 0.3807          | 3679728           |
+| 0.3574        | 1.8210 | 400  | 0.3323          | 4908144           |
+| 0.311         | 2.2737 | 500  | 0.3114          | 6131072           |
+| 0.2808        | 2.7298 | 600  | 0.3001          | 7358336           |
 ### Framework versions
+- PEFT 0.14.0
+- Transformers 4.50.0
 - Pytorch 2.3.1+cu121
+- Datasets 3.4.1
 - Tokenizers 0.21.0

adapter_config.json CHANGED Viewed

@@ -1,8 +1,10 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "GreatCaptainNemo/ProLLaMA_Stage_1",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
@@ -11,22 +13,26 @@
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 128,
   "lora_dropout": 0.01,
   "megatron_config": null,
   "megatron_core": "megatron.core",
-  "modules_to_save": null,
   "peft_type": "LORA",
   "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "up_proj",
-    "gate_proj",
     "v_proj",
     "o_proj",
-    "down_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "GreatCaptainNemo/ProLLaMA",
   "bias": "none",
+  "eva_config": null,
+  "exclude_modules": null,
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 128,
+  "lora_bias": false,
   "lora_dropout": 0.01,
   "megatron_config": null,
   "megatron_core": "megatron.core",
+  "modules_to_save": [
+    "lm_head",
+    "embed_tokens"
+  ],
   "peft_type": "LORA",
   "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "up_proj",
+    "k_proj",
     "o_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ec8217f8814ec8fec1a7afe03a712ccc65a6bc6150d75f40338d02609d6edcd
-size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fd7dafc924d48955fd6dc8c3614d1473e067f0e918024bf03c1ce3a70677197
+size 1688269144

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 3.0,
-    "eval_loss": 0.09474755078554153,
-    "eval_runtime": 40.4682,
-    "eval_samples_per_second": 83.102,
-    "eval_steps_per_second": 10.403,
-    "num_input_tokens_seen": 8867536,
-    "total_flos": 3.600530754427945e+17,
-    "train_loss": 0.2131162985812786,
-    "train_runtime": 4701.6415,
-    "train_samples_per_second": 19.312,
-    "train_steps_per_second": 0.302
 }

 {
+    "epoch": 2.9897377423033067,
+    "eval_loss": 0.29908037185668945,
+    "eval_runtime": 34.2949,
+    "eval_samples_per_second": 90.917,
+    "eval_steps_per_second": 5.686,
+    "num_input_tokens_seen": 8057088,
+    "total_flos": 3.334823948247368e+17,
+    "train_loss": 0.48195079037043603,
+    "train_runtime": 3553.5571,
+    "train_samples_per_second": 23.687,
+    "train_steps_per_second": 0.185
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "eval_loss": 0.09474755078554153,
-    "eval_runtime": 40.4682,
-    "eval_samples_per_second": 83.102,
-    "eval_steps_per_second": 10.403,
-    "num_input_tokens_seen": 8867536
 }

 {
+    "epoch": 2.9897377423033067,
+    "eval_loss": 0.29908037185668945,
+    "eval_runtime": 34.2949,
+    "eval_samples_per_second": 90.917,
+    "eval_steps_per_second": 5.686,
+    "num_input_tokens_seen": 8057088
 }

llamaboard_config.yaml CHANGED Viewed

@@ -15,7 +15,7 @@ train.badam_mode: layer
 train.badam_switch_interval: 50
 train.badam_switch_mode: ascending
 train.badam_update_ratio: 0.05
-train.batch_size: 8
 train.compute_type: bf16
 train.create_new_adapter: false
 train.cutoff_len: 2048
@@ -55,7 +55,7 @@ train.pref_ftx: 0
 train.pref_loss: sigmoid
 train.report_to:
 - none
-train.resize_vocab: false
 train.reward_model: []
 train.save_steps: 100
 train.swanlab_api_key: ''

 train.badam_switch_interval: 50
 train.badam_switch_mode: ascending
 train.badam_update_ratio: 0.05
+train.batch_size: 16
 train.compute_type: bf16
 train.create_new_adapter: false
 train.cutoff_len: 2048
 train.pref_loss: sigmoid
 train.report_to:
 - none
+train.resize_vocab: true
 train.reward_model: []
 train.save_steps: 100
 train.swanlab_api_key: ''

model_eval_results.csv CHANGED Viewed

The diff for this file is too large to render. See raw diff

running_log.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json CHANGED Viewed

@@ -13,7 +13,13 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": "</s>",
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

     "rstrip": false,
     "single_word": false
   },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,

tokenizer_config.json CHANGED Viewed

@@ -34,7 +34,7 @@
   "eos_token": "</s>",
   "extra_special_tokens": {},
   "legacy": true,
-  "model_max_length": 2048,
   "pad_token": "</s>",
   "padding_side": "right",
   "sp_model_kwargs": {},

   "eos_token": "</s>",
   "extra_special_tokens": {},
   "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
   "pad_token": "</s>",
   "padding_side": "right",
   "sp_model_kwargs": {},

trainer_log.jsonl CHANGED Viewed

The diff for this file is too large to render. See raw diff

trainer_state.json CHANGED Viewed

@@ -1,2417 +1,1130 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 100,
-  "global_step": 1419,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.010570824524312896,
-      "grad_norm": 45.65249252319336,
       "learning_rate": 1.25e-05,
-      "loss": 14.2333,
-      "num_input_tokens_seen": 31104,
       "step": 5
     },
     {
-      "epoch": 0.021141649048625793,
-      "grad_norm": 33.49619674682617,
       "learning_rate": 2.5e-05,
-      "loss": 9.2972,
-      "num_input_tokens_seen": 62208,
       "step": 10
     },
     {
-      "epoch": 0.03171247357293869,
-      "grad_norm": 9.210739135742188,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 2.411,
-      "num_input_tokens_seen": 93504,
       "step": 15
     },
     {
-      "epoch": 0.042283298097251586,
-      "grad_norm": 7.316084384918213,
       "learning_rate": 5e-05,
-      "loss": 0.9413,
-      "num_input_tokens_seen": 124800,
       "step": 20
     },
     {
-      "epoch": 0.052854122621564484,
-      "grad_norm": 7.541203498840332,
-      "learning_rate": 4.9998424168507275e-05,
-      "loss": 0.4389,
-      "num_input_tokens_seen": 156096,
       "step": 25
     },
     {
-      "epoch": 0.06342494714587738,
-      "grad_norm": 7.138961315155029,
-      "learning_rate": 4.999369687268868e-05,
-      "loss": 0.4112,
-      "num_input_tokens_seen": 187200,
       "step": 30
     },
     {
-      "epoch": 0.07399577167019028,
-      "grad_norm": 0.46440309286117554,
-      "learning_rate": 4.998581870849795e-05,
-      "loss": 0.3011,
-      "num_input_tokens_seen": 218496,
       "step": 35
     },
     {
-      "epoch": 0.08456659619450317,
-      "grad_norm": 1.6051653623580933,
-      "learning_rate": 4.997479066910782e-05,
-      "loss": 0.2631,
-      "num_input_tokens_seen": 249920,
       "step": 40
     },
     {
-      "epoch": 0.09513742071881606,
-      "grad_norm": 1.2404223680496216,
-      "learning_rate": 4.996061414478485e-05,
-      "loss": 0.2223,
-      "num_input_tokens_seen": 281216,
       "step": 45
     },
     {
-      "epoch": 0.10570824524312897,
-      "grad_norm": 0.2932145297527313,
-      "learning_rate": 4.994329092271408e-05,
-      "loss": 0.2446,
-      "num_input_tokens_seen": 312512,
       "step": 50
     },
     {
-      "epoch": 0.11627906976744186,
-      "grad_norm": 7.334479331970215,
-      "learning_rate": 4.992282318677387e-05,
-      "loss": 0.2994,
-      "num_input_tokens_seen": 343680,
       "step": 55
     },
     {
-      "epoch": 0.12684989429175475,
-      "grad_norm": 1.8428316116333008,
-      "learning_rate": 4.9899213517260416e-05,
-      "loss": 0.2916,
-      "num_input_tokens_seen": 374848,
       "step": 60
     },
     {
-      "epoch": 0.13742071881606766,
-      "grad_norm": 0.9089680314064026,
-      "learning_rate": 4.9872464890562576e-05,
-      "loss": 0.2317,
-      "num_input_tokens_seen": 406400,
       "step": 65
     },
     {
-      "epoch": 0.14799154334038056,
-      "grad_norm": 4.8257880210876465,
-      "learning_rate": 4.9842580678786645e-05,
-      "loss": 0.2216,
-      "num_input_tokens_seen": 437696,
       "step": 70
     },
     {
-      "epoch": 0.15856236786469344,
-      "grad_norm": 0.614710807800293,
-      "learning_rate": 4.980956464933116e-05,
-      "loss": 0.2311,
-      "num_input_tokens_seen": 468864,
       "step": 75
     },
     {
-      "epoch": 0.16913319238900634,
-      "grad_norm": 1.1520471572875977,
-      "learning_rate": 4.9773420964412064e-05,
-      "loss": 0.2051,
-      "num_input_tokens_seen": 499968,
       "step": 80
     },
     {
-      "epoch": 0.17970401691331925,
-      "grad_norm": 0.8753998279571533,
-      "learning_rate": 4.973415418053789e-05,
-      "loss": 0.1928,
-      "num_input_tokens_seen": 531072,
       "step": 85
     },
     {
-      "epoch": 0.19027484143763213,
-      "grad_norm": 0.2460280954837799,
-      "learning_rate": 4.969176924793543e-05,
-      "loss": 0.1849,
-      "num_input_tokens_seen": 562240,
       "step": 90
     },
     {
-      "epoch": 0.20084566596194503,
-      "grad_norm": 0.22848260402679443,
-      "learning_rate": 4.96462715099256e-05,
-      "loss": 0.172,
-      "num_input_tokens_seen": 593536,
       "step": 95
     },
     {
-      "epoch": 0.21141649048625794,
-      "grad_norm": 0.4746881127357483,
-      "learning_rate": 4.9597666702249865e-05,
-      "loss": 0.1778,
-      "num_input_tokens_seen": 624768,
       "step": 100
     },
     {
-      "epoch": 0.21141649048625794,
-      "eval_loss": 0.17541779577732086,
-      "eval_runtime": 40.3512,
-      "eval_samples_per_second": 83.343,
-      "eval_steps_per_second": 10.433,
-      "num_input_tokens_seen": 624768,
       "step": 100
     },
     {
-      "epoch": 0.2219873150105708,
-      "grad_norm": 0.2084885537624359,
-      "learning_rate": 4.954596095234718e-05,
-      "loss": 0.1754,
-      "num_input_tokens_seen": 656256,
       "step": 105
     },
     {
-      "epoch": 0.23255813953488372,
-      "grad_norm": 0.10341060161590576,
-      "learning_rate": 4.9491160778581445e-05,
-      "loss": 0.1727,
-      "num_input_tokens_seen": 687808,
       "step": 110
     },
     {
-      "epoch": 0.24312896405919662,
-      "grad_norm": 11.542490005493164,
-      "learning_rate": 4.943327308941985e-05,
-      "loss": 0.1728,
-      "num_input_tokens_seen": 718848,
       "step": 115
     },
     {
-      "epoch": 0.2536997885835095,
-      "grad_norm": 0.07902055978775024,
-      "learning_rate": 4.9372305182561874e-05,
-      "loss": 0.1649,
-      "num_input_tokens_seen": 750080,
       "step": 120
     },
     {
-      "epoch": 0.2642706131078224,
-      "grad_norm": 0.09493754059076309,
-      "learning_rate": 4.9308264744019326e-05,
-      "loss": 0.1647,
-      "num_input_tokens_seen": 781184,
       "step": 125
     },
     {
-      "epoch": 0.2748414376321353,
-      "grad_norm": 1.9789398908615112,
-      "learning_rate": 4.9241159847147405e-05,
-      "loss": 0.1683,
-      "num_input_tokens_seen": 812160,
       "step": 130
     },
     {
-      "epoch": 0.2854122621564482,
-      "grad_norm": 0.1611855924129486,
-      "learning_rate": 4.917099895162689e-05,
-      "loss": 0.1597,
-      "num_input_tokens_seen": 843584,
       "step": 135
     },
     {
-      "epoch": 0.2959830866807611,
-      "grad_norm": 0.3848009705543518,
-      "learning_rate": 4.9097790902397686e-05,
-      "loss": 0.1669,
-      "num_input_tokens_seen": 875200,
       "step": 140
     },
     {
-      "epoch": 0.30655391120507397,
-      "grad_norm": 0.13839414715766907,
-      "learning_rate": 4.902154492854374e-05,
-      "loss": 0.1568,
-      "num_input_tokens_seen": 906432,
       "step": 145
     },
     {
-      "epoch": 0.3171247357293869,
-      "grad_norm": 0.12030225247144699,
-      "learning_rate": 4.8942270642129604e-05,
-      "loss": 0.1608,
-      "num_input_tokens_seen": 937664,
       "step": 150
     },
     {
-      "epoch": 0.3276955602536998,
-      "grad_norm": 0.21667665243148804,
-      "learning_rate": 4.8859978036988644e-05,
-      "loss": 0.1654,
-      "num_input_tokens_seen": 968960,
       "step": 155
     },
     {
-      "epoch": 0.3382663847780127,
-      "grad_norm": 0.146434485912323,
-      "learning_rate": 4.8774677487463175e-05,
-      "loss": 0.1639,
-      "num_input_tokens_seen": 1000192,
       "step": 160
     },
     {
-      "epoch": 0.3488372093023256,
-      "grad_norm": 0.11135861277580261,
-      "learning_rate": 4.8686379747096556e-05,
-      "loss": 0.16,
-      "num_input_tokens_seen": 1031616,
       "step": 165
     },
     {
-      "epoch": 0.3594080338266385,
-      "grad_norm": 0.07981089502573013,
-      "learning_rate": 4.85950959472776e-05,
-      "loss": 0.1645,
-      "num_input_tokens_seen": 1062656,
       "step": 170
     },
     {
-      "epoch": 0.3699788583509514,
-      "grad_norm": 0.057556912302970886,
-      "learning_rate": 4.850083759583723e-05,
-      "loss": 0.1604,
-      "num_input_tokens_seen": 1093888,
       "step": 175
     },
     {
-      "epoch": 0.38054968287526425,
-      "grad_norm": 0.12838751077651978,
-      "learning_rate": 4.840361657559775e-05,
-      "loss": 0.1707,
-      "num_input_tokens_seen": 1125184,
       "step": 180
     },
     {
-      "epoch": 0.39112050739957716,
-      "grad_norm": 0.20540139079093933,
-      "learning_rate": 4.830344514287478e-05,
-      "loss": 0.1544,
-      "num_input_tokens_seen": 1156224,
       "step": 185
     },
     {
-      "epoch": 0.40169133192389006,
-      "grad_norm": 0.11389072984457016,
-      "learning_rate": 4.8200335925932185e-05,
-      "loss": 0.1615,
-      "num_input_tokens_seen": 1187392,
       "step": 190
     },
     {
-      "epoch": 0.41226215644820297,
-      "grad_norm": 0.34211698174476624,
-      "learning_rate": 4.809430192339008e-05,
-      "loss": 0.159,
-      "num_input_tokens_seen": 1218624,
       "step": 195
     },
     {
-      "epoch": 0.42283298097251587,
-      "grad_norm": 0.4587748348712921,
-      "learning_rate": 4.79853565025861e-05,
-      "loss": 0.1668,
-      "num_input_tokens_seen": 1249984,
       "step": 200
     },
     {
-      "epoch": 0.42283298097251587,
-      "eval_loss": 0.16408737003803253,
-      "eval_runtime": 40.303,
-      "eval_samples_per_second": 83.443,
-      "eval_steps_per_second": 10.446,
-      "num_input_tokens_seen": 1249984,
       "step": 200
     },
     {
-      "epoch": 0.4334038054968288,
-      "grad_norm": 0.4510205388069153,
-      "learning_rate": 4.787351339789025e-05,
-      "loss": 0.1606,
-      "num_input_tokens_seen": 1281216,
       "step": 205
     },
     {
-      "epoch": 0.4439746300211416,
-      "grad_norm": 0.07297118008136749,
-      "learning_rate": 4.7758786708973444e-05,
-      "loss": 0.1628,
-      "num_input_tokens_seen": 1312768,
       "step": 210
     },
     {
-      "epoch": 0.45454545454545453,
-      "grad_norm": 0.1418861746788025,
-      "learning_rate": 4.764119089903008e-05,
-      "loss": 0.1617,
-      "num_input_tokens_seen": 1344192,
       "step": 215
     },
     {
-      "epoch": 0.46511627906976744,
-      "grad_norm": 0.15124177932739258,
-      "learning_rate": 4.752074079295457e-05,
-      "loss": 0.162,
-      "num_input_tokens_seen": 1375424,
       "step": 220
     },
     {
-      "epoch": 0.47568710359408034,
-      "grad_norm": 0.10217985510826111,
-      "learning_rate": 4.739745157547258e-05,
-      "loss": 0.1683,
-      "num_input_tokens_seen": 1406656,
       "step": 225
     },
     {
-      "epoch": 0.48625792811839325,
-      "grad_norm": 0.24457764625549316,
-      "learning_rate": 4.727133878922663e-05,
-      "loss": 0.155,
-      "num_input_tokens_seen": 1437824,
       "step": 230
     },
     {
-      "epoch": 0.49682875264270615,
-      "grad_norm": 1.5385491847991943,
-      "learning_rate": 4.7142418332816735e-05,
-      "loss": 0.1585,
-      "num_input_tokens_seen": 1468992,
       "step": 235
     },
     {
-      "epoch": 0.507399577167019,
-      "grad_norm": 25.565441131591797,
-      "learning_rate": 4.701070645879612e-05,
-      "loss": 0.1882,
-      "num_input_tokens_seen": 1500224,
       "step": 240
     },
     {
-      "epoch": 0.5179704016913319,
-      "grad_norm": 0.18062542378902435,
-      "learning_rate": 4.687621977162231e-05,
-      "loss": 0.1742,
-      "num_input_tokens_seen": 1531584,
       "step": 245
     },
     {
-      "epoch": 0.5285412262156448,
-      "grad_norm": 0.20139415562152863,
-      "learning_rate": 4.673897522556385e-05,
-      "loss": 0.1607,
-      "num_input_tokens_seen": 1562880,
       "step": 250
     },
     {
-      "epoch": 0.5391120507399577,
-      "grad_norm": 0.20215147733688354,
-      "learning_rate": 4.6598990122562996e-05,
-      "loss": 0.156,
-      "num_input_tokens_seen": 1594176,
       "step": 255
     },
     {
-      "epoch": 0.5496828752642706,
-      "grad_norm": 0.19909769296646118,
-      "learning_rate": 4.645628211005443e-05,
-      "loss": 0.1584,
-      "num_input_tokens_seen": 1625344,
       "step": 260
     },
     {
-      "epoch": 0.5602536997885835,
-      "grad_norm": 0.0857083797454834,
-      "learning_rate": 4.63108691787406e-05,
-      "loss": 0.1514,
-      "num_input_tokens_seen": 1656448,
       "step": 265
     },
     {
-      "epoch": 0.5708245243128964,
-      "grad_norm": 0.11940807104110718,
-      "learning_rate": 4.616276966032363e-05,
-      "loss": 0.1649,
-      "num_input_tokens_seen": 1687744,
       "step": 270
     },
     {
-      "epoch": 0.5813953488372093,
-      "grad_norm": 0.07466170191764832,
-      "learning_rate": 4.6012002225194325e-05,
-      "loss": 0.1577,
-      "num_input_tokens_seen": 1719040,
       "step": 275
     },
     {
-      "epoch": 0.5919661733615222,
-      "grad_norm": 0.1683170348405838,
-      "learning_rate": 4.585858588007849e-05,
-      "loss": 0.1562,
-      "num_input_tokens_seen": 1750208,
       "step": 280
     },
     {
-      "epoch": 0.6025369978858351,
-      "grad_norm": 0.3020932674407959,
-      "learning_rate": 4.570253996564075e-05,
-      "loss": 0.1438,
-      "num_input_tokens_seen": 1781824,
       "step": 285
     },
     {
-      "epoch": 0.6131078224101479,
-      "grad_norm": 0.18477758765220642,
-      "learning_rate": 4.554388415404644e-05,
-      "loss": 0.165,
-      "num_input_tokens_seen": 1813248,
       "step": 290
     },
     {
-      "epoch": 0.6236786469344608,
-      "grad_norm": 17.139799118041992,
-      "learning_rate": 4.538263844648149e-05,
-      "loss": 0.1618,
-      "num_input_tokens_seen": 1844736,
       "step": 295
     },
     {
-      "epoch": 0.6342494714587738,
-      "grad_norm": 0.15323784947395325,
-      "learning_rate": 4.521882317063103e-05,
-      "loss": 0.1569,
-      "num_input_tokens_seen": 1875648,
       "step": 300
     },
     {
-      "epoch": 0.6342494714587738,
-      "eval_loss": 0.16001471877098083,
-      "eval_runtime": 40.331,
-      "eval_samples_per_second": 83.385,
-      "eval_steps_per_second": 10.439,
-      "num_input_tokens_seen": 1875648,
       "step": 300
     },
     {
-      "epoch": 0.6448202959830867,
-      "grad_norm": 0.16273276507854462,
-      "learning_rate": 4.505245897811672e-05,
-      "loss": 0.1598,
-      "num_input_tokens_seen": 1907008,
       "step": 305
     },
     {
-      "epoch": 0.6553911205073996,
-      "grad_norm": 0.1982152760028839,
-      "learning_rate": 4.488356684189325e-05,
-      "loss": 0.1501,
-      "num_input_tokens_seen": 1938496,
       "step": 310
     },
     {
-      "epoch": 0.6659619450317125,
-      "grad_norm": 0.15199612081050873,
-      "learning_rate": 4.4712168053604407e-05,
-      "loss": 0.1456,
-      "num_input_tokens_seen": 1969664,
       "step": 315
     },
     {
-      "epoch": 0.6765327695560254,
-      "grad_norm": 0.21335271000862122,
-      "learning_rate": 4.4538284220898864e-05,
-      "loss": 0.1502,
-      "num_input_tokens_seen": 2001024,
       "step": 320
     },
     {
-      "epoch": 0.6871035940803383,
-      "grad_norm": 0.1967424601316452,
-      "learning_rate": 4.4361937264706186e-05,
-      "loss": 0.1446,
-      "num_input_tokens_seen": 2032448,
       "step": 325
     },
     {
-      "epoch": 0.6976744186046512,
-      "grad_norm": 0.13540367782115936,
-      "learning_rate": 4.418314941647335e-05,
-      "loss": 0.1478,
-      "num_input_tokens_seen": 2063872,
       "step": 330
     },
     {
-      "epoch": 0.7082452431289641,
-      "grad_norm": 0.17547021806240082,
-      "learning_rate": 4.400194321536209e-05,
-      "loss": 0.147,
-      "num_input_tokens_seen": 2095104,
       "step": 335
     },
     {
-      "epoch": 0.718816067653277,
-      "grad_norm": 0.29705560207366943,
-      "learning_rate": 4.381834150540749e-05,
-      "loss": 0.1479,
-      "num_input_tokens_seen": 2126336,
       "step": 340
     },
     {
-      "epoch": 0.7293868921775899,
-      "grad_norm": 0.24377129971981049,
-      "learning_rate": 4.363236743263808e-05,
-      "loss": 0.1448,
-      "num_input_tokens_seen": 2157376,
       "step": 345
     },
     {
-      "epoch": 0.7399577167019028,
-      "grad_norm": 0.16772465407848358,
-      "learning_rate": 4.3444044442157914e-05,
-      "loss": 0.1443,
-      "num_input_tokens_seen": 2188864,
       "step": 350
     },
     {
-      "epoch": 0.7505285412262156,
-      "grad_norm": 0.18267805874347687,
-      "learning_rate": 4.3253396275190926e-05,
-      "loss": 0.1464,
-      "num_input_tokens_seen": 2220288,
       "step": 355
     },
     {
-      "epoch": 0.7610993657505285,
-      "grad_norm": 0.18752624094486237,
-      "learning_rate": 4.306044696608797e-05,
-      "loss": 0.1345,
-      "num_input_tokens_seen": 2251520,
       "step": 360
     },
     {
-      "epoch": 0.7716701902748414,
-      "grad_norm": 0.21755804121494293,
-      "learning_rate": 4.286522083929686e-05,
-      "loss": 0.1311,
-      "num_input_tokens_seen": 2282624,
       "step": 365
     },
     {
-      "epoch": 0.7822410147991543,
-      "grad_norm": 0.2151494175195694,
-      "learning_rate": 4.266774250629589e-05,
-      "loss": 0.1428,
-      "num_input_tokens_seen": 2313792,
       "step": 370
     },
     {
-      "epoch": 0.7928118393234672,
-      "grad_norm": 0.24206243455410004,
-      "learning_rate": 4.2468036862491176e-05,
-      "loss": 0.1361,
-      "num_input_tokens_seen": 2344896,
       "step": 375
     },
     {
-      "epoch": 0.8033826638477801,
-      "grad_norm": 0.26434633135795593,
-      "learning_rate": 4.226612908407814e-05,
-      "loss": 0.1436,
-      "num_input_tokens_seen": 2376192,
       "step": 380
     },
     {
-      "epoch": 0.813953488372093,
-      "grad_norm": 0.26230087876319885,
-      "learning_rate": 4.2062044624867656e-05,
-      "loss": 0.138,
-      "num_input_tokens_seen": 2407232,
       "step": 385
     },
     {
-      "epoch": 0.8245243128964059,
-      "grad_norm": 0.27545973658561707,
-      "learning_rate": 4.1855809213077146e-05,
-      "loss": 0.129,
-      "num_input_tokens_seen": 2438528,
       "step": 390
     },
     {
-      "epoch": 0.8350951374207188,
-      "grad_norm": 0.2836856245994568,
-      "learning_rate": 4.1647448848087166e-05,
-      "loss": 0.1278,
-      "num_input_tokens_seen": 2469504,
       "step": 395
     },
     {
-      "epoch": 0.8456659619450317,
-      "grad_norm": 0.3141574561595917,
-      "learning_rate": 4.143698979716372e-05,
-      "loss": 0.1313,
-      "num_input_tokens_seen": 2500800,
       "step": 400
     },
     {
-      "epoch": 0.8456659619450317,
-      "eval_loss": 0.1339479386806488,
-      "eval_runtime": 40.355,
-      "eval_samples_per_second": 83.335,
-      "eval_steps_per_second": 10.432,
-      "num_input_tokens_seen": 2500800,
       "step": 400
     },
     {
-      "epoch": 0.8562367864693446,
-      "grad_norm": 0.21188335120677948,
-      "learning_rate": 4.122445859214682e-05,
-      "loss": 0.1308,
-      "num_input_tokens_seen": 2531904,
       "step": 405
     },
     {
-      "epoch": 0.8668076109936576,
-      "grad_norm": 0.22360175848007202,
-      "learning_rate": 4.100988202610577e-05,
-      "loss": 0.1213,
-      "num_input_tokens_seen": 2563392,
       "step": 410
     },
     {
-      "epoch": 0.8773784355179705,
-      "grad_norm": 0.1944059282541275,
-      "learning_rate": 4.079328714996139e-05,
-      "loss": 0.1232,
-      "num_input_tokens_seen": 2594688,
       "step": 415
     },
     {
-      "epoch": 0.8879492600422833,
-      "grad_norm": 0.3056269884109497,
-      "learning_rate": 4.0574701269075844e-05,
-      "loss": 0.1328,
-      "num_input_tokens_seen": 2626112,
       "step": 420
     },
     {
-      "epoch": 0.8985200845665962,
-      "grad_norm": 0.25777870416641235,
-      "learning_rate": 4.035415193981032e-05,
-      "loss": 0.1237,
-      "num_input_tokens_seen": 2657344,
       "step": 425
     },
     {
-      "epoch": 0.9090909090909091,
-      "grad_norm": 0.3172893822193146,
-      "learning_rate": 4.0131666966051127e-05,
-      "loss": 0.131,
-      "num_input_tokens_seen": 2688256,
       "step": 430
     },
     {
-      "epoch": 0.919661733615222,
-      "grad_norm": 0.3003503978252411,
-      "learning_rate": 3.990727439570453e-05,
-      "loss": 0.1301,
-      "num_input_tokens_seen": 2719232,
       "step": 435
     },
     {
-      "epoch": 0.9302325581395349,
-      "grad_norm": 0.350626677274704,
-      "learning_rate": 3.9681002517160845e-05,
-      "loss": 0.1249,
-      "num_input_tokens_seen": 2750464,
       "step": 440
     },
     {
-      "epoch": 0.9408033826638478,
-      "grad_norm": 1.0592330694198608,
-      "learning_rate": 3.945287985572826e-05,
-      "loss": 0.1176,
-      "num_input_tokens_seen": 2781440,
       "step": 445
     },
     {
-      "epoch": 0.9513742071881607,
-      "grad_norm": 0.6262398362159729,
-      "learning_rate": 3.922293517003668e-05,
-      "loss": 0.119,
-      "num_input_tokens_seen": 2812864,
       "step": 450
     },
     {
-      "epoch": 0.9619450317124736,
-      "grad_norm": 1.1160500049591064,
-      "learning_rate": 3.899119744841232e-05,
-      "loss": 0.1166,
-      "num_input_tokens_seen": 2844096,
       "step": 455
     },
     {
-      "epoch": 0.9725158562367865,
-      "grad_norm": 0.24976776540279388,
-      "learning_rate": 3.875769590522314e-05,
-      "loss": 0.1207,
-      "num_input_tokens_seen": 2875392,
       "step": 460
     },
     {
-      "epoch": 0.9830866807610994,
-      "grad_norm": 0.17139197885990143,
-      "learning_rate": 3.8522459977195955e-05,
-      "loss": 0.125,
-      "num_input_tokens_seen": 2906432,
       "step": 465
     },
     {
-      "epoch": 0.9936575052854123,
-      "grad_norm": 0.22843952476978302,
-      "learning_rate": 3.828551931970549e-05,
-      "loss": 0.1278,
-      "num_input_tokens_seen": 2937728,
       "step": 470
     },
     {
-      "epoch": 1.0042283298097252,
-      "grad_norm": 0.1976863592863083,
-      "learning_rate": 3.8046903803035716e-05,
-      "loss": 0.1226,
-      "num_input_tokens_seen": 2968192,
       "step": 475
     },
     {
-      "epoch": 1.014799154334038,
-      "grad_norm": 0.280398428440094,
-      "learning_rate": 3.780664350861431e-05,
-      "loss": 0.1169,
-      "num_input_tokens_seen": 2999488,
       "step": 480
     },
     {
-      "epoch": 1.025369978858351,
-      "grad_norm": 0.2658718526363373,
-      "learning_rate": 3.756476872522035e-05,
-      "loss": 0.116,
-      "num_input_tokens_seen": 3030720,
       "step": 485
     },
     {
-      "epoch": 1.0359408033826638,
-      "grad_norm": 0.27286848425865173,
-      "learning_rate": 3.7321309945165905e-05,
-      "loss": 0.1197,
-      "num_input_tokens_seen": 3062016,
       "step": 490
     },
     {
-      "epoch": 1.0465116279069768,
-      "grad_norm": 0.5994888544082642,
-      "learning_rate": 3.707629786045198e-05,
-      "loss": 0.1184,
-      "num_input_tokens_seen": 3093184,
       "step": 495
     },
     {
-      "epoch": 1.0570824524312896,
-      "grad_norm": 0.21185331046581268,
-      "learning_rate": 3.682976335889935e-05,
-      "loss": 0.1134,
-      "num_input_tokens_seen": 3124224,
       "step": 500
     },
     {
-      "epoch": 1.0570824524312896,
-      "eval_loss": 0.1192605197429657,
-      "eval_runtime": 40.4991,
-      "eval_samples_per_second": 83.039,
-      "eval_steps_per_second": 10.395,
-      "num_input_tokens_seen": 3124224,
       "step": 500
     },
     {
-      "epoch": 1.0676532769556026,
-      "grad_norm": 0.24811674654483795,
-      "learning_rate": 3.658173752025452e-05,
-      "loss": 0.1193,
-      "num_input_tokens_seen": 3155584,
       "step": 505
     },
     {
-      "epoch": 1.0782241014799154,
-      "grad_norm": 0.3816189765930176,
-      "learning_rate": 3.633225161227169e-05,
-      "loss": 0.115,
-      "num_input_tokens_seen": 3186944,
       "step": 510
     },
     {
-      "epoch": 1.0887949260042284,
-      "grad_norm": 0.28296881914138794,
-      "learning_rate": 3.608133708677093e-05,
-      "loss": 0.1146,
-      "num_input_tokens_seen": 3218304,
       "step": 515
     },
     {
-      "epoch": 1.0993657505285412,
-      "grad_norm": 0.23222461342811584,
-      "learning_rate": 3.5829025575673136e-05,
-      "loss": 0.1109,
-      "num_input_tokens_seen": 3249664,
       "step": 520
     },
     {
-      "epoch": 1.109936575052854,
-      "grad_norm": 0.2331598997116089,
-      "learning_rate": 3.5575348887012336e-05,
-      "loss": 0.1143,
-      "num_input_tokens_seen": 3280960,
       "step": 525
     },
     {
-      "epoch": 1.120507399577167,
-      "grad_norm": 0.2590779662132263,
-      "learning_rate": 3.532033900092571e-05,
-      "loss": 0.1129,
-      "num_input_tokens_seen": 3312320,
       "step": 530
     },
     {
-      "epoch": 1.1310782241014798,
-      "grad_norm": 0.5093595385551453,
-      "learning_rate": 3.506402806562202e-05,
-      "loss": 0.1139,
-      "num_input_tokens_seen": 3343424,
       "step": 535
     },
     {
-      "epoch": 1.1416490486257929,
-      "grad_norm": 0.41402578353881836,
-      "learning_rate": 3.480644839332876e-05,
-      "loss": 0.1122,
-      "num_input_tokens_seen": 3374720,
       "step": 540
     },
     {
-      "epoch": 1.1522198731501057,
-      "grad_norm": 0.2018992006778717,
-      "learning_rate": 3.454763245621871e-05,
-      "loss": 0.111,
-      "num_input_tokens_seen": 3406016,
       "step": 545
     },
     {
-      "epoch": 1.1627906976744187,
-      "grad_norm": 0.7119062542915344,
-      "learning_rate": 3.428761288231621e-05,
-      "loss": 0.1105,
-      "num_input_tokens_seen": 3437184,
       "step": 550
     },
     {
-      "epoch": 1.1733615221987315,
-      "grad_norm": 0.1787111908197403,
-      "learning_rate": 3.402642245138394e-05,
-      "loss": 0.1128,
-      "num_input_tokens_seen": 3468416,
       "step": 555
     },
     {
-      "epoch": 1.1839323467230445,
-      "grad_norm": 0.3644562065601349,
-      "learning_rate": 3.376409409079043e-05,
-      "loss": 0.1066,
-      "num_input_tokens_seen": 3499456,
       "step": 560
     },
     {
-      "epoch": 1.1945031712473573,
-      "grad_norm": 0.18238377571105957,
-      "learning_rate": 3.350066087135903e-05,
-      "loss": 0.1126,
-      "num_input_tokens_seen": 3530944,
       "step": 565
     },
     {
-      "epoch": 1.20507399577167,
-      "grad_norm": 0.4499008357524872,
-      "learning_rate": 3.323615600319883e-05,
-      "loss": 0.1107,
-      "num_input_tokens_seen": 3562368,
       "step": 570
     },
     {
-      "epoch": 1.215644820295983,
-      "grad_norm": 0.21635930240154266,
-      "learning_rate": 3.297061283151791e-05,
-      "loss": 0.1146,
-      "num_input_tokens_seen": 3593600,
       "step": 575
     },
     {
-      "epoch": 1.226215644820296,
-      "grad_norm": 0.2716653645038605,
-      "learning_rate": 3.27040648324197e-05,
-      "loss": 0.1063,
-      "num_input_tokens_seen": 3625152,
       "step": 580
     },
     {
-      "epoch": 1.236786469344609,
-      "grad_norm": 0.48543792963027954,
-      "learning_rate": 3.243654560868268e-05,
-      "loss": 0.1057,
-      "num_input_tokens_seen": 3656192,
       "step": 585
     },
     {
-      "epoch": 1.2473572938689217,
-      "grad_norm": 0.14151746034622192,
-      "learning_rate": 3.216808888552429e-05,
-      "loss": 0.1024,
-      "num_input_tokens_seen": 3687232,
       "step": 590
     },
     {
-      "epoch": 1.2579281183932347,
-      "grad_norm": 0.14911863207817078,
-      "learning_rate": 3.189872850634922e-05,
-      "loss": 0.1006,
-      "num_input_tokens_seen": 3718592,
       "step": 595
     },
     {
-      "epoch": 1.2684989429175475,
-      "grad_norm": 0.2520624101161957,
-      "learning_rate": 3.162849842848294e-05,
-      "loss": 0.1059,
-      "num_input_tokens_seen": 3750336,
       "step": 600
     },
     {
-      "epoch": 1.2684989429175475,
-      "eval_loss": 0.10877919942140579,
-      "eval_runtime": 40.4719,
-      "eval_samples_per_second": 83.095,
-      "eval_steps_per_second": 10.402,
-      "num_input_tokens_seen": 3750336,
       "step": 600
     },
     {
-      "epoch": 1.2790697674418605,
-      "grad_norm": 0.17694608867168427,
-      "learning_rate": 3.1357432718890815e-05,
-      "loss": 0.1079,
-      "num_input_tokens_seen": 3781632,
       "step": 605
     },
     {
-      "epoch": 1.2896405919661733,
-      "grad_norm": 0.2516515254974365,
-      "learning_rate": 3.108556554988338e-05,
-      "loss": 0.1106,
-      "num_input_tokens_seen": 3812928,
       "step": 610
     },
     {
-      "epoch": 1.3002114164904863,
-      "grad_norm": 0.19276951253414154,
-      "learning_rate": 3.081293119480838e-05,
-      "loss": 0.1027,
-      "num_input_tokens_seen": 3843904,
       "step": 615
     },
     {
-      "epoch": 1.3107822410147991,
-      "grad_norm": 0.21422848105430603,
-      "learning_rate": 3.053956402373004e-05,
-      "loss": 0.1015,
-      "num_input_tokens_seen": 3875008,
       "step": 620
     },
     {
-      "epoch": 1.3213530655391121,
-      "grad_norm": 0.3366522789001465,
-      "learning_rate": 3.0265498499096127e-05,
-      "loss": 0.0965,
-      "num_input_tokens_seen": 3906560,
       "step": 625
     },
     {
-      "epoch": 1.331923890063425,
-      "grad_norm": 0.21864481270313263,
-      "learning_rate": 2.9990769171393423e-05,
-      "loss": 0.1106,
-      "num_input_tokens_seen": 3937856,
       "step": 630
     },
     {
-      "epoch": 1.3424947145877377,
-      "grad_norm": 0.15011939406394958,
-      "learning_rate": 2.971541067479207e-05,
-      "loss": 0.0996,
-      "num_input_tokens_seen": 3968832,
       "step": 635
     },
     {
-      "epoch": 1.3530655391120507,
-      "grad_norm": 0.5444221496582031,
-      "learning_rate": 2.9439457722779317e-05,
-      "loss": 0.1049,
-      "num_input_tokens_seen": 4000000,
       "step": 640
     },
     {
-      "epoch": 1.3636363636363638,
-      "grad_norm": 0.2850906252861023,
-      "learning_rate": 2.916294510378335e-05,
-      "loss": 0.1118,
-      "num_input_tokens_seen": 4031424,
       "step": 645
     },
     {
-      "epoch": 1.3742071881606766,
-      "grad_norm": 0.13976424932479858,
-      "learning_rate": 2.8885907676787622e-05,
-      "loss": 0.0967,
-      "num_input_tokens_seen": 4062720,
       "step": 650
     },
     {
-      "epoch": 1.3847780126849893,
-      "grad_norm": 0.3354976773262024,
-      "learning_rate": 2.8608380366936293e-05,
-      "loss": 0.1035,
-      "num_input_tokens_seen": 4093824,
       "step": 655
     },
     {
-      "epoch": 1.3953488372093024,
-      "grad_norm": 0.43213343620300293,
-      "learning_rate": 2.8330398161131376e-05,
-      "loss": 0.1043,
-      "num_input_tokens_seen": 4125120,
-      "step": 660
-    },
-    {
-      "epoch": 1.4059196617336152,
-      "grad_norm": 0.15570229291915894,
-      "learning_rate": 2.8051996103622003e-05,
-      "loss": 0.1045,
-      "num_input_tokens_seen": 4156544,
-      "step": 665
-    },
-    {
-      "epoch": 1.4164904862579282,
-      "grad_norm": 0.2985534965991974,
-      "learning_rate": 2.7773209291586567e-05,
-      "loss": 0.1015,
-      "num_input_tokens_seen": 4187904,
-      "step": 670
-    },
-    {
-      "epoch": 1.427061310782241,
-      "grad_norm": 1.0605559349060059,
-      "learning_rate": 2.749407287070812e-05,
-      "loss": 0.1055,
-      "num_input_tokens_seen": 4219072,
-      "step": 675
-    },
-    {
-      "epoch": 1.437632135306554,
-      "grad_norm": 0.3407301902770996,
-      "learning_rate": 2.7214622030743693e-05,
-      "loss": 0.1045,
-      "num_input_tokens_seen": 4250624,
-      "step": 680
-    },
-    {
-      "epoch": 1.4482029598308668,
-      "grad_norm": 0.4994814395904541,
-      "learning_rate": 2.693489200108802e-05,
-      "loss": 0.1035,
-      "num_input_tokens_seen": 4281920,
-      "step": 685
-    },
-    {
-      "epoch": 1.4587737843551798,
-      "grad_norm": 0.2948305606842041,
-      "learning_rate": 2.6654918046332323e-05,
-      "loss": 0.1035,
-      "num_input_tokens_seen": 4313024,
-      "step": 690
-    },
-    {
-      "epoch": 1.4693446088794926,
-      "grad_norm": 0.24761343002319336,
-      "learning_rate": 2.63747354618186e-05,
-      "loss": 0.0989,
-      "num_input_tokens_seen": 4344384,
-      "step": 695
-    },
-    {
-      "epoch": 1.4799154334038054,
-      "grad_norm": 0.1787084937095642,
-      "learning_rate": 2.6094379569190082e-05,
-      "loss": 0.096,
-      "num_input_tokens_seen": 4375808,
-      "step": 700
-    },
-    {
-      "epoch": 1.4799154334038054,
-      "eval_loss": 0.10834133625030518,
-      "eval_runtime": 40.5125,
-      "eval_samples_per_second": 83.012,
-      "eval_steps_per_second": 10.392,
-      "num_input_tokens_seen": 4375808,
-      "step": 700
-    },
-    {
-      "epoch": 1.4904862579281184,
-      "grad_norm": 0.30317065119743347,
-      "learning_rate": 2.5813885711938357e-05,
-      "loss": 0.1052,
-      "num_input_tokens_seen": 4406912,
-      "step": 705
-    },
-    {
-      "epoch": 1.5010570824524314,
-      "grad_norm": 0.4754318594932556,
-      "learning_rate": 2.553328925094773e-05,
-      "loss": 0.1082,
-      "num_input_tokens_seen": 4437952,
-      "step": 710
-    },
-    {
-      "epoch": 1.5116279069767442,
-      "grad_norm": 0.28454455733299255,
-      "learning_rate": 2.5252625560037386e-05,
-      "loss": 0.1053,
-      "num_input_tokens_seen": 4469312,
-      "step": 715
-    },
-    {
-      "epoch": 1.522198731501057,
-      "grad_norm": 0.20031358301639557,
-      "learning_rate": 2.4971930021501965e-05,
-      "loss": 0.1003,
-      "num_input_tokens_seen": 4500352,
-      "step": 720
-    },
-    {
-      "epoch": 1.53276955602537,
-      "grad_norm": 0.3033943176269531,
-      "learning_rate": 2.4691238021651042e-05,
-      "loss": 0.1027,
-      "num_input_tokens_seen": 4531584,
-      "step": 725
-    },
-    {
-      "epoch": 1.543340380549683,
-      "grad_norm": 0.21204060316085815,
-      "learning_rate": 2.4410584946348054e-05,
-      "loss": 0.1019,
-      "num_input_tokens_seen": 4562752,
-      "step": 730
-    },
-    {
-      "epoch": 1.5539112050739958,
-      "grad_norm": 0.21926385164260864,
-      "learning_rate": 2.413000617654938e-05,
-      "loss": 0.1094,
-      "num_input_tokens_seen": 4593792,
-      "step": 735
-    },
-    {
-      "epoch": 1.5644820295983086,
-      "grad_norm": 0.14374680817127228,
-      "learning_rate": 2.3849537083843936e-05,
-      "loss": 0.0987,
-      "num_input_tokens_seen": 4624832,
-      "step": 740
-    },
-    {
-      "epoch": 1.5750528541226214,
-      "grad_norm": 0.20950725674629211,
-      "learning_rate": 2.3569213025994056e-05,
-      "loss": 0.0973,
-      "num_input_tokens_seen": 4655872,
-      "step": 745
-    },
-    {
-      "epoch": 1.5856236786469344,
-      "grad_norm": 0.20852594077587128,
-      "learning_rate": 2.3289069342478018e-05,
-      "loss": 0.1052,
-      "num_input_tokens_seen": 4686912,
-      "step": 750
-    },
-    {
-      "epoch": 1.5961945031712474,
-      "grad_norm": 0.24457433819770813,
-      "learning_rate": 2.3009141350034937e-05,
-      "loss": 0.1069,
-      "num_input_tokens_seen": 4718208,
-      "step": 755
-    },
-    {
-      "epoch": 1.6067653276955602,
-      "grad_norm": 0.22334040701389313,
-      "learning_rate": 2.2729464338212515e-05,
-      "loss": 0.0994,
-      "num_input_tokens_seen": 4749376,
-      "step": 760
-    },
-    {
-      "epoch": 1.617336152219873,
-      "grad_norm": 0.298551082611084,
-      "learning_rate": 2.2450073564918185e-05,
-      "loss": 0.1027,
-      "num_input_tokens_seen": 4781120,
-      "step": 765
-    },
-    {
-      "epoch": 1.627906976744186,
-      "grad_norm": 0.17930828034877777,
-      "learning_rate": 2.21710042519743e-05,
-      "loss": 0.1026,
-      "num_input_tokens_seen": 4812480,
-      "step": 770
-    },
-    {
-      "epoch": 1.638477801268499,
-      "grad_norm": 0.21870951354503632,
-      "learning_rate": 2.1892291580677822e-05,
-      "loss": 0.0974,
-      "num_input_tokens_seen": 4843712,
-      "step": 775
-    },
-    {
-      "epoch": 1.6490486257928119,
-      "grad_norm": 0.31846246123313904,
-      "learning_rate": 2.1613970687365127e-05,
-      "loss": 0.1131,
-      "num_input_tokens_seen": 4874944,
-      "step": 780
-    },
-    {
-      "epoch": 1.6596194503171247,
-      "grad_norm": 0.16467052698135376,
-      "learning_rate": 2.1336076658982524e-05,
-      "loss": 0.0919,
-      "num_input_tokens_seen": 4906368,
-      "step": 785
-    },
-    {
-      "epoch": 1.6701902748414377,
-      "grad_norm": 0.21385768055915833,
-      "learning_rate": 2.1058644528662945e-05,
-      "loss": 0.1036,
-      "num_input_tokens_seen": 4937536,
-      "step": 790
-    },
-    {
-      "epoch": 1.6807610993657507,
-      "grad_norm": 0.23187273740768433,
-      "learning_rate": 2.0781709271309423e-05,
-      "loss": 0.0956,
-      "num_input_tokens_seen": 4968832,
-      "step": 795
-    },
-    {
-      "epoch": 1.6913319238900635,
-      "grad_norm": 0.1834268420934677,
-      "learning_rate": 2.0505305799185966e-05,
-      "loss": 0.0998,
-      "num_input_tokens_seen": 5000128,
-      "step": 800
-    },
-    {
-      "epoch": 1.6913319238900635,
-      "eval_loss": 0.10008509457111359,
-      "eval_runtime": 40.4757,
-      "eval_samples_per_second": 83.087,
-      "eval_steps_per_second": 10.401,
-      "num_input_tokens_seen": 5000128,
-      "step": 800
-    },
-    {
-      "epoch": 1.7019027484143763,
-      "grad_norm": 0.21062688529491425,
-      "learning_rate": 2.022946895751625e-05,
-      "loss": 0.0956,
-      "num_input_tokens_seen": 5031360,
-      "step": 805
-    },
-    {
-      "epoch": 1.712473572938689,
-      "grad_norm": 1.7325960397720337,
-      "learning_rate": 1.9954233520090843e-05,
-      "loss": 0.1008,
-      "num_input_tokens_seen": 5062720,
-      "step": 810
-    },
-    {
-      "epoch": 1.723044397463002,
-      "grad_norm": 0.3289014399051666,
-      "learning_rate": 1.967963418488335e-05,
-      "loss": 0.0955,
-      "num_input_tokens_seen": 5093888,
-      "step": 815
-    },
-    {
-      "epoch": 1.733615221987315,
-      "grad_norm": 0.5929372906684875,
-      "learning_rate": 1.9405705569676206e-05,
-      "loss": 0.1039,
-      "num_input_tokens_seen": 5125120,
-      "step": 820
-    },
-    {
-      "epoch": 1.744186046511628,
-      "grad_norm": 0.32440027594566345,
-      "learning_rate": 1.9132482207696488e-05,
-      "loss": 0.1005,
-      "num_input_tokens_seen": 5156544,
-      "step": 825
-    },
-    {
-      "epoch": 1.7547568710359407,
-      "grad_norm": 0.9935529828071594,
-      "learning_rate": 1.8859998543262474e-05,
-      "loss": 0.1069,
-      "num_input_tokens_seen": 5187776,
-      "step": 830
-    },
-    {
-      "epoch": 1.7653276955602537,
-      "grad_norm": 0.3179354667663574,
-      "learning_rate": 1.8588288927441334e-05,
-      "loss": 0.1004,
-      "num_input_tokens_seen": 5218944,
-      "step": 835
-    },
-    {
-      "epoch": 1.7758985200845667,
-      "grad_norm": 0.2485605925321579,
-      "learning_rate": 1.831738761371863e-05,
-      "loss": 0.1002,
-      "num_input_tokens_seen": 5250112,
-      "step": 840
-    },
-    {
-      "epoch": 1.7864693446088795,
-      "grad_norm": 0.2269657999277115,
-      "learning_rate": 1.8047328753680083e-05,
-      "loss": 0.0927,
-      "num_input_tokens_seen": 5281088,
-      "step": 845
-    },
-    {
-      "epoch": 1.7970401691331923,
-      "grad_norm": 0.2539865970611572,
-      "learning_rate": 1.777814639270622e-05,
-      "loss": 0.1013,
-      "num_input_tokens_seen": 5312256,
-      "step": 850
-    },
-    {
-      "epoch": 1.8076109936575053,
-      "grad_norm": 0.6908059120178223,
-      "learning_rate": 1.7509874465680377e-05,
-      "loss": 0.0945,
-      "num_input_tokens_seen": 5343744,
-      "step": 855
-    },
-    {
-      "epoch": 1.8181818181818183,
-      "grad_norm": 0.19062310457229614,
-      "learning_rate": 1.724254679271065e-05,
-      "loss": 0.0949,
-      "num_input_tokens_seen": 5374976,
-      "step": 860
-    },
-    {
-      "epoch": 1.8287526427061311,
-      "grad_norm": 0.2800229787826538,
-      "learning_rate": 1.6976197074866315e-05,
-      "loss": 0.0923,
-      "num_input_tokens_seen": 5406144,
-      "step": 865
-    },
-    {
-      "epoch": 1.839323467230444,
-      "grad_norm": 0.18416666984558105,
-      "learning_rate": 1.6710858889929255e-05,
-      "loss": 0.1049,
-      "num_input_tokens_seen": 5437760,
-      "step": 870
-    },
-    {
-      "epoch": 1.8498942917547567,
-      "grad_norm": 0.2170882225036621,
-      "learning_rate": 1.6446565688160897e-05,
-      "loss": 0.0906,
-      "num_input_tokens_seen": 5468992,
-      "step": 875
-    },
-    {
-      "epoch": 1.8604651162790697,
-      "grad_norm": 0.5100112557411194,
-      "learning_rate": 1.6183350788085317e-05,
-      "loss": 0.0942,
-      "num_input_tokens_seen": 5500288,
-      "step": 880
-    },
-    {
-      "epoch": 1.8710359408033828,
-      "grad_norm": 0.2084072232246399,
-      "learning_rate": 1.592124737228881e-05,
-      "loss": 0.1,
-      "num_input_tokens_seen": 5531456,
-      "step": 885
-    },
-    {
-      "epoch": 1.8816067653276956,
-      "grad_norm": 0.28143033385276794,
-      "learning_rate": 1.566028848323674e-05,
-      "loss": 0.0985,
-      "num_input_tokens_seen": 5562624,
-      "step": 890
-    },
-    {
-      "epoch": 1.8921775898520083,
-      "grad_norm": 0.5206342935562134,
-      "learning_rate": 1.540050701910796e-05,
-      "loss": 0.0959,
-      "num_input_tokens_seen": 5593536,
-      "step": 895
-    },
-    {
-      "epoch": 1.9027484143763214,
-      "grad_norm": 0.17240764200687408,
-      "learning_rate": 1.5141935729647461e-05,
-      "loss": 0.1083,
-      "num_input_tokens_seen": 5624576,
-      "step": 900
-    },
-    {
-      "epoch": 1.9027484143763214,
-      "eval_loss": 0.09912961721420288,
-      "eval_runtime": 40.4925,
-      "eval_samples_per_second": 83.052,
-      "eval_steps_per_second": 10.397,
-      "num_input_tokens_seen": 5624576,
-      "step": 900
-    },
-    {
-      "epoch": 1.9133192389006344,
-      "grad_norm": 0.2102658748626709,
-      "learning_rate": 1.4884607212037726e-05,
-      "loss": 0.0942,
-      "num_input_tokens_seen": 5655936,
-      "step": 905
-    },
-    {
-      "epoch": 1.9238900634249472,
-      "grad_norm": 0.18206021189689636,
-      "learning_rate": 1.4628553906789322e-05,
-      "loss": 0.1026,
-      "num_input_tokens_seen": 5686976,
-      "step": 910
-    },
-    {
-      "epoch": 1.93446088794926,
-      "grad_norm": 0.3003005385398865,
-      "learning_rate": 1.4373808093651215e-05,
-      "loss": 0.0933,
-      "num_input_tokens_seen": 5718592,
-      "step": 915
-    },
-    {
-      "epoch": 1.945031712473573,
-      "grad_norm": 0.25162649154663086,
-      "learning_rate": 1.4120401887541423e-05,
-      "loss": 0.0955,
-      "num_input_tokens_seen": 5749952,
-      "step": 920
-    },
-    {
-      "epoch": 1.955602536997886,
-      "grad_norm": 0.19604356586933136,
-      "learning_rate": 1.3868367234498328e-05,
-      "loss": 0.0933,
-      "num_input_tokens_seen": 5780928,
-      "step": 925
-    },
-    {
-      "epoch": 1.9661733615221988,
-      "grad_norm": 0.3053622543811798,
-      "learning_rate": 1.3617735907653434e-05,
-      "loss": 0.0905,
-      "num_input_tokens_seen": 5812032,
-      "step": 930
-    },
-    {
-      "epoch": 1.9767441860465116,
-      "grad_norm": 0.2663424015045166,
-      "learning_rate": 1.3368539503225746e-05,
-      "loss": 0.0959,
-      "num_input_tokens_seen": 5843136,
-      "step": 935
-    },
-    {
-      "epoch": 1.9873150105708244,
-      "grad_norm": 0.25155574083328247,
-      "learning_rate": 1.3120809436538656e-05,
-      "loss": 0.1031,
-      "num_input_tokens_seen": 5874752,
-      "step": 940
-    },
-    {
-      "epoch": 1.9978858350951374,
-      "grad_norm": 0.22895610332489014,
-      "learning_rate": 1.2874576938059402e-05,
-      "loss": 0.0896,
-      "num_input_tokens_seen": 5905728,
-      "step": 945
-    },
-    {
-      "epoch": 2.0084566596194504,
-      "grad_norm": 0.5792025327682495,
-      "learning_rate": 1.2629873049462032e-05,
-      "loss": 0.0931,
-      "num_input_tokens_seen": 5936448,
-      "step": 950
-    },
-    {
-      "epoch": 2.019027484143763,
-      "grad_norm": 0.21641181409358978,
-      "learning_rate": 1.2386728619714091e-05,
-      "loss": 0.0904,
-      "num_input_tokens_seen": 5967808,
-      "step": 955
-    },
-    {
-      "epoch": 2.029598308668076,
-      "grad_norm": 0.32977041602134705,
-      "learning_rate": 1.214517430118753e-05,
-      "loss": 0.0973,
-      "num_input_tokens_seen": 5998720,
-      "step": 960
-    },
-    {
-      "epoch": 2.040169133192389,
-      "grad_norm": 0.3212999105453491,
-      "learning_rate": 1.190524054579455e-05,
-      "loss": 0.0937,
-      "num_input_tokens_seen": 6030016,
-      "step": 965
-    },
-    {
-      "epoch": 2.050739957716702,
-      "grad_norm": 0.2424679398536682,
-      "learning_rate": 1.1666957601148576e-05,
-      "loss": 0.0898,
-      "num_input_tokens_seen": 6061184,
-      "step": 970
-    },
-    {
-      "epoch": 2.061310782241015,
-      "grad_norm": 0.39736026525497437,
-      "learning_rate": 1.1430355506751095e-05,
-      "loss": 0.1006,
-      "num_input_tokens_seen": 6092672,
-      "step": 975
-    },
-    {
-      "epoch": 2.0718816067653276,
-      "grad_norm": 0.2846342623233795,
-      "learning_rate": 1.119546409020461e-05,
-      "loss": 0.0981,
-      "num_input_tokens_seen": 6123712,
-      "step": 980
-    },
-    {
-      "epoch": 2.0824524312896404,
-      "grad_norm": 0.29333314299583435,
-      "learning_rate": 1.0962312963452467e-05,
-      "loss": 0.0943,
-      "num_input_tokens_seen": 6154816,
-      "step": 985
-    },
-    {
-      "epoch": 2.0930232558139537,
-      "grad_norm": 0.4092048108577728,
-      "learning_rate": 1.0730931519045697e-05,
-      "loss": 0.0943,
-      "num_input_tokens_seen": 6186176,
-      "step": 990
-    },
-    {
-      "epoch": 2.1035940803382664,
-      "grad_norm": 0.2516307532787323,
-      "learning_rate": 1.050134892643767e-05,
-      "loss": 0.0843,
-      "num_input_tokens_seen": 6217216,
-      "step": 995
-    },
-    {
-      "epoch": 2.1141649048625792,
-      "grad_norm": 0.2285660356283188,
-      "learning_rate": 1.0273594128306738e-05,
-      "loss": 0.0953,
-      "num_input_tokens_seen": 6248320,
-      "step": 1000
-    },
-    {
-      "epoch": 2.1141649048625792,
-      "eval_loss": 0.09716298431158066,
-      "eval_runtime": 40.4648,
-      "eval_samples_per_second": 83.109,
-      "eval_steps_per_second": 10.404,
-      "num_input_tokens_seen": 6248320,
-      "step": 1000
-    },
-    {
-      "epoch": 2.124735729386892,
-      "grad_norm": 0.21935948729515076,
-      "learning_rate": 1.00476958369076e-05,
-      "loss": 0.0923,
-      "num_input_tokens_seen": 6279552,
-      "step": 1005
-    },
-    {
-      "epoch": 2.1353065539112053,
-      "grad_norm": 0.3147173523902893,
-      "learning_rate": 9.82368253045158e-06,
-      "loss": 0.0847,
-      "num_input_tokens_seen": 6311296,
-      "step": 1010
-    },
-    {
-      "epoch": 2.145877378435518,
-      "grad_norm": 0.208901509642601,
-      "learning_rate": 9.601582449516538e-06,
-      "loss": 0.0921,
-      "num_input_tokens_seen": 6342656,
-      "step": 1015
-    },
-    {
-      "epoch": 2.156448202959831,
-      "grad_norm": 0.24753566086292267,
-      "learning_rate": 9.381423593486629e-06,
-      "loss": 0.0887,
-      "num_input_tokens_seen": 6374208,
-      "step": 1020
-    },
-    {
-      "epoch": 2.1670190274841437,
-      "grad_norm": 0.23306626081466675,
-      "learning_rate": 9.163233717022568e-06,
-      "loss": 0.0924,
-      "num_input_tokens_seen": 6405440,
-      "step": 1025
-    },
-    {
-      "epoch": 2.177589852008457,
-      "grad_norm": 0.22320829331874847,
-      "learning_rate": 8.947040326562638e-06,
-      "loss": 0.0884,
-      "num_input_tokens_seen": 6436928,
-      "step": 1030
-    },
-    {
-      "epoch": 2.1881606765327697,
-      "grad_norm": 0.19100725650787354,
-      "learning_rate": 8.732870676855096e-06,
-      "loss": 0.0937,
-      "num_input_tokens_seen": 6468288,
-      "step": 1035
-    },
-    {
-      "epoch": 2.1987315010570825,
-      "grad_norm": 0.17379307746887207,
-      "learning_rate": 8.520751767522257e-06,
-      "loss": 0.0856,
-      "num_input_tokens_seen": 6499584,
-      "step": 1040
-    },
-    {
-      "epoch": 2.2093023255813953,
-      "grad_norm": 0.19016264379024506,
-      "learning_rate": 8.310710339656707e-06,
-      "loss": 0.0864,
-      "num_input_tokens_seen": 6530752,
-      "step": 1045
-    },
-    {
-      "epoch": 2.219873150105708,
-      "grad_norm": 0.23884597420692444,
-      "learning_rate": 8.102772872450209e-06,
-      "loss": 0.0974,
-      "num_input_tokens_seen": 6561856,
-      "step": 1050
-    },
-    {
-      "epoch": 2.2304439746300213,
-      "grad_norm": 0.23964087665081024,
-      "learning_rate": 7.896965579855486e-06,
-      "loss": 0.0962,
-      "num_input_tokens_seen": 6592960,
-      "step": 1055
-    },
-    {
-      "epoch": 2.241014799154334,
-      "grad_norm": 0.38224127888679504,
-      "learning_rate": 7.693314407281615e-06,
-      "loss": 0.0993,
-      "num_input_tokens_seen": 6624256,
-      "step": 1060
-    },
-    {
-      "epoch": 2.251585623678647,
-      "grad_norm": 0.2022206038236618,
-      "learning_rate": 7.49184502832308e-06,
-      "loss": 0.0915,
-      "num_input_tokens_seen": 6655424,
-      "step": 1065
-    },
-    {
-      "epoch": 2.2621564482029597,
-      "grad_norm": 0.1900220513343811,
-      "learning_rate": 7.292582841523268e-06,
-      "loss": 0.0944,
-      "num_input_tokens_seen": 6686400,
-      "step": 1070
-    },
-    {
-      "epoch": 2.2727272727272725,
-      "grad_norm": 0.23861418664455414,
-      "learning_rate": 7.095552967172503e-06,
-      "loss": 0.0945,
-      "num_input_tokens_seen": 6717376,
-      "step": 1075
-    },
-    {
-      "epoch": 2.2832980972515857,
-      "grad_norm": 0.18786799907684326,
-      "learning_rate": 6.900780244141286e-06,
-      "loss": 0.0896,
-      "num_input_tokens_seen": 6748608,
-      "step": 1080
-    },
-    {
-      "epoch": 2.2938689217758985,
-      "grad_norm": 0.29745545983314514,
-      "learning_rate": 6.708289226748868e-06,
-      "loss": 0.0958,
-      "num_input_tokens_seen": 6779776,
-      "step": 1085
-    },
-    {
-      "epoch": 2.3044397463002113,
-      "grad_norm": 0.23612141609191895,
-      "learning_rate": 6.518104181667844e-06,
-      "loss": 0.0938,
-      "num_input_tokens_seen": 6810880,
-      "step": 1090
-    },
-    {
-      "epoch": 2.3150105708245245,
-      "grad_norm": 0.20987972617149353,
-      "learning_rate": 6.3302490848648864e-06,
-      "loss": 0.0923,
-      "num_input_tokens_seen": 6842112,
-      "step": 1095
-    },
-    {
-      "epoch": 2.3255813953488373,
-      "grad_norm": 0.22207896411418915,
-      "learning_rate": 6.144747618578209e-06,
-      "loss": 0.0887,
-      "num_input_tokens_seen": 6873152,
-      "step": 1100
-    },
-    {
-      "epoch": 2.3255813953488373,
-      "eval_loss": 0.09644165635108948,
-      "eval_runtime": 40.523,
-      "eval_samples_per_second": 82.99,
-      "eval_steps_per_second": 10.389,
-      "num_input_tokens_seen": 6873152,
-      "step": 1100
-    },
-    {
-      "epoch": 2.33615221987315,
-      "grad_norm": 0.37628617882728577,
-      "learning_rate": 5.961623168332006e-06,
-      "loss": 0.0826,
-      "num_input_tokens_seen": 6904512,
-      "step": 1105
-    },
-    {
-      "epoch": 2.346723044397463,
-      "grad_norm": 0.29637783765792847,
-      "learning_rate": 5.780898819988354e-06,
-      "loss": 0.0826,
-      "num_input_tokens_seen": 6936064,
-      "step": 1110
-    },
-    {
-      "epoch": 2.3572938689217757,
-      "grad_norm": 0.22360184788703918,
-      "learning_rate": 5.602597356836803e-06,
-      "loss": 0.0929,
-      "num_input_tokens_seen": 6967424,
-      "step": 1115
-    },
-    {
-      "epoch": 2.367864693446089,
-      "grad_norm": 0.20639285445213318,
-      "learning_rate": 5.426741256722239e-06,
-      "loss": 0.0936,
-      "num_input_tokens_seen": 6998592,
-      "step": 1120
-    },
-    {
-      "epoch": 2.3784355179704018,
-      "grad_norm": 0.25867342948913574,
-      "learning_rate": 5.253352689211114e-06,
-      "loss": 0.0856,
-      "num_input_tokens_seen": 7029952,
-      "step": 1125
-    },
-    {
-      "epoch": 2.3890063424947146,
-      "grad_norm": 0.2777279019355774,
-      "learning_rate": 5.082453512796634e-06,
-      "loss": 0.0923,
-      "num_input_tokens_seen": 7060992,
-      "step": 1130
-    },
-    {
-      "epoch": 2.3995771670190273,
-      "grad_norm": 0.31583741307258606,
-      "learning_rate": 4.914065272143153e-06,
-      "loss": 0.0911,
-      "num_input_tokens_seen": 7092224,
-      "step": 1135
-    },
-    {
-      "epoch": 2.41014799154334,
-      "grad_norm": 0.3207012116909027,
-      "learning_rate": 4.7482091953700705e-06,
-      "loss": 0.0851,
-      "num_input_tokens_seen": 7123776,
-      "step": 1140
-    },
-    {
-      "epoch": 2.4207188160676534,
-      "grad_norm": 0.19293835759162903,
-      "learning_rate": 4.584906191375715e-06,
-      "loss": 0.0956,
-      "num_input_tokens_seen": 7155072,
-      "step": 1145
-    },
-    {
-      "epoch": 2.431289640591966,
-      "grad_norm": 0.19416087865829468,
-      "learning_rate": 4.424176847201411e-06,
-      "loss": 0.0916,
-      "num_input_tokens_seen": 7186240,
-      "step": 1150
-    },
-    {
-      "epoch": 2.441860465116279,
-      "grad_norm": 0.2779330313205719,
-      "learning_rate": 4.266041425436151e-06,
-      "loss": 0.0886,
-      "num_input_tokens_seen": 7217536,
-      "step": 1155
-    },
-    {
-      "epoch": 2.452431289640592,
-      "grad_norm": 0.19005738198757172,
-      "learning_rate": 4.110519861662143e-06,
-      "loss": 0.0852,
-      "num_input_tokens_seen": 7248576,
-      "step": 1160
-    },
-    {
-      "epoch": 2.463002114164905,
-      "grad_norm": 0.2309303879737854,
-      "learning_rate": 3.957631761941641e-06,
-      "loss": 0.0942,
-      "num_input_tokens_seen": 7279808,
-      "step": 1165
-    },
-    {
-      "epoch": 2.473572938689218,
-      "grad_norm": 0.18085496127605438,
-      "learning_rate": 3.807396400345223e-06,
-      "loss": 0.0889,
-      "num_input_tokens_seen": 7311168,
-      "step": 1170
-    },
-    {
-      "epoch": 2.4841437632135306,
-      "grad_norm": 0.2057885229587555,
-      "learning_rate": 3.6598327165220296e-06,
-      "loss": 0.0907,
-      "num_input_tokens_seen": 7342528,
-      "step": 1175
-    },
-    {
-      "epoch": 2.4947145877378434,
-      "grad_norm": 0.18742726743221283,
-      "learning_rate": 3.514959313312061e-06,
-      "loss": 0.091,
-      "num_input_tokens_seen": 7373696,
-      "step": 1180
-    },
-    {
-      "epoch": 2.5052854122621566,
-      "grad_norm": 0.1891215294599533,
-      "learning_rate": 3.372794454401032e-06,
-      "loss": 0.0888,
-      "num_input_tokens_seen": 7404928,
-      "step": 1185
-    },
-    {
-      "epoch": 2.5158562367864694,
-      "grad_norm": 0.42460882663726807,
-      "learning_rate": 3.2333560620178727e-06,
-      "loss": 0.0965,
-      "num_input_tokens_seen": 7436096,
-      "step": 1190
-    },
-    {
-      "epoch": 2.526427061310782,
-      "grad_norm": 0.1930340677499771,
-      "learning_rate": 3.096661714675397e-06,
-      "loss": 0.0879,
-      "num_input_tokens_seen": 7467328,
-      "step": 1195
-    },
-    {
-      "epoch": 2.536997885835095,
-      "grad_norm": 0.18262043595314026,
-      "learning_rate": 2.962728644954191e-06,
-      "loss": 0.0889,
-      "num_input_tokens_seen": 7498688,
-      "step": 1200
-    },
-    {
-      "epoch": 2.536997885835095,
-      "eval_loss": 0.09538523107767105,
-      "eval_runtime": 40.4494,
-      "eval_samples_per_second": 83.141,
-      "eval_steps_per_second": 10.408,
-      "num_input_tokens_seen": 7498688,
-      "step": 1200
-    },
-    {
-      "epoch": 2.547568710359408,
-      "grad_norm": 0.18525810539722443,
-      "learning_rate": 2.8315737373301955e-06,
-      "loss": 0.089,
-      "num_input_tokens_seen": 7529792,
-      "step": 1205
-    },
-    {
-      "epoch": 2.558139534883721,
-      "grad_norm": 0.20218130946159363,
-      "learning_rate": 2.703213526046108e-06,
-      "loss": 0.0965,
-      "num_input_tokens_seen": 7561088,
-      "step": 1210
-    },
-    {
-      "epoch": 2.568710359408034,
-      "grad_norm": 0.2872017025947571,
-      "learning_rate": 2.577664193027013e-06,
-      "loss": 0.0921,
-      "num_input_tokens_seen": 7592448,
-      "step": 1215
-    },
-    {
-      "epoch": 2.5792811839323466,
-      "grad_norm": 0.19029676914215088,
-      "learning_rate": 2.45494156584033e-06,
-      "loss": 0.0831,
-      "num_input_tokens_seen": 7624000,
-      "step": 1220
-    },
-    {
-      "epoch": 2.58985200845666,
-      "grad_norm": 0.22011052072048187,
-      "learning_rate": 2.3350611157005182e-06,
-      "loss": 0.0915,
-      "num_input_tokens_seen": 7655232,
-      "step": 1225
-    },
-    {
-      "epoch": 2.6004228329809727,
-      "grad_norm": 0.26502084732055664,
-      "learning_rate": 2.2180379555186844e-06,
-      "loss": 0.0893,
-      "num_input_tokens_seen": 7686464,
-      "step": 1230
-    },
-    {
-      "epoch": 2.6109936575052854,
-      "grad_norm": 0.21893960237503052,
-      "learning_rate": 2.103886837997307e-06,
-      "loss": 0.0944,
-      "num_input_tokens_seen": 7717824,
-      "step": 1235
-    },
-    {
-      "epoch": 2.6215644820295982,
-      "grad_norm": 0.2057981640100479,
-      "learning_rate": 1.9926221537704794e-06,
-      "loss": 0.0854,
-      "num_input_tokens_seen": 7749120,
-      "step": 1240
-    },
-    {
-      "epoch": 2.632135306553911,
-      "grad_norm": 0.17995457351207733,
-      "learning_rate": 1.884257929589664e-06,
-      "loss": 0.0895,
-      "num_input_tokens_seen": 7780736,
-      "step": 1245
-    },
-    {
-      "epoch": 2.6427061310782243,
-      "grad_norm": 0.22111766040325165,
-      "learning_rate": 1.7788078265554398e-06,
-      "loss": 0.0807,
-      "num_input_tokens_seen": 7812288,
-      "step": 1250
-    },
-    {
-      "epoch": 2.653276955602537,
-      "grad_norm": 0.1810263991355896,
-      "learning_rate": 1.6762851383952616e-06,
-      "loss": 0.082,
-      "num_input_tokens_seen": 7843392,
-      "step": 1255
-    },
-    {
-      "epoch": 2.66384778012685,
-      "grad_norm": 0.21223782002925873,
-      "learning_rate": 1.5767027897875957e-06,
-      "loss": 0.0897,
-      "num_input_tokens_seen": 7874560,
-      "step": 1260
-    },
-    {
-      "epoch": 2.6744186046511627,
-      "grad_norm": 0.20275099575519562,
-      "learning_rate": 1.4800733347325152e-06,
-      "loss": 0.0909,
-      "num_input_tokens_seen": 7905728,
-      "step": 1265
-    },
-    {
-      "epoch": 2.6849894291754755,
-      "grad_norm": 0.3024641275405884,
-      "learning_rate": 1.3864089549691012e-06,
-      "loss": 0.0984,
-      "num_input_tokens_seen": 7937088,
-      "step": 1270
-    },
-    {
-      "epoch": 2.6955602536997887,
-      "grad_norm": 0.18514348566532135,
-      "learning_rate": 1.2957214584396997e-06,
-      "loss": 0.0893,
-      "num_input_tokens_seen": 7968704,
-      "step": 1275
-    },
-    {
-      "epoch": 2.7061310782241015,
-      "grad_norm": 0.16217848658561707,
-      "learning_rate": 1.2080222778013573e-06,
-      "loss": 0.0843,
-      "num_input_tokens_seen": 8000064,
-      "step": 1280
-    },
-    {
-      "epoch": 2.7167019027484143,
-      "grad_norm": 0.19633322954177856,
-      "learning_rate": 1.1233224689845251e-06,
-      "loss": 0.0892,
-      "num_input_tokens_seen": 8031296,
-      "step": 1285
-    },
-    {
-      "epoch": 2.7272727272727275,
-      "grad_norm": 0.254277765750885,
-      "learning_rate": 1.041632709799306e-06,
-      "loss": 0.0883,
-      "num_input_tokens_seen": 8062208,
-      "step": 1290
-    },
-    {
-      "epoch": 2.7378435517970403,
-      "grad_norm": 0.23036494851112366,
-      "learning_rate": 9.629632985893033e-07,
-      "loss": 0.089,
-      "num_input_tokens_seen": 8093440,
-      "step": 1295
-    },
-    {
-      "epoch": 2.748414376321353,
-      "grad_norm": 0.23279865086078644,
-      "learning_rate": 8.873241529333776e-07,
-      "loss": 0.0859,
-      "num_input_tokens_seen": 8124864,
-      "step": 1300
-    },
-    {
-      "epoch": 2.748414376321353,
-      "eval_loss": 0.09499379247426987,
-      "eval_runtime": 40.5097,
-      "eval_samples_per_second": 83.017,
-      "eval_steps_per_second": 10.393,
-      "num_input_tokens_seen": 8124864,
-      "step": 1300
-    },
-    {
-      "epoch": 2.758985200845666,
-      "grad_norm": 0.22809527814388275,
-      "learning_rate": 8.147248083953562e-07,
-      "loss": 0.0937,
-      "num_input_tokens_seen": 8156032,
-      "step": 1305
-    },
-    {
-      "epoch": 2.7695560253699787,
-      "grad_norm": 0.1820860654115677,
-      "learning_rate": 7.451744173219116e-07,
-      "loss": 0.0927,
-      "num_input_tokens_seen": 8187456,
-      "step": 1310
-    },
-    {
-      "epoch": 2.780126849894292,
-      "grad_norm": 0.2634679973125458,
-      "learning_rate": 6.786817476887725e-07,
-      "loss": 0.084,
-      "num_input_tokens_seen": 8218880,
-      "step": 1315
-    },
-    {
-      "epoch": 2.7906976744186047,
-      "grad_norm": 0.20365993678569794,
-      "learning_rate": 6.152551819953667e-07,
-      "loss": 0.0862,
-      "num_input_tokens_seen": 8250048,
-      "step": 1320
-    },
-    {
-      "epoch": 2.8012684989429175,
-      "grad_norm": 0.24735113978385925,
-      "learning_rate": 5.549027162080666e-07,
-      "loss": 0.0967,
-      "num_input_tokens_seen": 8281408,
-      "step": 1325
-    },
-    {
-      "epoch": 2.8118393234672303,
-      "grad_norm": 0.21733231842517853,
-      "learning_rate": 4.976319587521788e-07,
-      "loss": 0.0878,
-      "num_input_tokens_seen": 8312448,
-      "step": 1330
-    },
-    {
-      "epoch": 2.822410147991543,
-      "grad_norm": 0.39031949639320374,
-      "learning_rate": 4.434501295527582e-07,
-      "loss": 0.0923,
-      "num_input_tokens_seen": 8343488,
-      "step": 1335
-    },
-    {
-      "epoch": 2.8329809725158563,
-      "grad_norm": 0.1717582643032074,
-      "learning_rate": 3.9236405912442544e-07,
-      "loss": 0.0887,
-      "num_input_tokens_seen": 8374976,
-      "step": 1340
-    },
-    {
-      "epoch": 2.843551797040169,
-      "grad_norm": 0.19292984902858734,
-      "learning_rate": 3.44380187710272e-07,
-      "loss": 0.0862,
-      "num_input_tokens_seen": 8406208,
-      "step": 1345
-    },
-    {
-      "epoch": 2.854122621564482,
-      "grad_norm": 0.19864223897457123,
-      "learning_rate": 2.995045644699518e-07,
-      "loss": 0.0862,
-      "num_input_tokens_seen": 8437440,
-      "step": 1350
-    },
-    {
-      "epoch": 2.864693446088795,
-      "grad_norm": 0.17732787132263184,
-      "learning_rate": 2.577428467170989e-07,
-      "loss": 0.0878,
-      "num_input_tokens_seen": 8468416,
-      "step": 1355
-    },
-    {
-      "epoch": 2.875264270613108,
-      "grad_norm": 0.1831037551164627,
-      "learning_rate": 2.1910029920610974e-07,
-      "loss": 0.0881,
-      "num_input_tokens_seen": 8500032,
-      "step": 1360
-    },
-    {
-      "epoch": 2.8858350951374208,
-      "grad_norm": 0.16692957282066345,
-      "learning_rate": 1.8358179346845694e-07,
-      "loss": 0.0913,
-      "num_input_tokens_seen": 8531200,
-      "step": 1365
-    },
-    {
-      "epoch": 2.8964059196617336,
-      "grad_norm": 0.19147560000419617,
-      "learning_rate": 1.51191807198528e-07,
-      "loss": 0.0899,
-      "num_input_tokens_seen": 8562240,
-      "step": 1370
-    },
-    {
-      "epoch": 2.9069767441860463,
-      "grad_norm": 0.1842157244682312,
-      "learning_rate": 1.2193442368915732e-07,
-      "loss": 0.0813,
-      "num_input_tokens_seen": 8593600,
-      "step": 1375
-    },
-    {
-      "epoch": 2.9175475687103596,
-      "grad_norm": 0.18177741765975952,
-      "learning_rate": 9.581333131685467e-08,
-      "loss": 0.0874,
-      "num_input_tokens_seen": 8624768,
-      "step": 1380
-    },
-    {
-      "epoch": 2.9281183932346724,
-      "grad_norm": 0.2615036070346832,
-      "learning_rate": 7.283182307681324e-08,
-      "loss": 0.0915,
-      "num_input_tokens_seen": 8655808,
-      "step": 1385
-    },
-    {
-      "epoch": 2.938689217758985,
-      "grad_norm": 0.30790311098098755,
-      "learning_rate": 5.299279616779174e-08,
-      "loss": 0.0835,
-      "num_input_tokens_seen": 8687232,
-      "step": 1390
-    },
-    {
-      "epoch": 2.949260042283298,
-      "grad_norm": 0.24962230026721954,
-      "learning_rate": 3.629875162686203e-08,
-      "loss": 0.092,
-      "num_input_tokens_seen": 8718592,
-      "step": 1395
-    },
-    {
-      "epoch": 2.9598308668076108,
-      "grad_norm": 0.2310824692249298,
-      "learning_rate": 2.2751794014111428e-08,
-      "loss": 0.0883,
-      "num_input_tokens_seen": 8749760,
-      "step": 1400
-    },
-    {
-      "epoch": 2.9598308668076108,
-      "eval_loss": 0.09467408061027527,
-      "eval_runtime": 40.4856,
-      "eval_samples_per_second": 83.067,
-      "eval_steps_per_second": 10.399,
-      "num_input_tokens_seen": 8749760,
-      "step": 1400
-    },
-    {
-      "epoch": 2.970401691331924,
-      "grad_norm": 0.21396443247795105,
-      "learning_rate": 1.2353631147335454e-08,
-      "loss": 0.0872,
-      "num_input_tokens_seen": 8780992,
-      "step": 1405
-    },
-    {
-      "epoch": 2.980972515856237,
-      "grad_norm": 0.16851051151752472,
-      "learning_rate": 5.105573886735049e-09,
-      "loss": 0.0822,
-      "num_input_tokens_seen": 8812224,
-      "step": 1410
-    },
-    {
-      "epoch": 2.9915433403805496,
-      "grad_norm": 0.22018083930015564,
-      "learning_rate": 1.0085359696654362e-09,
-      "loss": 0.0901,
-      "num_input_tokens_seen": 8843200,
-      "step": 1415
-    },
-    {
-      "epoch": 3.0,
-      "num_input_tokens_seen": 8867536,
-      "step": 1419,
-      "total_flos": 3.600530754427945e+17,
-      "train_loss": 0.2131162985812786,
-      "train_runtime": 4701.6415,
-      "train_samples_per_second": 19.312,
-      "train_steps_per_second": 0.302
     }
   ],
   "logging_steps": 5,
-  "max_steps": 1419,
-  "num_input_tokens_seen": 8867536,
   "num_train_epochs": 3,
   "save_steps": 100,
   "stateful_callbacks": {
@@ -2426,8 +1139,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.600530754427945e+17,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9897377423033067,
   "eval_steps": 100,
+  "global_step": 657,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02280501710376283,
+      "grad_norm": 110.79779815673828,
       "learning_rate": 1.25e-05,
+      "loss": 8.7284,
+      "num_input_tokens_seen": 62080,
       "step": 5
     },
     {
+      "epoch": 0.04561003420752566,
+      "grad_norm": 73.81541442871094,
       "learning_rate": 2.5e-05,
+      "loss": 4.9749,
+      "num_input_tokens_seen": 124672,
       "step": 10
     },
     {
+      "epoch": 0.06841505131128849,
+      "grad_norm": 9.868797302246094,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.5517,
+      "num_input_tokens_seen": 185344,
       "step": 15
     },
     {
+      "epoch": 0.09122006841505131,
+      "grad_norm": 4.776010036468506,
       "learning_rate": 5e-05,
+      "loss": 0.6744,
+      "num_input_tokens_seen": 246912,
       "step": 20
     },
     {
+      "epoch": 0.11402508551881414,
+      "grad_norm": 20.511587142944336,
+      "learning_rate": 4.9992399382187524e-05,
+      "loss": 0.5648,
+      "num_input_tokens_seen": 307712,
       "step": 25
     },
     {
+      "epoch": 0.13683010262257697,
+      "grad_norm": 2.5995140075683594,
+      "learning_rate": 4.9969602150301404e-05,
+      "loss": 0.5605,
+      "num_input_tokens_seen": 369536,
       "step": 30
     },
     {
+      "epoch": 0.15963511972633979,
+      "grad_norm": 13.69864273071289,
+      "learning_rate": 4.9931622166185365e-05,
+      "loss": 0.5297,
+      "num_input_tokens_seen": 431104,
       "step": 35
     },
     {
+      "epoch": 0.18244013683010263,
+      "grad_norm": 2.312450408935547,
+      "learning_rate": 4.987848252354691e-05,
+      "loss": 0.5314,
+      "num_input_tokens_seen": 492672,
       "step": 40
     },
     {
+      "epoch": 0.20524515393386544,
+      "grad_norm": 2.1790366172790527,
+      "learning_rate": 4.981021553391519e-05,
+      "loss": 0.5013,
+      "num_input_tokens_seen": 554368,
       "step": 45
     },
     {
+      "epoch": 0.22805017103762829,
+      "grad_norm": 2.9656565189361572,
+      "learning_rate": 4.9726862706994016e-05,
+      "loss": 0.4944,
+      "num_input_tokens_seen": 615808,
       "step": 50
     },
     {
+      "epoch": 0.2508551881413911,
+      "grad_norm": 2.111856460571289,
+      "learning_rate": 4.962847472542185e-05,
+      "loss": 0.5071,
+      "num_input_tokens_seen": 678144,
       "step": 55
     },
     {
+      "epoch": 0.27366020524515394,
+      "grad_norm": 2.2539072036743164,
+      "learning_rate": 4.951511141395432e-05,
+      "loss": 0.5025,
+      "num_input_tokens_seen": 739968,
       "step": 60
     },
     {
+      "epoch": 0.29646522234891676,
+      "grad_norm": 1.4161525964736938,
+      "learning_rate": 4.9386841703087774e-05,
+      "loss": 0.5038,
+      "num_input_tokens_seen": 801792,
       "step": 65
     },
     {
+      "epoch": 0.31927023945267957,
+      "grad_norm": 2.357604742050171,
+      "learning_rate": 4.924374358714615e-05,
+      "loss": 0.4907,
+      "num_input_tokens_seen": 863744,
       "step": 70
     },
     {
+      "epoch": 0.34207525655644244,
+      "grad_norm": 1.2421399354934692,
+      "learning_rate": 4.908590407685657e-05,
+      "loss": 0.4774,
+      "num_input_tokens_seen": 924160,
       "step": 75
     },
     {
+      "epoch": 0.36488027366020526,
+      "grad_norm": 1.9083991050720215,
+      "learning_rate": 4.891341914644251e-05,
+      "loss": 0.4709,
+      "num_input_tokens_seen": 985856,
       "step": 80
     },
     {
+      "epoch": 0.38768529076396807,
+      "grad_norm": 1.5763726234436035,
+      "learning_rate": 4.8726393675266716e-05,
+      "loss": 0.4793,
+      "num_input_tokens_seen": 1047680,
       "step": 85
     },
     {
+      "epoch": 0.4104903078677309,
+      "grad_norm": 2.0817372798919678,
+      "learning_rate": 4.8524941384059415e-05,
+      "loss": 0.4835,
+      "num_input_tokens_seen": 1108352,
       "step": 90
     },
     {
+      "epoch": 0.43329532497149376,
+      "grad_norm": 1.4364395141601562,
+      "learning_rate": 4.830918476577042e-05,
+      "loss": 0.4668,
+      "num_input_tokens_seen": 1169536,
       "step": 95
     },
     {
+      "epoch": 0.45610034207525657,
+      "grad_norm": 1.723344087600708,
+      "learning_rate": 4.807925501108744e-05,
+      "loss": 0.46,
+      "num_input_tokens_seen": 1229824,
       "step": 100
     },
     {
+      "epoch": 0.45610034207525657,
+      "eval_loss": 0.4706360697746277,
+      "eval_runtime": 34.1945,
+      "eval_samples_per_second": 91.184,
+      "eval_steps_per_second": 5.703,
+      "num_input_tokens_seen": 1229824,
       "step": 100
     },
     {
+      "epoch": 0.4789053591790194,
+      "grad_norm": 1.8234614133834839,
+      "learning_rate": 4.7835291928665586e-05,
+      "loss": 0.4823,
+      "num_input_tokens_seen": 1291648,
       "step": 105
     },
     {
+      "epoch": 0.5017103762827823,
+      "grad_norm": 1.6761844158172607,
+      "learning_rate": 4.7577443860116856e-05,
+      "loss": 0.4905,
+      "num_input_tokens_seen": 1353216,
       "step": 110
     },
     {
+      "epoch": 0.5245153933865451,
+      "grad_norm": 1.2557445764541626,
+      "learning_rate": 4.730586758981105e-05,
+      "loss": 0.4759,
+      "num_input_tokens_seen": 1414272,
       "step": 115
     },
     {
+      "epoch": 0.5473204104903079,
+      "grad_norm": 1.6095463037490845,
+      "learning_rate": 4.7020728249543196e-05,
+      "loss": 0.4735,
+      "num_input_tokens_seen": 1476096,
       "step": 120
     },
     {
+      "epoch": 0.5701254275940707,
+      "grad_norm": 1.116170883178711,
+      "learning_rate": 4.672219921812517e-05,
+      "loss": 0.4662,
+      "num_input_tokens_seen": 1536384,
       "step": 125
     },
     {
+      "epoch": 0.5929304446978335,
+      "grad_norm": 1.605276107788086,
+      "learning_rate": 4.6410462015962866e-05,
+      "loss": 0.4757,
+      "num_input_tokens_seen": 1597952,
       "step": 130
     },
     {
+      "epoch": 0.6157354618015963,
+      "grad_norm": 1.1777241230010986,
+      "learning_rate": 4.608570619468283e-05,
+      "loss": 0.4614,
+      "num_input_tokens_seen": 1659008,
       "step": 135
     },
     {
+      "epoch": 0.6385404789053591,
+      "grad_norm": 1.8780622482299805,
+      "learning_rate": 4.574812922187544e-05,
+      "loss": 0.4553,
+      "num_input_tokens_seen": 1719680,
       "step": 140
     },
     {
+      "epoch": 0.661345496009122,
+      "grad_norm": 0.93132483959198,
+      "learning_rate": 4.539793636102491e-05,
+      "loss": 0.454,
+      "num_input_tokens_seen": 1781376,
       "step": 145
     },
     {
+      "epoch": 0.6841505131128849,
+      "grad_norm": 1.902815580368042,
+      "learning_rate": 4.503534054669892e-05,
+      "loss": 0.474,
+      "num_input_tokens_seen": 1843456,
       "step": 150
     },
     {
+      "epoch": 0.7069555302166477,
+      "grad_norm": 0.9736324548721313,
+      "learning_rate": 4.466056225507387e-05,
+      "loss": 0.4635,
+      "num_input_tokens_seen": 1904640,
       "step": 155
     },
     {
+      "epoch": 0.7297605473204105,
+      "grad_norm": 1.3553400039672852,
+      "learning_rate": 4.427382936987449e-05,
+      "loss": 0.4529,
+      "num_input_tokens_seen": 1965312,
       "step": 160
     },
     {
+      "epoch": 0.7525655644241733,
+      "grad_norm": 1.386780023574829,
+      "learning_rate": 4.3875377043809256e-05,
+      "loss": 0.4581,
+      "num_input_tokens_seen": 2026624,
       "step": 165
     },
     {
+      "epoch": 0.7753705815279361,
+      "grad_norm": 1.468717336654663,
+      "learning_rate": 4.346544755558591e-05,
+      "loss": 0.4422,
+      "num_input_tokens_seen": 2087552,
       "step": 170
     },
     {
+      "epoch": 0.798175598631699,
+      "grad_norm": 1.5911728143692017,
+      "learning_rate": 4.304429016259407e-05,
+      "loss": 0.4522,
+      "num_input_tokens_seen": 2148864,
       "step": 175
     },
     {
+      "epoch": 0.8209806157354618,
+      "grad_norm": 1.3582851886749268,
+      "learning_rate": 4.261216094934437e-05,
+      "loss": 0.4457,
+      "num_input_tokens_seen": 2210048,
       "step": 180
     },
     {
+      "epoch": 0.8437856328392246,
+      "grad_norm": 1.3723617792129517,
+      "learning_rate": 4.216932267175645e-05,
+      "loss": 0.4448,
+      "num_input_tokens_seen": 2272000,
       "step": 185
     },
     {
+      "epoch": 0.8665906499429875,
+      "grad_norm": 1.4028033018112183,
+      "learning_rate": 4.171604459739037e-05,
+      "loss": 0.4442,
+      "num_input_tokens_seen": 2333568,
       "step": 190
     },
     {
+      "epoch": 0.8893956670467503,
+      "grad_norm": 1.4118390083312988,
+      "learning_rate": 4.125260234171861e-05,
+      "loss": 0.4327,
+      "num_input_tokens_seen": 2395776,
       "step": 195
     },
     {
+      "epoch": 0.9122006841505131,
+      "grad_norm": 1.2794113159179688,
+      "learning_rate": 4.077927770053824e-05,
+      "loss": 0.4222,
+      "num_input_tokens_seen": 2457344,
       "step": 200
     },
     {
+      "epoch": 0.9122006841505131,
+      "eval_loss": 0.4173198640346527,
+      "eval_runtime": 34.1976,
+      "eval_samples_per_second": 91.176,
+      "eval_steps_per_second": 5.702,
+      "num_input_tokens_seen": 2457344,
       "step": 200
     },
     {
+      "epoch": 0.935005701254276,
+      "grad_norm": 2.4246602058410645,
+      "learning_rate": 4.029635847862519e-05,
+      "loss": 0.419,
+      "num_input_tokens_seen": 2518528,
       "step": 205
     },
     {
+      "epoch": 0.9578107183580388,
+      "grad_norm": 1.7850072383880615,
+      "learning_rate": 3.980413831473465e-05,
+      "loss": 0.4266,
+      "num_input_tokens_seen": 2580096,
       "step": 210
     },
     {
+      "epoch": 0.9806157354618016,
+      "grad_norm": 1.9324074983596802,
+      "learning_rate": 3.9302916503054246e-05,
+      "loss": 0.4234,
+      "num_input_tokens_seen": 2642176,
       "step": 215
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 2.1440515518188477,
+      "learning_rate": 3.8792997811218366e-05,
+      "loss": 0.4299,
+      "num_input_tokens_seen": 2694512,
       "step": 220
     },
     {
+      "epoch": 1.0228050171037628,
+      "grad_norm": 1.5281051397323608,
+      "learning_rate": 3.8274692294994375e-05,
+      "loss": 0.4057,
+      "num_input_tokens_seen": 2756208,
       "step": 225
     },
     {
+      "epoch": 1.0456100342075256,
+      "grad_norm": 9.625020027160645,
+      "learning_rate": 3.77483151097534e-05,
+      "loss": 0.406,
+      "num_input_tokens_seen": 2817520,
       "step": 230
     },
     {
+      "epoch": 1.0684150513112884,
+      "grad_norm": 1.0093504190444946,
+      "learning_rate": 3.7214186318840246e-05,
+      "loss": 0.4095,
+      "num_input_tokens_seen": 2879216,
       "step": 235
     },
     {
+      "epoch": 1.0912200684150513,
+      "grad_norm": 1.1837741136550903,
+      "learning_rate": 3.66726306989591e-05,
+      "loss": 0.3905,
+      "num_input_tokens_seen": 2940528,
       "step": 240
     },
     {
+      "epoch": 1.114025085518814,
+      "grad_norm": 2.219708204269409,
+      "learning_rate": 3.612397754269325e-05,
+      "loss": 0.397,
+      "num_input_tokens_seen": 3002096,
       "step": 245
     },
     {
+      "epoch": 1.1368301026225769,
+      "grad_norm": 1.8098950386047363,
+      "learning_rate": 3.556856045827886e-05,
+      "loss": 0.388,
+      "num_input_tokens_seen": 3063408,
       "step": 250
     },
     {
+      "epoch": 1.1596351197263397,
+      "grad_norm": 1.5983895063400269,
+      "learning_rate": 3.500671716675478e-05,
+      "loss": 0.3891,
+      "num_input_tokens_seen": 3124848,
       "step": 255
     },
     {
+      "epoch": 1.1824401368301025,
+      "grad_norm": 3.421966791152954,
+      "learning_rate": 3.4438789296611324e-05,
+      "loss": 0.385,
+      "num_input_tokens_seen": 3186544,
       "step": 260
     },
     {
+      "epoch": 1.2052451539338653,
+      "grad_norm": 1.309157133102417,
+      "learning_rate": 3.386512217606339e-05,
+      "loss": 0.3857,
+      "num_input_tokens_seen": 3247856,
       "step": 265
     },
     {
+      "epoch": 1.2280501710376284,
+      "grad_norm": 1.6279858350753784,
+      "learning_rate": 3.328606462307377e-05,
+      "loss": 0.3923,
+      "num_input_tokens_seen": 3310320,
       "step": 270
     },
     {
+      "epoch": 1.2508551881413912,
+      "grad_norm": 1.5124549865722656,
+      "learning_rate": 3.2701968733254595e-05,
+      "loss": 0.3751,
+      "num_input_tokens_seen": 3371504,
       "step": 275
     },
     {
+      "epoch": 1.273660205245154,
+      "grad_norm": 1.6461663246154785,
+      "learning_rate": 3.211318966577581e-05,
+      "loss": 0.386,
+      "num_input_tokens_seen": 3434096,
       "step": 280
     },
     {
+      "epoch": 1.2964652223489168,
+      "grad_norm": 23.96044158935547,
+      "learning_rate": 3.1520085427410856e-05,
+      "loss": 0.3757,
+      "num_input_tokens_seen": 3495280,
       "step": 285
     },
     {
+      "epoch": 1.3192702394526796,
+      "grad_norm": 1.4814337491989136,
+      "learning_rate": 3.092301665485083e-05,
+      "loss": 0.3831,
+      "num_input_tokens_seen": 3557616,
       "step": 290
     },
     {
+      "epoch": 1.3420752565564424,
+      "grad_norm": 1.88231360912323,
+      "learning_rate": 3.032234639541956e-05,
+      "loss": 0.3702,
+      "num_input_tokens_seen": 3617904,
       "step": 295
     },
     {
+      "epoch": 1.3648802736602053,
+      "grad_norm": 2.090513229370117,
+      "learning_rate": 2.971843988632292e-05,
+      "loss": 0.382,
+      "num_input_tokens_seen": 3679728,
       "step": 300
     },
     {
+      "epoch": 1.3648802736602053,
+      "eval_loss": 0.3807390332221985,
+      "eval_runtime": 34.184,
+      "eval_samples_per_second": 91.212,
+      "eval_steps_per_second": 5.704,
+      "num_input_tokens_seen": 3679728,
       "step": 300
     },
     {
+      "epoch": 1.387685290763968,
+      "grad_norm": 2.231807231903076,
+      "learning_rate": 2.9111664332566517e-05,
+      "loss": 0.392,
+      "num_input_tokens_seen": 3740528,
       "step": 305
     },
     {
+      "epoch": 1.4104903078677309,
+      "grad_norm": 1.7773799896240234,
+      "learning_rate": 2.850238868367691e-05,
+      "loss": 0.3707,
+      "num_input_tokens_seen": 3802992,
       "step": 310
     },
     {
+      "epoch": 1.4332953249714937,
+      "grad_norm": 1.0488688945770264,
+      "learning_rate": 2.7890983409362077e-05,
+      "loss": 0.3645,
+      "num_input_tokens_seen": 3863792,
       "step": 315
     },
     {
+      "epoch": 1.4561003420752565,
+      "grad_norm": 1.3682293891906738,
+      "learning_rate": 2.7277820274247506e-05,
+      "loss": 0.3599,
+      "num_input_tokens_seen": 3925616,
       "step": 320
     },
     {
+      "epoch": 1.4789053591790193,
+      "grad_norm": 1.1371090412139893,
+      "learning_rate": 2.6663272111824916e-05,
+      "loss": 0.363,
+      "num_input_tokens_seen": 3986416,
       "step": 325
     },
     {
+      "epoch": 1.5017103762827824,
+      "grad_norm": 1.2293074131011963,
+      "learning_rate": 2.6047712597751128e-05,
+      "loss": 0.3542,
+      "num_input_tokens_seen": 4046704,
       "step": 330
     },
     {
+      "epoch": 1.5245153933865452,
+      "grad_norm": 1.2787760496139526,
+      "learning_rate": 2.5431516022634715e-05,
+      "loss": 0.3479,
+      "num_input_tokens_seen": 4107632,
       "step": 335
     },
     {
+      "epoch": 1.547320410490308,
+      "grad_norm": 1.2319544553756714,
+      "learning_rate": 2.4815057064448865e-05,
+      "loss": 0.3532,
+      "num_input_tokens_seen": 4168816,
       "step": 340
     },
     {
+      "epoch": 1.5701254275940708,
+      "grad_norm": 1.7431679964065552,
+      "learning_rate": 2.419871056070862e-05,
+      "loss": 0.3564,
+      "num_input_tokens_seen": 4230512,
       "step": 345
     },
     {
+      "epoch": 1.5929304446978336,
+      "grad_norm": 1.544203281402588,
+      "learning_rate": 2.3582851280551207e-05,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 4291952,
       "step": 350
     },
     {
+      "epoch": 1.6157354618015964,
+      "grad_norm": 1.4278355836868286,
+      "learning_rate": 2.2967853696857782e-05,
+      "loss": 0.3559,
+      "num_input_tokens_seen": 4354032,
       "step": 355
     },
     {
+      "epoch": 1.6385404789053593,
+      "grad_norm": 2.787482738494873,
+      "learning_rate": 2.2354091758555493e-05,
+      "loss": 0.3548,
+      "num_input_tokens_seen": 4415344,
       "step": 360
     },
     {
+      "epoch": 1.661345496009122,
+      "grad_norm": 1.2671185731887817,
+      "learning_rate": 2.1741938663238026e-05,
+      "loss": 0.3467,
+      "num_input_tokens_seen": 4477040,
       "step": 365
     },
     {
+      "epoch": 1.6841505131128849,
+      "grad_norm": 1.43488609790802,
+      "learning_rate": 2.1131766630242966e-05,
+      "loss": 0.3515,
+      "num_input_tokens_seen": 4539120,
       "step": 370
     },
     {
+      "epoch": 1.7069555302166477,
+      "grad_norm": 1.317392349243164,
+      "learning_rate": 2.0523946674324157e-05,
+      "loss": 0.3308,
+      "num_input_tokens_seen": 4600304,
       "step": 375
     },
     {
+      "epoch": 1.7297605473204105,
+      "grad_norm": 1.1536561250686646,
+      "learning_rate": 1.991884838005628e-05,
+      "loss": 0.3354,
+      "num_input_tokens_seen": 4661872,
       "step": 380
     },
     {
+      "epoch": 1.7525655644241733,
+      "grad_norm": 1.4183727502822876,
+      "learning_rate": 1.9316839677109242e-05,
+      "loss": 0.343,
+      "num_input_tokens_seen": 4723440,
       "step": 385
     },
     {
+      "epoch": 1.7753705815279361,
+      "grad_norm": 1.7120977640151978,
+      "learning_rate": 1.8718286616528697e-05,
+      "loss": 0.3456,
+      "num_input_tokens_seen": 4784880,
       "step": 390
     },
     {
+      "epoch": 1.798175598631699,
+      "grad_norm": 2.004385471343994,
+      "learning_rate": 1.812355314815898e-05,
+      "loss": 0.3286,
+      "num_input_tokens_seen": 4846064,
       "step": 395
     },
     {
+      "epoch": 1.8209806157354618,
+      "grad_norm": 1.51791512966156,
+      "learning_rate": 1.753300089934355e-05,
+      "loss": 0.3574,
+      "num_input_tokens_seen": 4908144,
       "step": 400
     },
     {
+      "epoch": 1.8209806157354618,
+      "eval_loss": 0.3323298394680023,
+      "eval_runtime": 34.2786,
+      "eval_samples_per_second": 90.961,
+      "eval_steps_per_second": 5.689,
+      "num_input_tokens_seen": 4908144,
       "step": 400
     },
     {
+      "epoch": 1.8437856328392246,
+      "grad_norm": 1.461567759513855,
+      "learning_rate": 1.694698895503774e-05,
+      "loss": 0.328,
+      "num_input_tokens_seen": 4969072,
       "step": 405
     },
     {
+      "epoch": 1.8665906499429874,
+      "grad_norm": 1.9793264865875244,
+      "learning_rate": 1.6365873639467315e-05,
+      "loss": 0.3358,
+      "num_input_tokens_seen": 5031152,
       "step": 410
     },
     {
+      "epoch": 1.8893956670467502,
+      "grad_norm": 1.3104889392852783,
+      "learning_rate": 1.5790008299465773e-05,
+      "loss": 0.3365,
+      "num_input_tokens_seen": 5092848,
       "step": 415
     },
     {
+      "epoch": 1.912200684150513,
+      "grad_norm": 1.2527827024459839,
+      "learning_rate": 1.5219743089621963e-05,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 5154032,
       "step": 420
     },
     {
+      "epoch": 1.9350057012542758,
+      "grad_norm": 1.2217671871185303,
+      "learning_rate": 1.4655424759368852e-05,
+      "loss": 0.3369,
+      "num_input_tokens_seen": 5216112,
       "step": 425
     },
     {
+      "epoch": 1.9578107183580387,
+      "grad_norm": 1.307077407836914,
+      "learning_rate": 1.4097396442142646e-05,
+      "loss": 0.341,
+      "num_input_tokens_seen": 5278320,
       "step": 430
     },
     {
+      "epoch": 1.9806157354618015,
+      "grad_norm": 1.2900267839431763,
+      "learning_rate": 1.354599744674078e-05,
+      "loss": 0.324,
+      "num_input_tokens_seen": 5339504,
       "step": 435
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 2.508204936981201,
+      "learning_rate": 1.3001563051005347e-05,
+      "loss": 0.32,
+      "num_input_tokens_seen": 5392000,
       "step": 440
     },
     {
+      "epoch": 2.022805017103763,
+      "grad_norm": 1.3662036657333374,
+      "learning_rate": 1.2464424297957613e-05,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 5453568,
       "step": 445
     },
     {
+      "epoch": 2.0456100342075256,
+      "grad_norm": 1.703447937965393,
+      "learning_rate": 1.1934907794507532e-05,
+      "loss": 0.304,
+      "num_input_tokens_seen": 5514496,
       "step": 450
     },
     {
+      "epoch": 2.0684150513112884,
+      "grad_norm": 1.1712243556976318,
+      "learning_rate": 1.1413335512860535e-05,
+      "loss": 0.3105,
+      "num_input_tokens_seen": 5576192,
       "step": 455
     },
     {
+      "epoch": 2.0912200684150513,
+      "grad_norm": 1.150918960571289,
+      "learning_rate": 1.0900024594742591e-05,
+      "loss": 0.2971,
+      "num_input_tokens_seen": 5638016,
       "step": 460
     },
     {
+      "epoch": 2.114025085518814,
+      "grad_norm": 1.2124019861221313,
+      "learning_rate": 1.0395287158562294e-05,
+      "loss": 0.2986,
+      "num_input_tokens_seen": 5699456,
       "step": 465
     },
     {
+      "epoch": 2.136830102622577,
+      "grad_norm": 1.0262031555175781,
+      "learning_rate": 9.899430109627494e-06,
+      "loss": 0.3109,
+      "num_input_tokens_seen": 5761280,
       "step": 470
     },
     {
+      "epoch": 2.1596351197263397,
+      "grad_norm": 1.2616000175476074,
+      "learning_rate": 9.412754953531663e-06,
+      "loss": 0.3053,
+      "num_input_tokens_seen": 5823232,
       "step": 475
     },
     {
+      "epoch": 2.1824401368301025,
+      "grad_norm": 1.1844359636306763,
+      "learning_rate": 8.935557612823647e-06,
+      "loss": 0.3116,
+      "num_input_tokens_seen": 5885184,
       "step": 480
     },
     {
+      "epoch": 2.2052451539338653,
+      "grad_norm": 1.2591346502304077,
+      "learning_rate": 8.468128247072054e-06,
+      "loss": 0.2883,
+      "num_input_tokens_seen": 5946624,
       "step": 485
     },
     {
+      "epoch": 2.228050171037628,
+      "grad_norm": 1.0236306190490723,
+      "learning_rate": 8.010751076433975e-06,
+      "loss": 0.2859,
+      "num_input_tokens_seen": 6007936,
       "step": 490
     },
     {
+      "epoch": 2.250855188141391,
+      "grad_norm": 1.6473826169967651,
+      "learning_rate": 7.563704208835015e-06,
+      "loss": 0.3055,
+      "num_input_tokens_seen": 6069248,
       "step": 495
     },
     {
+      "epoch": 2.2736602052451538,
+      "grad_norm": 1.1068172454833984,
+      "learning_rate": 7.1272594708659574e-06,
+      "loss": 0.311,
+      "num_input_tokens_seen": 6131072,
       "step": 500
     },
     {
+      "epoch": 2.2736602052451538,
+      "eval_loss": 0.3113664388656616,
+      "eval_runtime": 34.2889,
+      "eval_samples_per_second": 90.933,
+      "eval_steps_per_second": 5.687,
+      "num_input_tokens_seen": 6131072,
       "step": 500
     },
     {
+      "epoch": 2.2964652223489166,
+      "grad_norm": 1.0342239141464233,
+      "learning_rate": 6.70168224249878e-06,
+      "loss": 0.2869,
+      "num_input_tokens_seen": 6192640,
       "step": 505
     },
     {
+      "epoch": 2.3192702394526794,
+      "grad_norm": 1.666923999786377,
+      "learning_rate": 6.28723129572247e-06,
+      "loss": 0.2944,
+      "num_input_tokens_seen": 6254592,
       "step": 510
     },
     {
+      "epoch": 2.342075256556442,
+      "grad_norm": 1.317696452140808,
+      "learning_rate": 5.884158637196923e-06,
+      "loss": 0.2967,
+      "num_input_tokens_seen": 6316288,
       "step": 515
     },
     {
+      "epoch": 2.364880273660205,
+      "grad_norm": 1.089593529701233,
+      "learning_rate": 5.49270935502037e-06,
+      "loss": 0.2747,
+      "num_input_tokens_seen": 6377600,
       "step": 520
     },
     {
+      "epoch": 2.387685290763968,
+      "grad_norm": 1.1242574453353882,
+      "learning_rate": 5.113121469703766e-06,
+      "loss": 0.2771,
+      "num_input_tokens_seen": 6439040,
       "step": 525
     },
     {
+      "epoch": 2.4104903078677307,
+      "grad_norm": 1.6130552291870117,
+      "learning_rate": 4.745625789442512e-06,
+      "loss": 0.2999,
+      "num_input_tokens_seen": 6501376,
       "step": 530
     },
     {
+      "epoch": 2.433295324971494,
+      "grad_norm": 1.1034862995147705,
+      "learning_rate": 4.390445769773676e-06,
+      "loss": 0.2982,
+      "num_input_tokens_seen": 6563840,
       "step": 535
     },
     {
+      "epoch": 2.4561003420752567,
+      "grad_norm": 1.1068782806396484,
+      "learning_rate": 4.047797377703985e-06,
+      "loss": 0.2822,
+      "num_input_tokens_seen": 6624896,
       "step": 540
     },
     {
+      "epoch": 2.4789053591790196,
+      "grad_norm": 1.4087668657302856,
+      "learning_rate": 3.717888960391222e-06,
+      "loss": 0.2867,
+      "num_input_tokens_seen": 6685184,
       "step": 545
     },
     {
+      "epoch": 2.5017103762827824,
+      "grad_norm": 1.0873833894729614,
+      "learning_rate": 3.40092111845883e-06,
+      "loss": 0.2763,
+      "num_input_tokens_seen": 6744960,
       "step": 550
     },
     {
+      "epoch": 2.524515393386545,
+      "grad_norm": 1.0662592649459839,
+      "learning_rate": 3.0970865840208446e-06,
+      "loss": 0.2975,
+      "num_input_tokens_seen": 6805888,
       "step": 555
     },
     {
+      "epoch": 2.547320410490308,
+      "grad_norm": 1.1920742988586426,
+      "learning_rate": 2.806570103491221e-06,
+      "loss": 0.2826,
+      "num_input_tokens_seen": 6866816,
       "step": 560
     },
     {
+      "epoch": 2.570125427594071,
+      "grad_norm": 1.203615427017212,
+      "learning_rate": 2.5295483252488955e-06,
+      "loss": 0.2807,
+      "num_input_tokens_seen": 6928128,
       "step": 565
     },
     {
+      "epoch": 2.5929304446978336,
+      "grad_norm": 1.0653432607650757,
+      "learning_rate": 2.266189692226844e-06,
+      "loss": 0.2882,
+      "num_input_tokens_seen": 6989056,
       "step": 570
     },
     {
+      "epoch": 2.6157354618015964,
+      "grad_norm": 1.287311315536499,
+      "learning_rate": 2.0166543394904424e-06,
+      "loss": 0.2878,
+      "num_input_tokens_seen": 7050496,
       "step": 575
     },
     {
+      "epoch": 2.6385404789053593,
+      "grad_norm": 1.430195927619934,
+      "learning_rate": 1.7810939968674418e-06,
+      "loss": 0.2913,
+      "num_input_tokens_seen": 7111680,
       "step": 580
     },
     {
+      "epoch": 2.661345496009122,
+      "grad_norm": 1.6326279640197754,
+      "learning_rate": 1.559651896688724e-06,
+      "loss": 0.2893,
+      "num_input_tokens_seen": 7173632,
       "step": 585
     },
     {
+      "epoch": 2.684150513112885,
+      "grad_norm": 1.2597157955169678,
+      "learning_rate": 1.3524626866959739e-06,
+      "loss": 0.2847,
+      "num_input_tokens_seen": 7234816,
       "step": 590
     },
     {
+      "epoch": 2.7069555302166477,
+      "grad_norm": 0.9821637272834778,
+      "learning_rate": 1.1596523481691851e-06,
+      "loss": 0.2902,
+      "num_input_tokens_seen": 7297792,
       "step": 595
     },
     {
+      "epoch": 2.7297605473204105,
+      "grad_norm": 1.521061897277832,
+      "learning_rate": 9.813381193238462e-07,
+      "loss": 0.2808,
+      "num_input_tokens_seen": 7358336,
       "step": 600
     },
     {
+      "epoch": 2.7297605473204105,
+      "eval_loss": 0.300137460231781,
+      "eval_runtime": 34.3138,
+      "eval_samples_per_second": 90.867,
+      "eval_steps_per_second": 5.683,
+      "num_input_tokens_seen": 7358336,
       "step": 600
     },
     {
+      "epoch": 2.7525655644241733,
+      "grad_norm": 1.2478710412979126,
+      "learning_rate": 8.176284240242638e-07,
+      "loss": 0.2775,
+      "num_input_tokens_seen": 7419520,
       "step": 605
     },
     {
+      "epoch": 2.775370581527936,
+      "grad_norm": 1.0828979015350342,
+      "learning_rate": 6.686228058565419e-07,
+      "loss": 0.2874,
+      "num_input_tokens_seen": 7480832,
       "step": 610
     },
     {
+      "epoch": 2.798175598631699,
+      "grad_norm": 1.0666881799697876,
+      "learning_rate": 5.344118676011172e-07,
+      "loss": 0.2933,
+      "num_input_tokens_seen": 7542400,
       "step": 615
     },
     {
+      "epoch": 2.8209806157354618,
+      "grad_norm": 1.1293710470199585,
+      "learning_rate": 4.1507721614183757e-07,
+      "loss": 0.2807,
+      "num_input_tokens_seen": 7603456,
       "step": 620
     },
     {
+      "epoch": 2.8437856328392246,
+      "grad_norm": 1.029773473739624,
+      "learning_rate": 3.1069141284489347e-07,
+      "loss": 0.2843,
+      "num_input_tokens_seen": 7664896,
       "step": 625
     },
     {
+      "epoch": 2.8665906499429874,
+      "grad_norm": 1.2407749891281128,
+      "learning_rate": 2.2131792943796138e-07,
+      "loss": 0.2717,
+      "num_input_tokens_seen": 7725824,
       "step": 630
     },
     {
+      "epoch": 2.88939566704675,
+      "grad_norm": 1.1176257133483887,
+      "learning_rate": 1.4701110941623963e-07,
+      "loss": 0.2789,
+      "num_input_tokens_seen": 7786752,
       "step": 635
     },
     {
+      "epoch": 2.912200684150513,
+      "grad_norm": 1.183804988861084,
+      "learning_rate": 8.781613499891373e-08,
+      "loss": 0.2806,
+      "num_input_tokens_seen": 7847680,
       "step": 640
     },
     {
+      "epoch": 2.935005701254276,
+      "grad_norm": 1.333591341972351,
+      "learning_rate": 4.376899965614079e-08,
+      "loss": 0.2729,
+      "num_input_tokens_seen": 7908992,
       "step": 645
     },
     {
+      "epoch": 2.9578107183580387,
+      "grad_norm": 1.4014573097229004,
+      "learning_rate": 1.4896486223239802e-08,
+      "loss": 0.2868,
+      "num_input_tokens_seen": 7970816,
       "step": 650
     },
     {
+      "epoch": 2.9806157354618015,
+      "grad_norm": 1.1442041397094727,
+      "learning_rate": 1.2161506153990366e-09,
+      "loss": 0.2849,
+      "num_input_tokens_seen": 8032384,
       "step": 655
     },
     {
+      "epoch": 2.9897377423033067,
+      "num_input_tokens_seen": 8057088,
+      "step": 657,
+      "total_flos": 3.334823948247368e+17,
+      "train_loss": 0.48195079037043603,
+      "train_runtime": 3553.5571,
+      "train_samples_per_second": 23.687,
+      "train_steps_per_second": 0.185
     }
   ],
   "logging_steps": 5,
+  "max_steps": 657,
+  "num_input_tokens_seen": 8057088,
   "num_train_epochs": 3,
   "save_steps": 100,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.334823948247368e+17,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fc84cc3c5835f38c5b3721c54b978793ec53284573feda6cdf598a3f1b2a496
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:b48b6e581e832c695c8ab5978ff0e1f88a2dfc221f76a2f07d78f80a3cc7fb5f
 size 5688

training_args.yaml CHANGED Viewed

@@ -19,16 +19,17 @@ lora_target: q_proj,v_proj,k_proj,o_proj,gate_proj,down_proj,up_proj
 lr_scheduler_type: cosine
 max_grad_norm: 1.0
 max_samples: 100000
-model_name_or_path: GreatCaptainNemo/ProLLaMA_Stage_1
 num_train_epochs: 3.0
 optim: adamw_torch
-output_dir: saves/Custom/lora/train_2025-03-11-22-40-04
 packing: false
-per_device_eval_batch_size: 8
-per_device_train_batch_size: 8
 plot_loss: true
 preprocessing_num_workers: 16
 report_to: none
 save_steps: 100
 stage: sft
 template: alpaca

 lr_scheduler_type: cosine
 max_grad_norm: 1.0
 max_samples: 100000
+model_name_or_path: GreatCaptainNemo/ProLLaMA
 num_train_epochs: 3.0
 optim: adamw_torch
+output_dir: saves/Custom/lora/train_2025-04-05-23-57-03
 packing: false
+per_device_eval_batch_size: 16
+per_device_train_batch_size: 16
 plot_loss: true
 preprocessing_num_workers: 16
 report_to: none
+resize_vocab: true
 save_steps: 100
 stage: sft
 template: alpaca

training_eval_loss.png CHANGED Viewed

Git LFS Details

SHA256: 8955642a7c3b95415874d382d673e1f9845ef93a17283e99918f63fe5d73e502
Pointer size: 130 Bytes
Size of remote file: 38.8 kB

Git LFS Details

SHA256: 283ac66c042f0575f5ce77a8a46121fabdac2621634d02a2b04aae38b673eb3d
Pointer size: 130 Bytes
Size of remote file: 42.3 kB

training_loss.png CHANGED Viewed

Git LFS Details

SHA256: b3a1b5607093702b9189544da88a588cb34770a4ad7c58235e64b78073a682c1
Pointer size: 130 Bytes
Size of remote file: 29.4 kB

Git LFS Details

SHA256: a3f184c95e3c8a4e7cf84ef821edaada399ee4be50696957592d141cd2c71685
Pointer size: 130 Bytes
Size of remote file: 30.2 kB