RetrO21 commited on Dec 4, 2025

Commit

8496b6d

verified ·

1 Parent(s): 7048260

Upload folder using huggingface_hub

Browse files

Files changed (40) hide show

README.md +34 -4
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
checkpoint-1737/adapter_config.json +2 -2
checkpoint-1737/adapter_model.safetensors +1 -1
checkpoint-1737/optimizer.pt +1 -1
checkpoint-1737/rng_state.pth +1 -1
checkpoint-1737/scheduler.pt +1 -1
checkpoint-1737/trainer_state.json +212 -212
checkpoint-1737/training_args.bin +1 -1
checkpoint-3474/adapter_config.json +2 -2
checkpoint-3474/adapter_model.safetensors +1 -1
checkpoint-3474/optimizer.pt +1 -1
checkpoint-3474/rng_state.pth +1 -1
checkpoint-3474/scheduler.pt +1 -1
checkpoint-3474/trainer_state.json +430 -430
checkpoint-3474/training_args.bin +1 -1
checkpoint-5211/adapter_config.json +2 -2
checkpoint-5211/adapter_model.safetensors +1 -1
checkpoint-5211/optimizer.pt +1 -1
checkpoint-5211/rng_state.pth +1 -1
checkpoint-5211/scheduler.pt +1 -1
checkpoint-5211/trainer_state.json +648 -648
checkpoint-5211/training_args.bin +1 -1
checkpoint-6948/adapter_config.json +2 -2
checkpoint-6948/adapter_model.safetensors +1 -1
checkpoint-6948/optimizer.pt +1 -1
checkpoint-6948/rng_state.pth +1 -1
checkpoint-6948/scheduler.pt +1 -1
checkpoint-6948/trainer_state.json +861 -861
checkpoint-6948/training_args.bin +1 -1
checkpoint-8685/adapter_config.json +3 -3
checkpoint-8685/adapter_model.safetensors +2 -2
checkpoint-8685/optimizer.pt +2 -2
checkpoint-8685/rng_state.pth +1 -1
checkpoint-8685/scheduler.pt +1 -1
checkpoint-8685/trainer_state.json +1079 -1079
checkpoint-8685/training_args.bin +1 -1
runs/Dec04_11-47-13_129-213-84-8/events.out.tfevents.1764848895.129-213-84-8.25442.0 +3 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,9 +1,39 @@
 ---
 base_model: Qwen/Qwen2-VL-2B-Instruct
 library_name: peft
 tags:
-- lora
-- qwen2-vl
-- adapter
-- vision-language
 ---

 ---
 base_model: Qwen/Qwen2-VL-2B-Instruct
 library_name: peft
+model_name: output
 tags:
+  - adapter
+  - lora
+  - sft
+  - transformers
+  - trl
+license: apache-2.0
+pipeline_tag: text-generation
 ---
+# Model Card for output
+This model is a fine-tuned version of [Qwen/Qwen2-VL-2B-Instruct](https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct).
+It has been trained using [TRL](https://github.com/huggingface/trl) and PEFT LoRA.
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline(
+    "text-generation",
+    model="RetrO21/agrofinetune",  # replace with your repo
+    device="cuda"
+)
+output = generator(
+    [{"role": "user", "content": question}],
+    max_new_tokens=128,
+    return_full_text=False
+)[0]
+print(output["generated_text"])

adapter_config.json CHANGED Viewed

@@ -29,10 +29,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "k_proj",
     "v_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "k_proj",
     "v_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a42655e5c5bf5a17388c99c67741b81d97a904a649f92d5298361717c78abaac
 size 26182176

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8b4ecb107db701acdc04f96300149f10454a4f22cc800cab0b968eae74c3415
 size 26182176

checkpoint-1737/adapter_config.json CHANGED Viewed

@@ -29,10 +29,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "k_proj",
     "v_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "k_proj",
     "v_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-1737/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca36c29cabd2e8ea449e6eadcd7f7db9042e00cae52ef5b042c56b58c200775a
 size 26182176

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3f567a0aff94e611cf7b87a63d4290b0ee7314a1941c1ad3d0f416afc2fb1f7
 size 26182176

checkpoint-1737/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fab12e7cc07b84cfe33ab9be36e25b4dfa882f0ac9e6725dfb7608859ec3a87
 size 52486155

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b51eac51c311fe05ae0fb6f075e636ed719de49501d8a85daa67a1976ddb3f2
 size 52486155

checkpoint-1737/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac7868bb5d10a59d1042ca17d4fc89dc5beddcdf6df99c035480579667b84b19
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:09c74ac7a46536c3808a08a6b9cc111c17592bccdc148cd2300d105708f4cc8b
 size 14645

checkpoint-1737/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c17d5ce4845692098064761cc4c713c4686c6a262dcb4177eea65f272ed234c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ce062a9f59b08a36604b136fb249f7d9f4c575b16c5cc4c39f6833a49683785
 size 1465

checkpoint-1737/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 1737,
-  "best_metric": 5.861395835876465,
   "best_model_checkpoint": "./output/checkpoint-1737",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -10,362 +10,362 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 3.6583470726013183,
       "epoch": 0.028785261945883708,
-      "grad_norm": 3.3817152976989746,
       "learning_rate": 4.9e-07,
-      "loss": 13.8754,
-      "mean_token_accuracy": 0.15036460414528846,
-      "num_tokens": 53093.0,
       "step": 50
     },
     {
-      "entropy": 3.669608063697815,
       "epoch": 0.057570523891767415,
-      "grad_norm": 3.2541544437408447,
       "learning_rate": 9.9e-07,
-      "loss": 14.2282,
-      "mean_token_accuracy": 0.14137721598148345,
-      "num_tokens": 108334.0,
       "step": 100
     },
     {
-      "entropy": 3.569736371040344,
       "epoch": 0.08635578583765112,
-      "grad_norm": 3.6797454357147217,
       "learning_rate": 1.49e-06,
-      "loss": 13.0735,
-      "mean_token_accuracy": 0.17473630651831626,
-      "num_tokens": 157491.0,
       "step": 150
     },
     {
-      "entropy": 3.7253233194351196,
       "epoch": 0.11514104778353483,
-      "grad_norm": 4.297911643981934,
       "learning_rate": 1.99e-06,
-      "loss": 13.7392,
-      "mean_token_accuracy": 0.1473099772632122,
-      "num_tokens": 211394.0,
       "step": 200
     },
     {
-      "entropy": 3.8280500602722167,
       "epoch": 0.14392630972941853,
-      "grad_norm": 4.405268669128418,
-      "learning_rate": 1.9854771784232364e-06,
-      "loss": 13.0797,
-      "mean_token_accuracy": 0.16704789966344832,
-      "num_tokens": 263685.0,
       "step": 250
     },
     {
-      "entropy": 4.066333084106446,
       "epoch": 0.17271157167530224,
-      "grad_norm": 4.757556438446045,
-      "learning_rate": 1.9706579727326615e-06,
-      "loss": 12.6321,
-      "mean_token_accuracy": 0.1691790708899498,
-      "num_tokens": 314059.0,
       "step": 300
     },
     {
-      "entropy": 4.257266030311585,
       "epoch": 0.20149683362118595,
-      "grad_norm": 6.406249523162842,
-      "learning_rate": 1.955838767042086e-06,
-      "loss": 12.2253,
-      "mean_token_accuracy": 0.17223650276660918,
-      "num_tokens": 367038.0,
       "step": 350
     },
     {
-      "entropy": 4.694105777740479,
       "epoch": 0.23028209556706966,
-      "grad_norm": 12.57987117767334,
-      "learning_rate": 1.9410195613515113e-06,
-      "loss": 11.9714,
-      "mean_token_accuracy": 0.15997304677963256,
-      "num_tokens": 420327.0,
       "step": 400
     },
     {
-      "entropy": 5.205010280609131,
       "epoch": 0.25906735751295334,
-      "grad_norm": 15.570313453674316,
-      "learning_rate": 1.9262003556609364e-06,
-      "loss": 10.8173,
-      "mean_token_accuracy": 0.16447648257017136,
-      "num_tokens": 472429.0,
       "step": 450
     },
     {
-      "entropy": 5.917805089950561,
       "epoch": 0.28785261945883706,
-      "grad_norm": 23.61503791809082,
-      "learning_rate": 1.9113811499703615e-06,
-      "loss": 9.3196,
-      "mean_token_accuracy": 0.16179455041885377,
-      "num_tokens": 526315.0,
       "step": 500
     },
     {
-      "entropy": 6.380368332862854,
       "epoch": 0.31663788140472077,
-      "grad_norm": 13.846810340881348,
-      "learning_rate": 1.8965619442797864e-06,
-      "loss": 7.9636,
-      "mean_token_accuracy": 0.16881170988082886,
-      "num_tokens": 578511.0,
       "step": 550
     },
     {
-      "entropy": 6.507339992523193,
       "epoch": 0.3454231433506045,
-      "grad_norm": 4.569090366363525,
-      "learning_rate": 1.8817427385892115e-06,
-      "loss": 7.4171,
-      "mean_token_accuracy": 0.16941152423620223,
-      "num_tokens": 630937.0,
       "step": 600
     },
     {
-      "entropy": 6.392864561080932,
       "epoch": 0.3742084052964882,
-      "grad_norm": 4.594696521759033,
-      "learning_rate": 1.8669235328986366e-06,
-      "loss": 6.9389,
-      "mean_token_accuracy": 0.1844496901333332,
-      "num_tokens": 680501.0,
       "step": 650
     },
     {
-      "entropy": 6.6726202869415285,
       "epoch": 0.4029936672423719,
-      "grad_norm": 4.768734931945801,
-      "learning_rate": 1.8521043272080617e-06,
-      "loss": 6.9818,
-      "mean_token_accuracy": 0.16990411713719367,
-      "num_tokens": 733231.0,
       "step": 700
     },
     {
-      "entropy": 6.592793455123902,
       "epoch": 0.4317789291882556,
-      "grad_norm": 3.253056764602661,
-      "learning_rate": 1.8372851215174864e-06,
-      "loss": 6.7105,
-      "mean_token_accuracy": 0.18250102579593658,
-      "num_tokens": 785373.0,
       "step": 750
     },
     {
-      "entropy": 6.683582029342651,
       "epoch": 0.4605641911341393,
-      "grad_norm": 2.1871063709259033,
-      "learning_rate": 1.8224659158269115e-06,
-      "loss": 6.6685,
-      "mean_token_accuracy": 0.17129646152257919,
-      "num_tokens": 838646.0,
       "step": 800
     },
     {
-      "entropy": 6.636875295639038,
       "epoch": 0.48934945308002303,
-      "grad_norm": 3.2284677028656006,
-      "learning_rate": 1.8076467101363366e-06,
-      "loss": 6.53,
-      "mean_token_accuracy": 0.18053789794445038,
-      "num_tokens": 892380.0,
       "step": 850
     },
     {
-      "entropy": 6.610673260688782,
       "epoch": 0.5181347150259067,
-      "grad_norm": 2.2088730335235596,
-      "learning_rate": 1.7928275044457617e-06,
-      "loss": 6.4429,
-      "mean_token_accuracy": 0.18492739230394364,
-      "num_tokens": 947971.0,
       "step": 900
     },
     {
-      "entropy": 6.242899022102356,
       "epoch": 0.5469199769717904,
-      "grad_norm": 2.3000030517578125,
-      "learning_rate": 1.7780082987551866e-06,
-      "loss": 6.047,
-      "mean_token_accuracy": 0.2291259828209877,
-      "num_tokens": 998810.0,
       "step": 950
     },
     {
-      "entropy": 6.311488924026489,
       "epoch": 0.5757052389176741,
-      "grad_norm": 2.1333675384521484,
-      "learning_rate": 1.7631890930646115e-06,
-      "loss": 6.0919,
-      "mean_token_accuracy": 0.22644571751356124,
-      "num_tokens": 1050860.0,
       "step": 1000
     },
     {
-      "entropy": 6.3254336166381835,
       "epoch": 0.6044905008635578,
-      "grad_norm": 2.0400779247283936,
-      "learning_rate": 1.7483698873740366e-06,
-      "loss": 6.094,
-      "mean_token_accuracy": 0.2222653564810753,
-      "num_tokens": 1104304.0,
       "step": 1050
     },
     {
-      "entropy": 6.046922063827514,
       "epoch": 0.6332757628094415,
-      "grad_norm": 2.8049051761627197,
-      "learning_rate": 1.7335506816834617e-06,
-      "loss": 5.8011,
-      "mean_token_accuracy": 0.25127078920602797,
-      "num_tokens": 1153605.0,
       "step": 1100
     },
     {
-      "entropy": 5.943600912094116,
       "epoch": 0.6620610247553252,
-      "grad_norm": 4.063963890075684,
-      "learning_rate": 1.7187314759928866e-06,
-      "loss": 5.6855,
-      "mean_token_accuracy": 0.26265266716480257,
-      "num_tokens": 1204328.0,
       "step": 1150
     },
     {
-      "entropy": 6.12883231639862,
       "epoch": 0.690846286701209,
-      "grad_norm": 3.9440460205078125,
-      "learning_rate": 1.7039122703023117e-06,
-      "loss": 5.8578,
-      "mean_token_accuracy": 0.24439335912466048,
-      "num_tokens": 1257415.0,
       "step": 1200
     },
     {
-      "entropy": 6.164987115859986,
       "epoch": 0.7196315486470927,
-      "grad_norm": 3.20070481300354,
-      "learning_rate": 1.6890930646117368e-06,
-      "loss": 5.8876,
-      "mean_token_accuracy": 0.24275501281023026,
-      "num_tokens": 1310049.0,
       "step": 1250
     },
     {
-      "entropy": 6.080997190475464,
       "epoch": 0.7484168105929764,
-      "grad_norm": 2.8067362308502197,
-      "learning_rate": 1.6742738589211617e-06,
-      "loss": 5.8058,
-      "mean_token_accuracy": 0.25242207854986193,
-      "num_tokens": 1361794.0,
       "step": 1300
     },
     {
-      "entropy": 5.940848155021667,
       "epoch": 0.7772020725388601,
-      "grad_norm": 2.6375925540924072,
-      "learning_rate": 1.6594546532305868e-06,
-      "loss": 5.6718,
-      "mean_token_accuracy": 0.2665082859992981,
-      "num_tokens": 1412773.0,
       "step": 1350
     },
     {
-      "entropy": 6.071129274368286,
       "epoch": 0.8059873344847438,
-      "grad_norm": 3.951350212097168,
-      "learning_rate": 1.6446354475400117e-06,
-      "loss": 5.8012,
-      "mean_token_accuracy": 0.25434976994991304,
-      "num_tokens": 1465620.0,
       "step": 1400
     },
     {
-      "entropy": 6.069429359436035,
       "epoch": 0.8347725964306275,
-      "grad_norm": 3.580608606338501,
-      "learning_rate": 1.6298162418494368e-06,
-      "loss": 5.8027,
-      "mean_token_accuracy": 0.25208072274923327,
-      "num_tokens": 1518899.0,
       "step": 1450
     },
     {
-      "entropy": 6.005315380096436,
       "epoch": 0.8635578583765112,
-      "grad_norm": 3.9580376148223877,
-      "learning_rate": 1.614997036158862e-06,
-      "loss": 5.7364,
-      "mean_token_accuracy": 0.25940640360116957,
-      "num_tokens": 1571304.0,
       "step": 1500
     },
     {
-      "entropy": 6.0786464881896975,
       "epoch": 0.8923431203223949,
-      "grad_norm": 4.55721378326416,
-      "learning_rate": 1.6001778304682868e-06,
-      "loss": 5.8092,
-      "mean_token_accuracy": 0.2496869170665741,
-      "num_tokens": 1627369.0,
       "step": 1550
     },
     {
-      "entropy": 5.939382014274597,
       "epoch": 0.9211283822682786,
-      "grad_norm": 2.330057144165039,
-      "learning_rate": 1.5853586247777117e-06,
-      "loss": 5.6604,
-      "mean_token_accuracy": 0.2686630353331566,
-      "num_tokens": 1680401.0,
       "step": 1600
     },
     {
-      "entropy": 6.121775646209716,
       "epoch": 0.9499136442141624,
-      "grad_norm": 2.9881200790405273,
-      "learning_rate": 1.5705394190871368e-06,
-      "loss": 5.8388,
-      "mean_token_accuracy": 0.2503683388233185,
-      "num_tokens": 1735745.0,
       "step": 1650
     },
     {
-      "entropy": 5.840040788650513,
       "epoch": 0.9786989061600461,
-      "grad_norm": 3.798994779586792,
-      "learning_rate": 1.555720213396562e-06,
-      "loss": 5.5635,
-      "mean_token_accuracy": 0.278279125392437,
-      "num_tokens": 1786896.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 6.139133475343203,
-      "eval_loss": 5.861395835876465,
-      "eval_mean_token_accuracy": 0.2402858340657801,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 1825107.0,
-      "eval_runtime": 79.3994,
-      "eval_samples_per_second": 5.466,
-      "eval_steps_per_second": 2.733,
       "step": 1737
     }
   ],
   "logging_steps": 50,
-  "max_steps": 6948,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -379,7 +379,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5090142668416e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 1737,
+  "best_metric": 5.737204551696777,
   "best_model_checkpoint": "./output/checkpoint-1737",
   "epoch": 1.0,
   "eval_steps": 500,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 3.606692385673523,
       "epoch": 0.028785261945883708,
+      "grad_norm": 3.2999913692474365,
       "learning_rate": 4.9e-07,
+      "loss": 13.6598,
+      "mean_token_accuracy": 0.16028020828962325,
+      "num_tokens": 53993.0,
       "step": 50
     },
     {
+      "entropy": 3.618675880432129,
       "epoch": 0.057570523891767415,
+      "grad_norm": 3.101252555847168,
       "learning_rate": 9.9e-07,
+      "loss": 14.0188,
+      "mean_token_accuracy": 0.1508466500043869,
+      "num_tokens": 110134.0,
       "step": 100
     },
     {
+      "entropy": 3.5215235900878907,
       "epoch": 0.08635578583765112,
+      "grad_norm": 3.513662815093994,
       "learning_rate": 1.49e-06,
+      "loss": 12.8555,
+      "mean_token_accuracy": 0.18527640983462335,
+      "num_tokens": 160191.0,
       "step": 150
     },
     {
+      "entropy": 3.667909698486328,
       "epoch": 0.11514104778353483,
+      "grad_norm": 4.327610492706299,
       "learning_rate": 1.99e-06,
+      "loss": 13.5394,
+      "mean_token_accuracy": 0.157139780074358,
+      "num_tokens": 214993.0,
       "step": 200
     },
     {
+      "entropy": 3.768263258934021,
       "epoch": 0.14392630972941853,
+      "grad_norm": 4.290107250213623,
+      "learning_rate": 1.988450206246317e-06,
+      "loss": 12.8912,
+      "mean_token_accuracy": 0.17374794125556947,
+      "num_tokens": 268184.0,
       "step": 250
     },
     {
+      "entropy": 3.990619196891785,
       "epoch": 0.17271157167530224,
+      "grad_norm": 4.444278717041016,
+      "learning_rate": 1.976664702416028e-06,
+      "loss": 12.455,
+      "mean_token_accuracy": 0.17780130118131637,
+      "num_tokens": 319458.0,
       "step": 300
     },
     {
+      "entropy": 4.162646284103394,
       "epoch": 0.20149683362118595,
+      "grad_norm": 5.615262508392334,
+      "learning_rate": 1.9648791985857395e-06,
+      "loss": 12.0893,
+      "mean_token_accuracy": 0.18191319867968558,
+      "num_tokens": 373337.0,
       "step": 350
     },
     {
+      "entropy": 4.532100868225098,
       "epoch": 0.23028209556706966,
+      "grad_norm": 10.074016571044922,
+      "learning_rate": 1.9530936947554507e-06,
+      "loss": 11.9261,
+      "mean_token_accuracy": 0.169477596282959,
+      "num_tokens": 427526.0,
       "step": 400
     },
     {
+      "entropy": 4.923871030807495,
       "epoch": 0.25906735751295334,
+      "grad_norm": 16.220163345336914,
+      "learning_rate": 1.9413081909251622e-06,
+      "loss": 11.0048,
+      "mean_token_accuracy": 0.1704501649737358,
+      "num_tokens": 480528.0,
       "step": 450
     },
     {
+      "entropy": 5.521005854606629,
       "epoch": 0.28785261945883706,
+      "grad_norm": 29.904008865356445,
+      "learning_rate": 1.9295226870948733e-06,
+      "loss": 9.6524,
+      "mean_token_accuracy": 0.16450899541378022,
+      "num_tokens": 535314.0,
       "step": 500
     },
     {
+      "entropy": 6.092623329162597,
       "epoch": 0.31663788140472077,
+      "grad_norm": 17.821575164794922,
+      "learning_rate": 1.9177371832645845e-06,
+      "loss": 8.1054,
+      "mean_token_accuracy": 0.17205011785030366,
+      "num_tokens": 588410.0,
       "step": 550
     },
     {
+      "entropy": 6.385262680053711,
       "epoch": 0.3454231433506045,
+      "grad_norm": 5.502202987670898,
+      "learning_rate": 1.9059516794342958e-06,
+      "loss": 7.4313,
+      "mean_token_accuracy": 0.1734227080643177,
+      "num_tokens": 641736.0,
       "step": 600
     },
     {
+      "entropy": 6.278562617301941,
       "epoch": 0.3742084052964882,
+      "grad_norm": 5.4657697677612305,
+      "learning_rate": 1.8941661756040071e-06,
+      "loss": 6.9266,
+      "mean_token_accuracy": 0.18680249139666558,
+      "num_tokens": 692200.0,
       "step": 650
     },
     {
+      "entropy": 6.553266277313233,
       "epoch": 0.4029936672423719,
+      "grad_norm": 4.955812931060791,
+      "learning_rate": 1.8823806717737183e-06,
+      "loss": 6.9847,
+      "mean_token_accuracy": 0.16679802387952805,
+      "num_tokens": 745830.0,
       "step": 700
     },
     {
+      "entropy": 6.470935583114624,
       "epoch": 0.4317789291882556,
+      "grad_norm": 4.198381423950195,
+      "learning_rate": 1.8705951679434296e-06,
+      "loss": 6.7277,
+      "mean_token_accuracy": 0.17847734570503235,
+      "num_tokens": 798872.0,
       "step": 750
     },
     {
+      "entropy": 6.5620588779449465,
       "epoch": 0.4605641911341393,
+      "grad_norm": 3.1793746948242188,
+      "learning_rate": 1.8588096641131407e-06,
+      "loss": 6.7032,
+      "mean_token_accuracy": 0.17336134731769562,
+      "num_tokens": 853045.0,
       "step": 800
     },
     {
+      "entropy": 6.532204885482788,
       "epoch": 0.48934945308002303,
+      "grad_norm": 3.824537515640259,
+      "learning_rate": 1.847024160282852e-06,
+      "loss": 6.5762,
+      "mean_token_accuracy": 0.1805124071240425,
+      "num_tokens": 907679.0,
       "step": 850
     },
     {
+      "entropy": 6.535988225936889,
       "epoch": 0.5181347150259067,
+      "grad_norm": 4.350001811981201,
+      "learning_rate": 1.8352386564525632e-06,
+      "loss": 6.505,
+      "mean_token_accuracy": 0.1842605724930763,
+      "num_tokens": 964170.0,
       "step": 900
     },
     {
+      "entropy": 6.204533562660218,
       "epoch": 0.5469199769717904,
+      "grad_norm": 2.193660020828247,
+      "learning_rate": 1.8234531526222745e-06,
+      "loss": 6.1211,
+      "mean_token_accuracy": 0.21968430042266845,
+      "num_tokens": 1015909.0,
       "step": 950
     },
     {
+      "entropy": 6.308737449645996,
       "epoch": 0.5757052389176741,
+      "grad_norm": 2.325622320175171,
+      "learning_rate": 1.8116676487919857e-06,
+      "loss": 6.1653,
+      "mean_token_accuracy": 0.21636426240205764,
+      "num_tokens": 1068859.0,
       "step": 1000
     },
     {
+      "entropy": 6.332560749053955,
       "epoch": 0.6044905008635578,
+      "grad_norm": 2.0439090728759766,
+      "learning_rate": 1.799882144961697e-06,
+      "loss": 6.1559,
+      "mean_token_accuracy": 0.21859725564718246,
+      "num_tokens": 1123202.0,
       "step": 1050
     },
     {
+      "entropy": 6.042124252319336,
       "epoch": 0.6332757628094415,
+      "grad_norm": 3.621903657913208,
+      "learning_rate": 1.7880966411314081e-06,
+      "loss": 5.8441,
+      "mean_token_accuracy": 0.24906315237283708,
+      "num_tokens": 1173403.0,
       "step": 1100
     },
     {
+      "entropy": 5.921343173980713,
       "epoch": 0.6620610247553252,
+      "grad_norm": 5.658033847808838,
+      "learning_rate": 1.7763111373011195e-06,
+      "loss": 5.7104,
+      "mean_token_accuracy": 0.2625067520141602,
+      "num_tokens": 1225026.0,
       "step": 1150
     },
     {
+      "entropy": 6.093586492538452,
       "epoch": 0.690846286701209,
+      "grad_norm": 2.4292995929718018,
+      "learning_rate": 1.7645256334708308e-06,
+      "loss": 5.8658,
+      "mean_token_accuracy": 0.24842385441064835,
+      "num_tokens": 1279013.0,
       "step": 1200
     },
     {
+      "entropy": 6.119112596511841,
       "epoch": 0.7196315486470927,
+      "grad_norm": 3.369384288787842,
+      "learning_rate": 1.752740129640542e-06,
+      "loss": 5.8784,
+      "mean_token_accuracy": 0.24857850253582,
+      "num_tokens": 1332547.0,
       "step": 1250
     },
     {
+      "entropy": 6.025163550376892,
       "epoch": 0.7484168105929764,
+      "grad_norm": 2.5110116004943848,
+      "learning_rate": 1.7409546258102533e-06,
+      "loss": 5.7769,
+      "mean_token_accuracy": 0.25835376888513567,
+      "num_tokens": 1385192.0,
       "step": 1300
     },
     {
+      "entropy": 5.877259612083435,
       "epoch": 0.7772020725388601,
+      "grad_norm": 2.4179303646087646,
+      "learning_rate": 1.7291691219799646e-06,
+      "loss": 5.6284,
+      "mean_token_accuracy": 0.2756252554059029,
+      "num_tokens": 1437071.0,
       "step": 1350
     },
     {
+      "entropy": 6.002246947288513,
       "epoch": 0.8059873344847438,
+      "grad_norm": 3.494359016418457,
+      "learning_rate": 1.717383618149676e-06,
+      "loss": 5.747,
+      "mean_token_accuracy": 0.26462210685014725,
+      "num_tokens": 1490818.0,
       "step": 1400
     },
     {
+      "entropy": 5.991955623626709,
       "epoch": 0.8347725964306275,
+      "grad_norm": 2.340975761413574,
+      "learning_rate": 1.705598114319387e-06,
+      "loss": 5.7379,
+      "mean_token_accuracy": 0.26444981098175047,
+      "num_tokens": 1544997.0,
       "step": 1450
     },
     {
+      "entropy": 5.91768889427185,
       "epoch": 0.8635578583765112,
+      "grad_norm": 2.2394514083862305,
+      "learning_rate": 1.6938126104890984e-06,
+      "loss": 5.6564,
+      "mean_token_accuracy": 0.2730415526032448,
+      "num_tokens": 1598302.0,
       "step": 1500
     },
     {
+      "entropy": 5.982716989517212,
       "epoch": 0.8923431203223949,
+      "grad_norm": 1.876839518547058,
+      "learning_rate": 1.6820271066588098e-06,
+      "loss": 5.7215,
+      "mean_token_accuracy": 0.26642445534467696,
+      "num_tokens": 1655267.0,
       "step": 1550
     },
     {
+      "entropy": 5.820467872619629,
       "epoch": 0.9211283822682786,
+      "grad_norm": 2.219966173171997,
+      "learning_rate": 1.6702416028285209e-06,
+      "loss": 5.5555,
+      "mean_token_accuracy": 0.2856418335437775,
+      "num_tokens": 1709199.0,
       "step": 1600
     },
     {
+      "entropy": 5.996349005699158,
       "epoch": 0.9499136442141624,
+      "grad_norm": 2.247213840484619,
+      "learning_rate": 1.6584560989982322e-06,
+      "loss": 5.7283,
+      "mean_token_accuracy": 0.2696125540137291,
+      "num_tokens": 1765443.0,
       "step": 1650
     },
     {
+      "entropy": 5.696683068275451,
       "epoch": 0.9786989061600461,
+      "grad_norm": 2.8499979972839355,
+      "learning_rate": 1.6466705951679433e-06,
+      "loss": 5.4335,
+      "mean_token_accuracy": 0.29918427973985673,
+      "num_tokens": 1817494.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 5.993559589034401,
+      "eval_loss": 5.737204551696777,
+      "eval_mean_token_accuracy": 0.2618687468739699,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 1856362.0,
+      "eval_runtime": 50.5332,
+      "eval_samples_per_second": 8.588,
+      "eval_steps_per_second": 4.294,
       "step": 1737
     }
   ],
   "logging_steps": 50,
+  "max_steps": 8685,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.546183130710016e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

checkpoint-1737/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8db5c304963110404ebb6947b83ba95bd9b8aad1f9b8b578cc33c46d601e13dc
 size 6225

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a666397e6243ddba6f7279c90610ed552907ef4de0be511faece3826d13e618
 size 6225

checkpoint-3474/adapter_config.json CHANGED Viewed

@@ -29,10 +29,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "k_proj",
     "v_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "k_proj",
     "v_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-3474/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a64c44cbe26eb26de9c868554476ac772a1101223d4511df741d375932e915d3
 size 26182176

 version https://git-lfs.github.com/spec/v1
+oid sha256:df1785d18603767be800e1f55b15fb6ca91bfb92d13b41c606ed125306990ad0
 size 26182176

checkpoint-3474/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:678993601594a7d04e501306f05a8d5de7ef3edaadbed87bc8a64e6f10f97582
 size 52486155

 version https://git-lfs.github.com/spec/v1
+oid sha256:351f85f1592228a689e3684e2c19ad9a864153045233b07024283e9a19837ffc
 size 52486155

checkpoint-3474/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:388ebf23a81b449689f35e6de23bc7bbc9587bef795c318be18b9ce6620ad7a4
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:62a6bc0e3b9744793642655fb166aa4f5a9fb6952bc69941d500e104fd082ebd
 size 14645

checkpoint-3474/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d0eb619e824095911c3281fa938e4204802f0a5951fcaf56996a5bc063db576
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c06cf7ae7d08ea484734082c3c87adfab434e5715a578ee4ab7e0ffcbea54c0b
 size 1465

checkpoint-3474/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 3474,
-  "best_metric": 5.656307220458984,
   "best_model_checkpoint": "./output/checkpoint-3474",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -10,724 +10,724 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 3.6583470726013183,
       "epoch": 0.028785261945883708,
-      "grad_norm": 3.3817152976989746,
       "learning_rate": 4.9e-07,
-      "loss": 13.8754,
-      "mean_token_accuracy": 0.15036460414528846,
-      "num_tokens": 53093.0,
       "step": 50
     },
     {
-      "entropy": 3.669608063697815,
       "epoch": 0.057570523891767415,
-      "grad_norm": 3.2541544437408447,
       "learning_rate": 9.9e-07,
-      "loss": 14.2282,
-      "mean_token_accuracy": 0.14137721598148345,
-      "num_tokens": 108334.0,
       "step": 100
     },
     {
-      "entropy": 3.569736371040344,
       "epoch": 0.08635578583765112,
-      "grad_norm": 3.6797454357147217,
       "learning_rate": 1.49e-06,
-      "loss": 13.0735,
-      "mean_token_accuracy": 0.17473630651831626,
-      "num_tokens": 157491.0,
       "step": 150
     },
     {
-      "entropy": 3.7253233194351196,
       "epoch": 0.11514104778353483,
-      "grad_norm": 4.297911643981934,
       "learning_rate": 1.99e-06,
-      "loss": 13.7392,
-      "mean_token_accuracy": 0.1473099772632122,
-      "num_tokens": 211394.0,
       "step": 200
     },
     {
-      "entropy": 3.8280500602722167,
       "epoch": 0.14392630972941853,
-      "grad_norm": 4.405268669128418,
-      "learning_rate": 1.9854771784232364e-06,
-      "loss": 13.0797,
-      "mean_token_accuracy": 0.16704789966344832,
-      "num_tokens": 263685.0,
       "step": 250
     },
     {
-      "entropy": 4.066333084106446,
       "epoch": 0.17271157167530224,
-      "grad_norm": 4.757556438446045,
-      "learning_rate": 1.9706579727326615e-06,
-      "loss": 12.6321,
-      "mean_token_accuracy": 0.1691790708899498,
-      "num_tokens": 314059.0,
       "step": 300
     },
     {
-      "entropy": 4.257266030311585,
       "epoch": 0.20149683362118595,
-      "grad_norm": 6.406249523162842,
-      "learning_rate": 1.955838767042086e-06,
-      "loss": 12.2253,
-      "mean_token_accuracy": 0.17223650276660918,
-      "num_tokens": 367038.0,
       "step": 350
     },
     {
-      "entropy": 4.694105777740479,
       "epoch": 0.23028209556706966,
-      "grad_norm": 12.57987117767334,
-      "learning_rate": 1.9410195613515113e-06,
-      "loss": 11.9714,
-      "mean_token_accuracy": 0.15997304677963256,
-      "num_tokens": 420327.0,
       "step": 400
     },
     {
-      "entropy": 5.205010280609131,
       "epoch": 0.25906735751295334,
-      "grad_norm": 15.570313453674316,
-      "learning_rate": 1.9262003556609364e-06,
-      "loss": 10.8173,
-      "mean_token_accuracy": 0.16447648257017136,
-      "num_tokens": 472429.0,
       "step": 450
     },
     {
-      "entropy": 5.917805089950561,
       "epoch": 0.28785261945883706,
-      "grad_norm": 23.61503791809082,
-      "learning_rate": 1.9113811499703615e-06,
-      "loss": 9.3196,
-      "mean_token_accuracy": 0.16179455041885377,
-      "num_tokens": 526315.0,
       "step": 500
     },
     {
-      "entropy": 6.380368332862854,
       "epoch": 0.31663788140472077,
-      "grad_norm": 13.846810340881348,
-      "learning_rate": 1.8965619442797864e-06,
-      "loss": 7.9636,
-      "mean_token_accuracy": 0.16881170988082886,
-      "num_tokens": 578511.0,
       "step": 550
     },
     {
-      "entropy": 6.507339992523193,
       "epoch": 0.3454231433506045,
-      "grad_norm": 4.569090366363525,
-      "learning_rate": 1.8817427385892115e-06,
-      "loss": 7.4171,
-      "mean_token_accuracy": 0.16941152423620223,
-      "num_tokens": 630937.0,
       "step": 600
     },
     {
-      "entropy": 6.392864561080932,
       "epoch": 0.3742084052964882,
-      "grad_norm": 4.594696521759033,
-      "learning_rate": 1.8669235328986366e-06,
-      "loss": 6.9389,
-      "mean_token_accuracy": 0.1844496901333332,
-      "num_tokens": 680501.0,
       "step": 650
     },
     {
-      "entropy": 6.6726202869415285,
       "epoch": 0.4029936672423719,
-      "grad_norm": 4.768734931945801,
-      "learning_rate": 1.8521043272080617e-06,
-      "loss": 6.9818,
-      "mean_token_accuracy": 0.16990411713719367,
-      "num_tokens": 733231.0,
       "step": 700
     },
     {
-      "entropy": 6.592793455123902,
       "epoch": 0.4317789291882556,
-      "grad_norm": 3.253056764602661,
-      "learning_rate": 1.8372851215174864e-06,
-      "loss": 6.7105,
-      "mean_token_accuracy": 0.18250102579593658,
-      "num_tokens": 785373.0,
       "step": 750
     },
     {
-      "entropy": 6.683582029342651,
       "epoch": 0.4605641911341393,
-      "grad_norm": 2.1871063709259033,
-      "learning_rate": 1.8224659158269115e-06,
-      "loss": 6.6685,
-      "mean_token_accuracy": 0.17129646152257919,
-      "num_tokens": 838646.0,
       "step": 800
     },
     {
-      "entropy": 6.636875295639038,
       "epoch": 0.48934945308002303,
-      "grad_norm": 3.2284677028656006,
-      "learning_rate": 1.8076467101363366e-06,
-      "loss": 6.53,
-      "mean_token_accuracy": 0.18053789794445038,
-      "num_tokens": 892380.0,
       "step": 850
     },
     {
-      "entropy": 6.610673260688782,
       "epoch": 0.5181347150259067,
-      "grad_norm": 2.2088730335235596,
-      "learning_rate": 1.7928275044457617e-06,
-      "loss": 6.4429,
-      "mean_token_accuracy": 0.18492739230394364,
-      "num_tokens": 947971.0,
       "step": 900
     },
     {
-      "entropy": 6.242899022102356,
       "epoch": 0.5469199769717904,
-      "grad_norm": 2.3000030517578125,
-      "learning_rate": 1.7780082987551866e-06,
-      "loss": 6.047,
-      "mean_token_accuracy": 0.2291259828209877,
-      "num_tokens": 998810.0,
       "step": 950
     },
     {
-      "entropy": 6.311488924026489,
       "epoch": 0.5757052389176741,
-      "grad_norm": 2.1333675384521484,
-      "learning_rate": 1.7631890930646115e-06,
-      "loss": 6.0919,
-      "mean_token_accuracy": 0.22644571751356124,
-      "num_tokens": 1050860.0,
       "step": 1000
     },
     {
-      "entropy": 6.3254336166381835,
       "epoch": 0.6044905008635578,
-      "grad_norm": 2.0400779247283936,
-      "learning_rate": 1.7483698873740366e-06,
-      "loss": 6.094,
-      "mean_token_accuracy": 0.2222653564810753,
-      "num_tokens": 1104304.0,
       "step": 1050
     },
     {
-      "entropy": 6.046922063827514,
       "epoch": 0.6332757628094415,
-      "grad_norm": 2.8049051761627197,
-      "learning_rate": 1.7335506816834617e-06,
-      "loss": 5.8011,
-      "mean_token_accuracy": 0.25127078920602797,
-      "num_tokens": 1153605.0,
       "step": 1100
     },
     {
-      "entropy": 5.943600912094116,
       "epoch": 0.6620610247553252,
-      "grad_norm": 4.063963890075684,
-      "learning_rate": 1.7187314759928866e-06,
-      "loss": 5.6855,
-      "mean_token_accuracy": 0.26265266716480257,
-      "num_tokens": 1204328.0,
       "step": 1150
     },
     {
-      "entropy": 6.12883231639862,
       "epoch": 0.690846286701209,
-      "grad_norm": 3.9440460205078125,
-      "learning_rate": 1.7039122703023117e-06,
-      "loss": 5.8578,
-      "mean_token_accuracy": 0.24439335912466048,
-      "num_tokens": 1257415.0,
       "step": 1200
     },
     {
-      "entropy": 6.164987115859986,
       "epoch": 0.7196315486470927,
-      "grad_norm": 3.20070481300354,
-      "learning_rate": 1.6890930646117368e-06,
-      "loss": 5.8876,
-      "mean_token_accuracy": 0.24275501281023026,
-      "num_tokens": 1310049.0,
       "step": 1250
     },
     {
-      "entropy": 6.080997190475464,
       "epoch": 0.7484168105929764,
-      "grad_norm": 2.8067362308502197,
-      "learning_rate": 1.6742738589211617e-06,
-      "loss": 5.8058,
-      "mean_token_accuracy": 0.25242207854986193,
-      "num_tokens": 1361794.0,
       "step": 1300
     },
     {
-      "entropy": 5.940848155021667,
       "epoch": 0.7772020725388601,
-      "grad_norm": 2.6375925540924072,
-      "learning_rate": 1.6594546532305868e-06,
-      "loss": 5.6718,
-      "mean_token_accuracy": 0.2665082859992981,
-      "num_tokens": 1412773.0,
       "step": 1350
     },
     {
-      "entropy": 6.071129274368286,
       "epoch": 0.8059873344847438,
-      "grad_norm": 3.951350212097168,
-      "learning_rate": 1.6446354475400117e-06,
-      "loss": 5.8012,
-      "mean_token_accuracy": 0.25434976994991304,
-      "num_tokens": 1465620.0,
       "step": 1400
     },
     {
-      "entropy": 6.069429359436035,
       "epoch": 0.8347725964306275,
-      "grad_norm": 3.580608606338501,
-      "learning_rate": 1.6298162418494368e-06,
-      "loss": 5.8027,
-      "mean_token_accuracy": 0.25208072274923327,
-      "num_tokens": 1518899.0,
       "step": 1450
     },
     {
-      "entropy": 6.005315380096436,
       "epoch": 0.8635578583765112,
-      "grad_norm": 3.9580376148223877,
-      "learning_rate": 1.614997036158862e-06,
-      "loss": 5.7364,
-      "mean_token_accuracy": 0.25940640360116957,
-      "num_tokens": 1571304.0,
       "step": 1500
     },
     {
-      "entropy": 6.0786464881896975,
       "epoch": 0.8923431203223949,
-      "grad_norm": 4.55721378326416,
-      "learning_rate": 1.6001778304682868e-06,
-      "loss": 5.8092,
-      "mean_token_accuracy": 0.2496869170665741,
-      "num_tokens": 1627369.0,
       "step": 1550
     },
     {
-      "entropy": 5.939382014274597,
       "epoch": 0.9211283822682786,
-      "grad_norm": 2.330057144165039,
-      "learning_rate": 1.5853586247777117e-06,
-      "loss": 5.6604,
-      "mean_token_accuracy": 0.2686630353331566,
-      "num_tokens": 1680401.0,
       "step": 1600
     },
     {
-      "entropy": 6.121775646209716,
       "epoch": 0.9499136442141624,
-      "grad_norm": 2.9881200790405273,
-      "learning_rate": 1.5705394190871368e-06,
-      "loss": 5.8388,
-      "mean_token_accuracy": 0.2503683388233185,
-      "num_tokens": 1735745.0,
       "step": 1650
     },
     {
-      "entropy": 5.840040788650513,
       "epoch": 0.9786989061600461,
-      "grad_norm": 3.798994779586792,
-      "learning_rate": 1.555720213396562e-06,
-      "loss": 5.5635,
-      "mean_token_accuracy": 0.278279125392437,
-      "num_tokens": 1786896.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 6.139133475343203,
-      "eval_loss": 5.861395835876465,
-      "eval_mean_token_accuracy": 0.2402858340657801,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 1825107.0,
-      "eval_runtime": 79.3994,
-      "eval_samples_per_second": 5.466,
-      "eval_steps_per_second": 2.733,
       "step": 1737
     },
     {
-      "entropy": 5.8970259666442875,
       "epoch": 1.0074841681059297,
-      "grad_norm": 2.6411802768707275,
-      "learning_rate": 1.540901007705987e-06,
-      "loss": 5.614,
-      "mean_token_accuracy": 0.273006406724453,
-      "num_tokens": 1838864.0,
       "step": 1750
     },
     {
-      "entropy": 6.0111794090271,
       "epoch": 1.0362694300518134,
-      "grad_norm": 3.6491827964782715,
-      "learning_rate": 1.526081802015412e-06,
-      "loss": 5.7323,
-      "mean_token_accuracy": 0.26104256987571717,
-      "num_tokens": 1893816.0,
       "step": 1800
     },
     {
-      "entropy": 5.902219276428223,
       "epoch": 1.065054691997697,
-      "grad_norm": 2.593249559402466,
-      "learning_rate": 1.5112625963248368e-06,
-      "loss": 5.6187,
-      "mean_token_accuracy": 0.2746362566947937,
-      "num_tokens": 1946532.0,
       "step": 1850
     },
     {
-      "entropy": 5.874705944061279,
       "epoch": 1.0938399539435808,
-      "grad_norm": 2.554327964782715,
-      "learning_rate": 1.496443390634262e-06,
-      "loss": 5.6021,
-      "mean_token_accuracy": 0.2795292744040489,
-      "num_tokens": 2000184.0,
       "step": 1900
     },
     {
-      "entropy": 5.850096368789673,
       "epoch": 1.1226252158894645,
-      "grad_norm": 3.6060993671417236,
-      "learning_rate": 1.481624184943687e-06,
-      "loss": 5.576,
-      "mean_token_accuracy": 0.28532547056674956,
-      "num_tokens": 2052250.0,
       "step": 1950
     },
     {
-      "entropy": 5.802229671478272,
       "epoch": 1.1514104778353482,
-      "grad_norm": 3.0913314819335938,
-      "learning_rate": 1.466804979253112e-06,
-      "loss": 5.53,
-      "mean_token_accuracy": 0.2916027933359146,
-      "num_tokens": 2103531.0,
       "step": 2000
     },
     {
-      "entropy": 5.875646467208862,
       "epoch": 1.180195739781232,
-      "grad_norm": 4.777045726776123,
-      "learning_rate": 1.451985773562537e-06,
-      "loss": 5.6146,
-      "mean_token_accuracy": 0.28063644528388976,
-      "num_tokens": 2157098.0,
       "step": 2050
     },
     {
-      "entropy": 5.786596937179565,
       "epoch": 1.2089810017271156,
-      "grad_norm": 4.207762718200684,
-      "learning_rate": 1.437166567871962e-06,
-      "loss": 5.5417,
-      "mean_token_accuracy": 0.2870470091700554,
-      "num_tokens": 2211827.0,
       "step": 2100
     },
     {
-      "entropy": 5.672234449386597,
       "epoch": 1.2377662636729994,
-      "grad_norm": 2.2771811485290527,
-      "learning_rate": 1.422347362181387e-06,
-      "loss": 5.4285,
-      "mean_token_accuracy": 0.30194485366344453,
-      "num_tokens": 2262174.0,
       "step": 2150
     },
     {
-      "entropy": 5.862573285102844,
       "epoch": 1.266551525618883,
-      "grad_norm": 3.3273422718048096,
-      "learning_rate": 1.4075281564908121e-06,
-      "loss": 5.6169,
-      "mean_token_accuracy": 0.278145115673542,
-      "num_tokens": 2316440.0,
       "step": 2200
     },
     {
-      "entropy": 5.734760231971741,
       "epoch": 1.2953367875647668,
-      "grad_norm": 3.7049715518951416,
-      "learning_rate": 1.392708950800237e-06,
-      "loss": 5.493,
-      "mean_token_accuracy": 0.2941485676169395,
-      "num_tokens": 2368468.0,
       "step": 2250
     },
     {
-      "entropy": 5.665819988250733,
       "epoch": 1.3241220495106505,
-      "grad_norm": 3.572636604309082,
-      "learning_rate": 1.3778897451096621e-06,
-      "loss": 5.4352,
-      "mean_token_accuracy": 0.3003745040297508,
-      "num_tokens": 2421180.0,
       "step": 2300
     },
     {
-      "entropy": 5.890115032196045,
       "epoch": 1.3529073114565342,
-      "grad_norm": 2.738203525543213,
-      "learning_rate": 1.3630705394190872e-06,
-      "loss": 5.6555,
-      "mean_token_accuracy": 0.2737997192144394,
-      "num_tokens": 2476255.0,
       "step": 2350
     },
     {
-      "entropy": 5.66056040763855,
       "epoch": 1.381692573402418,
-      "grad_norm": 3.1416995525360107,
-      "learning_rate": 1.3482513337285121e-06,
-      "loss": 5.4302,
-      "mean_token_accuracy": 0.3000989046692848,
-      "num_tokens": 2527674.0,
       "step": 2400
     },
     {
-      "entropy": 5.861240615844727,
       "epoch": 1.4104778353483016,
-      "grad_norm": 2.7569284439086914,
-      "learning_rate": 1.333432128037937e-06,
-      "loss": 5.6304,
-      "mean_token_accuracy": 0.27707513481378554,
-      "num_tokens": 2582909.0,
       "step": 2450
     },
     {
-      "entropy": 5.627686910629272,
       "epoch": 1.4392630972941853,
-      "grad_norm": 1.7750262022018433,
-      "learning_rate": 1.3186129223473621e-06,
-      "loss": 5.4058,
-      "mean_token_accuracy": 0.3019809901714325,
-      "num_tokens": 2636579.0,
       "step": 2500
     },
     {
-      "entropy": 5.607026796340943,
       "epoch": 1.468048359240069,
-      "grad_norm": 3.1005160808563232,
-      "learning_rate": 1.3037937166567872e-06,
-      "loss": 5.3836,
-      "mean_token_accuracy": 0.30584611505270004,
-      "num_tokens": 2687698.0,
       "step": 2550
     },
     {
-      "entropy": 5.6909641885757445,
       "epoch": 1.4968336211859528,
-      "grad_norm": 1.6848654747009277,
-      "learning_rate": 1.2889745109662123e-06,
-      "loss": 5.4653,
-      "mean_token_accuracy": 0.296178964972496,
-      "num_tokens": 2740214.0,
       "step": 2600
     },
     {
-      "entropy": 5.619450302124023,
       "epoch": 1.5256188831318365,
-      "grad_norm": 2.469539165496826,
-      "learning_rate": 1.274155305275637e-06,
-      "loss": 5.4022,
-      "mean_token_accuracy": 0.3039679077267647,
-      "num_tokens": 2792574.0,
       "step": 2650
     },
     {
-      "entropy": 5.61073097705841,
       "epoch": 1.5544041450777202,
-      "grad_norm": 2.367810010910034,
-      "learning_rate": 1.259336099585062e-06,
-      "loss": 5.3956,
-      "mean_token_accuracy": 0.3051413372159004,
-      "num_tokens": 2845597.0,
       "step": 2700
     },
     {
-      "entropy": 5.5791136837005615,
       "epoch": 1.583189407023604,
-      "grad_norm": 2.3874764442443848,
-      "learning_rate": 1.2445168938944872e-06,
-      "loss": 5.3676,
-      "mean_token_accuracy": 0.3068238252401352,
-      "num_tokens": 2898683.0,
       "step": 2750
     },
     {
-      "entropy": 5.735381307601929,
       "epoch": 1.6119746689694876,
-      "grad_norm": 2.2097349166870117,
-      "learning_rate": 1.2296976882039123e-06,
-      "loss": 5.5239,
-      "mean_token_accuracy": 0.28974882304668426,
-      "num_tokens": 2952290.0,
       "step": 2800
     },
     {
-      "entropy": 5.55252691745758,
       "epoch": 1.6407599309153713,
-      "grad_norm": 1.694831132888794,
-      "learning_rate": 1.2148784825133372e-06,
-      "loss": 5.351,
-      "mean_token_accuracy": 0.3091904193162918,
-      "num_tokens": 3004556.0,
       "step": 2850
     },
     {
-      "entropy": 5.508773093223572,
       "epoch": 1.669545192861255,
-      "grad_norm": 1.8229279518127441,
-      "learning_rate": 1.200059276822762e-06,
-      "loss": 5.3164,
-      "mean_token_accuracy": 0.31158645361661913,
-      "num_tokens": 3056448.0,
       "step": 2900
     },
     {
-      "entropy": 5.676794271469117,
       "epoch": 1.6983304548071387,
-      "grad_norm": 1.7196234464645386,
-      "learning_rate": 1.1852400711321872e-06,
-      "loss": 5.4776,
-      "mean_token_accuracy": 0.2929128894209862,
-      "num_tokens": 3109539.0,
       "step": 2950
     },
     {
-      "entropy": 5.551529383659362,
       "epoch": 1.7271157167530224,
-      "grad_norm": 3.117525577545166,
-      "learning_rate": 1.1704208654416123e-06,
-      "loss": 5.3561,
-      "mean_token_accuracy": 0.30634030640125276,
-      "num_tokens": 3162421.0,
       "step": 3000
     },
     {
-      "entropy": 5.379635264873505,
       "epoch": 1.7559009786989062,
-      "grad_norm": 1.876755714416504,
-      "learning_rate": 1.1556016597510372e-06,
-      "loss": 5.1868,
-      "mean_token_accuracy": 0.32913618892431257,
-      "num_tokens": 3212079.0,
       "step": 3050
     },
     {
-      "entropy": 5.538804936408996,
       "epoch": 1.7846862406447899,
-      "grad_norm": 1.8670976161956787,
-      "learning_rate": 1.1407824540604623e-06,
-      "loss": 5.3494,
-      "mean_token_accuracy": 0.30661171555519107,
-      "num_tokens": 3264089.0,
       "step": 3100
     },
     {
-      "entropy": 5.258263626098633,
       "epoch": 1.8134715025906736,
-      "grad_norm": 2.748718023300171,
-      "learning_rate": 1.1259632483698874e-06,
-      "loss": 5.08,
-      "mean_token_accuracy": 0.3413010013103485,
-      "num_tokens": 3311881.0,
       "step": 3150
     },
     {
-      "entropy": 5.54539008140564,
       "epoch": 1.8422567645365573,
-      "grad_norm": 1.8556406497955322,
-      "learning_rate": 1.1111440426793123e-06,
-      "loss": 5.3614,
-      "mean_token_accuracy": 0.30550685405731204,
-      "num_tokens": 3364861.0,
       "step": 3200
     },
     {
-      "entropy": 5.5433073282241825,
       "epoch": 1.871042026482441,
-      "grad_norm": 1.8386749029159546,
-      "learning_rate": 1.0963248369887374e-06,
-      "loss": 5.3543,
-      "mean_token_accuracy": 0.30875524014234546,
-      "num_tokens": 3415911.0,
       "step": 3250
     },
     {
-      "entropy": 5.5769769477844235,
       "epoch": 1.8998272884283247,
-      "grad_norm": 1.922486662864685,
-      "learning_rate": 1.0815056312981623e-06,
-      "loss": 5.3834,
-      "mean_token_accuracy": 0.3035113242268562,
-      "num_tokens": 3468338.0,
       "step": 3300
     },
     {
-      "entropy": 5.640013842582703,
       "epoch": 1.9286125503742084,
-      "grad_norm": 2.179500102996826,
-      "learning_rate": 1.0666864256075874e-06,
-      "loss": 5.4574,
-      "mean_token_accuracy": 0.2947095710039139,
-      "num_tokens": 3521693.0,
       "step": 3350
     },
     {
-      "entropy": 5.506910061836242,
       "epoch": 1.9573978123200921,
-      "grad_norm": 1.4014379978179932,
-      "learning_rate": 1.0518672199170125e-06,
-      "loss": 5.3234,
-      "mean_token_accuracy": 0.3096472260355949,
-      "num_tokens": 3574206.0,
       "step": 3400
     },
     {
-      "entropy": 5.607311015129089,
       "epoch": 1.9861830742659758,
-      "grad_norm": 1.41231107711792,
-      "learning_rate": 1.0370480142264374e-06,
-      "loss": 5.4226,
-      "mean_token_accuracy": 0.2979922544956207,
-      "num_tokens": 3627807.0,
       "step": 3450
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 5.831721861790951,
-      "eval_loss": 5.656307220458984,
-      "eval_mean_token_accuracy": 0.2641724460685308,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 3650214.0,
-      "eval_runtime": 79.7324,
-      "eval_samples_per_second": 5.443,
-      "eval_steps_per_second": 2.722,
       "step": 3474
     }
   ],
   "logging_steps": 50,
-  "max_steps": 6948,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -741,7 +741,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.014260864635904e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 3474,
+  "best_metric": 5.55628776550293,
   "best_model_checkpoint": "./output/checkpoint-3474",
   "epoch": 2.0,
   "eval_steps": 500,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 3.606692385673523,
       "epoch": 0.028785261945883708,
+      "grad_norm": 3.2999913692474365,
       "learning_rate": 4.9e-07,
+      "loss": 13.6598,
+      "mean_token_accuracy": 0.16028020828962325,
+      "num_tokens": 53993.0,
       "step": 50
     },
     {
+      "entropy": 3.618675880432129,
       "epoch": 0.057570523891767415,
+      "grad_norm": 3.101252555847168,
       "learning_rate": 9.9e-07,
+      "loss": 14.0188,
+      "mean_token_accuracy": 0.1508466500043869,
+      "num_tokens": 110134.0,
       "step": 100
     },
     {
+      "entropy": 3.5215235900878907,
       "epoch": 0.08635578583765112,
+      "grad_norm": 3.513662815093994,
       "learning_rate": 1.49e-06,
+      "loss": 12.8555,
+      "mean_token_accuracy": 0.18527640983462335,
+      "num_tokens": 160191.0,
       "step": 150
     },
     {
+      "entropy": 3.667909698486328,
       "epoch": 0.11514104778353483,
+      "grad_norm": 4.327610492706299,
       "learning_rate": 1.99e-06,
+      "loss": 13.5394,
+      "mean_token_accuracy": 0.157139780074358,
+      "num_tokens": 214993.0,
       "step": 200
     },
     {
+      "entropy": 3.768263258934021,
       "epoch": 0.14392630972941853,
+      "grad_norm": 4.290107250213623,
+      "learning_rate": 1.988450206246317e-06,
+      "loss": 12.8912,
+      "mean_token_accuracy": 0.17374794125556947,
+      "num_tokens": 268184.0,
       "step": 250
     },
     {
+      "entropy": 3.990619196891785,
       "epoch": 0.17271157167530224,
+      "grad_norm": 4.444278717041016,
+      "learning_rate": 1.976664702416028e-06,
+      "loss": 12.455,
+      "mean_token_accuracy": 0.17780130118131637,
+      "num_tokens": 319458.0,
       "step": 300
     },
     {
+      "entropy": 4.162646284103394,
       "epoch": 0.20149683362118595,
+      "grad_norm": 5.615262508392334,
+      "learning_rate": 1.9648791985857395e-06,
+      "loss": 12.0893,
+      "mean_token_accuracy": 0.18191319867968558,
+      "num_tokens": 373337.0,
       "step": 350
     },
     {
+      "entropy": 4.532100868225098,
       "epoch": 0.23028209556706966,
+      "grad_norm": 10.074016571044922,
+      "learning_rate": 1.9530936947554507e-06,
+      "loss": 11.9261,
+      "mean_token_accuracy": 0.169477596282959,
+      "num_tokens": 427526.0,
       "step": 400
     },
     {
+      "entropy": 4.923871030807495,
       "epoch": 0.25906735751295334,
+      "grad_norm": 16.220163345336914,
+      "learning_rate": 1.9413081909251622e-06,
+      "loss": 11.0048,
+      "mean_token_accuracy": 0.1704501649737358,
+      "num_tokens": 480528.0,
       "step": 450
     },
     {
+      "entropy": 5.521005854606629,
       "epoch": 0.28785261945883706,
+      "grad_norm": 29.904008865356445,
+      "learning_rate": 1.9295226870948733e-06,
+      "loss": 9.6524,
+      "mean_token_accuracy": 0.16450899541378022,
+      "num_tokens": 535314.0,
       "step": 500
     },
     {
+      "entropy": 6.092623329162597,
       "epoch": 0.31663788140472077,
+      "grad_norm": 17.821575164794922,
+      "learning_rate": 1.9177371832645845e-06,
+      "loss": 8.1054,
+      "mean_token_accuracy": 0.17205011785030366,
+      "num_tokens": 588410.0,
       "step": 550
     },
     {
+      "entropy": 6.385262680053711,
       "epoch": 0.3454231433506045,
+      "grad_norm": 5.502202987670898,
+      "learning_rate": 1.9059516794342958e-06,
+      "loss": 7.4313,
+      "mean_token_accuracy": 0.1734227080643177,
+      "num_tokens": 641736.0,
       "step": 600
     },
     {
+      "entropy": 6.278562617301941,
       "epoch": 0.3742084052964882,
+      "grad_norm": 5.4657697677612305,
+      "learning_rate": 1.8941661756040071e-06,
+      "loss": 6.9266,
+      "mean_token_accuracy": 0.18680249139666558,
+      "num_tokens": 692200.0,
       "step": 650
     },
     {
+      "entropy": 6.553266277313233,
       "epoch": 0.4029936672423719,
+      "grad_norm": 4.955812931060791,
+      "learning_rate": 1.8823806717737183e-06,
+      "loss": 6.9847,
+      "mean_token_accuracy": 0.16679802387952805,
+      "num_tokens": 745830.0,
       "step": 700
     },
     {
+      "entropy": 6.470935583114624,
       "epoch": 0.4317789291882556,
+      "grad_norm": 4.198381423950195,
+      "learning_rate": 1.8705951679434296e-06,
+      "loss": 6.7277,
+      "mean_token_accuracy": 0.17847734570503235,
+      "num_tokens": 798872.0,
       "step": 750
     },
     {
+      "entropy": 6.5620588779449465,
       "epoch": 0.4605641911341393,
+      "grad_norm": 3.1793746948242188,
+      "learning_rate": 1.8588096641131407e-06,
+      "loss": 6.7032,
+      "mean_token_accuracy": 0.17336134731769562,
+      "num_tokens": 853045.0,
       "step": 800
     },
     {
+      "entropy": 6.532204885482788,
       "epoch": 0.48934945308002303,
+      "grad_norm": 3.824537515640259,
+      "learning_rate": 1.847024160282852e-06,
+      "loss": 6.5762,
+      "mean_token_accuracy": 0.1805124071240425,
+      "num_tokens": 907679.0,
       "step": 850
     },
     {
+      "entropy": 6.535988225936889,
       "epoch": 0.5181347150259067,
+      "grad_norm": 4.350001811981201,
+      "learning_rate": 1.8352386564525632e-06,
+      "loss": 6.505,
+      "mean_token_accuracy": 0.1842605724930763,
+      "num_tokens": 964170.0,
       "step": 900
     },
     {
+      "entropy": 6.204533562660218,
       "epoch": 0.5469199769717904,
+      "grad_norm": 2.193660020828247,
+      "learning_rate": 1.8234531526222745e-06,
+      "loss": 6.1211,
+      "mean_token_accuracy": 0.21968430042266845,
+      "num_tokens": 1015909.0,
       "step": 950
     },
     {
+      "entropy": 6.308737449645996,
       "epoch": 0.5757052389176741,
+      "grad_norm": 2.325622320175171,
+      "learning_rate": 1.8116676487919857e-06,
+      "loss": 6.1653,
+      "mean_token_accuracy": 0.21636426240205764,
+      "num_tokens": 1068859.0,
       "step": 1000
     },
     {
+      "entropy": 6.332560749053955,
       "epoch": 0.6044905008635578,
+      "grad_norm": 2.0439090728759766,
+      "learning_rate": 1.799882144961697e-06,
+      "loss": 6.1559,
+      "mean_token_accuracy": 0.21859725564718246,
+      "num_tokens": 1123202.0,
       "step": 1050
     },
     {
+      "entropy": 6.042124252319336,
       "epoch": 0.6332757628094415,
+      "grad_norm": 3.621903657913208,
+      "learning_rate": 1.7880966411314081e-06,
+      "loss": 5.8441,
+      "mean_token_accuracy": 0.24906315237283708,
+      "num_tokens": 1173403.0,
       "step": 1100
     },
     {
+      "entropy": 5.921343173980713,
       "epoch": 0.6620610247553252,
+      "grad_norm": 5.658033847808838,
+      "learning_rate": 1.7763111373011195e-06,
+      "loss": 5.7104,
+      "mean_token_accuracy": 0.2625067520141602,
+      "num_tokens": 1225026.0,
       "step": 1150
     },
     {
+      "entropy": 6.093586492538452,
       "epoch": 0.690846286701209,
+      "grad_norm": 2.4292995929718018,
+      "learning_rate": 1.7645256334708308e-06,
+      "loss": 5.8658,
+      "mean_token_accuracy": 0.24842385441064835,
+      "num_tokens": 1279013.0,
       "step": 1200
     },
     {
+      "entropy": 6.119112596511841,
       "epoch": 0.7196315486470927,
+      "grad_norm": 3.369384288787842,
+      "learning_rate": 1.752740129640542e-06,
+      "loss": 5.8784,
+      "mean_token_accuracy": 0.24857850253582,
+      "num_tokens": 1332547.0,
       "step": 1250
     },
     {
+      "entropy": 6.025163550376892,
       "epoch": 0.7484168105929764,
+      "grad_norm": 2.5110116004943848,
+      "learning_rate": 1.7409546258102533e-06,
+      "loss": 5.7769,
+      "mean_token_accuracy": 0.25835376888513567,
+      "num_tokens": 1385192.0,
       "step": 1300
     },
     {
+      "entropy": 5.877259612083435,
       "epoch": 0.7772020725388601,
+      "grad_norm": 2.4179303646087646,
+      "learning_rate": 1.7291691219799646e-06,
+      "loss": 5.6284,
+      "mean_token_accuracy": 0.2756252554059029,
+      "num_tokens": 1437071.0,
       "step": 1350
     },
     {
+      "entropy": 6.002246947288513,
       "epoch": 0.8059873344847438,
+      "grad_norm": 3.494359016418457,
+      "learning_rate": 1.717383618149676e-06,
+      "loss": 5.747,
+      "mean_token_accuracy": 0.26462210685014725,
+      "num_tokens": 1490818.0,
       "step": 1400
     },
     {
+      "entropy": 5.991955623626709,
       "epoch": 0.8347725964306275,
+      "grad_norm": 2.340975761413574,
+      "learning_rate": 1.705598114319387e-06,
+      "loss": 5.7379,
+      "mean_token_accuracy": 0.26444981098175047,
+      "num_tokens": 1544997.0,
       "step": 1450
     },
     {
+      "entropy": 5.91768889427185,
       "epoch": 0.8635578583765112,
+      "grad_norm": 2.2394514083862305,
+      "learning_rate": 1.6938126104890984e-06,
+      "loss": 5.6564,
+      "mean_token_accuracy": 0.2730415526032448,
+      "num_tokens": 1598302.0,
       "step": 1500
     },
     {
+      "entropy": 5.982716989517212,
       "epoch": 0.8923431203223949,
+      "grad_norm": 1.876839518547058,
+      "learning_rate": 1.6820271066588098e-06,
+      "loss": 5.7215,
+      "mean_token_accuracy": 0.26642445534467696,
+      "num_tokens": 1655267.0,
       "step": 1550
     },
     {
+      "entropy": 5.820467872619629,
       "epoch": 0.9211283822682786,
+      "grad_norm": 2.219966173171997,
+      "learning_rate": 1.6702416028285209e-06,
+      "loss": 5.5555,
+      "mean_token_accuracy": 0.2856418335437775,
+      "num_tokens": 1709199.0,
       "step": 1600
     },
     {
+      "entropy": 5.996349005699158,
       "epoch": 0.9499136442141624,
+      "grad_norm": 2.247213840484619,
+      "learning_rate": 1.6584560989982322e-06,
+      "loss": 5.7283,
+      "mean_token_accuracy": 0.2696125540137291,
+      "num_tokens": 1765443.0,
       "step": 1650
     },
     {
+      "entropy": 5.696683068275451,
       "epoch": 0.9786989061600461,
+      "grad_norm": 2.8499979972839355,
+      "learning_rate": 1.6466705951679433e-06,
+      "loss": 5.4335,
+      "mean_token_accuracy": 0.29918427973985673,
+      "num_tokens": 1817494.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 5.993559589034401,
+      "eval_loss": 5.737204551696777,
+      "eval_mean_token_accuracy": 0.2618687468739699,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 1856362.0,
+      "eval_runtime": 50.5332,
+      "eval_samples_per_second": 8.588,
+      "eval_steps_per_second": 4.294,
       "step": 1737
     },
     {
+      "entropy": 5.746842083930969,
       "epoch": 1.0074841681059297,
+      "grad_norm": 2.33052921295166,
+      "learning_rate": 1.6348850913376547e-06,
+      "loss": 5.4796,
+      "mean_token_accuracy": 0.2966849410533905,
+      "num_tokens": 1870353.0,
       "step": 1750
     },
     {
+      "entropy": 5.859029049873352,
       "epoch": 1.0362694300518134,
+      "grad_norm": 1.6248886585235596,
+      "learning_rate": 1.6230995875073658e-06,
+      "loss": 5.5975,
+      "mean_token_accuracy": 0.2838129925727844,
+      "num_tokens": 1926205.0,
       "step": 1800
     },
     {
+      "entropy": 5.731445336341858,
       "epoch": 1.065054691997697,
+      "grad_norm": 1.6941566467285156,
+      "learning_rate": 1.6113140836770771e-06,
+      "loss": 5.476,
+      "mean_token_accuracy": 0.2992346465587616,
+      "num_tokens": 1979821.0,
       "step": 1850
     },
     {
+      "entropy": 5.6993954515457155,
       "epoch": 1.0938399539435808,
+      "grad_norm": 1.1746597290039062,
+      "learning_rate": 1.5995285798467883e-06,
+      "loss": 5.4608,
+      "mean_token_accuracy": 0.3000726142525673,
+      "num_tokens": 2034373.0,
       "step": 1900
     },
     {
+      "entropy": 5.668873124122619,
       "epoch": 1.1226252158894645,
+      "grad_norm": 1.728211760520935,
+      "learning_rate": 1.5877430760164996e-06,
+      "loss": 5.4347,
+      "mean_token_accuracy": 0.3033922725915909,
+      "num_tokens": 2087339.0,
       "step": 1950
     },
     {
+      "entropy": 5.624621086120605,
       "epoch": 1.1514104778353482,
+      "grad_norm": 1.4078539609909058,
+      "learning_rate": 1.5759575721862107e-06,
+      "loss": 5.3954,
+      "mean_token_accuracy": 0.30784171640872954,
+      "num_tokens": 2139520.0,
       "step": 2000
     },
     {
+      "entropy": 5.7141213130950925,
       "epoch": 1.180195739781232,
+      "grad_norm": 2.186459541320801,
+      "learning_rate": 1.564172068355922e-06,
+      "loss": 5.4847,
+      "mean_token_accuracy": 0.29594049394130706,
+      "num_tokens": 2193987.0,
       "step": 2050
     },
     {
+      "entropy": 5.632415266036987,
       "epoch": 1.2089810017271156,
+      "grad_norm": 1.3601349592208862,
+      "learning_rate": 1.5523865645256334e-06,
+      "loss": 5.4135,
+      "mean_token_accuracy": 0.30366597563028336,
+      "num_tokens": 2249616.0,
       "step": 2100
     },
     {
+      "entropy": 5.510904269218445,
       "epoch": 1.2377662636729994,
+      "grad_norm": 2.065760612487793,
+      "learning_rate": 1.5406010606953445e-06,
+      "loss": 5.2904,
+      "mean_token_accuracy": 0.3211754837632179,
+      "num_tokens": 2300863.0,
       "step": 2150
     },
     {
+      "entropy": 5.703383626937867,
       "epoch": 1.266551525618883,
+      "grad_norm": 1.1172698736190796,
+      "learning_rate": 1.5288155568650559e-06,
+      "loss": 5.4802,
+      "mean_token_accuracy": 0.29713701367378237,
+      "num_tokens": 2356029.0,
       "step": 2200
     },
     {
+      "entropy": 5.565930342674255,
       "epoch": 1.2953367875647668,
+      "grad_norm": 1.7528513669967651,
+      "learning_rate": 1.5170300530347672e-06,
+      "loss": 5.3518,
+      "mean_token_accuracy": 0.31301232606172563,
+      "num_tokens": 2408957.0,
       "step": 2250
     },
     {
+      "entropy": 5.496430187225342,
       "epoch": 1.3241220495106505,
+      "grad_norm": 1.892640233039856,
+      "learning_rate": 1.5052445492044786e-06,
+      "loss": 5.2967,
+      "mean_token_accuracy": 0.3181899458169937,
+      "num_tokens": 2462569.0,
       "step": 2300
     },
     {
+      "entropy": 5.725150098800659,
       "epoch": 1.3529073114565342,
+      "grad_norm": 1.774940848350525,
+      "learning_rate": 1.4934590453741897e-06,
+      "loss": 5.5215,
+      "mean_token_accuracy": 0.29055028676986694,
+      "num_tokens": 2518544.0,
       "step": 2350
     },
     {
+      "entropy": 5.4884827613830565,
       "epoch": 1.381692573402418,
+      "grad_norm": 2.2167599201202393,
+      "learning_rate": 1.481673541543901e-06,
+      "loss": 5.2917,
+      "mean_token_accuracy": 0.31803421139717103,
+      "num_tokens": 2570863.0,
       "step": 2400
     },
     {
+      "entropy": 5.697079472541809,
       "epoch": 1.4104778353483016,
+      "grad_norm": 1.6489030122756958,
+      "learning_rate": 1.4698880377136124e-06,
+      "loss": 5.4982,
+      "mean_token_accuracy": 0.2925163987278938,
+      "num_tokens": 2626998.0,
       "step": 2450
     },
     {
+      "entropy": 5.46209939956665,
       "epoch": 1.4392630972941853,
+      "grad_norm": 1.153914451599121,
+      "learning_rate": 1.4581025338833235e-06,
+      "loss": 5.2736,
+      "mean_token_accuracy": 0.3182168474793434,
+      "num_tokens": 2681568.0,
       "step": 2500
     },
     {
+      "entropy": 5.4405768728256225,
       "epoch": 1.468048359240069,
+      "grad_norm": 3.6614978313446045,
+      "learning_rate": 1.4463170300530348e-06,
+      "loss": 5.2515,
+      "mean_token_accuracy": 0.3218736210465431,
+      "num_tokens": 2733587.0,
       "step": 2550
     },
     {
+      "entropy": 5.528175053596496,
       "epoch": 1.4968336211859528,
+      "grad_norm": 1.0849746465682983,
+      "learning_rate": 1.434531526222746e-06,
+      "loss": 5.3378,
+      "mean_token_accuracy": 0.31061659604310987,
+      "num_tokens": 2787003.0,
       "step": 2600
     },
     {
+      "entropy": 5.46110897064209,
       "epoch": 1.5256188831318365,
+      "grad_norm": 1.8315683603286743,
+      "learning_rate": 1.4227460223924573e-06,
+      "loss": 5.2782,
+      "mean_token_accuracy": 0.31781029611825945,
+      "num_tokens": 2840263.0,
       "step": 2650
     },
     {
+      "entropy": 5.455560960769653,
       "epoch": 1.5544041450777202,
+      "grad_norm": 1.1859091520309448,
+      "learning_rate": 1.4109605185621684e-06,
+      "loss": 5.2735,
+      "mean_token_accuracy": 0.3194814011454582,
+      "num_tokens": 2894186.0,
       "step": 2700
     },
     {
+      "entropy": 5.430496115684509,
       "epoch": 1.583189407023604,
+      "grad_norm": 2.3500001430511475,
+      "learning_rate": 1.3991750147318797e-06,
+      "loss": 5.2464,
+      "mean_token_accuracy": 0.32140792965888976,
+      "num_tokens": 2948171.0,
       "step": 2750
     },
     {
+      "entropy": 5.588023023605347,
       "epoch": 1.6119746689694876,
+      "grad_norm": 1.727825403213501,
+      "learning_rate": 1.3873895109015909e-06,
+      "loss": 5.4028,
+      "mean_token_accuracy": 0.3039530631899834,
+      "num_tokens": 3002678.0,
       "step": 2800
     },
     {
+      "entropy": 5.410525422096253,
       "epoch": 1.6407599309153713,
+      "grad_norm": 1.3401474952697754,
+      "learning_rate": 1.3756040070713022e-06,
+      "loss": 5.2298,
+      "mean_token_accuracy": 0.324065263569355,
+      "num_tokens": 3055844.0,
       "step": 2850
     },
     {
+      "entropy": 5.36959942817688,
       "epoch": 1.669545192861255,
+      "grad_norm": 1.1892589330673218,
+      "learning_rate": 1.3638185032410133e-06,
+      "loss": 5.1956,
+      "mean_token_accuracy": 0.32639502108097074,
+      "num_tokens": 3108636.0,
       "step": 2900
     },
     {
+      "entropy": 5.53826907157898,
       "epoch": 1.6983304548071387,
+      "grad_norm": 1.2652360200881958,
+      "learning_rate": 1.3520329994107247e-06,
+      "loss": 5.3583,
+      "mean_token_accuracy": 0.3074926760792732,
+      "num_tokens": 3162627.0,
       "step": 2950
     },
     {
+      "entropy": 5.417449145317078,
       "epoch": 1.7271157167530224,
+      "grad_norm": 1.584312915802002,
+      "learning_rate": 1.340247495580436e-06,
+      "loss": 5.2388,
+      "mean_token_accuracy": 0.32019727885723115,
+      "num_tokens": 3216409.0,
       "step": 3000
     },
     {
+      "entropy": 5.241390740871429,
       "epoch": 1.7559009786989062,
+      "grad_norm": 1.5219439268112183,
+      "learning_rate": 1.3284619917501471e-06,
+      "loss": 5.0645,
+      "mean_token_accuracy": 0.3445430138707161,
+      "num_tokens": 3266967.0,
       "step": 3050
     },
     {
+      "entropy": 5.405424036979675,
       "epoch": 1.7846862406447899,
+      "grad_norm": 2.1165153980255127,
+      "learning_rate": 1.3166764879198585e-06,
+      "loss": 5.232,
+      "mean_token_accuracy": 0.32085000157356264,
+      "num_tokens": 3319877.0,
       "step": 3100
     },
     {
+      "entropy": 5.123006024360657,
       "epoch": 1.8134715025906736,
+      "grad_norm": 1.2189785242080688,
+      "learning_rate": 1.3048909840895698e-06,
+      "loss": 4.9582,
+      "mean_token_accuracy": 0.356108532845974,
+      "num_tokens": 3368569.0,
       "step": 3150
     },
     {
+      "entropy": 5.417610831260681,
       "epoch": 1.8422567645365573,
+      "grad_norm": 1.5157604217529297,
+      "learning_rate": 1.2931054802592812e-06,
+      "loss": 5.2454,
+      "mean_token_accuracy": 0.31976755023002623,
+      "num_tokens": 3422449.0,
       "step": 3200
     },
     {
+      "entropy": 5.409690895080566,
       "epoch": 1.871042026482441,
+      "grad_norm": 1.3088161945343018,
+      "learning_rate": 1.2813199764289923e-06,
+      "loss": 5.2348,
+      "mean_token_accuracy": 0.32325415283441544,
+      "num_tokens": 3474399.0,
       "step": 3250
     },
     {
+      "entropy": 5.44662567615509,
       "epoch": 1.8998272884283247,
+      "grad_norm": 2.178372621536255,
+      "learning_rate": 1.2695344725987036e-06,
+      "loss": 5.2661,
+      "mean_token_accuracy": 0.3182847076654434,
+      "num_tokens": 3527726.0,
       "step": 3300
     },
     {
+      "entropy": 5.512614865303039,
       "epoch": 1.9286125503742084,
+      "grad_norm": 1.3050425052642822,
+      "learning_rate": 1.2577489687684147e-06,
+      "loss": 5.3416,
+      "mean_token_accuracy": 0.3084403133392334,
+      "num_tokens": 3581980.0,
       "step": 3350
     },
     {
+      "entropy": 5.379772834777832,
       "epoch": 1.9573978123200921,
+      "grad_norm": 1.4584404230117798,
+      "learning_rate": 1.245963464938126e-06,
+      "loss": 5.2087,
+      "mean_token_accuracy": 0.32388432770967485,
+      "num_tokens": 3635393.0,
       "step": 3400
     },
     {
+      "entropy": 5.483665924072266,
       "epoch": 1.9861830742659758,
+      "grad_norm": 1.2157734632492065,
+      "learning_rate": 1.2341779611078374e-06,
+      "loss": 5.3101,
+      "mean_token_accuracy": 0.3121953472495079,
+      "num_tokens": 3689894.0,
       "step": 3450
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 5.711394641805904,
+      "eval_loss": 5.55628776550293,
+      "eval_mean_token_accuracy": 0.2764948787777105,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 3712724.0,
+      "eval_runtime": 50.187,
+      "eval_samples_per_second": 8.648,
+      "eval_steps_per_second": 4.324,
       "step": 3474
     }
   ],
   "logging_steps": 50,
+  "max_steps": 8685,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 5.088598592372736e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

checkpoint-3474/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8db5c304963110404ebb6947b83ba95bd9b8aad1f9b8b578cc33c46d601e13dc
 size 6225

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a666397e6243ddba6f7279c90610ed552907ef4de0be511faece3826d13e618
 size 6225

checkpoint-5211/adapter_config.json CHANGED Viewed

@@ -29,10 +29,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "k_proj",
     "v_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "k_proj",
     "v_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-5211/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96bed2a64089d15ba0d03e873c6ba43e222e9615622cb08853696f1bb3f72ed3
 size 26182176

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4025b4926f5afc8ae1b9483e03aa404961dda3a1814cb46ca7aeea065c3fe0b
 size 26182176

checkpoint-5211/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc97f69c9bd94b7be821d35593073dc08cf44ccce0203ce520c9a25dfcbc93d7
 size 52486155

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1c6ba0e1a0fa5232307b4180a95f626f91ecd955d6b67f2be41b26598f1360f
 size 52486155

checkpoint-5211/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bfc3867136ea1392d43912e26c993ff7e9d2c829e3cc938d41df7399c31116c
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:39b9f29ddfbd9f77ba8789dff06c3a159107fa04d3db99c9007a614a55b3b852
 size 14645

checkpoint-5211/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a76316bf35b4ab1e089615992ceff4951bb9d24d95bfa6731e79f937bd9a30c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e174b3c503a209f4286065ce76cb198c717027077a7d229160809df776f0167
 size 1465

checkpoint-5211/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 5211,
-  "best_metric": 5.628758430480957,
   "best_model_checkpoint": "./output/checkpoint-5211",
   "epoch": 3.0,
   "eval_steps": 500,
@@ -10,1086 +10,1086 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 3.6583470726013183,
       "epoch": 0.028785261945883708,
-      "grad_norm": 3.3817152976989746,
       "learning_rate": 4.9e-07,
-      "loss": 13.8754,
-      "mean_token_accuracy": 0.15036460414528846,
-      "num_tokens": 53093.0,
       "step": 50
     },
     {
-      "entropy": 3.669608063697815,
       "epoch": 0.057570523891767415,
-      "grad_norm": 3.2541544437408447,
       "learning_rate": 9.9e-07,
-      "loss": 14.2282,
-      "mean_token_accuracy": 0.14137721598148345,
-      "num_tokens": 108334.0,
       "step": 100
     },
     {
-      "entropy": 3.569736371040344,
       "epoch": 0.08635578583765112,
-      "grad_norm": 3.6797454357147217,
       "learning_rate": 1.49e-06,
-      "loss": 13.0735,
-      "mean_token_accuracy": 0.17473630651831626,
-      "num_tokens": 157491.0,
       "step": 150
     },
     {
-      "entropy": 3.7253233194351196,
       "epoch": 0.11514104778353483,
-      "grad_norm": 4.297911643981934,
       "learning_rate": 1.99e-06,
-      "loss": 13.7392,
-      "mean_token_accuracy": 0.1473099772632122,
-      "num_tokens": 211394.0,
       "step": 200
     },
     {
-      "entropy": 3.8280500602722167,
       "epoch": 0.14392630972941853,
-      "grad_norm": 4.405268669128418,
-      "learning_rate": 1.9854771784232364e-06,
-      "loss": 13.0797,
-      "mean_token_accuracy": 0.16704789966344832,
-      "num_tokens": 263685.0,
       "step": 250
     },
     {
-      "entropy": 4.066333084106446,
       "epoch": 0.17271157167530224,
-      "grad_norm": 4.757556438446045,
-      "learning_rate": 1.9706579727326615e-06,
-      "loss": 12.6321,
-      "mean_token_accuracy": 0.1691790708899498,
-      "num_tokens": 314059.0,
       "step": 300
     },
     {
-      "entropy": 4.257266030311585,
       "epoch": 0.20149683362118595,
-      "grad_norm": 6.406249523162842,
-      "learning_rate": 1.955838767042086e-06,
-      "loss": 12.2253,
-      "mean_token_accuracy": 0.17223650276660918,
-      "num_tokens": 367038.0,
       "step": 350
     },
     {
-      "entropy": 4.694105777740479,
       "epoch": 0.23028209556706966,
-      "grad_norm": 12.57987117767334,
-      "learning_rate": 1.9410195613515113e-06,
-      "loss": 11.9714,
-      "mean_token_accuracy": 0.15997304677963256,
-      "num_tokens": 420327.0,
       "step": 400
     },
     {
-      "entropy": 5.205010280609131,
       "epoch": 0.25906735751295334,
-      "grad_norm": 15.570313453674316,
-      "learning_rate": 1.9262003556609364e-06,
-      "loss": 10.8173,
-      "mean_token_accuracy": 0.16447648257017136,
-      "num_tokens": 472429.0,
       "step": 450
     },
     {
-      "entropy": 5.917805089950561,
       "epoch": 0.28785261945883706,
-      "grad_norm": 23.61503791809082,
-      "learning_rate": 1.9113811499703615e-06,
-      "loss": 9.3196,
-      "mean_token_accuracy": 0.16179455041885377,
-      "num_tokens": 526315.0,
       "step": 500
     },
     {
-      "entropy": 6.380368332862854,
       "epoch": 0.31663788140472077,
-      "grad_norm": 13.846810340881348,
-      "learning_rate": 1.8965619442797864e-06,
-      "loss": 7.9636,
-      "mean_token_accuracy": 0.16881170988082886,
-      "num_tokens": 578511.0,
       "step": 550
     },
     {
-      "entropy": 6.507339992523193,
       "epoch": 0.3454231433506045,
-      "grad_norm": 4.569090366363525,
-      "learning_rate": 1.8817427385892115e-06,
-      "loss": 7.4171,
-      "mean_token_accuracy": 0.16941152423620223,
-      "num_tokens": 630937.0,
       "step": 600
     },
     {
-      "entropy": 6.392864561080932,
       "epoch": 0.3742084052964882,
-      "grad_norm": 4.594696521759033,
-      "learning_rate": 1.8669235328986366e-06,
-      "loss": 6.9389,
-      "mean_token_accuracy": 0.1844496901333332,
-      "num_tokens": 680501.0,
       "step": 650
     },
     {
-      "entropy": 6.6726202869415285,
       "epoch": 0.4029936672423719,
-      "grad_norm": 4.768734931945801,
-      "learning_rate": 1.8521043272080617e-06,
-      "loss": 6.9818,
-      "mean_token_accuracy": 0.16990411713719367,
-      "num_tokens": 733231.0,
       "step": 700
     },
     {
-      "entropy": 6.592793455123902,
       "epoch": 0.4317789291882556,
-      "grad_norm": 3.253056764602661,
-      "learning_rate": 1.8372851215174864e-06,
-      "loss": 6.7105,
-      "mean_token_accuracy": 0.18250102579593658,
-      "num_tokens": 785373.0,
       "step": 750
     },
     {
-      "entropy": 6.683582029342651,
       "epoch": 0.4605641911341393,
-      "grad_norm": 2.1871063709259033,
-      "learning_rate": 1.8224659158269115e-06,
-      "loss": 6.6685,
-      "mean_token_accuracy": 0.17129646152257919,
-      "num_tokens": 838646.0,
       "step": 800
     },
     {
-      "entropy": 6.636875295639038,
       "epoch": 0.48934945308002303,
-      "grad_norm": 3.2284677028656006,
-      "learning_rate": 1.8076467101363366e-06,
-      "loss": 6.53,
-      "mean_token_accuracy": 0.18053789794445038,
-      "num_tokens": 892380.0,
       "step": 850
     },
     {
-      "entropy": 6.610673260688782,
       "epoch": 0.5181347150259067,
-      "grad_norm": 2.2088730335235596,
-      "learning_rate": 1.7928275044457617e-06,
-      "loss": 6.4429,
-      "mean_token_accuracy": 0.18492739230394364,
-      "num_tokens": 947971.0,
       "step": 900
     },
     {
-      "entropy": 6.242899022102356,
       "epoch": 0.5469199769717904,
-      "grad_norm": 2.3000030517578125,
-      "learning_rate": 1.7780082987551866e-06,
-      "loss": 6.047,
-      "mean_token_accuracy": 0.2291259828209877,
-      "num_tokens": 998810.0,
       "step": 950
     },
     {
-      "entropy": 6.311488924026489,
       "epoch": 0.5757052389176741,
-      "grad_norm": 2.1333675384521484,
-      "learning_rate": 1.7631890930646115e-06,
-      "loss": 6.0919,
-      "mean_token_accuracy": 0.22644571751356124,
-      "num_tokens": 1050860.0,
       "step": 1000
     },
     {
-      "entropy": 6.3254336166381835,
       "epoch": 0.6044905008635578,
-      "grad_norm": 2.0400779247283936,
-      "learning_rate": 1.7483698873740366e-06,
-      "loss": 6.094,
-      "mean_token_accuracy": 0.2222653564810753,
-      "num_tokens": 1104304.0,
       "step": 1050
     },
     {
-      "entropy": 6.046922063827514,
       "epoch": 0.6332757628094415,
-      "grad_norm": 2.8049051761627197,
-      "learning_rate": 1.7335506816834617e-06,
-      "loss": 5.8011,
-      "mean_token_accuracy": 0.25127078920602797,
-      "num_tokens": 1153605.0,
       "step": 1100
     },
     {
-      "entropy": 5.943600912094116,
       "epoch": 0.6620610247553252,
-      "grad_norm": 4.063963890075684,
-      "learning_rate": 1.7187314759928866e-06,
-      "loss": 5.6855,
-      "mean_token_accuracy": 0.26265266716480257,
-      "num_tokens": 1204328.0,
       "step": 1150
     },
     {
-      "entropy": 6.12883231639862,
       "epoch": 0.690846286701209,
-      "grad_norm": 3.9440460205078125,
-      "learning_rate": 1.7039122703023117e-06,
-      "loss": 5.8578,
-      "mean_token_accuracy": 0.24439335912466048,
-      "num_tokens": 1257415.0,
       "step": 1200
     },
     {
-      "entropy": 6.164987115859986,
       "epoch": 0.7196315486470927,
-      "grad_norm": 3.20070481300354,
-      "learning_rate": 1.6890930646117368e-06,
-      "loss": 5.8876,
-      "mean_token_accuracy": 0.24275501281023026,
-      "num_tokens": 1310049.0,
       "step": 1250
     },
     {
-      "entropy": 6.080997190475464,
       "epoch": 0.7484168105929764,
-      "grad_norm": 2.8067362308502197,
-      "learning_rate": 1.6742738589211617e-06,
-      "loss": 5.8058,
-      "mean_token_accuracy": 0.25242207854986193,
-      "num_tokens": 1361794.0,
       "step": 1300
     },
     {
-      "entropy": 5.940848155021667,
       "epoch": 0.7772020725388601,
-      "grad_norm": 2.6375925540924072,
-      "learning_rate": 1.6594546532305868e-06,
-      "loss": 5.6718,
-      "mean_token_accuracy": 0.2665082859992981,
-      "num_tokens": 1412773.0,
       "step": 1350
     },
     {
-      "entropy": 6.071129274368286,
       "epoch": 0.8059873344847438,
-      "grad_norm": 3.951350212097168,
-      "learning_rate": 1.6446354475400117e-06,
-      "loss": 5.8012,
-      "mean_token_accuracy": 0.25434976994991304,
-      "num_tokens": 1465620.0,
       "step": 1400
     },
     {
-      "entropy": 6.069429359436035,
       "epoch": 0.8347725964306275,
-      "grad_norm": 3.580608606338501,
-      "learning_rate": 1.6298162418494368e-06,
-      "loss": 5.8027,
-      "mean_token_accuracy": 0.25208072274923327,
-      "num_tokens": 1518899.0,
       "step": 1450
     },
     {
-      "entropy": 6.005315380096436,
       "epoch": 0.8635578583765112,
-      "grad_norm": 3.9580376148223877,
-      "learning_rate": 1.614997036158862e-06,
-      "loss": 5.7364,
-      "mean_token_accuracy": 0.25940640360116957,
-      "num_tokens": 1571304.0,
       "step": 1500
     },
     {
-      "entropy": 6.0786464881896975,
       "epoch": 0.8923431203223949,
-      "grad_norm": 4.55721378326416,
-      "learning_rate": 1.6001778304682868e-06,
-      "loss": 5.8092,
-      "mean_token_accuracy": 0.2496869170665741,
-      "num_tokens": 1627369.0,
       "step": 1550
     },
     {
-      "entropy": 5.939382014274597,
       "epoch": 0.9211283822682786,
-      "grad_norm": 2.330057144165039,
-      "learning_rate": 1.5853586247777117e-06,
-      "loss": 5.6604,
-      "mean_token_accuracy": 0.2686630353331566,
-      "num_tokens": 1680401.0,
       "step": 1600
     },
     {
-      "entropy": 6.121775646209716,
       "epoch": 0.9499136442141624,
-      "grad_norm": 2.9881200790405273,
-      "learning_rate": 1.5705394190871368e-06,
-      "loss": 5.8388,
-      "mean_token_accuracy": 0.2503683388233185,
-      "num_tokens": 1735745.0,
       "step": 1650
     },
     {
-      "entropy": 5.840040788650513,
       "epoch": 0.9786989061600461,
-      "grad_norm": 3.798994779586792,
-      "learning_rate": 1.555720213396562e-06,
-      "loss": 5.5635,
-      "mean_token_accuracy": 0.278279125392437,
-      "num_tokens": 1786896.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 6.139133475343203,
-      "eval_loss": 5.861395835876465,
-      "eval_mean_token_accuracy": 0.2402858340657801,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 1825107.0,
-      "eval_runtime": 79.3994,
-      "eval_samples_per_second": 5.466,
-      "eval_steps_per_second": 2.733,
       "step": 1737
     },
     {
-      "entropy": 5.8970259666442875,
       "epoch": 1.0074841681059297,
-      "grad_norm": 2.6411802768707275,
-      "learning_rate": 1.540901007705987e-06,
-      "loss": 5.614,
-      "mean_token_accuracy": 0.273006406724453,
-      "num_tokens": 1838864.0,
       "step": 1750
     },
     {
-      "entropy": 6.0111794090271,
       "epoch": 1.0362694300518134,
-      "grad_norm": 3.6491827964782715,
-      "learning_rate": 1.526081802015412e-06,
-      "loss": 5.7323,
-      "mean_token_accuracy": 0.26104256987571717,
-      "num_tokens": 1893816.0,
       "step": 1800
     },
     {
-      "entropy": 5.902219276428223,
       "epoch": 1.065054691997697,
-      "grad_norm": 2.593249559402466,
-      "learning_rate": 1.5112625963248368e-06,
-      "loss": 5.6187,
-      "mean_token_accuracy": 0.2746362566947937,
-      "num_tokens": 1946532.0,
       "step": 1850
     },
     {
-      "entropy": 5.874705944061279,
       "epoch": 1.0938399539435808,
-      "grad_norm": 2.554327964782715,
-      "learning_rate": 1.496443390634262e-06,
-      "loss": 5.6021,
-      "mean_token_accuracy": 0.2795292744040489,
-      "num_tokens": 2000184.0,
       "step": 1900
     },
     {
-      "entropy": 5.850096368789673,
       "epoch": 1.1226252158894645,
-      "grad_norm": 3.6060993671417236,
-      "learning_rate": 1.481624184943687e-06,
-      "loss": 5.576,
-      "mean_token_accuracy": 0.28532547056674956,
-      "num_tokens": 2052250.0,
       "step": 1950
     },
     {
-      "entropy": 5.802229671478272,
       "epoch": 1.1514104778353482,
-      "grad_norm": 3.0913314819335938,
-      "learning_rate": 1.466804979253112e-06,
-      "loss": 5.53,
-      "mean_token_accuracy": 0.2916027933359146,
-      "num_tokens": 2103531.0,
       "step": 2000
     },
     {
-      "entropy": 5.875646467208862,
       "epoch": 1.180195739781232,
-      "grad_norm": 4.777045726776123,
-      "learning_rate": 1.451985773562537e-06,
-      "loss": 5.6146,
-      "mean_token_accuracy": 0.28063644528388976,
-      "num_tokens": 2157098.0,
       "step": 2050
     },
     {
-      "entropy": 5.786596937179565,
       "epoch": 1.2089810017271156,
-      "grad_norm": 4.207762718200684,
-      "learning_rate": 1.437166567871962e-06,
-      "loss": 5.5417,
-      "mean_token_accuracy": 0.2870470091700554,
-      "num_tokens": 2211827.0,
       "step": 2100
     },
     {
-      "entropy": 5.672234449386597,
       "epoch": 1.2377662636729994,
-      "grad_norm": 2.2771811485290527,
-      "learning_rate": 1.422347362181387e-06,
-      "loss": 5.4285,
-      "mean_token_accuracy": 0.30194485366344453,
-      "num_tokens": 2262174.0,
       "step": 2150
     },
     {
-      "entropy": 5.862573285102844,
       "epoch": 1.266551525618883,
-      "grad_norm": 3.3273422718048096,
-      "learning_rate": 1.4075281564908121e-06,
-      "loss": 5.6169,
-      "mean_token_accuracy": 0.278145115673542,
-      "num_tokens": 2316440.0,
       "step": 2200
     },
     {
-      "entropy": 5.734760231971741,
       "epoch": 1.2953367875647668,
-      "grad_norm": 3.7049715518951416,
-      "learning_rate": 1.392708950800237e-06,
-      "loss": 5.493,
-      "mean_token_accuracy": 0.2941485676169395,
-      "num_tokens": 2368468.0,
       "step": 2250
     },
     {
-      "entropy": 5.665819988250733,
       "epoch": 1.3241220495106505,
-      "grad_norm": 3.572636604309082,
-      "learning_rate": 1.3778897451096621e-06,
-      "loss": 5.4352,
-      "mean_token_accuracy": 0.3003745040297508,
-      "num_tokens": 2421180.0,
       "step": 2300
     },
     {
-      "entropy": 5.890115032196045,
       "epoch": 1.3529073114565342,
-      "grad_norm": 2.738203525543213,
-      "learning_rate": 1.3630705394190872e-06,
-      "loss": 5.6555,
-      "mean_token_accuracy": 0.2737997192144394,
-      "num_tokens": 2476255.0,
       "step": 2350
     },
     {
-      "entropy": 5.66056040763855,
       "epoch": 1.381692573402418,
-      "grad_norm": 3.1416995525360107,
-      "learning_rate": 1.3482513337285121e-06,
-      "loss": 5.4302,
-      "mean_token_accuracy": 0.3000989046692848,
-      "num_tokens": 2527674.0,
       "step": 2400
     },
     {
-      "entropy": 5.861240615844727,
       "epoch": 1.4104778353483016,
-      "grad_norm": 2.7569284439086914,
-      "learning_rate": 1.333432128037937e-06,
-      "loss": 5.6304,
-      "mean_token_accuracy": 0.27707513481378554,
-      "num_tokens": 2582909.0,
       "step": 2450
     },
     {
-      "entropy": 5.627686910629272,
       "epoch": 1.4392630972941853,
-      "grad_norm": 1.7750262022018433,
-      "learning_rate": 1.3186129223473621e-06,
-      "loss": 5.4058,
-      "mean_token_accuracy": 0.3019809901714325,
-      "num_tokens": 2636579.0,
       "step": 2500
     },
     {
-      "entropy": 5.607026796340943,
       "epoch": 1.468048359240069,
-      "grad_norm": 3.1005160808563232,
-      "learning_rate": 1.3037937166567872e-06,
-      "loss": 5.3836,
-      "mean_token_accuracy": 0.30584611505270004,
-      "num_tokens": 2687698.0,
       "step": 2550
     },
     {
-      "entropy": 5.6909641885757445,
       "epoch": 1.4968336211859528,
-      "grad_norm": 1.6848654747009277,
-      "learning_rate": 1.2889745109662123e-06,
-      "loss": 5.4653,
-      "mean_token_accuracy": 0.296178964972496,
-      "num_tokens": 2740214.0,
       "step": 2600
     },
     {
-      "entropy": 5.619450302124023,
       "epoch": 1.5256188831318365,
-      "grad_norm": 2.469539165496826,
-      "learning_rate": 1.274155305275637e-06,
-      "loss": 5.4022,
-      "mean_token_accuracy": 0.3039679077267647,
-      "num_tokens": 2792574.0,
       "step": 2650
     },
     {
-      "entropy": 5.61073097705841,
       "epoch": 1.5544041450777202,
-      "grad_norm": 2.367810010910034,
-      "learning_rate": 1.259336099585062e-06,
-      "loss": 5.3956,
-      "mean_token_accuracy": 0.3051413372159004,
-      "num_tokens": 2845597.0,
       "step": 2700
     },
     {
-      "entropy": 5.5791136837005615,
       "epoch": 1.583189407023604,
-      "grad_norm": 2.3874764442443848,
-      "learning_rate": 1.2445168938944872e-06,
-      "loss": 5.3676,
-      "mean_token_accuracy": 0.3068238252401352,
-      "num_tokens": 2898683.0,
       "step": 2750
     },
     {
-      "entropy": 5.735381307601929,
       "epoch": 1.6119746689694876,
-      "grad_norm": 2.2097349166870117,
-      "learning_rate": 1.2296976882039123e-06,
-      "loss": 5.5239,
-      "mean_token_accuracy": 0.28974882304668426,
-      "num_tokens": 2952290.0,
       "step": 2800
     },
     {
-      "entropy": 5.55252691745758,
       "epoch": 1.6407599309153713,
-      "grad_norm": 1.694831132888794,
-      "learning_rate": 1.2148784825133372e-06,
-      "loss": 5.351,
-      "mean_token_accuracy": 0.3091904193162918,
-      "num_tokens": 3004556.0,
       "step": 2850
     },
     {
-      "entropy": 5.508773093223572,
       "epoch": 1.669545192861255,
-      "grad_norm": 1.8229279518127441,
-      "learning_rate": 1.200059276822762e-06,
-      "loss": 5.3164,
-      "mean_token_accuracy": 0.31158645361661913,
-      "num_tokens": 3056448.0,
       "step": 2900
     },
     {
-      "entropy": 5.676794271469117,
       "epoch": 1.6983304548071387,
-      "grad_norm": 1.7196234464645386,
-      "learning_rate": 1.1852400711321872e-06,
-      "loss": 5.4776,
-      "mean_token_accuracy": 0.2929128894209862,
-      "num_tokens": 3109539.0,
       "step": 2950
     },
     {
-      "entropy": 5.551529383659362,
       "epoch": 1.7271157167530224,
-      "grad_norm": 3.117525577545166,
-      "learning_rate": 1.1704208654416123e-06,
-      "loss": 5.3561,
-      "mean_token_accuracy": 0.30634030640125276,
-      "num_tokens": 3162421.0,
       "step": 3000
     },
     {
-      "entropy": 5.379635264873505,
       "epoch": 1.7559009786989062,
-      "grad_norm": 1.876755714416504,
-      "learning_rate": 1.1556016597510372e-06,
-      "loss": 5.1868,
-      "mean_token_accuracy": 0.32913618892431257,
-      "num_tokens": 3212079.0,
       "step": 3050
     },
     {
-      "entropy": 5.538804936408996,
       "epoch": 1.7846862406447899,
-      "grad_norm": 1.8670976161956787,
-      "learning_rate": 1.1407824540604623e-06,
-      "loss": 5.3494,
-      "mean_token_accuracy": 0.30661171555519107,
-      "num_tokens": 3264089.0,
       "step": 3100
     },
     {
-      "entropy": 5.258263626098633,
       "epoch": 1.8134715025906736,
-      "grad_norm": 2.748718023300171,
-      "learning_rate": 1.1259632483698874e-06,
-      "loss": 5.08,
-      "mean_token_accuracy": 0.3413010013103485,
-      "num_tokens": 3311881.0,
       "step": 3150
     },
     {
-      "entropy": 5.54539008140564,
       "epoch": 1.8422567645365573,
-      "grad_norm": 1.8556406497955322,
-      "learning_rate": 1.1111440426793123e-06,
-      "loss": 5.3614,
-      "mean_token_accuracy": 0.30550685405731204,
-      "num_tokens": 3364861.0,
       "step": 3200
     },
     {
-      "entropy": 5.5433073282241825,
       "epoch": 1.871042026482441,
-      "grad_norm": 1.8386749029159546,
-      "learning_rate": 1.0963248369887374e-06,
-      "loss": 5.3543,
-      "mean_token_accuracy": 0.30875524014234546,
-      "num_tokens": 3415911.0,
       "step": 3250
     },
     {
-      "entropy": 5.5769769477844235,
       "epoch": 1.8998272884283247,
-      "grad_norm": 1.922486662864685,
-      "learning_rate": 1.0815056312981623e-06,
-      "loss": 5.3834,
-      "mean_token_accuracy": 0.3035113242268562,
-      "num_tokens": 3468338.0,
       "step": 3300
     },
     {
-      "entropy": 5.640013842582703,
       "epoch": 1.9286125503742084,
-      "grad_norm": 2.179500102996826,
-      "learning_rate": 1.0666864256075874e-06,
-      "loss": 5.4574,
-      "mean_token_accuracy": 0.2947095710039139,
-      "num_tokens": 3521693.0,
       "step": 3350
     },
     {
-      "entropy": 5.506910061836242,
       "epoch": 1.9573978123200921,
-      "grad_norm": 1.4014379978179932,
-      "learning_rate": 1.0518672199170125e-06,
-      "loss": 5.3234,
-      "mean_token_accuracy": 0.3096472260355949,
-      "num_tokens": 3574206.0,
       "step": 3400
     },
     {
-      "entropy": 5.607311015129089,
       "epoch": 1.9861830742659758,
-      "grad_norm": 1.41231107711792,
-      "learning_rate": 1.0370480142264374e-06,
-      "loss": 5.4226,
-      "mean_token_accuracy": 0.2979922544956207,
-      "num_tokens": 3627807.0,
       "step": 3450
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 5.831721861790951,
-      "eval_loss": 5.656307220458984,
-      "eval_mean_token_accuracy": 0.2641724460685308,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 3650214.0,
-      "eval_runtime": 79.7324,
-      "eval_samples_per_second": 5.443,
-      "eval_steps_per_second": 2.722,
       "step": 3474
     },
     {
-      "entropy": 5.477711625099182,
       "epoch": 2.0149683362118593,
-      "grad_norm": 3.0133137702941895,
-      "learning_rate": 1.0222288085358623e-06,
-      "loss": 5.2957,
-      "mean_token_accuracy": 0.31543311327695844,
-      "num_tokens": 3677883.0,
       "step": 3500
     },
     {
-      "entropy": 5.599187393188476,
       "epoch": 2.043753598157743,
-      "grad_norm": 1.885867714881897,
-      "learning_rate": 1.0074096028452874e-06,
-      "loss": 5.4142,
-      "mean_token_accuracy": 0.3004470923542976,
-      "num_tokens": 3730991.0,
       "step": 3550
     },
     {
-      "entropy": 5.526448183059692,
       "epoch": 2.0725388601036268,
-      "grad_norm": 4.50788688659668,
-      "learning_rate": 9.925903971547125e-07,
-      "loss": 5.3517,
-      "mean_token_accuracy": 0.3069574165344238,
-      "num_tokens": 3783795.0,
       "step": 3600
     },
     {
-      "entropy": 5.560557870864868,
       "epoch": 2.1013241220495105,
-      "grad_norm": 1.927862524986267,
-      "learning_rate": 9.777711914641374e-07,
-      "loss": 5.3815,
-      "mean_token_accuracy": 0.3045575937628746,
-      "num_tokens": 3835526.0,
       "step": 3650
     },
     {
-      "entropy": 5.528058257102966,
       "epoch": 2.130109383995394,
-      "grad_norm": 2.164687156677246,
-      "learning_rate": 9.629519857735625e-07,
-      "loss": 5.3501,
-      "mean_token_accuracy": 0.3071546205878258,
-      "num_tokens": 3887175.0,
       "step": 3700
     },
     {
-      "entropy": 5.397617678642273,
       "epoch": 2.158894645941278,
-      "grad_norm": 2.3098385334014893,
-      "learning_rate": 9.481327800829875e-07,
-      "loss": 5.2244,
-      "mean_token_accuracy": 0.3226669803261757,
-      "num_tokens": 3938003.0,
       "step": 3750
     },
     {
-      "entropy": 5.529960298538208,
       "epoch": 2.1876799078871616,
-      "grad_norm": 1.8144755363464355,
-      "learning_rate": 9.333135743924125e-07,
-      "loss": 5.3572,
-      "mean_token_accuracy": 0.306032218337059,
-      "num_tokens": 3990451.0,
       "step": 3800
     },
     {
-      "entropy": 5.597109637260437,
       "epoch": 2.2164651698330453,
-      "grad_norm": 2.7306935787200928,
-      "learning_rate": 9.184943687018375e-07,
-      "loss": 5.4162,
-      "mean_token_accuracy": 0.2985941395163536,
-      "num_tokens": 4044048.0,
       "step": 3850
     },
     {
-      "entropy": 5.448684883117676,
       "epoch": 2.245250431778929,
-      "grad_norm": 1.8199880123138428,
-      "learning_rate": 9.036751630112626e-07,
-      "loss": 5.2775,
-      "mean_token_accuracy": 0.31548845052719116,
-      "num_tokens": 4095276.0,
       "step": 3900
     },
     {
-      "entropy": 5.5008597612380985,
       "epoch": 2.2740356937248127,
-      "grad_norm": 1.755323052406311,
-      "learning_rate": 8.888559573206875e-07,
-      "loss": 5.3274,
-      "mean_token_accuracy": 0.309090721309185,
-      "num_tokens": 4148172.0,
       "step": 3950
     },
     {
-      "entropy": 5.7040300464630125,
       "epoch": 2.3028209556706964,
-      "grad_norm": 2.3154356479644775,
-      "learning_rate": 8.740367516301126e-07,
-      "loss": 5.5239,
-      "mean_token_accuracy": 0.28589318484067916,
-      "num_tokens": 4202733.0,
       "step": 4000
     },
     {
-      "entropy": 5.549855670928955,
       "epoch": 2.33160621761658,
-      "grad_norm": 1.9549669027328491,
-      "learning_rate": 8.592175459395375e-07,
-      "loss": 5.3755,
-      "mean_token_accuracy": 0.3029727828502655,
-      "num_tokens": 4255738.0,
       "step": 4050
     },
     {
-      "entropy": 5.579690465927124,
       "epoch": 2.360391479562464,
-      "grad_norm": 1.7018866539001465,
-      "learning_rate": 8.443983402489626e-07,
-      "loss": 5.4036,
-      "mean_token_accuracy": 0.3001995691657066,
-      "num_tokens": 4308638.0,
       "step": 4100
     },
     {
-      "entropy": 5.646504878997803,
       "epoch": 2.3891767415083476,
-      "grad_norm": 1.4139262437820435,
-      "learning_rate": 8.295791345583877e-07,
-      "loss": 5.4733,
-      "mean_token_accuracy": 0.2912476986646652,
-      "num_tokens": 4363170.0,
       "step": 4150
     },
     {
-      "entropy": 5.554990992546082,
       "epoch": 2.4179620034542313,
-      "grad_norm": 1.6886577606201172,
-      "learning_rate": 8.147599288678126e-07,
-      "loss": 5.3842,
-      "mean_token_accuracy": 0.302762059867382,
-      "num_tokens": 4415607.0,
       "step": 4200
     },
     {
-      "entropy": 5.513420124053955,
       "epoch": 2.446747265400115,
-      "grad_norm": 1.3537819385528564,
-      "learning_rate": 7.999407231772377e-07,
-      "loss": 5.3408,
-      "mean_token_accuracy": 0.30764526218175886,
-      "num_tokens": 4467608.0,
       "step": 4250
     },
     {
-      "entropy": 5.561378569602966,
       "epoch": 2.4755325273459987,
-      "grad_norm": 1.8514106273651123,
-      "learning_rate": 7.851215174866627e-07,
-      "loss": 5.3891,
-      "mean_token_accuracy": 0.301382859647274,
-      "num_tokens": 4520299.0,
       "step": 4300
     },
     {
-      "entropy": 5.536689953804016,
       "epoch": 2.5043177892918824,
-      "grad_norm": 2.1830835342407227,
-      "learning_rate": 7.703023117960877e-07,
-      "loss": 5.3672,
-      "mean_token_accuracy": 0.3047756373882294,
-      "num_tokens": 4573065.0,
       "step": 4350
     },
     {
-      "entropy": 5.69776873588562,
       "epoch": 2.533103051237766,
-      "grad_norm": 1.999536156654358,
-      "learning_rate": 7.554831061055127e-07,
-      "loss": 5.5236,
-      "mean_token_accuracy": 0.2868007507920265,
-      "num_tokens": 4626807.0,
       "step": 4400
     },
     {
-      "entropy": 5.3977436876297,
       "epoch": 2.56188831318365,
-      "grad_norm": 1.9608020782470703,
-      "learning_rate": 7.406639004149378e-07,
-      "loss": 5.2335,
-      "mean_token_accuracy": 0.3199601462483406,
-      "num_tokens": 4677663.0,
       "step": 4450
     },
     {
-      "entropy": 5.6681678771972654,
       "epoch": 2.5906735751295336,
-      "grad_norm": 1.829047441482544,
-      "learning_rate": 7.258446947243627e-07,
-      "loss": 5.491,
-      "mean_token_accuracy": 0.2894612854719162,
-      "num_tokens": 4731830.0,
       "step": 4500
     },
     {
-      "entropy": 5.49174174785614,
       "epoch": 2.6194588370754173,
-      "grad_norm": 1.3158719539642334,
-      "learning_rate": 7.110254890337878e-07,
-      "loss": 5.3225,
-      "mean_token_accuracy": 0.3084965732693672,
-      "num_tokens": 4784694.0,
       "step": 4550
     },
     {
-      "entropy": 5.573234438896179,
       "epoch": 2.648244099021301,
-      "grad_norm": 1.562915325164795,
-      "learning_rate": 6.962062833432127e-07,
-      "loss": 5.4028,
-      "mean_token_accuracy": 0.2989520016312599,
-      "num_tokens": 4838534.0,
       "step": 4600
     },
     {
-      "entropy": 5.550469598770142,
       "epoch": 2.6770293609671847,
-      "grad_norm": 2.114727735519409,
-      "learning_rate": 6.813870776526378e-07,
-      "loss": 5.3804,
-      "mean_token_accuracy": 0.30373542964458466,
-      "num_tokens": 4890611.0,
       "step": 4650
     },
     {
-      "entropy": 5.523049550056458,
       "epoch": 2.7058146229130684,
-      "grad_norm": 2.5036823749542236,
-      "learning_rate": 6.665678719620628e-07,
-      "loss": 5.3542,
-      "mean_token_accuracy": 0.30681024432182313,
-      "num_tokens": 4943571.0,
       "step": 4700
     },
     {
-      "entropy": 5.323453049659729,
       "epoch": 2.734599884858952,
-      "grad_norm": 1.8069168329238892,
-      "learning_rate": 6.517486662714878e-07,
-      "loss": 5.1583,
-      "mean_token_accuracy": 0.32906652927398683,
-      "num_tokens": 4993871.0,
       "step": 4750
     },
     {
-      "entropy": 5.504038324356079,
       "epoch": 2.763385146804836,
-      "grad_norm": 4.750283718109131,
-      "learning_rate": 6.369294605809128e-07,
-      "loss": 5.3366,
-      "mean_token_accuracy": 0.3087608867883682,
-      "num_tokens": 5046187.0,
       "step": 4800
     },
     {
-      "entropy": 5.487624549865723,
       "epoch": 2.7921704087507195,
-      "grad_norm": 1.4186172485351562,
-      "learning_rate": 6.221102548903379e-07,
-      "loss": 5.3237,
-      "mean_token_accuracy": 0.3088638699054718,
-      "num_tokens": 5098644.0,
       "step": 4850
     },
     {
-      "entropy": 5.346905107498169,
       "epoch": 2.8209556706966032,
-      "grad_norm": 1.5670177936553955,
-      "learning_rate": 6.072910491997628e-07,
-      "loss": 5.1849,
-      "mean_token_accuracy": 0.3265886321663857,
-      "num_tokens": 5149345.0,
       "step": 4900
     },
     {
-      "entropy": 5.510410032272339,
       "epoch": 2.849740932642487,
-      "grad_norm": 7.489855766296387,
-      "learning_rate": 5.924718435091879e-07,
-      "loss": 5.3424,
-      "mean_token_accuracy": 0.30768151730299,
-      "num_tokens": 5202028.0,
       "step": 4950
     },
     {
-      "entropy": 5.525181493759155,
       "epoch": 2.8785261945883707,
-      "grad_norm": 1.8829196691513062,
-      "learning_rate": 5.776526378186128e-07,
-      "loss": 5.3654,
-      "mean_token_accuracy": 0.30342737555503846,
-      "num_tokens": 5255082.0,
       "step": 5000
     },
     {
-      "entropy": 5.374098634719848,
       "epoch": 2.9073114565342544,
-      "grad_norm": 1.3901060819625854,
-      "learning_rate": 5.628334321280379e-07,
-      "loss": 5.2103,
-      "mean_token_accuracy": 0.3233291879296303,
-      "num_tokens": 5305042.0,
       "step": 5050
     },
     {
-      "entropy": 5.374619431495667,
       "epoch": 2.936096718480138,
-      "grad_norm": 1.6586560010910034,
-      "learning_rate": 5.48014226437463e-07,
-      "loss": 5.2125,
-      "mean_token_accuracy": 0.322759662270546,
-      "num_tokens": 5356310.0,
       "step": 5100
     },
     {
-      "entropy": 5.527479724884033,
       "epoch": 2.964881980426022,
-      "grad_norm": 1.6678485870361328,
-      "learning_rate": 5.331950207468879e-07,
-      "loss": 5.3627,
-      "mean_token_accuracy": 0.30430852621793747,
-      "num_tokens": 5409283.0,
       "step": 5150
     },
     {
-      "entropy": 5.6171248292922975,
       "epoch": 2.9936672423719055,
-      "grad_norm": 1.50790274143219,
-      "learning_rate": 5.18375815056313e-07,
-      "loss": 5.4484,
-      "mean_token_accuracy": 0.29375598043203355,
-      "num_tokens": 5464332.0,
       "step": 5200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 5.78779639186947,
-      "eval_loss": 5.628758430480957,
-      "eval_mean_token_accuracy": 0.2653660801698535,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 5475321.0,
-      "eval_runtime": 80.3676,
-      "eval_samples_per_second": 5.4,
-      "eval_steps_per_second": 2.7,
       "step": 5211
     }
   ],
   "logging_steps": 50,
-  "max_steps": 6948,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1103,7 +1103,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.520890606086144e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 5211,
+  "best_metric": 5.53223991394043,
   "best_model_checkpoint": "./output/checkpoint-5211",
   "epoch": 3.0,
   "eval_steps": 500,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 3.606692385673523,
       "epoch": 0.028785261945883708,
+      "grad_norm": 3.2999913692474365,
       "learning_rate": 4.9e-07,
+      "loss": 13.6598,
+      "mean_token_accuracy": 0.16028020828962325,
+      "num_tokens": 53993.0,
       "step": 50
     },
     {
+      "entropy": 3.618675880432129,
       "epoch": 0.057570523891767415,
+      "grad_norm": 3.101252555847168,
       "learning_rate": 9.9e-07,
+      "loss": 14.0188,
+      "mean_token_accuracy": 0.1508466500043869,
+      "num_tokens": 110134.0,
       "step": 100
     },
     {
+      "entropy": 3.5215235900878907,
       "epoch": 0.08635578583765112,
+      "grad_norm": 3.513662815093994,
       "learning_rate": 1.49e-06,
+      "loss": 12.8555,
+      "mean_token_accuracy": 0.18527640983462335,
+      "num_tokens": 160191.0,
       "step": 150
     },
     {
+      "entropy": 3.667909698486328,
       "epoch": 0.11514104778353483,
+      "grad_norm": 4.327610492706299,
       "learning_rate": 1.99e-06,
+      "loss": 13.5394,
+      "mean_token_accuracy": 0.157139780074358,
+      "num_tokens": 214993.0,
       "step": 200
     },
     {
+      "entropy": 3.768263258934021,
       "epoch": 0.14392630972941853,
+      "grad_norm": 4.290107250213623,
+      "learning_rate": 1.988450206246317e-06,
+      "loss": 12.8912,
+      "mean_token_accuracy": 0.17374794125556947,
+      "num_tokens": 268184.0,
       "step": 250
     },
     {
+      "entropy": 3.990619196891785,
       "epoch": 0.17271157167530224,
+      "grad_norm": 4.444278717041016,
+      "learning_rate": 1.976664702416028e-06,
+      "loss": 12.455,
+      "mean_token_accuracy": 0.17780130118131637,
+      "num_tokens": 319458.0,
       "step": 300
     },
     {
+      "entropy": 4.162646284103394,
       "epoch": 0.20149683362118595,
+      "grad_norm": 5.615262508392334,
+      "learning_rate": 1.9648791985857395e-06,
+      "loss": 12.0893,
+      "mean_token_accuracy": 0.18191319867968558,
+      "num_tokens": 373337.0,
       "step": 350
     },
     {
+      "entropy": 4.532100868225098,
       "epoch": 0.23028209556706966,
+      "grad_norm": 10.074016571044922,
+      "learning_rate": 1.9530936947554507e-06,
+      "loss": 11.9261,
+      "mean_token_accuracy": 0.169477596282959,
+      "num_tokens": 427526.0,
       "step": 400
     },
     {
+      "entropy": 4.923871030807495,
       "epoch": 0.25906735751295334,
+      "grad_norm": 16.220163345336914,
+      "learning_rate": 1.9413081909251622e-06,
+      "loss": 11.0048,
+      "mean_token_accuracy": 0.1704501649737358,
+      "num_tokens": 480528.0,
       "step": 450
     },
     {
+      "entropy": 5.521005854606629,
       "epoch": 0.28785261945883706,
+      "grad_norm": 29.904008865356445,
+      "learning_rate": 1.9295226870948733e-06,
+      "loss": 9.6524,
+      "mean_token_accuracy": 0.16450899541378022,
+      "num_tokens": 535314.0,
       "step": 500
     },
     {
+      "entropy": 6.092623329162597,
       "epoch": 0.31663788140472077,
+      "grad_norm": 17.821575164794922,
+      "learning_rate": 1.9177371832645845e-06,
+      "loss": 8.1054,
+      "mean_token_accuracy": 0.17205011785030366,
+      "num_tokens": 588410.0,
       "step": 550
     },
     {
+      "entropy": 6.385262680053711,
       "epoch": 0.3454231433506045,
+      "grad_norm": 5.502202987670898,
+      "learning_rate": 1.9059516794342958e-06,
+      "loss": 7.4313,
+      "mean_token_accuracy": 0.1734227080643177,
+      "num_tokens": 641736.0,
       "step": 600
     },
     {
+      "entropy": 6.278562617301941,
       "epoch": 0.3742084052964882,
+      "grad_norm": 5.4657697677612305,
+      "learning_rate": 1.8941661756040071e-06,
+      "loss": 6.9266,
+      "mean_token_accuracy": 0.18680249139666558,
+      "num_tokens": 692200.0,
       "step": 650
     },
     {
+      "entropy": 6.553266277313233,
       "epoch": 0.4029936672423719,
+      "grad_norm": 4.955812931060791,
+      "learning_rate": 1.8823806717737183e-06,
+      "loss": 6.9847,
+      "mean_token_accuracy": 0.16679802387952805,
+      "num_tokens": 745830.0,
       "step": 700
     },
     {
+      "entropy": 6.470935583114624,
       "epoch": 0.4317789291882556,
+      "grad_norm": 4.198381423950195,
+      "learning_rate": 1.8705951679434296e-06,
+      "loss": 6.7277,
+      "mean_token_accuracy": 0.17847734570503235,
+      "num_tokens": 798872.0,
       "step": 750
     },
     {
+      "entropy": 6.5620588779449465,
       "epoch": 0.4605641911341393,
+      "grad_norm": 3.1793746948242188,
+      "learning_rate": 1.8588096641131407e-06,
+      "loss": 6.7032,
+      "mean_token_accuracy": 0.17336134731769562,
+      "num_tokens": 853045.0,
       "step": 800
     },
     {
+      "entropy": 6.532204885482788,
       "epoch": 0.48934945308002303,
+      "grad_norm": 3.824537515640259,
+      "learning_rate": 1.847024160282852e-06,
+      "loss": 6.5762,
+      "mean_token_accuracy": 0.1805124071240425,
+      "num_tokens": 907679.0,
       "step": 850
     },
     {
+      "entropy": 6.535988225936889,
       "epoch": 0.5181347150259067,
+      "grad_norm": 4.350001811981201,
+      "learning_rate": 1.8352386564525632e-06,
+      "loss": 6.505,
+      "mean_token_accuracy": 0.1842605724930763,
+      "num_tokens": 964170.0,
       "step": 900
     },
     {
+      "entropy": 6.204533562660218,
       "epoch": 0.5469199769717904,
+      "grad_norm": 2.193660020828247,
+      "learning_rate": 1.8234531526222745e-06,
+      "loss": 6.1211,
+      "mean_token_accuracy": 0.21968430042266845,
+      "num_tokens": 1015909.0,
       "step": 950
     },
     {
+      "entropy": 6.308737449645996,
       "epoch": 0.5757052389176741,
+      "grad_norm": 2.325622320175171,
+      "learning_rate": 1.8116676487919857e-06,
+      "loss": 6.1653,
+      "mean_token_accuracy": 0.21636426240205764,
+      "num_tokens": 1068859.0,
       "step": 1000
     },
     {
+      "entropy": 6.332560749053955,
       "epoch": 0.6044905008635578,
+      "grad_norm": 2.0439090728759766,
+      "learning_rate": 1.799882144961697e-06,
+      "loss": 6.1559,
+      "mean_token_accuracy": 0.21859725564718246,
+      "num_tokens": 1123202.0,
       "step": 1050
     },
     {
+      "entropy": 6.042124252319336,
       "epoch": 0.6332757628094415,
+      "grad_norm": 3.621903657913208,
+      "learning_rate": 1.7880966411314081e-06,
+      "loss": 5.8441,
+      "mean_token_accuracy": 0.24906315237283708,
+      "num_tokens": 1173403.0,
       "step": 1100
     },
     {
+      "entropy": 5.921343173980713,
       "epoch": 0.6620610247553252,
+      "grad_norm": 5.658033847808838,
+      "learning_rate": 1.7763111373011195e-06,
+      "loss": 5.7104,
+      "mean_token_accuracy": 0.2625067520141602,
+      "num_tokens": 1225026.0,
       "step": 1150
     },
     {
+      "entropy": 6.093586492538452,
       "epoch": 0.690846286701209,
+      "grad_norm": 2.4292995929718018,
+      "learning_rate": 1.7645256334708308e-06,
+      "loss": 5.8658,
+      "mean_token_accuracy": 0.24842385441064835,
+      "num_tokens": 1279013.0,
       "step": 1200
     },
     {
+      "entropy": 6.119112596511841,
       "epoch": 0.7196315486470927,
+      "grad_norm": 3.369384288787842,
+      "learning_rate": 1.752740129640542e-06,
+      "loss": 5.8784,
+      "mean_token_accuracy": 0.24857850253582,
+      "num_tokens": 1332547.0,
       "step": 1250
     },
     {
+      "entropy": 6.025163550376892,
       "epoch": 0.7484168105929764,
+      "grad_norm": 2.5110116004943848,
+      "learning_rate": 1.7409546258102533e-06,
+      "loss": 5.7769,
+      "mean_token_accuracy": 0.25835376888513567,
+      "num_tokens": 1385192.0,
       "step": 1300
     },
     {
+      "entropy": 5.877259612083435,
       "epoch": 0.7772020725388601,
+      "grad_norm": 2.4179303646087646,
+      "learning_rate": 1.7291691219799646e-06,
+      "loss": 5.6284,
+      "mean_token_accuracy": 0.2756252554059029,
+      "num_tokens": 1437071.0,
       "step": 1350
     },
     {
+      "entropy": 6.002246947288513,
       "epoch": 0.8059873344847438,
+      "grad_norm": 3.494359016418457,
+      "learning_rate": 1.717383618149676e-06,
+      "loss": 5.747,
+      "mean_token_accuracy": 0.26462210685014725,
+      "num_tokens": 1490818.0,
       "step": 1400
     },
     {
+      "entropy": 5.991955623626709,
       "epoch": 0.8347725964306275,
+      "grad_norm": 2.340975761413574,
+      "learning_rate": 1.705598114319387e-06,
+      "loss": 5.7379,
+      "mean_token_accuracy": 0.26444981098175047,
+      "num_tokens": 1544997.0,
       "step": 1450
     },
     {
+      "entropy": 5.91768889427185,
       "epoch": 0.8635578583765112,
+      "grad_norm": 2.2394514083862305,
+      "learning_rate": 1.6938126104890984e-06,
+      "loss": 5.6564,
+      "mean_token_accuracy": 0.2730415526032448,
+      "num_tokens": 1598302.0,
       "step": 1500
     },
     {
+      "entropy": 5.982716989517212,
       "epoch": 0.8923431203223949,
+      "grad_norm": 1.876839518547058,
+      "learning_rate": 1.6820271066588098e-06,
+      "loss": 5.7215,
+      "mean_token_accuracy": 0.26642445534467696,
+      "num_tokens": 1655267.0,
       "step": 1550
     },
     {
+      "entropy": 5.820467872619629,
       "epoch": 0.9211283822682786,
+      "grad_norm": 2.219966173171997,
+      "learning_rate": 1.6702416028285209e-06,
+      "loss": 5.5555,
+      "mean_token_accuracy": 0.2856418335437775,
+      "num_tokens": 1709199.0,
       "step": 1600
     },
     {
+      "entropy": 5.996349005699158,
       "epoch": 0.9499136442141624,
+      "grad_norm": 2.247213840484619,
+      "learning_rate": 1.6584560989982322e-06,
+      "loss": 5.7283,
+      "mean_token_accuracy": 0.2696125540137291,
+      "num_tokens": 1765443.0,
       "step": 1650
     },
     {
+      "entropy": 5.696683068275451,
       "epoch": 0.9786989061600461,
+      "grad_norm": 2.8499979972839355,
+      "learning_rate": 1.6466705951679433e-06,
+      "loss": 5.4335,
+      "mean_token_accuracy": 0.29918427973985673,
+      "num_tokens": 1817494.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 5.993559589034401,
+      "eval_loss": 5.737204551696777,
+      "eval_mean_token_accuracy": 0.2618687468739699,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 1856362.0,
+      "eval_runtime": 50.5332,
+      "eval_samples_per_second": 8.588,
+      "eval_steps_per_second": 4.294,
       "step": 1737
     },
     {
+      "entropy": 5.746842083930969,
       "epoch": 1.0074841681059297,
+      "grad_norm": 2.33052921295166,
+      "learning_rate": 1.6348850913376547e-06,
+      "loss": 5.4796,
+      "mean_token_accuracy": 0.2966849410533905,
+      "num_tokens": 1870353.0,
       "step": 1750
     },
     {
+      "entropy": 5.859029049873352,
       "epoch": 1.0362694300518134,
+      "grad_norm": 1.6248886585235596,
+      "learning_rate": 1.6230995875073658e-06,
+      "loss": 5.5975,
+      "mean_token_accuracy": 0.2838129925727844,
+      "num_tokens": 1926205.0,
       "step": 1800
     },
     {
+      "entropy": 5.731445336341858,
       "epoch": 1.065054691997697,
+      "grad_norm": 1.6941566467285156,
+      "learning_rate": 1.6113140836770771e-06,
+      "loss": 5.476,
+      "mean_token_accuracy": 0.2992346465587616,
+      "num_tokens": 1979821.0,
       "step": 1850
     },
     {
+      "entropy": 5.6993954515457155,
       "epoch": 1.0938399539435808,
+      "grad_norm": 1.1746597290039062,
+      "learning_rate": 1.5995285798467883e-06,
+      "loss": 5.4608,
+      "mean_token_accuracy": 0.3000726142525673,
+      "num_tokens": 2034373.0,
       "step": 1900
     },
     {
+      "entropy": 5.668873124122619,
       "epoch": 1.1226252158894645,
+      "grad_norm": 1.728211760520935,
+      "learning_rate": 1.5877430760164996e-06,
+      "loss": 5.4347,
+      "mean_token_accuracy": 0.3033922725915909,
+      "num_tokens": 2087339.0,
       "step": 1950
     },
     {
+      "entropy": 5.624621086120605,
       "epoch": 1.1514104778353482,
+      "grad_norm": 1.4078539609909058,
+      "learning_rate": 1.5759575721862107e-06,
+      "loss": 5.3954,
+      "mean_token_accuracy": 0.30784171640872954,
+      "num_tokens": 2139520.0,
       "step": 2000
     },
     {
+      "entropy": 5.7141213130950925,
       "epoch": 1.180195739781232,
+      "grad_norm": 2.186459541320801,
+      "learning_rate": 1.564172068355922e-06,
+      "loss": 5.4847,
+      "mean_token_accuracy": 0.29594049394130706,
+      "num_tokens": 2193987.0,
       "step": 2050
     },
     {
+      "entropy": 5.632415266036987,
       "epoch": 1.2089810017271156,
+      "grad_norm": 1.3601349592208862,
+      "learning_rate": 1.5523865645256334e-06,
+      "loss": 5.4135,
+      "mean_token_accuracy": 0.30366597563028336,
+      "num_tokens": 2249616.0,
       "step": 2100
     },
     {
+      "entropy": 5.510904269218445,
       "epoch": 1.2377662636729994,
+      "grad_norm": 2.065760612487793,
+      "learning_rate": 1.5406010606953445e-06,
+      "loss": 5.2904,
+      "mean_token_accuracy": 0.3211754837632179,
+      "num_tokens": 2300863.0,
       "step": 2150
     },
     {
+      "entropy": 5.703383626937867,
       "epoch": 1.266551525618883,
+      "grad_norm": 1.1172698736190796,
+      "learning_rate": 1.5288155568650559e-06,
+      "loss": 5.4802,
+      "mean_token_accuracy": 0.29713701367378237,
+      "num_tokens": 2356029.0,
       "step": 2200
     },
     {
+      "entropy": 5.565930342674255,
       "epoch": 1.2953367875647668,
+      "grad_norm": 1.7528513669967651,
+      "learning_rate": 1.5170300530347672e-06,
+      "loss": 5.3518,
+      "mean_token_accuracy": 0.31301232606172563,
+      "num_tokens": 2408957.0,
       "step": 2250
     },
     {
+      "entropy": 5.496430187225342,
       "epoch": 1.3241220495106505,
+      "grad_norm": 1.892640233039856,
+      "learning_rate": 1.5052445492044786e-06,
+      "loss": 5.2967,
+      "mean_token_accuracy": 0.3181899458169937,
+      "num_tokens": 2462569.0,
       "step": 2300
     },
     {
+      "entropy": 5.725150098800659,
       "epoch": 1.3529073114565342,
+      "grad_norm": 1.774940848350525,
+      "learning_rate": 1.4934590453741897e-06,
+      "loss": 5.5215,
+      "mean_token_accuracy": 0.29055028676986694,
+      "num_tokens": 2518544.0,
       "step": 2350
     },
     {
+      "entropy": 5.4884827613830565,
       "epoch": 1.381692573402418,
+      "grad_norm": 2.2167599201202393,
+      "learning_rate": 1.481673541543901e-06,
+      "loss": 5.2917,
+      "mean_token_accuracy": 0.31803421139717103,
+      "num_tokens": 2570863.0,
       "step": 2400
     },
     {
+      "entropy": 5.697079472541809,
       "epoch": 1.4104778353483016,
+      "grad_norm": 1.6489030122756958,
+      "learning_rate": 1.4698880377136124e-06,
+      "loss": 5.4982,
+      "mean_token_accuracy": 0.2925163987278938,
+      "num_tokens": 2626998.0,
       "step": 2450
     },
     {
+      "entropy": 5.46209939956665,
       "epoch": 1.4392630972941853,
+      "grad_norm": 1.153914451599121,
+      "learning_rate": 1.4581025338833235e-06,
+      "loss": 5.2736,
+      "mean_token_accuracy": 0.3182168474793434,
+      "num_tokens": 2681568.0,
       "step": 2500
     },
     {
+      "entropy": 5.4405768728256225,
       "epoch": 1.468048359240069,
+      "grad_norm": 3.6614978313446045,
+      "learning_rate": 1.4463170300530348e-06,
+      "loss": 5.2515,
+      "mean_token_accuracy": 0.3218736210465431,
+      "num_tokens": 2733587.0,
       "step": 2550
     },
     {
+      "entropy": 5.528175053596496,
       "epoch": 1.4968336211859528,
+      "grad_norm": 1.0849746465682983,
+      "learning_rate": 1.434531526222746e-06,
+      "loss": 5.3378,
+      "mean_token_accuracy": 0.31061659604310987,
+      "num_tokens": 2787003.0,
       "step": 2600
     },
     {
+      "entropy": 5.46110897064209,
       "epoch": 1.5256188831318365,
+      "grad_norm": 1.8315683603286743,
+      "learning_rate": 1.4227460223924573e-06,
+      "loss": 5.2782,
+      "mean_token_accuracy": 0.31781029611825945,
+      "num_tokens": 2840263.0,
       "step": 2650
     },
     {
+      "entropy": 5.455560960769653,
       "epoch": 1.5544041450777202,
+      "grad_norm": 1.1859091520309448,
+      "learning_rate": 1.4109605185621684e-06,
+      "loss": 5.2735,
+      "mean_token_accuracy": 0.3194814011454582,
+      "num_tokens": 2894186.0,
       "step": 2700
     },
     {
+      "entropy": 5.430496115684509,
       "epoch": 1.583189407023604,
+      "grad_norm": 2.3500001430511475,
+      "learning_rate": 1.3991750147318797e-06,
+      "loss": 5.2464,
+      "mean_token_accuracy": 0.32140792965888976,
+      "num_tokens": 2948171.0,
       "step": 2750
     },
     {
+      "entropy": 5.588023023605347,
       "epoch": 1.6119746689694876,
+      "grad_norm": 1.727825403213501,
+      "learning_rate": 1.3873895109015909e-06,
+      "loss": 5.4028,
+      "mean_token_accuracy": 0.3039530631899834,
+      "num_tokens": 3002678.0,
       "step": 2800
     },
     {
+      "entropy": 5.410525422096253,
       "epoch": 1.6407599309153713,
+      "grad_norm": 1.3401474952697754,
+      "learning_rate": 1.3756040070713022e-06,
+      "loss": 5.2298,
+      "mean_token_accuracy": 0.324065263569355,
+      "num_tokens": 3055844.0,
       "step": 2850
     },
     {
+      "entropy": 5.36959942817688,
       "epoch": 1.669545192861255,
+      "grad_norm": 1.1892589330673218,
+      "learning_rate": 1.3638185032410133e-06,
+      "loss": 5.1956,
+      "mean_token_accuracy": 0.32639502108097074,
+      "num_tokens": 3108636.0,
       "step": 2900
     },
     {
+      "entropy": 5.53826907157898,
       "epoch": 1.6983304548071387,
+      "grad_norm": 1.2652360200881958,
+      "learning_rate": 1.3520329994107247e-06,
+      "loss": 5.3583,
+      "mean_token_accuracy": 0.3074926760792732,
+      "num_tokens": 3162627.0,
       "step": 2950
     },
     {
+      "entropy": 5.417449145317078,
       "epoch": 1.7271157167530224,
+      "grad_norm": 1.584312915802002,
+      "learning_rate": 1.340247495580436e-06,
+      "loss": 5.2388,
+      "mean_token_accuracy": 0.32019727885723115,
+      "num_tokens": 3216409.0,
       "step": 3000
     },
     {
+      "entropy": 5.241390740871429,
       "epoch": 1.7559009786989062,
+      "grad_norm": 1.5219439268112183,
+      "learning_rate": 1.3284619917501471e-06,
+      "loss": 5.0645,
+      "mean_token_accuracy": 0.3445430138707161,
+      "num_tokens": 3266967.0,
       "step": 3050
     },
     {
+      "entropy": 5.405424036979675,
       "epoch": 1.7846862406447899,
+      "grad_norm": 2.1165153980255127,
+      "learning_rate": 1.3166764879198585e-06,
+      "loss": 5.232,
+      "mean_token_accuracy": 0.32085000157356264,
+      "num_tokens": 3319877.0,
       "step": 3100
     },
     {
+      "entropy": 5.123006024360657,
       "epoch": 1.8134715025906736,
+      "grad_norm": 1.2189785242080688,
+      "learning_rate": 1.3048909840895698e-06,
+      "loss": 4.9582,
+      "mean_token_accuracy": 0.356108532845974,
+      "num_tokens": 3368569.0,
       "step": 3150
     },
     {
+      "entropy": 5.417610831260681,
       "epoch": 1.8422567645365573,
+      "grad_norm": 1.5157604217529297,
+      "learning_rate": 1.2931054802592812e-06,
+      "loss": 5.2454,
+      "mean_token_accuracy": 0.31976755023002623,
+      "num_tokens": 3422449.0,
       "step": 3200
     },
     {
+      "entropy": 5.409690895080566,
       "epoch": 1.871042026482441,
+      "grad_norm": 1.3088161945343018,
+      "learning_rate": 1.2813199764289923e-06,
+      "loss": 5.2348,
+      "mean_token_accuracy": 0.32325415283441544,
+      "num_tokens": 3474399.0,
       "step": 3250
     },
     {
+      "entropy": 5.44662567615509,
       "epoch": 1.8998272884283247,
+      "grad_norm": 2.178372621536255,
+      "learning_rate": 1.2695344725987036e-06,
+      "loss": 5.2661,
+      "mean_token_accuracy": 0.3182847076654434,
+      "num_tokens": 3527726.0,
       "step": 3300
     },
     {
+      "entropy": 5.512614865303039,
       "epoch": 1.9286125503742084,
+      "grad_norm": 1.3050425052642822,
+      "learning_rate": 1.2577489687684147e-06,
+      "loss": 5.3416,
+      "mean_token_accuracy": 0.3084403133392334,
+      "num_tokens": 3581980.0,
       "step": 3350
     },
     {
+      "entropy": 5.379772834777832,
       "epoch": 1.9573978123200921,
+      "grad_norm": 1.4584404230117798,
+      "learning_rate": 1.245963464938126e-06,
+      "loss": 5.2087,
+      "mean_token_accuracy": 0.32388432770967485,
+      "num_tokens": 3635393.0,
       "step": 3400
     },
     {
+      "entropy": 5.483665924072266,
       "epoch": 1.9861830742659758,
+      "grad_norm": 1.2157734632492065,
+      "learning_rate": 1.2341779611078374e-06,
+      "loss": 5.3101,
+      "mean_token_accuracy": 0.3121953472495079,
+      "num_tokens": 3689894.0,
       "step": 3450
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 5.711394641805904,
+      "eval_loss": 5.55628776550293,
+      "eval_mean_token_accuracy": 0.2764948787777105,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 3712724.0,
+      "eval_runtime": 50.187,
+      "eval_samples_per_second": 8.648,
+      "eval_steps_per_second": 4.324,
       "step": 3474
     },
     {
+      "entropy": 5.349283556938172,
       "epoch": 2.0149683362118593,
+      "grad_norm": 1.1696771383285522,
+      "learning_rate": 1.2223924572775486e-06,
+      "loss": 5.1782,
+      "mean_token_accuracy": 0.33028870791196824,
+      "num_tokens": 3740861.0,
       "step": 3500
     },
     {
+      "entropy": 5.4721107006073,
       "epoch": 2.043753598157743,
+      "grad_norm": 1.8449370861053467,
+      "learning_rate": 1.2106069534472599e-06,
+      "loss": 5.2978,
+      "mean_token_accuracy": 0.31511022299528124,
+      "num_tokens": 3794869.0,
       "step": 3550
     },
     {
+      "entropy": 5.404226851463318,
       "epoch": 2.0725388601036268,
+      "grad_norm": 3.789496660232544,
+      "learning_rate": 1.198821449616971e-06,
+      "loss": 5.2371,
+      "mean_token_accuracy": 0.32092176616191864,
+      "num_tokens": 3848573.0,
       "step": 3600
     },
     {
+      "entropy": 5.435445628166199,
       "epoch": 2.1013241220495105,
+      "grad_norm": 2.2847959995269775,
+      "learning_rate": 1.1870359457866824e-06,
+      "loss": 5.2662,
+      "mean_token_accuracy": 0.3186633634567261,
+      "num_tokens": 3901204.0,
       "step": 3650
     },
     {
+      "entropy": 5.4066293334960935,
       "epoch": 2.130109383995394,
+      "grad_norm": 1.0950902700424194,
+      "learning_rate": 1.1752504419563935e-06,
+      "loss": 5.2345,
+      "mean_token_accuracy": 0.32156052827835085,
+      "num_tokens": 3953753.0,
       "step": 3700
     },
     {
+      "entropy": 5.272332944869995,
       "epoch": 2.158894645941278,
+      "grad_norm": 2.1477339267730713,
+      "learning_rate": 1.1634649381261048e-06,
+      "loss": 5.1091,
+      "mean_token_accuracy": 0.3380983591079712,
+      "num_tokens": 4005481.0,
       "step": 3750
     },
     {
+      "entropy": 5.4118804311752315,
       "epoch": 2.1876799078871616,
+      "grad_norm": 1.4509484767913818,
+      "learning_rate": 1.151679434295816e-06,
+      "loss": 5.2448,
+      "mean_token_accuracy": 0.3208243528008461,
+      "num_tokens": 4058829.0,
       "step": 3800
     },
     {
+      "entropy": 5.4763900089263915,
       "epoch": 2.2164651698330453,
+      "grad_norm": 1.0856804847717285,
+      "learning_rate": 1.1398939304655273e-06,
+      "loss": 5.3042,
+      "mean_token_accuracy": 0.31338351368904116,
+      "num_tokens": 4113326.0,
       "step": 3850
     },
     {
+      "entropy": 5.328452725410461,
       "epoch": 2.245250431778929,
+      "grad_norm": 3.2843880653381348,
+      "learning_rate": 1.1281084266352386e-06,
+      "loss": 5.1624,
+      "mean_token_accuracy": 0.3305218696594238,
+      "num_tokens": 4165454.0,
       "step": 3900
     },
     {
+      "entropy": 5.383157343864441,
       "epoch": 2.2740356937248127,
+      "grad_norm": 2.207082748413086,
+      "learning_rate": 1.1163229228049497e-06,
+      "loss": 5.2163,
+      "mean_token_accuracy": 0.32331310987472534,
+      "num_tokens": 4219250.0,
       "step": 3950
     },
     {
+      "entropy": 5.585261764526368,
       "epoch": 2.3028209556706964,
+      "grad_norm": 2.7102835178375244,
+      "learning_rate": 1.104537418974661e-06,
+      "loss": 5.4137,
+      "mean_token_accuracy": 0.29959124475717547,
+      "num_tokens": 4274711.0,
       "step": 4000
     },
     {
+      "entropy": 5.434073266983032,
       "epoch": 2.33160621761658,
+      "grad_norm": 1.3775779008865356,
+      "learning_rate": 1.0927519151443724e-06,
+      "loss": 5.2644,
+      "mean_token_accuracy": 0.3175011593103409,
+      "num_tokens": 4328616.0,
       "step": 4050
     },
     {
+      "entropy": 5.462391858100891,
       "epoch": 2.360391479562464,
+      "grad_norm": 1.4101024866104126,
+      "learning_rate": 1.0809664113140838e-06,
+      "loss": 5.2924,
+      "mean_token_accuracy": 0.3137941011786461,
+      "num_tokens": 4382416.0,
       "step": 4100
     },
     {
+      "entropy": 5.529892563819885,
       "epoch": 2.3891767415083476,
+      "grad_norm": 1.2311837673187256,
+      "learning_rate": 1.0691809074837949e-06,
+      "loss": 5.364,
+      "mean_token_accuracy": 0.3046491605043411,
+      "num_tokens": 4437848.0,
       "step": 4150
     },
     {
+      "entropy": 5.4370484542846675,
       "epoch": 2.4179620034542313,
+      "grad_norm": 1.0929864645004272,
+      "learning_rate": 1.0573954036535062e-06,
+      "loss": 5.2734,
+      "mean_token_accuracy": 0.3169013774394989,
+      "num_tokens": 4491185.0,
       "step": 4200
     },
     {
+      "entropy": 5.395377616882325,
       "epoch": 2.446747265400115,
+      "grad_norm": 1.5457273721694946,
+      "learning_rate": 1.0456098998232174e-06,
+      "loss": 5.2276,
+      "mean_token_accuracy": 0.32221508473157884,
+      "num_tokens": 4544086.0,
       "step": 4250
     },
     {
+      "entropy": 5.443737335205078,
       "epoch": 2.4755325273459987,
+      "grad_norm": 1.4844346046447754,
+      "learning_rate": 1.0338243959929287e-06,
+      "loss": 5.2786,
+      "mean_token_accuracy": 0.3157751387357712,
+      "num_tokens": 4597677.0,
       "step": 4300
     },
     {
+      "entropy": 5.419876251220703,
       "epoch": 2.5043177892918824,
+      "grad_norm": 1.2481963634490967,
+      "learning_rate": 1.02203889216264e-06,
+      "loss": 5.2564,
+      "mean_token_accuracy": 0.31889803290367125,
+      "num_tokens": 4651343.0,
       "step": 4350
     },
     {
+      "entropy": 5.578677978515625,
       "epoch": 2.533103051237766,
+      "grad_norm": 2.0005414485931396,
+      "learning_rate": 1.0102533883323512e-06,
+      "loss": 5.4145,
+      "mean_token_accuracy": 0.30037090003490446,
+      "num_tokens": 4705985.0,
       "step": 4400
     },
     {
+      "entropy": 5.279946126937866,
       "epoch": 2.56188831318365,
+      "grad_norm": 1.080521821975708,
+      "learning_rate": 9.984678845020625e-07,
+      "loss": 5.1226,
+      "mean_token_accuracy": 0.3341303279995918,
+      "num_tokens": 4757741.0,
       "step": 4450
     },
     {
+      "entropy": 5.551463279724121,
       "epoch": 2.5906735751295336,
+      "grad_norm": 1.28898024559021,
+      "learning_rate": 9.866823806717736e-07,
+      "loss": 5.3832,
+      "mean_token_accuracy": 0.3028248634934425,
+      "num_tokens": 4812808.0,
       "step": 4500
     },
     {
+      "entropy": 5.3787487554550175,
       "epoch": 2.6194588370754173,
+      "grad_norm": 1.5697983503341675,
+      "learning_rate": 9.74896876841485e-07,
+      "loss": 5.2141,
+      "mean_token_accuracy": 0.3227942296862602,
+      "num_tokens": 4866572.0,
       "step": 4550
     },
     {
+      "entropy": 5.460358958244324,
       "epoch": 2.648244099021301,
+      "grad_norm": 1.3180441856384277,
+      "learning_rate": 9.63111373011196e-07,
+      "loss": 5.2954,
+      "mean_token_accuracy": 0.31269474506378175,
+      "num_tokens": 4921312.0,
       "step": 4600
     },
     {
+      "entropy": 5.434084935188293,
       "epoch": 2.6770293609671847,
+      "grad_norm": 1.2409590482711792,
+      "learning_rate": 9.513258691809074e-07,
+      "loss": 5.271,
+      "mean_token_accuracy": 0.3172155100107193,
+      "num_tokens": 4974289.0,
       "step": 4650
     },
     {
+      "entropy": 5.406955418586731,
       "epoch": 2.7058146229130684,
+      "grad_norm": 1.4782609939575195,
+      "learning_rate": 9.395403653506187e-07,
+      "loss": 5.2473,
+      "mean_token_accuracy": 0.32031788885593415,
+      "num_tokens": 5028149.0,
       "step": 4700
     },
     {
+      "entropy": 5.206603040695191,
       "epoch": 2.734599884858952,
+      "grad_norm": 2.351633071899414,
+      "learning_rate": 9.2775486152033e-07,
+      "loss": 5.0478,
+      "mean_token_accuracy": 0.3428420132398605,
+      "num_tokens": 5079349.0,
       "step": 4750
     },
     {
+      "entropy": 5.388812799453735,
       "epoch": 2.763385146804836,
+      "grad_norm": 7.564618110656738,
+      "learning_rate": 9.159693576900412e-07,
+      "loss": 5.2281,
+      "mean_token_accuracy": 0.3222071170806885,
+      "num_tokens": 5132564.0,
       "step": 4800
     },
     {
+      "entropy": 5.374106278419495,
       "epoch": 2.7921704087507195,
+      "grad_norm": 1.4734679460525513,
+      "learning_rate": 9.041838538597525e-07,
+      "loss": 5.2161,
+      "mean_token_accuracy": 0.3219477406144142,
+      "num_tokens": 5185921.0,
       "step": 4850
     },
     {
+      "entropy": 5.232998585700988,
       "epoch": 2.8209556706966032,
+      "grad_norm": 1.4175471067428589,
+      "learning_rate": 8.923983500294637e-07,
+      "loss": 5.0769,
+      "mean_token_accuracy": 0.3403926733136177,
+      "num_tokens": 5237521.0,
       "step": 4900
     },
     {
+      "entropy": 5.394891719818116,
       "epoch": 2.849740932642487,
+      "grad_norm": 4.951873779296875,
+      "learning_rate": 8.806128461991749e-07,
+      "loss": 5.2344,
+      "mean_token_accuracy": 0.3213117456436157,
+      "num_tokens": 5291104.0,
       "step": 4950
     },
     {
+      "entropy": 5.413805012702942,
       "epoch": 2.8785261945883707,
+      "grad_norm": 1.679518461227417,
+      "learning_rate": 8.688273423688863e-07,
+      "loss": 5.2597,
+      "mean_token_accuracy": 0.3165634173154831,
+      "num_tokens": 5345058.0,
       "step": 5000
     },
     {
+      "entropy": 5.256177935600281,
       "epoch": 2.9073114565342544,
+      "grad_norm": 1.8892916440963745,
+      "learning_rate": 8.570418385385975e-07,
+      "loss": 5.1004,
+      "mean_token_accuracy": 0.3369427987933159,
+      "num_tokens": 5395918.0,
       "step": 5050
     },
     {
+      "entropy": 5.259814453125,
       "epoch": 2.936096718480138,
+      "grad_norm": 1.3802675008773804,
+      "learning_rate": 8.452563347083087e-07,
+      "loss": 5.1057,
+      "mean_token_accuracy": 0.3362414276599884,
+      "num_tokens": 5448086.0,
       "step": 5100
     },
     {
+      "entropy": 5.416206178665161,
       "epoch": 2.964881980426022,
+      "grad_norm": 1.7677236795425415,
+      "learning_rate": 8.3347083087802e-07,
+      "loss": 5.2562,
+      "mean_token_accuracy": 0.31725785195827483,
+      "num_tokens": 5501959.0,
       "step": 5150
     },
     {
+      "entropy": 5.507337794303894,
       "epoch": 2.9936672423719055,
+      "grad_norm": 1.021727442741394,
+      "learning_rate": 8.216853270477313e-07,
+      "loss": 5.344,
+      "mean_token_accuracy": 0.30679062128067014,
+      "num_tokens": 5557908.0,
       "step": 5200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 5.682707933786278,
+      "eval_loss": 5.53223991394043,
+      "eval_mean_token_accuracy": 0.27747743456594404,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 5569086.0,
+      "eval_runtime": 49.9944,
+      "eval_samples_per_second": 8.681,
+      "eval_steps_per_second": 4.34,
       "step": 5211
     }
   ],
   "logging_steps": 50,
+  "max_steps": 8685,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 7.632397197691392e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

checkpoint-5211/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8db5c304963110404ebb6947b83ba95bd9b8aad1f9b8b578cc33c46d601e13dc
 size 6225

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a666397e6243ddba6f7279c90610ed552907ef4de0be511faece3826d13e618
 size 6225

checkpoint-6948/adapter_config.json CHANGED Viewed

@@ -29,10 +29,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "k_proj",
     "v_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "k_proj",
     "v_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-6948/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a42655e5c5bf5a17388c99c67741b81d97a904a649f92d5298361717c78abaac
 size 26182176

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad17a7c29bcc91941e8e904522c1e1408f363f45d397b0f1a5a0c57829008c18
 size 26182176

checkpoint-6948/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f4dc67fd123c4a9f8eb45bc8894cccfeeb5a7766daf44f4ca97786db172fd5f
 size 52486155

 version https://git-lfs.github.com/spec/v1
+oid sha256:ad7e1547dc98180a197d1e09ff5462cc7435be478f2eadfbb7a35f3fe318cbac
 size 52486155

checkpoint-6948/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de23a91d8efb3b92e132a49e237b78926ed9acaded7b594b358633abace10591
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8368c41a01c88b53eacde3119bcf65f0f4d5b3c36a14adcf04f08f24495c404
 size 14645

checkpoint-6948/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ced24601208e373e591e4ce71c0d860f568ef5205374f58c5db9ee9e78232103
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fc55ff863a5856e69cbaf9eb3a96203d5bcf04c7648e579610743cc43b484f9
 size 1465

checkpoint-6948/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 6948,
-  "best_metric": 5.622366428375244,
   "best_model_checkpoint": "./output/checkpoint-6948",
   "epoch": 4.0,
   "eval_steps": 500,
@@ -10,1438 +10,1438 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 3.6583470726013183,
       "epoch": 0.028785261945883708,
-      "grad_norm": 3.3817152976989746,
       "learning_rate": 4.9e-07,
-      "loss": 13.8754,
-      "mean_token_accuracy": 0.15036460414528846,
-      "num_tokens": 53093.0,
       "step": 50
     },
     {
-      "entropy": 3.669608063697815,
       "epoch": 0.057570523891767415,
-      "grad_norm": 3.2541544437408447,
       "learning_rate": 9.9e-07,
-      "loss": 14.2282,
-      "mean_token_accuracy": 0.14137721598148345,
-      "num_tokens": 108334.0,
       "step": 100
     },
     {
-      "entropy": 3.569736371040344,
       "epoch": 0.08635578583765112,
-      "grad_norm": 3.6797454357147217,
       "learning_rate": 1.49e-06,
-      "loss": 13.0735,
-      "mean_token_accuracy": 0.17473630651831626,
-      "num_tokens": 157491.0,
       "step": 150
     },
     {
-      "entropy": 3.7253233194351196,
       "epoch": 0.11514104778353483,
-      "grad_norm": 4.297911643981934,
       "learning_rate": 1.99e-06,
-      "loss": 13.7392,
-      "mean_token_accuracy": 0.1473099772632122,
-      "num_tokens": 211394.0,
       "step": 200
     },
     {
-      "entropy": 3.8280500602722167,
       "epoch": 0.14392630972941853,
-      "grad_norm": 4.405268669128418,
-      "learning_rate": 1.9854771784232364e-06,
-      "loss": 13.0797,
-      "mean_token_accuracy": 0.16704789966344832,
-      "num_tokens": 263685.0,
       "step": 250
     },
     {
-      "entropy": 4.066333084106446,
       "epoch": 0.17271157167530224,
-      "grad_norm": 4.757556438446045,
-      "learning_rate": 1.9706579727326615e-06,
-      "loss": 12.6321,
-      "mean_token_accuracy": 0.1691790708899498,
-      "num_tokens": 314059.0,
       "step": 300
     },
     {
-      "entropy": 4.257266030311585,
       "epoch": 0.20149683362118595,
-      "grad_norm": 6.406249523162842,
-      "learning_rate": 1.955838767042086e-06,
-      "loss": 12.2253,
-      "mean_token_accuracy": 0.17223650276660918,
-      "num_tokens": 367038.0,
       "step": 350
     },
     {
-      "entropy": 4.694105777740479,
       "epoch": 0.23028209556706966,
-      "grad_norm": 12.57987117767334,
-      "learning_rate": 1.9410195613515113e-06,
-      "loss": 11.9714,
-      "mean_token_accuracy": 0.15997304677963256,
-      "num_tokens": 420327.0,
       "step": 400
     },
     {
-      "entropy": 5.205010280609131,
       "epoch": 0.25906735751295334,
-      "grad_norm": 15.570313453674316,
-      "learning_rate": 1.9262003556609364e-06,
-      "loss": 10.8173,
-      "mean_token_accuracy": 0.16447648257017136,
-      "num_tokens": 472429.0,
       "step": 450
     },
     {
-      "entropy": 5.917805089950561,
       "epoch": 0.28785261945883706,
-      "grad_norm": 23.61503791809082,
-      "learning_rate": 1.9113811499703615e-06,
-      "loss": 9.3196,
-      "mean_token_accuracy": 0.16179455041885377,
-      "num_tokens": 526315.0,
       "step": 500
     },
     {
-      "entropy": 6.380368332862854,
       "epoch": 0.31663788140472077,
-      "grad_norm": 13.846810340881348,
-      "learning_rate": 1.8965619442797864e-06,
-      "loss": 7.9636,
-      "mean_token_accuracy": 0.16881170988082886,
-      "num_tokens": 578511.0,
       "step": 550
     },
     {
-      "entropy": 6.507339992523193,
       "epoch": 0.3454231433506045,
-      "grad_norm": 4.569090366363525,
-      "learning_rate": 1.8817427385892115e-06,
-      "loss": 7.4171,
-      "mean_token_accuracy": 0.16941152423620223,
-      "num_tokens": 630937.0,
       "step": 600
     },
     {
-      "entropy": 6.392864561080932,
       "epoch": 0.3742084052964882,
-      "grad_norm": 4.594696521759033,
-      "learning_rate": 1.8669235328986366e-06,
-      "loss": 6.9389,
-      "mean_token_accuracy": 0.1844496901333332,
-      "num_tokens": 680501.0,
       "step": 650
     },
     {
-      "entropy": 6.6726202869415285,
       "epoch": 0.4029936672423719,
-      "grad_norm": 4.768734931945801,
-      "learning_rate": 1.8521043272080617e-06,
-      "loss": 6.9818,
-      "mean_token_accuracy": 0.16990411713719367,
-      "num_tokens": 733231.0,
       "step": 700
     },
     {
-      "entropy": 6.592793455123902,
       "epoch": 0.4317789291882556,
-      "grad_norm": 3.253056764602661,
-      "learning_rate": 1.8372851215174864e-06,
-      "loss": 6.7105,
-      "mean_token_accuracy": 0.18250102579593658,
-      "num_tokens": 785373.0,
       "step": 750
     },
     {
-      "entropy": 6.683582029342651,
       "epoch": 0.4605641911341393,
-      "grad_norm": 2.1871063709259033,
-      "learning_rate": 1.8224659158269115e-06,
-      "loss": 6.6685,
-      "mean_token_accuracy": 0.17129646152257919,
-      "num_tokens": 838646.0,
       "step": 800
     },
     {
-      "entropy": 6.636875295639038,
       "epoch": 0.48934945308002303,
-      "grad_norm": 3.2284677028656006,
-      "learning_rate": 1.8076467101363366e-06,
-      "loss": 6.53,
-      "mean_token_accuracy": 0.18053789794445038,
-      "num_tokens": 892380.0,
       "step": 850
     },
     {
-      "entropy": 6.610673260688782,
       "epoch": 0.5181347150259067,
-      "grad_norm": 2.2088730335235596,
-      "learning_rate": 1.7928275044457617e-06,
-      "loss": 6.4429,
-      "mean_token_accuracy": 0.18492739230394364,
-      "num_tokens": 947971.0,
       "step": 900
     },
     {
-      "entropy": 6.242899022102356,
       "epoch": 0.5469199769717904,
-      "grad_norm": 2.3000030517578125,
-      "learning_rate": 1.7780082987551866e-06,
-      "loss": 6.047,
-      "mean_token_accuracy": 0.2291259828209877,
-      "num_tokens": 998810.0,
       "step": 950
     },
     {
-      "entropy": 6.311488924026489,
       "epoch": 0.5757052389176741,
-      "grad_norm": 2.1333675384521484,
-      "learning_rate": 1.7631890930646115e-06,
-      "loss": 6.0919,
-      "mean_token_accuracy": 0.22644571751356124,
-      "num_tokens": 1050860.0,
       "step": 1000
     },
     {
-      "entropy": 6.3254336166381835,
       "epoch": 0.6044905008635578,
-      "grad_norm": 2.0400779247283936,
-      "learning_rate": 1.7483698873740366e-06,
-      "loss": 6.094,
-      "mean_token_accuracy": 0.2222653564810753,
-      "num_tokens": 1104304.0,
       "step": 1050
     },
     {
-      "entropy": 6.046922063827514,
       "epoch": 0.6332757628094415,
-      "grad_norm": 2.8049051761627197,
-      "learning_rate": 1.7335506816834617e-06,
-      "loss": 5.8011,
-      "mean_token_accuracy": 0.25127078920602797,
-      "num_tokens": 1153605.0,
       "step": 1100
     },
     {
-      "entropy": 5.943600912094116,
       "epoch": 0.6620610247553252,
-      "grad_norm": 4.063963890075684,
-      "learning_rate": 1.7187314759928866e-06,
-      "loss": 5.6855,
-      "mean_token_accuracy": 0.26265266716480257,
-      "num_tokens": 1204328.0,
       "step": 1150
     },
     {
-      "entropy": 6.12883231639862,
       "epoch": 0.690846286701209,
-      "grad_norm": 3.9440460205078125,
-      "learning_rate": 1.7039122703023117e-06,
-      "loss": 5.8578,
-      "mean_token_accuracy": 0.24439335912466048,
-      "num_tokens": 1257415.0,
       "step": 1200
     },
     {
-      "entropy": 6.164987115859986,
       "epoch": 0.7196315486470927,
-      "grad_norm": 3.20070481300354,
-      "learning_rate": 1.6890930646117368e-06,
-      "loss": 5.8876,
-      "mean_token_accuracy": 0.24275501281023026,
-      "num_tokens": 1310049.0,
       "step": 1250
     },
     {
-      "entropy": 6.080997190475464,
       "epoch": 0.7484168105929764,
-      "grad_norm": 2.8067362308502197,
-      "learning_rate": 1.6742738589211617e-06,
-      "loss": 5.8058,
-      "mean_token_accuracy": 0.25242207854986193,
-      "num_tokens": 1361794.0,
       "step": 1300
     },
     {
-      "entropy": 5.940848155021667,
       "epoch": 0.7772020725388601,
-      "grad_norm": 2.6375925540924072,
-      "learning_rate": 1.6594546532305868e-06,
-      "loss": 5.6718,
-      "mean_token_accuracy": 0.2665082859992981,
-      "num_tokens": 1412773.0,
       "step": 1350
     },
     {
-      "entropy": 6.071129274368286,
       "epoch": 0.8059873344847438,
-      "grad_norm": 3.951350212097168,
-      "learning_rate": 1.6446354475400117e-06,
-      "loss": 5.8012,
-      "mean_token_accuracy": 0.25434976994991304,
-      "num_tokens": 1465620.0,
       "step": 1400
     },
     {
-      "entropy": 6.069429359436035,
       "epoch": 0.8347725964306275,
-      "grad_norm": 3.580608606338501,
-      "learning_rate": 1.6298162418494368e-06,
-      "loss": 5.8027,
-      "mean_token_accuracy": 0.25208072274923327,
-      "num_tokens": 1518899.0,
       "step": 1450
     },
     {
-      "entropy": 6.005315380096436,
       "epoch": 0.8635578583765112,
-      "grad_norm": 3.9580376148223877,
-      "learning_rate": 1.614997036158862e-06,
-      "loss": 5.7364,
-      "mean_token_accuracy": 0.25940640360116957,
-      "num_tokens": 1571304.0,
       "step": 1500
     },
     {
-      "entropy": 6.0786464881896975,
       "epoch": 0.8923431203223949,
-      "grad_norm": 4.55721378326416,
-      "learning_rate": 1.6001778304682868e-06,
-      "loss": 5.8092,
-      "mean_token_accuracy": 0.2496869170665741,
-      "num_tokens": 1627369.0,
       "step": 1550
     },
     {
-      "entropy": 5.939382014274597,
       "epoch": 0.9211283822682786,
-      "grad_norm": 2.330057144165039,
-      "learning_rate": 1.5853586247777117e-06,
-      "loss": 5.6604,
-      "mean_token_accuracy": 0.2686630353331566,
-      "num_tokens": 1680401.0,
       "step": 1600
     },
     {
-      "entropy": 6.121775646209716,
       "epoch": 0.9499136442141624,
-      "grad_norm": 2.9881200790405273,
-      "learning_rate": 1.5705394190871368e-06,
-      "loss": 5.8388,
-      "mean_token_accuracy": 0.2503683388233185,
-      "num_tokens": 1735745.0,
       "step": 1650
     },
     {
-      "entropy": 5.840040788650513,
       "epoch": 0.9786989061600461,
-      "grad_norm": 3.798994779586792,
-      "learning_rate": 1.555720213396562e-06,
-      "loss": 5.5635,
-      "mean_token_accuracy": 0.278279125392437,
-      "num_tokens": 1786896.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 6.139133475343203,
-      "eval_loss": 5.861395835876465,
-      "eval_mean_token_accuracy": 0.2402858340657801,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 1825107.0,
-      "eval_runtime": 79.3994,
-      "eval_samples_per_second": 5.466,
-      "eval_steps_per_second": 2.733,
       "step": 1737
     },
     {
-      "entropy": 5.8970259666442875,
       "epoch": 1.0074841681059297,
-      "grad_norm": 2.6411802768707275,
-      "learning_rate": 1.540901007705987e-06,
-      "loss": 5.614,
-      "mean_token_accuracy": 0.273006406724453,
-      "num_tokens": 1838864.0,
       "step": 1750
     },
     {
-      "entropy": 6.0111794090271,
       "epoch": 1.0362694300518134,
-      "grad_norm": 3.6491827964782715,
-      "learning_rate": 1.526081802015412e-06,
-      "loss": 5.7323,
-      "mean_token_accuracy": 0.26104256987571717,
-      "num_tokens": 1893816.0,
       "step": 1800
     },
     {
-      "entropy": 5.902219276428223,
       "epoch": 1.065054691997697,
-      "grad_norm": 2.593249559402466,
-      "learning_rate": 1.5112625963248368e-06,
-      "loss": 5.6187,
-      "mean_token_accuracy": 0.2746362566947937,
-      "num_tokens": 1946532.0,
       "step": 1850
     },
     {
-      "entropy": 5.874705944061279,
       "epoch": 1.0938399539435808,
-      "grad_norm": 2.554327964782715,
-      "learning_rate": 1.496443390634262e-06,
-      "loss": 5.6021,
-      "mean_token_accuracy": 0.2795292744040489,
-      "num_tokens": 2000184.0,
       "step": 1900
     },
     {
-      "entropy": 5.850096368789673,
       "epoch": 1.1226252158894645,
-      "grad_norm": 3.6060993671417236,
-      "learning_rate": 1.481624184943687e-06,
-      "loss": 5.576,
-      "mean_token_accuracy": 0.28532547056674956,
-      "num_tokens": 2052250.0,
       "step": 1950
     },
     {
-      "entropy": 5.802229671478272,
       "epoch": 1.1514104778353482,
-      "grad_norm": 3.0913314819335938,
-      "learning_rate": 1.466804979253112e-06,
-      "loss": 5.53,
-      "mean_token_accuracy": 0.2916027933359146,
-      "num_tokens": 2103531.0,
       "step": 2000
     },
     {
-      "entropy": 5.875646467208862,
       "epoch": 1.180195739781232,
-      "grad_norm": 4.777045726776123,
-      "learning_rate": 1.451985773562537e-06,
-      "loss": 5.6146,
-      "mean_token_accuracy": 0.28063644528388976,
-      "num_tokens": 2157098.0,
       "step": 2050
     },
     {
-      "entropy": 5.786596937179565,
       "epoch": 1.2089810017271156,
-      "grad_norm": 4.207762718200684,
-      "learning_rate": 1.437166567871962e-06,
-      "loss": 5.5417,
-      "mean_token_accuracy": 0.2870470091700554,
-      "num_tokens": 2211827.0,
       "step": 2100
     },
     {
-      "entropy": 5.672234449386597,
       "epoch": 1.2377662636729994,
-      "grad_norm": 2.2771811485290527,
-      "learning_rate": 1.422347362181387e-06,
-      "loss": 5.4285,
-      "mean_token_accuracy": 0.30194485366344453,
-      "num_tokens": 2262174.0,
       "step": 2150
     },
     {
-      "entropy": 5.862573285102844,
       "epoch": 1.266551525618883,
-      "grad_norm": 3.3273422718048096,
-      "learning_rate": 1.4075281564908121e-06,
-      "loss": 5.6169,
-      "mean_token_accuracy": 0.278145115673542,
-      "num_tokens": 2316440.0,
       "step": 2200
     },
     {
-      "entropy": 5.734760231971741,
       "epoch": 1.2953367875647668,
-      "grad_norm": 3.7049715518951416,
-      "learning_rate": 1.392708950800237e-06,
-      "loss": 5.493,
-      "mean_token_accuracy": 0.2941485676169395,
-      "num_tokens": 2368468.0,
       "step": 2250
     },
     {
-      "entropy": 5.665819988250733,
       "epoch": 1.3241220495106505,
-      "grad_norm": 3.572636604309082,
-      "learning_rate": 1.3778897451096621e-06,
-      "loss": 5.4352,
-      "mean_token_accuracy": 0.3003745040297508,
-      "num_tokens": 2421180.0,
       "step": 2300
     },
     {
-      "entropy": 5.890115032196045,
       "epoch": 1.3529073114565342,
-      "grad_norm": 2.738203525543213,
-      "learning_rate": 1.3630705394190872e-06,
-      "loss": 5.6555,
-      "mean_token_accuracy": 0.2737997192144394,
-      "num_tokens": 2476255.0,
       "step": 2350
     },
     {
-      "entropy": 5.66056040763855,
       "epoch": 1.381692573402418,
-      "grad_norm": 3.1416995525360107,
-      "learning_rate": 1.3482513337285121e-06,
-      "loss": 5.4302,
-      "mean_token_accuracy": 0.3000989046692848,
-      "num_tokens": 2527674.0,
       "step": 2400
     },
     {
-      "entropy": 5.861240615844727,
       "epoch": 1.4104778353483016,
-      "grad_norm": 2.7569284439086914,
-      "learning_rate": 1.333432128037937e-06,
-      "loss": 5.6304,
-      "mean_token_accuracy": 0.27707513481378554,
-      "num_tokens": 2582909.0,
       "step": 2450
     },
     {
-      "entropy": 5.627686910629272,
       "epoch": 1.4392630972941853,
-      "grad_norm": 1.7750262022018433,
-      "learning_rate": 1.3186129223473621e-06,
-      "loss": 5.4058,
-      "mean_token_accuracy": 0.3019809901714325,
-      "num_tokens": 2636579.0,
       "step": 2500
     },
     {
-      "entropy": 5.607026796340943,
       "epoch": 1.468048359240069,
-      "grad_norm": 3.1005160808563232,
-      "learning_rate": 1.3037937166567872e-06,
-      "loss": 5.3836,
-      "mean_token_accuracy": 0.30584611505270004,
-      "num_tokens": 2687698.0,
       "step": 2550
     },
     {
-      "entropy": 5.6909641885757445,
       "epoch": 1.4968336211859528,
-      "grad_norm": 1.6848654747009277,
-      "learning_rate": 1.2889745109662123e-06,
-      "loss": 5.4653,
-      "mean_token_accuracy": 0.296178964972496,
-      "num_tokens": 2740214.0,
       "step": 2600
     },
     {
-      "entropy": 5.619450302124023,
       "epoch": 1.5256188831318365,
-      "grad_norm": 2.469539165496826,
-      "learning_rate": 1.274155305275637e-06,
-      "loss": 5.4022,
-      "mean_token_accuracy": 0.3039679077267647,
-      "num_tokens": 2792574.0,
       "step": 2650
     },
     {
-      "entropy": 5.61073097705841,
       "epoch": 1.5544041450777202,
-      "grad_norm": 2.367810010910034,
-      "learning_rate": 1.259336099585062e-06,
-      "loss": 5.3956,
-      "mean_token_accuracy": 0.3051413372159004,
-      "num_tokens": 2845597.0,
       "step": 2700
     },
     {
-      "entropy": 5.5791136837005615,
       "epoch": 1.583189407023604,
-      "grad_norm": 2.3874764442443848,
-      "learning_rate": 1.2445168938944872e-06,
-      "loss": 5.3676,
-      "mean_token_accuracy": 0.3068238252401352,
-      "num_tokens": 2898683.0,
       "step": 2750
     },
     {
-      "entropy": 5.735381307601929,
       "epoch": 1.6119746689694876,
-      "grad_norm": 2.2097349166870117,
-      "learning_rate": 1.2296976882039123e-06,
-      "loss": 5.5239,
-      "mean_token_accuracy": 0.28974882304668426,
-      "num_tokens": 2952290.0,
       "step": 2800
     },
     {
-      "entropy": 5.55252691745758,
       "epoch": 1.6407599309153713,
-      "grad_norm": 1.694831132888794,
-      "learning_rate": 1.2148784825133372e-06,
-      "loss": 5.351,
-      "mean_token_accuracy": 0.3091904193162918,
-      "num_tokens": 3004556.0,
       "step": 2850
     },
     {
-      "entropy": 5.508773093223572,
       "epoch": 1.669545192861255,
-      "grad_norm": 1.8229279518127441,
-      "learning_rate": 1.200059276822762e-06,
-      "loss": 5.3164,
-      "mean_token_accuracy": 0.31158645361661913,
-      "num_tokens": 3056448.0,
       "step": 2900
     },
     {
-      "entropy": 5.676794271469117,
       "epoch": 1.6983304548071387,
-      "grad_norm": 1.7196234464645386,
-      "learning_rate": 1.1852400711321872e-06,
-      "loss": 5.4776,
-      "mean_token_accuracy": 0.2929128894209862,
-      "num_tokens": 3109539.0,
       "step": 2950
     },
     {
-      "entropy": 5.551529383659362,
       "epoch": 1.7271157167530224,
-      "grad_norm": 3.117525577545166,
-      "learning_rate": 1.1704208654416123e-06,
-      "loss": 5.3561,
-      "mean_token_accuracy": 0.30634030640125276,
-      "num_tokens": 3162421.0,
       "step": 3000
     },
     {
-      "entropy": 5.379635264873505,
       "epoch": 1.7559009786989062,
-      "grad_norm": 1.876755714416504,
-      "learning_rate": 1.1556016597510372e-06,
-      "loss": 5.1868,
-      "mean_token_accuracy": 0.32913618892431257,
-      "num_tokens": 3212079.0,
       "step": 3050
     },
     {
-      "entropy": 5.538804936408996,
       "epoch": 1.7846862406447899,
-      "grad_norm": 1.8670976161956787,
-      "learning_rate": 1.1407824540604623e-06,
-      "loss": 5.3494,
-      "mean_token_accuracy": 0.30661171555519107,
-      "num_tokens": 3264089.0,
       "step": 3100
     },
     {
-      "entropy": 5.258263626098633,
       "epoch": 1.8134715025906736,
-      "grad_norm": 2.748718023300171,
-      "learning_rate": 1.1259632483698874e-06,
-      "loss": 5.08,
-      "mean_token_accuracy": 0.3413010013103485,
-      "num_tokens": 3311881.0,
       "step": 3150
     },
     {
-      "entropy": 5.54539008140564,
       "epoch": 1.8422567645365573,
-      "grad_norm": 1.8556406497955322,
-      "learning_rate": 1.1111440426793123e-06,
-      "loss": 5.3614,
-      "mean_token_accuracy": 0.30550685405731204,
-      "num_tokens": 3364861.0,
       "step": 3200
     },
     {
-      "entropy": 5.5433073282241825,
       "epoch": 1.871042026482441,
-      "grad_norm": 1.8386749029159546,
-      "learning_rate": 1.0963248369887374e-06,
-      "loss": 5.3543,
-      "mean_token_accuracy": 0.30875524014234546,
-      "num_tokens": 3415911.0,
       "step": 3250
     },
     {
-      "entropy": 5.5769769477844235,
       "epoch": 1.8998272884283247,
-      "grad_norm": 1.922486662864685,
-      "learning_rate": 1.0815056312981623e-06,
-      "loss": 5.3834,
-      "mean_token_accuracy": 0.3035113242268562,
-      "num_tokens": 3468338.0,
       "step": 3300
     },
     {
-      "entropy": 5.640013842582703,
       "epoch": 1.9286125503742084,
-      "grad_norm": 2.179500102996826,
-      "learning_rate": 1.0666864256075874e-06,
-      "loss": 5.4574,
-      "mean_token_accuracy": 0.2947095710039139,
-      "num_tokens": 3521693.0,
       "step": 3350
     },
     {
-      "entropy": 5.506910061836242,
       "epoch": 1.9573978123200921,
-      "grad_norm": 1.4014379978179932,
-      "learning_rate": 1.0518672199170125e-06,
-      "loss": 5.3234,
-      "mean_token_accuracy": 0.3096472260355949,
-      "num_tokens": 3574206.0,
       "step": 3400
     },
     {
-      "entropy": 5.607311015129089,
       "epoch": 1.9861830742659758,
-      "grad_norm": 1.41231107711792,
-      "learning_rate": 1.0370480142264374e-06,
-      "loss": 5.4226,
-      "mean_token_accuracy": 0.2979922544956207,
-      "num_tokens": 3627807.0,
       "step": 3450
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 5.831721861790951,
-      "eval_loss": 5.656307220458984,
-      "eval_mean_token_accuracy": 0.2641724460685308,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 3650214.0,
-      "eval_runtime": 79.7324,
-      "eval_samples_per_second": 5.443,
-      "eval_steps_per_second": 2.722,
       "step": 3474
     },
     {
-      "entropy": 5.477711625099182,
       "epoch": 2.0149683362118593,
-      "grad_norm": 3.0133137702941895,
-      "learning_rate": 1.0222288085358623e-06,
-      "loss": 5.2957,
-      "mean_token_accuracy": 0.31543311327695844,
-      "num_tokens": 3677883.0,
       "step": 3500
     },
     {
-      "entropy": 5.599187393188476,
       "epoch": 2.043753598157743,
-      "grad_norm": 1.885867714881897,
-      "learning_rate": 1.0074096028452874e-06,
-      "loss": 5.4142,
-      "mean_token_accuracy": 0.3004470923542976,
-      "num_tokens": 3730991.0,
       "step": 3550
     },
     {
-      "entropy": 5.526448183059692,
       "epoch": 2.0725388601036268,
-      "grad_norm": 4.50788688659668,
-      "learning_rate": 9.925903971547125e-07,
-      "loss": 5.3517,
-      "mean_token_accuracy": 0.3069574165344238,
-      "num_tokens": 3783795.0,
       "step": 3600
     },
     {
-      "entropy": 5.560557870864868,
       "epoch": 2.1013241220495105,
-      "grad_norm": 1.927862524986267,
-      "learning_rate": 9.777711914641374e-07,
-      "loss": 5.3815,
-      "mean_token_accuracy": 0.3045575937628746,
-      "num_tokens": 3835526.0,
       "step": 3650
     },
     {
-      "entropy": 5.528058257102966,
       "epoch": 2.130109383995394,
-      "grad_norm": 2.164687156677246,
-      "learning_rate": 9.629519857735625e-07,
-      "loss": 5.3501,
-      "mean_token_accuracy": 0.3071546205878258,
-      "num_tokens": 3887175.0,
       "step": 3700
     },
     {
-      "entropy": 5.397617678642273,
       "epoch": 2.158894645941278,
-      "grad_norm": 2.3098385334014893,
-      "learning_rate": 9.481327800829875e-07,
-      "loss": 5.2244,
-      "mean_token_accuracy": 0.3226669803261757,
-      "num_tokens": 3938003.0,
       "step": 3750
     },
     {
-      "entropy": 5.529960298538208,
       "epoch": 2.1876799078871616,
-      "grad_norm": 1.8144755363464355,
-      "learning_rate": 9.333135743924125e-07,
-      "loss": 5.3572,
-      "mean_token_accuracy": 0.306032218337059,
-      "num_tokens": 3990451.0,
       "step": 3800
     },
     {
-      "entropy": 5.597109637260437,
       "epoch": 2.2164651698330453,
-      "grad_norm": 2.7306935787200928,
-      "learning_rate": 9.184943687018375e-07,
-      "loss": 5.4162,
-      "mean_token_accuracy": 0.2985941395163536,
-      "num_tokens": 4044048.0,
       "step": 3850
     },
     {
-      "entropy": 5.448684883117676,
       "epoch": 2.245250431778929,
-      "grad_norm": 1.8199880123138428,
-      "learning_rate": 9.036751630112626e-07,
-      "loss": 5.2775,
-      "mean_token_accuracy": 0.31548845052719116,
-      "num_tokens": 4095276.0,
       "step": 3900
     },
     {
-      "entropy": 5.5008597612380985,
       "epoch": 2.2740356937248127,
-      "grad_norm": 1.755323052406311,
-      "learning_rate": 8.888559573206875e-07,
-      "loss": 5.3274,
-      "mean_token_accuracy": 0.309090721309185,
-      "num_tokens": 4148172.0,
       "step": 3950
     },
     {
-      "entropy": 5.7040300464630125,
       "epoch": 2.3028209556706964,
-      "grad_norm": 2.3154356479644775,
-      "learning_rate": 8.740367516301126e-07,
-      "loss": 5.5239,
-      "mean_token_accuracy": 0.28589318484067916,
-      "num_tokens": 4202733.0,
       "step": 4000
     },
     {
-      "entropy": 5.549855670928955,
       "epoch": 2.33160621761658,
-      "grad_norm": 1.9549669027328491,
-      "learning_rate": 8.592175459395375e-07,
-      "loss": 5.3755,
-      "mean_token_accuracy": 0.3029727828502655,
-      "num_tokens": 4255738.0,
       "step": 4050
     },
     {
-      "entropy": 5.579690465927124,
       "epoch": 2.360391479562464,
-      "grad_norm": 1.7018866539001465,
-      "learning_rate": 8.443983402489626e-07,
-      "loss": 5.4036,
-      "mean_token_accuracy": 0.3001995691657066,
-      "num_tokens": 4308638.0,
       "step": 4100
     },
     {
-      "entropy": 5.646504878997803,
       "epoch": 2.3891767415083476,
-      "grad_norm": 1.4139262437820435,
-      "learning_rate": 8.295791345583877e-07,
-      "loss": 5.4733,
-      "mean_token_accuracy": 0.2912476986646652,
-      "num_tokens": 4363170.0,
       "step": 4150
     },
     {
-      "entropy": 5.554990992546082,
       "epoch": 2.4179620034542313,
-      "grad_norm": 1.6886577606201172,
-      "learning_rate": 8.147599288678126e-07,
-      "loss": 5.3842,
-      "mean_token_accuracy": 0.302762059867382,
-      "num_tokens": 4415607.0,
       "step": 4200
     },
     {
-      "entropy": 5.513420124053955,
       "epoch": 2.446747265400115,
-      "grad_norm": 1.3537819385528564,
-      "learning_rate": 7.999407231772377e-07,
-      "loss": 5.3408,
-      "mean_token_accuracy": 0.30764526218175886,
-      "num_tokens": 4467608.0,
       "step": 4250
     },
     {
-      "entropy": 5.561378569602966,
       "epoch": 2.4755325273459987,
-      "grad_norm": 1.8514106273651123,
-      "learning_rate": 7.851215174866627e-07,
-      "loss": 5.3891,
-      "mean_token_accuracy": 0.301382859647274,
-      "num_tokens": 4520299.0,
       "step": 4300
     },
     {
-      "entropy": 5.536689953804016,
       "epoch": 2.5043177892918824,
-      "grad_norm": 2.1830835342407227,
-      "learning_rate": 7.703023117960877e-07,
-      "loss": 5.3672,
-      "mean_token_accuracy": 0.3047756373882294,
-      "num_tokens": 4573065.0,
       "step": 4350
     },
     {
-      "entropy": 5.69776873588562,
       "epoch": 2.533103051237766,
-      "grad_norm": 1.999536156654358,
-      "learning_rate": 7.554831061055127e-07,
-      "loss": 5.5236,
-      "mean_token_accuracy": 0.2868007507920265,
-      "num_tokens": 4626807.0,
       "step": 4400
     },
     {
-      "entropy": 5.3977436876297,
       "epoch": 2.56188831318365,
-      "grad_norm": 1.9608020782470703,
-      "learning_rate": 7.406639004149378e-07,
-      "loss": 5.2335,
-      "mean_token_accuracy": 0.3199601462483406,
-      "num_tokens": 4677663.0,
       "step": 4450
     },
     {
-      "entropy": 5.6681678771972654,
       "epoch": 2.5906735751295336,
-      "grad_norm": 1.829047441482544,
-      "learning_rate": 7.258446947243627e-07,
-      "loss": 5.491,
-      "mean_token_accuracy": 0.2894612854719162,
-      "num_tokens": 4731830.0,
       "step": 4500
     },
     {
-      "entropy": 5.49174174785614,
       "epoch": 2.6194588370754173,
-      "grad_norm": 1.3158719539642334,
-      "learning_rate": 7.110254890337878e-07,
-      "loss": 5.3225,
-      "mean_token_accuracy": 0.3084965732693672,
-      "num_tokens": 4784694.0,
       "step": 4550
     },
     {
-      "entropy": 5.573234438896179,
       "epoch": 2.648244099021301,
-      "grad_norm": 1.562915325164795,
-      "learning_rate": 6.962062833432127e-07,
-      "loss": 5.4028,
-      "mean_token_accuracy": 0.2989520016312599,
-      "num_tokens": 4838534.0,
       "step": 4600
     },
     {
-      "entropy": 5.550469598770142,
       "epoch": 2.6770293609671847,
-      "grad_norm": 2.114727735519409,
-      "learning_rate": 6.813870776526378e-07,
-      "loss": 5.3804,
-      "mean_token_accuracy": 0.30373542964458466,
-      "num_tokens": 4890611.0,
       "step": 4650
     },
     {
-      "entropy": 5.523049550056458,
       "epoch": 2.7058146229130684,
-      "grad_norm": 2.5036823749542236,
-      "learning_rate": 6.665678719620628e-07,
-      "loss": 5.3542,
-      "mean_token_accuracy": 0.30681024432182313,
-      "num_tokens": 4943571.0,
       "step": 4700
     },
     {
-      "entropy": 5.323453049659729,
       "epoch": 2.734599884858952,
-      "grad_norm": 1.8069168329238892,
-      "learning_rate": 6.517486662714878e-07,
-      "loss": 5.1583,
-      "mean_token_accuracy": 0.32906652927398683,
-      "num_tokens": 4993871.0,
       "step": 4750
     },
     {
-      "entropy": 5.504038324356079,
       "epoch": 2.763385146804836,
-      "grad_norm": 4.750283718109131,
-      "learning_rate": 6.369294605809128e-07,
-      "loss": 5.3366,
-      "mean_token_accuracy": 0.3087608867883682,
-      "num_tokens": 5046187.0,
       "step": 4800
     },
     {
-      "entropy": 5.487624549865723,
       "epoch": 2.7921704087507195,
-      "grad_norm": 1.4186172485351562,
-      "learning_rate": 6.221102548903379e-07,
-      "loss": 5.3237,
-      "mean_token_accuracy": 0.3088638699054718,
-      "num_tokens": 5098644.0,
       "step": 4850
     },
     {
-      "entropy": 5.346905107498169,
       "epoch": 2.8209556706966032,
-      "grad_norm": 1.5670177936553955,
-      "learning_rate": 6.072910491997628e-07,
-      "loss": 5.1849,
-      "mean_token_accuracy": 0.3265886321663857,
-      "num_tokens": 5149345.0,
       "step": 4900
     },
     {
-      "entropy": 5.510410032272339,
       "epoch": 2.849740932642487,
-      "grad_norm": 7.489855766296387,
-      "learning_rate": 5.924718435091879e-07,
-      "loss": 5.3424,
-      "mean_token_accuracy": 0.30768151730299,
-      "num_tokens": 5202028.0,
       "step": 4950
     },
     {
-      "entropy": 5.525181493759155,
       "epoch": 2.8785261945883707,
-      "grad_norm": 1.8829196691513062,
-      "learning_rate": 5.776526378186128e-07,
-      "loss": 5.3654,
-      "mean_token_accuracy": 0.30342737555503846,
-      "num_tokens": 5255082.0,
       "step": 5000
     },
     {
-      "entropy": 5.374098634719848,
       "epoch": 2.9073114565342544,
-      "grad_norm": 1.3901060819625854,
-      "learning_rate": 5.628334321280379e-07,
-      "loss": 5.2103,
-      "mean_token_accuracy": 0.3233291879296303,
-      "num_tokens": 5305042.0,
       "step": 5050
     },
     {
-      "entropy": 5.374619431495667,
       "epoch": 2.936096718480138,
-      "grad_norm": 1.6586560010910034,
-      "learning_rate": 5.48014226437463e-07,
-      "loss": 5.2125,
-      "mean_token_accuracy": 0.322759662270546,
-      "num_tokens": 5356310.0,
       "step": 5100
     },
     {
-      "entropy": 5.527479724884033,
       "epoch": 2.964881980426022,
-      "grad_norm": 1.6678485870361328,
-      "learning_rate": 5.331950207468879e-07,
-      "loss": 5.3627,
-      "mean_token_accuracy": 0.30430852621793747,
-      "num_tokens": 5409283.0,
       "step": 5150
     },
     {
-      "entropy": 5.6171248292922975,
       "epoch": 2.9936672423719055,
-      "grad_norm": 1.50790274143219,
-      "learning_rate": 5.18375815056313e-07,
-      "loss": 5.4484,
-      "mean_token_accuracy": 0.29375598043203355,
-      "num_tokens": 5464332.0,
       "step": 5200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 5.78779639186947,
-      "eval_loss": 5.628758430480957,
-      "eval_mean_token_accuracy": 0.2653660801698535,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 5475321.0,
-      "eval_runtime": 80.3676,
-      "eval_samples_per_second": 5.4,
-      "eval_steps_per_second": 2.7,
       "step": 5211
     },
     {
-      "entropy": 5.323350539207459,
       "epoch": 3.0224525043177892,
-      "grad_norm": 2.033228635787964,
-      "learning_rate": 5.03556609365738e-07,
-      "loss": 5.1623,
-      "mean_token_accuracy": 0.32844111531972886,
-      "num_tokens": 5514450.0,
       "step": 5250
     },
     {
-      "entropy": 5.509175033569336,
       "epoch": 3.051237766263673,
-      "grad_norm": 1.4281281232833862,
-      "learning_rate": 4.88737403675163e-07,
-      "loss": 5.3403,
-      "mean_token_accuracy": 0.30768867909908293,
-      "num_tokens": 5567345.0,
       "step": 5300
     },
     {
-      "entropy": 5.4536163854599,
       "epoch": 3.0800230282095566,
-      "grad_norm": 2.0320699214935303,
-      "learning_rate": 4.73918197984588e-07,
-      "loss": 5.2898,
-      "mean_token_accuracy": 0.31407355904579165,
-      "num_tokens": 5619654.0,
       "step": 5350
     },
     {
-      "entropy": 5.487306084632873,
       "epoch": 3.1088082901554404,
-      "grad_norm": 1.2829618453979492,
-      "learning_rate": 4.59098992294013e-07,
-      "loss": 5.3204,
-      "mean_token_accuracy": 0.30913869380950926,
-      "num_tokens": 5672269.0,
       "step": 5400
     },
     {
-      "entropy": 5.569495844841003,
       "epoch": 3.137593552101324,
-      "grad_norm": 2.231628656387329,
-      "learning_rate": 4.44279786603438e-07,
-      "loss": 5.4045,
-      "mean_token_accuracy": 0.30076681196689603,
-      "num_tokens": 5725059.0,
       "step": 5450
     },
     {
-      "entropy": 5.499957413673401,
       "epoch": 3.166378814047208,
-      "grad_norm": 1.549865484237671,
-      "learning_rate": 4.2946058091286305e-07,
-      "loss": 5.3415,
-      "mean_token_accuracy": 0.30755339056253433,
-      "num_tokens": 5776784.0,
       "step": 5500
     },
     {
-      "entropy": 5.664071002006531,
       "epoch": 3.1951640759930915,
-      "grad_norm": 1.2153443098068237,
-      "learning_rate": 4.146413752222881e-07,
-      "loss": 5.4948,
-      "mean_token_accuracy": 0.28785294711589815,
-      "num_tokens": 5832296.0,
       "step": 5550
     },
     {
-      "entropy": 5.516234860420227,
       "epoch": 3.223949337938975,
-      "grad_norm": 1.0542709827423096,
-      "learning_rate": 3.998221695317131e-07,
-      "loss": 5.3465,
-      "mean_token_accuracy": 0.3083792108297348,
-      "num_tokens": 5885122.0,
       "step": 5600
     },
     {
-      "entropy": 5.500826091766357,
       "epoch": 3.252734599884859,
-      "grad_norm": 2.2477681636810303,
-      "learning_rate": 3.850029638411381e-07,
-      "loss": 5.3385,
-      "mean_token_accuracy": 0.30737883657217024,
-      "num_tokens": 5938386.0,
       "step": 5650
     },
     {
-      "entropy": 5.517533864974975,
       "epoch": 3.2815198618307426,
-      "grad_norm": 1.03904128074646,
-      "learning_rate": 3.7018375815056315e-07,
-      "loss": 5.3533,
-      "mean_token_accuracy": 0.3064529225230217,
-      "num_tokens": 5989784.0,
       "step": 5700
     },
     {
-      "entropy": 5.543709697723389,
       "epoch": 3.3103051237766263,
-      "grad_norm": 1.562757134437561,
-      "learning_rate": 3.5536455245998815e-07,
-      "loss": 5.3766,
-      "mean_token_accuracy": 0.3036728450655937,
-      "num_tokens": 6042646.0,
       "step": 5750
     },
     {
-      "entropy": 5.389412899017334,
       "epoch": 3.33909038572251,
-      "grad_norm": 2.2124178409576416,
-      "learning_rate": 3.4054534676941315e-07,
-      "loss": 5.2287,
-      "mean_token_accuracy": 0.32173423111438754,
-      "num_tokens": 6093550.0,
       "step": 5800
     },
     {
-      "entropy": 5.236968355178833,
       "epoch": 3.3678756476683938,
-      "grad_norm": 2.146965503692627,
-      "learning_rate": 3.2572614107883814e-07,
-      "loss": 5.0793,
-      "mean_token_accuracy": 0.3410212889313698,
-      "num_tokens": 6142299.0,
       "step": 5850
     },
     {
-      "entropy": 5.459367966651916,
       "epoch": 3.3966609096142775,
-      "grad_norm": 1.0992231369018555,
-      "learning_rate": 3.109069353882632e-07,
-      "loss": 5.2978,
-      "mean_token_accuracy": 0.31258249312639236,
-      "num_tokens": 6194315.0,
       "step": 5900
     },
     {
-      "entropy": 5.526850900650024,
       "epoch": 3.425446171560161,
-      "grad_norm": 2.137270212173462,
-      "learning_rate": 2.960877296976882e-07,
-      "loss": 5.3598,
-      "mean_token_accuracy": 0.3052875977754593,
-      "num_tokens": 6246032.0,
       "step": 5950
     },
     {
-      "entropy": 5.573816101551056,
       "epoch": 3.454231433506045,
-      "grad_norm": 1.5624985694885254,
-      "learning_rate": 2.812685240071132e-07,
-      "loss": 5.4081,
-      "mean_token_accuracy": 0.2992635017633438,
-      "num_tokens": 6300018.0,
       "step": 6000
     },
     {
-      "entropy": 5.514087476730347,
       "epoch": 3.4830166954519286,
-      "grad_norm": 1.2660338878631592,
-      "learning_rate": 2.664493183165382e-07,
-      "loss": 5.3472,
-      "mean_token_accuracy": 0.3070674228668213,
-      "num_tokens": 6352988.0,
       "step": 6050
     },
     {
-      "entropy": 5.430188207626343,
       "epoch": 3.5118019573978123,
-      "grad_norm": 1.2666460275650024,
-      "learning_rate": 2.5163011262596324e-07,
-      "loss": 5.2645,
-      "mean_token_accuracy": 0.31776045858860014,
-      "num_tokens": 6405116.0,
       "step": 6100
     },
     {
-      "entropy": 5.5897090005874634,
       "epoch": 3.540587219343696,
-      "grad_norm": 1.275363802909851,
-      "learning_rate": 2.3681090693538824e-07,
-      "loss": 5.4265,
-      "mean_token_accuracy": 0.297469447851181,
-      "num_tokens": 6458789.0,
       "step": 6150
     },
     {
-      "entropy": 5.422791337966919,
       "epoch": 3.5693724812895797,
-      "grad_norm": 2.2392683029174805,
-      "learning_rate": 2.2199170124481327e-07,
-      "loss": 5.2608,
-      "mean_token_accuracy": 0.3180572906136513,
-      "num_tokens": 6510168.0,
       "step": 6200
     },
     {
-      "entropy": 5.408909387588501,
       "epoch": 3.5981577432354634,
-      "grad_norm": 2.821279525756836,
-      "learning_rate": 2.071724955542383e-07,
-      "loss": 5.2455,
-      "mean_token_accuracy": 0.316647432744503,
-      "num_tokens": 6562528.0,
       "step": 6250
     },
     {
-      "entropy": 5.657666215896606,
       "epoch": 3.626943005181347,
-      "grad_norm": 3.261878490447998,
-      "learning_rate": 1.9235328986366332e-07,
-      "loss": 5.4941,
-      "mean_token_accuracy": 0.28845800429582596,
-      "num_tokens": 6617308.0,
       "step": 6300
     },
     {
-      "entropy": 5.446933870315552,
       "epoch": 3.655728267127231,
-      "grad_norm": 1.1171406507492065,
-      "learning_rate": 1.7753408417308832e-07,
-      "loss": 5.2848,
-      "mean_token_accuracy": 0.31402444154024123,
-      "num_tokens": 6669969.0,
       "step": 6350
     },
     {
-      "entropy": 5.605754513740539,
       "epoch": 3.6845135290731146,
-      "grad_norm": 2.066650152206421,
-      "learning_rate": 1.6271487848251334e-07,
-      "loss": 5.4447,
-      "mean_token_accuracy": 0.2945487481355667,
-      "num_tokens": 6724425.0,
       "step": 6400
     },
     {
-      "entropy": 5.39195601940155,
       "epoch": 3.7132987910189983,
-      "grad_norm": 1.6908842325210571,
-      "learning_rate": 1.4789567279193834e-07,
-      "loss": 5.2298,
-      "mean_token_accuracy": 0.3206364804506302,
-      "num_tokens": 6775236.0,
       "step": 6450
     },
     {
-      "entropy": 5.514347395896912,
       "epoch": 3.742084052964882,
-      "grad_norm": 1.166090726852417,
-      "learning_rate": 1.3307646710136337e-07,
-      "loss": 5.3517,
-      "mean_token_accuracy": 0.30615471601486205,
-      "num_tokens": 6828545.0,
       "step": 6500
     },
     {
-      "entropy": 5.6728374910354615,
       "epoch": 3.7708693149107657,
-      "grad_norm": 2.3615996837615967,
-      "learning_rate": 1.1825726141078837e-07,
-      "loss": 5.5058,
-      "mean_token_accuracy": 0.28638383001089096,
-      "num_tokens": 6884005.0,
       "step": 6550
     },
     {
-      "entropy": 5.4262278175354,
       "epoch": 3.7996545768566494,
-      "grad_norm": 1.7658995389938354,
-      "learning_rate": 1.0343805572021339e-07,
-      "loss": 5.2617,
-      "mean_token_accuracy": 0.31743784427642824,
-      "num_tokens": 6935209.0,
       "step": 6600
     },
     {
-      "entropy": 5.436288638114929,
       "epoch": 3.828439838802533,
-      "grad_norm": 3.455641269683838,
-      "learning_rate": 8.861885002963842e-08,
-      "loss": 5.2706,
-      "mean_token_accuracy": 0.31677050977945326,
-      "num_tokens": 6987396.0,
       "step": 6650
     },
     {
-      "entropy": 5.586358890533448,
       "epoch": 3.857225100748417,
-      "grad_norm": 1.981423020362854,
-      "learning_rate": 7.379964433906343e-08,
-      "loss": 5.4191,
-      "mean_token_accuracy": 0.2982942935824394,
-      "num_tokens": 7041132.0,
       "step": 6700
     },
     {
-      "entropy": 5.494750590324402,
       "epoch": 3.8860103626943006,
-      "grad_norm": 1.7962652444839478,
-      "learning_rate": 5.8980438648488434e-08,
-      "loss": 5.3306,
-      "mean_token_accuracy": 0.3082431614398956,
-      "num_tokens": 7094059.0,
       "step": 6750
     },
     {
-      "entropy": 5.393875141143798,
       "epoch": 3.9147956246401843,
-      "grad_norm": 1.8328484296798706,
-      "learning_rate": 4.416123295791346e-08,
-      "loss": 5.2351,
-      "mean_token_accuracy": 0.3187332367897034,
-      "num_tokens": 7144964.0,
       "step": 6800
     },
     {
-      "entropy": 5.660646886825561,
       "epoch": 3.943580886586068,
-      "grad_norm": 0.8133105039596558,
-      "learning_rate": 2.934202726733847e-08,
-      "loss": 5.4946,
-      "mean_token_accuracy": 0.2876924830675125,
-      "num_tokens": 7200805.0,
       "step": 6850
     },
     {
-      "entropy": 5.239456839561463,
       "epoch": 3.9723661485319517,
-      "grad_norm": 7.838026523590088,
-      "learning_rate": 1.4522821576763486e-08,
-      "loss": 5.0866,
-      "mean_token_accuracy": 0.33811178654432295,
-      "num_tokens": 7250918.0,
       "step": 6900
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 5.780879339314826,
-      "eval_loss": 5.622366428375244,
-      "eval_mean_token_accuracy": 0.26563407995733795,
-      "eval_model_preparation_time": 0.0047,
-      "eval_num_tokens": 7300428.0,
-      "eval_runtime": 80.4424,
-      "eval_samples_per_second": 5.395,
-      "eval_steps_per_second": 2.698,
       "step": 6948
     }
   ],
   "logging_steps": 50,
-  "max_steps": 6948,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1450,12 +1450,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.0021019691282432e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 6948,
+  "best_metric": 5.525067329406738,
   "best_model_checkpoint": "./output/checkpoint-6948",
   "epoch": 4.0,
   "eval_steps": 500,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 3.606692385673523,
       "epoch": 0.028785261945883708,
+      "grad_norm": 3.2999913692474365,
       "learning_rate": 4.9e-07,
+      "loss": 13.6598,
+      "mean_token_accuracy": 0.16028020828962325,
+      "num_tokens": 53993.0,
       "step": 50
     },
     {
+      "entropy": 3.618675880432129,
       "epoch": 0.057570523891767415,
+      "grad_norm": 3.101252555847168,
       "learning_rate": 9.9e-07,
+      "loss": 14.0188,
+      "mean_token_accuracy": 0.1508466500043869,
+      "num_tokens": 110134.0,
       "step": 100
     },
     {
+      "entropy": 3.5215235900878907,
       "epoch": 0.08635578583765112,
+      "grad_norm": 3.513662815093994,
       "learning_rate": 1.49e-06,
+      "loss": 12.8555,
+      "mean_token_accuracy": 0.18527640983462335,
+      "num_tokens": 160191.0,
       "step": 150
     },
     {
+      "entropy": 3.667909698486328,
       "epoch": 0.11514104778353483,
+      "grad_norm": 4.327610492706299,
       "learning_rate": 1.99e-06,
+      "loss": 13.5394,
+      "mean_token_accuracy": 0.157139780074358,
+      "num_tokens": 214993.0,
       "step": 200
     },
     {
+      "entropy": 3.768263258934021,
       "epoch": 0.14392630972941853,
+      "grad_norm": 4.290107250213623,
+      "learning_rate": 1.988450206246317e-06,
+      "loss": 12.8912,
+      "mean_token_accuracy": 0.17374794125556947,
+      "num_tokens": 268184.0,
       "step": 250
     },
     {
+      "entropy": 3.990619196891785,
       "epoch": 0.17271157167530224,
+      "grad_norm": 4.444278717041016,
+      "learning_rate": 1.976664702416028e-06,
+      "loss": 12.455,
+      "mean_token_accuracy": 0.17780130118131637,
+      "num_tokens": 319458.0,
       "step": 300
     },
     {
+      "entropy": 4.162646284103394,
       "epoch": 0.20149683362118595,
+      "grad_norm": 5.615262508392334,
+      "learning_rate": 1.9648791985857395e-06,
+      "loss": 12.0893,
+      "mean_token_accuracy": 0.18191319867968558,
+      "num_tokens": 373337.0,
       "step": 350
     },
     {
+      "entropy": 4.532100868225098,
       "epoch": 0.23028209556706966,
+      "grad_norm": 10.074016571044922,
+      "learning_rate": 1.9530936947554507e-06,
+      "loss": 11.9261,
+      "mean_token_accuracy": 0.169477596282959,
+      "num_tokens": 427526.0,
       "step": 400
     },
     {
+      "entropy": 4.923871030807495,
       "epoch": 0.25906735751295334,
+      "grad_norm": 16.220163345336914,
+      "learning_rate": 1.9413081909251622e-06,
+      "loss": 11.0048,
+      "mean_token_accuracy": 0.1704501649737358,
+      "num_tokens": 480528.0,
       "step": 450
     },
     {
+      "entropy": 5.521005854606629,
       "epoch": 0.28785261945883706,
+      "grad_norm": 29.904008865356445,
+      "learning_rate": 1.9295226870948733e-06,
+      "loss": 9.6524,
+      "mean_token_accuracy": 0.16450899541378022,
+      "num_tokens": 535314.0,
       "step": 500
     },
     {
+      "entropy": 6.092623329162597,
       "epoch": 0.31663788140472077,
+      "grad_norm": 17.821575164794922,
+      "learning_rate": 1.9177371832645845e-06,
+      "loss": 8.1054,
+      "mean_token_accuracy": 0.17205011785030366,
+      "num_tokens": 588410.0,
       "step": 550
     },
     {
+      "entropy": 6.385262680053711,
       "epoch": 0.3454231433506045,
+      "grad_norm": 5.502202987670898,
+      "learning_rate": 1.9059516794342958e-06,
+      "loss": 7.4313,
+      "mean_token_accuracy": 0.1734227080643177,
+      "num_tokens": 641736.0,
       "step": 600
     },
     {
+      "entropy": 6.278562617301941,
       "epoch": 0.3742084052964882,
+      "grad_norm": 5.4657697677612305,
+      "learning_rate": 1.8941661756040071e-06,
+      "loss": 6.9266,
+      "mean_token_accuracy": 0.18680249139666558,
+      "num_tokens": 692200.0,
       "step": 650
     },
     {
+      "entropy": 6.553266277313233,
       "epoch": 0.4029936672423719,
+      "grad_norm": 4.955812931060791,
+      "learning_rate": 1.8823806717737183e-06,
+      "loss": 6.9847,
+      "mean_token_accuracy": 0.16679802387952805,
+      "num_tokens": 745830.0,
       "step": 700
     },
     {
+      "entropy": 6.470935583114624,
       "epoch": 0.4317789291882556,
+      "grad_norm": 4.198381423950195,
+      "learning_rate": 1.8705951679434296e-06,
+      "loss": 6.7277,
+      "mean_token_accuracy": 0.17847734570503235,
+      "num_tokens": 798872.0,
       "step": 750
     },
     {
+      "entropy": 6.5620588779449465,
       "epoch": 0.4605641911341393,
+      "grad_norm": 3.1793746948242188,
+      "learning_rate": 1.8588096641131407e-06,
+      "loss": 6.7032,
+      "mean_token_accuracy": 0.17336134731769562,
+      "num_tokens": 853045.0,
       "step": 800
     },
     {
+      "entropy": 6.532204885482788,
       "epoch": 0.48934945308002303,
+      "grad_norm": 3.824537515640259,
+      "learning_rate": 1.847024160282852e-06,
+      "loss": 6.5762,
+      "mean_token_accuracy": 0.1805124071240425,
+      "num_tokens": 907679.0,
       "step": 850
     },
     {
+      "entropy": 6.535988225936889,
       "epoch": 0.5181347150259067,
+      "grad_norm": 4.350001811981201,
+      "learning_rate": 1.8352386564525632e-06,
+      "loss": 6.505,
+      "mean_token_accuracy": 0.1842605724930763,
+      "num_tokens": 964170.0,
       "step": 900
     },
     {
+      "entropy": 6.204533562660218,
       "epoch": 0.5469199769717904,
+      "grad_norm": 2.193660020828247,
+      "learning_rate": 1.8234531526222745e-06,
+      "loss": 6.1211,
+      "mean_token_accuracy": 0.21968430042266845,
+      "num_tokens": 1015909.0,
       "step": 950
     },
     {
+      "entropy": 6.308737449645996,
       "epoch": 0.5757052389176741,
+      "grad_norm": 2.325622320175171,
+      "learning_rate": 1.8116676487919857e-06,
+      "loss": 6.1653,
+      "mean_token_accuracy": 0.21636426240205764,
+      "num_tokens": 1068859.0,
       "step": 1000
     },
     {
+      "entropy": 6.332560749053955,
       "epoch": 0.6044905008635578,
+      "grad_norm": 2.0439090728759766,
+      "learning_rate": 1.799882144961697e-06,
+      "loss": 6.1559,
+      "mean_token_accuracy": 0.21859725564718246,
+      "num_tokens": 1123202.0,
       "step": 1050
     },
     {
+      "entropy": 6.042124252319336,
       "epoch": 0.6332757628094415,
+      "grad_norm": 3.621903657913208,
+      "learning_rate": 1.7880966411314081e-06,
+      "loss": 5.8441,
+      "mean_token_accuracy": 0.24906315237283708,
+      "num_tokens": 1173403.0,
       "step": 1100
     },
     {
+      "entropy": 5.921343173980713,
       "epoch": 0.6620610247553252,
+      "grad_norm": 5.658033847808838,
+      "learning_rate": 1.7763111373011195e-06,
+      "loss": 5.7104,
+      "mean_token_accuracy": 0.2625067520141602,
+      "num_tokens": 1225026.0,
       "step": 1150
     },
     {
+      "entropy": 6.093586492538452,
       "epoch": 0.690846286701209,
+      "grad_norm": 2.4292995929718018,
+      "learning_rate": 1.7645256334708308e-06,
+      "loss": 5.8658,
+      "mean_token_accuracy": 0.24842385441064835,
+      "num_tokens": 1279013.0,
       "step": 1200
     },
     {
+      "entropy": 6.119112596511841,
       "epoch": 0.7196315486470927,
+      "grad_norm": 3.369384288787842,
+      "learning_rate": 1.752740129640542e-06,
+      "loss": 5.8784,
+      "mean_token_accuracy": 0.24857850253582,
+      "num_tokens": 1332547.0,
       "step": 1250
     },
     {
+      "entropy": 6.025163550376892,
       "epoch": 0.7484168105929764,
+      "grad_norm": 2.5110116004943848,
+      "learning_rate": 1.7409546258102533e-06,
+      "loss": 5.7769,
+      "mean_token_accuracy": 0.25835376888513567,
+      "num_tokens": 1385192.0,
       "step": 1300
     },
     {
+      "entropy": 5.877259612083435,
       "epoch": 0.7772020725388601,
+      "grad_norm": 2.4179303646087646,
+      "learning_rate": 1.7291691219799646e-06,
+      "loss": 5.6284,
+      "mean_token_accuracy": 0.2756252554059029,
+      "num_tokens": 1437071.0,
       "step": 1350
     },
     {
+      "entropy": 6.002246947288513,
       "epoch": 0.8059873344847438,
+      "grad_norm": 3.494359016418457,
+      "learning_rate": 1.717383618149676e-06,
+      "loss": 5.747,
+      "mean_token_accuracy": 0.26462210685014725,
+      "num_tokens": 1490818.0,
       "step": 1400
     },
     {
+      "entropy": 5.991955623626709,
       "epoch": 0.8347725964306275,
+      "grad_norm": 2.340975761413574,
+      "learning_rate": 1.705598114319387e-06,
+      "loss": 5.7379,
+      "mean_token_accuracy": 0.26444981098175047,
+      "num_tokens": 1544997.0,
       "step": 1450
     },
     {
+      "entropy": 5.91768889427185,
       "epoch": 0.8635578583765112,
+      "grad_norm": 2.2394514083862305,
+      "learning_rate": 1.6938126104890984e-06,
+      "loss": 5.6564,
+      "mean_token_accuracy": 0.2730415526032448,
+      "num_tokens": 1598302.0,
       "step": 1500
     },
     {
+      "entropy": 5.982716989517212,
       "epoch": 0.8923431203223949,
+      "grad_norm": 1.876839518547058,
+      "learning_rate": 1.6820271066588098e-06,
+      "loss": 5.7215,
+      "mean_token_accuracy": 0.26642445534467696,
+      "num_tokens": 1655267.0,
       "step": 1550
     },
     {
+      "entropy": 5.820467872619629,
       "epoch": 0.9211283822682786,
+      "grad_norm": 2.219966173171997,
+      "learning_rate": 1.6702416028285209e-06,
+      "loss": 5.5555,
+      "mean_token_accuracy": 0.2856418335437775,
+      "num_tokens": 1709199.0,
       "step": 1600
     },
     {
+      "entropy": 5.996349005699158,
       "epoch": 0.9499136442141624,
+      "grad_norm": 2.247213840484619,
+      "learning_rate": 1.6584560989982322e-06,
+      "loss": 5.7283,
+      "mean_token_accuracy": 0.2696125540137291,
+      "num_tokens": 1765443.0,
       "step": 1650
     },
     {
+      "entropy": 5.696683068275451,
       "epoch": 0.9786989061600461,
+      "grad_norm": 2.8499979972839355,
+      "learning_rate": 1.6466705951679433e-06,
+      "loss": 5.4335,
+      "mean_token_accuracy": 0.29918427973985673,
+      "num_tokens": 1817494.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 5.993559589034401,
+      "eval_loss": 5.737204551696777,
+      "eval_mean_token_accuracy": 0.2618687468739699,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 1856362.0,
+      "eval_runtime": 50.5332,
+      "eval_samples_per_second": 8.588,
+      "eval_steps_per_second": 4.294,
       "step": 1737
     },
     {
+      "entropy": 5.746842083930969,
       "epoch": 1.0074841681059297,
+      "grad_norm": 2.33052921295166,
+      "learning_rate": 1.6348850913376547e-06,
+      "loss": 5.4796,
+      "mean_token_accuracy": 0.2966849410533905,
+      "num_tokens": 1870353.0,
       "step": 1750
     },
     {
+      "entropy": 5.859029049873352,
       "epoch": 1.0362694300518134,
+      "grad_norm": 1.6248886585235596,
+      "learning_rate": 1.6230995875073658e-06,
+      "loss": 5.5975,
+      "mean_token_accuracy": 0.2838129925727844,
+      "num_tokens": 1926205.0,
       "step": 1800
     },
     {
+      "entropy": 5.731445336341858,
       "epoch": 1.065054691997697,
+      "grad_norm": 1.6941566467285156,
+      "learning_rate": 1.6113140836770771e-06,
+      "loss": 5.476,
+      "mean_token_accuracy": 0.2992346465587616,
+      "num_tokens": 1979821.0,
       "step": 1850
     },
     {
+      "entropy": 5.6993954515457155,
       "epoch": 1.0938399539435808,
+      "grad_norm": 1.1746597290039062,
+      "learning_rate": 1.5995285798467883e-06,
+      "loss": 5.4608,
+      "mean_token_accuracy": 0.3000726142525673,
+      "num_tokens": 2034373.0,
       "step": 1900
     },
     {
+      "entropy": 5.668873124122619,
       "epoch": 1.1226252158894645,
+      "grad_norm": 1.728211760520935,
+      "learning_rate": 1.5877430760164996e-06,
+      "loss": 5.4347,
+      "mean_token_accuracy": 0.3033922725915909,
+      "num_tokens": 2087339.0,
       "step": 1950
     },
     {
+      "entropy": 5.624621086120605,
       "epoch": 1.1514104778353482,
+      "grad_norm": 1.4078539609909058,
+      "learning_rate": 1.5759575721862107e-06,
+      "loss": 5.3954,
+      "mean_token_accuracy": 0.30784171640872954,
+      "num_tokens": 2139520.0,
       "step": 2000
     },
     {
+      "entropy": 5.7141213130950925,
       "epoch": 1.180195739781232,
+      "grad_norm": 2.186459541320801,
+      "learning_rate": 1.564172068355922e-06,
+      "loss": 5.4847,
+      "mean_token_accuracy": 0.29594049394130706,
+      "num_tokens": 2193987.0,
       "step": 2050
     },
     {
+      "entropy": 5.632415266036987,
       "epoch": 1.2089810017271156,
+      "grad_norm": 1.3601349592208862,
+      "learning_rate": 1.5523865645256334e-06,
+      "loss": 5.4135,
+      "mean_token_accuracy": 0.30366597563028336,
+      "num_tokens": 2249616.0,
       "step": 2100
     },
     {
+      "entropy": 5.510904269218445,
       "epoch": 1.2377662636729994,
+      "grad_norm": 2.065760612487793,
+      "learning_rate": 1.5406010606953445e-06,
+      "loss": 5.2904,
+      "mean_token_accuracy": 0.3211754837632179,
+      "num_tokens": 2300863.0,
       "step": 2150
     },
     {
+      "entropy": 5.703383626937867,
       "epoch": 1.266551525618883,
+      "grad_norm": 1.1172698736190796,
+      "learning_rate": 1.5288155568650559e-06,
+      "loss": 5.4802,
+      "mean_token_accuracy": 0.29713701367378237,
+      "num_tokens": 2356029.0,
       "step": 2200
     },
     {
+      "entropy": 5.565930342674255,
       "epoch": 1.2953367875647668,
+      "grad_norm": 1.7528513669967651,
+      "learning_rate": 1.5170300530347672e-06,
+      "loss": 5.3518,
+      "mean_token_accuracy": 0.31301232606172563,
+      "num_tokens": 2408957.0,
       "step": 2250
     },
     {
+      "entropy": 5.496430187225342,
       "epoch": 1.3241220495106505,
+      "grad_norm": 1.892640233039856,
+      "learning_rate": 1.5052445492044786e-06,
+      "loss": 5.2967,
+      "mean_token_accuracy": 0.3181899458169937,
+      "num_tokens": 2462569.0,
       "step": 2300
     },
     {
+      "entropy": 5.725150098800659,
       "epoch": 1.3529073114565342,
+      "grad_norm": 1.774940848350525,
+      "learning_rate": 1.4934590453741897e-06,
+      "loss": 5.5215,
+      "mean_token_accuracy": 0.29055028676986694,
+      "num_tokens": 2518544.0,
       "step": 2350
     },
     {
+      "entropy": 5.4884827613830565,
       "epoch": 1.381692573402418,
+      "grad_norm": 2.2167599201202393,
+      "learning_rate": 1.481673541543901e-06,
+      "loss": 5.2917,
+      "mean_token_accuracy": 0.31803421139717103,
+      "num_tokens": 2570863.0,
       "step": 2400
     },
     {
+      "entropy": 5.697079472541809,
       "epoch": 1.4104778353483016,
+      "grad_norm": 1.6489030122756958,
+      "learning_rate": 1.4698880377136124e-06,
+      "loss": 5.4982,
+      "mean_token_accuracy": 0.2925163987278938,
+      "num_tokens": 2626998.0,
       "step": 2450
     },
     {
+      "entropy": 5.46209939956665,
       "epoch": 1.4392630972941853,
+      "grad_norm": 1.153914451599121,
+      "learning_rate": 1.4581025338833235e-06,
+      "loss": 5.2736,
+      "mean_token_accuracy": 0.3182168474793434,
+      "num_tokens": 2681568.0,
       "step": 2500
     },
     {
+      "entropy": 5.4405768728256225,
       "epoch": 1.468048359240069,
+      "grad_norm": 3.6614978313446045,
+      "learning_rate": 1.4463170300530348e-06,
+      "loss": 5.2515,
+      "mean_token_accuracy": 0.3218736210465431,
+      "num_tokens": 2733587.0,
       "step": 2550
     },
     {
+      "entropy": 5.528175053596496,
       "epoch": 1.4968336211859528,
+      "grad_norm": 1.0849746465682983,
+      "learning_rate": 1.434531526222746e-06,
+      "loss": 5.3378,
+      "mean_token_accuracy": 0.31061659604310987,
+      "num_tokens": 2787003.0,
       "step": 2600
     },
     {
+      "entropy": 5.46110897064209,
       "epoch": 1.5256188831318365,
+      "grad_norm": 1.8315683603286743,
+      "learning_rate": 1.4227460223924573e-06,
+      "loss": 5.2782,
+      "mean_token_accuracy": 0.31781029611825945,
+      "num_tokens": 2840263.0,
       "step": 2650
     },
     {
+      "entropy": 5.455560960769653,
       "epoch": 1.5544041450777202,
+      "grad_norm": 1.1859091520309448,
+      "learning_rate": 1.4109605185621684e-06,
+      "loss": 5.2735,
+      "mean_token_accuracy": 0.3194814011454582,
+      "num_tokens": 2894186.0,
       "step": 2700
     },
     {
+      "entropy": 5.430496115684509,
       "epoch": 1.583189407023604,
+      "grad_norm": 2.3500001430511475,
+      "learning_rate": 1.3991750147318797e-06,
+      "loss": 5.2464,
+      "mean_token_accuracy": 0.32140792965888976,
+      "num_tokens": 2948171.0,
       "step": 2750
     },
     {
+      "entropy": 5.588023023605347,
       "epoch": 1.6119746689694876,
+      "grad_norm": 1.727825403213501,
+      "learning_rate": 1.3873895109015909e-06,
+      "loss": 5.4028,
+      "mean_token_accuracy": 0.3039530631899834,
+      "num_tokens": 3002678.0,
       "step": 2800
     },
     {
+      "entropy": 5.410525422096253,
       "epoch": 1.6407599309153713,
+      "grad_norm": 1.3401474952697754,
+      "learning_rate": 1.3756040070713022e-06,
+      "loss": 5.2298,
+      "mean_token_accuracy": 0.324065263569355,
+      "num_tokens": 3055844.0,
       "step": 2850
     },
     {
+      "entropy": 5.36959942817688,
       "epoch": 1.669545192861255,
+      "grad_norm": 1.1892589330673218,
+      "learning_rate": 1.3638185032410133e-06,
+      "loss": 5.1956,
+      "mean_token_accuracy": 0.32639502108097074,
+      "num_tokens": 3108636.0,
       "step": 2900
     },
     {
+      "entropy": 5.53826907157898,
       "epoch": 1.6983304548071387,
+      "grad_norm": 1.2652360200881958,
+      "learning_rate": 1.3520329994107247e-06,
+      "loss": 5.3583,
+      "mean_token_accuracy": 0.3074926760792732,
+      "num_tokens": 3162627.0,
       "step": 2950
     },
     {
+      "entropy": 5.417449145317078,
       "epoch": 1.7271157167530224,
+      "grad_norm": 1.584312915802002,
+      "learning_rate": 1.340247495580436e-06,
+      "loss": 5.2388,
+      "mean_token_accuracy": 0.32019727885723115,
+      "num_tokens": 3216409.0,
       "step": 3000
     },
     {
+      "entropy": 5.241390740871429,
       "epoch": 1.7559009786989062,
+      "grad_norm": 1.5219439268112183,
+      "learning_rate": 1.3284619917501471e-06,
+      "loss": 5.0645,
+      "mean_token_accuracy": 0.3445430138707161,
+      "num_tokens": 3266967.0,
       "step": 3050
     },
     {
+      "entropy": 5.405424036979675,
       "epoch": 1.7846862406447899,
+      "grad_norm": 2.1165153980255127,
+      "learning_rate": 1.3166764879198585e-06,
+      "loss": 5.232,
+      "mean_token_accuracy": 0.32085000157356264,
+      "num_tokens": 3319877.0,
       "step": 3100
     },
     {
+      "entropy": 5.123006024360657,
       "epoch": 1.8134715025906736,
+      "grad_norm": 1.2189785242080688,
+      "learning_rate": 1.3048909840895698e-06,
+      "loss": 4.9582,
+      "mean_token_accuracy": 0.356108532845974,
+      "num_tokens": 3368569.0,
       "step": 3150
     },
     {
+      "entropy": 5.417610831260681,
       "epoch": 1.8422567645365573,
+      "grad_norm": 1.5157604217529297,
+      "learning_rate": 1.2931054802592812e-06,
+      "loss": 5.2454,
+      "mean_token_accuracy": 0.31976755023002623,
+      "num_tokens": 3422449.0,
       "step": 3200
     },
     {
+      "entropy": 5.409690895080566,
       "epoch": 1.871042026482441,
+      "grad_norm": 1.3088161945343018,
+      "learning_rate": 1.2813199764289923e-06,
+      "loss": 5.2348,
+      "mean_token_accuracy": 0.32325415283441544,
+      "num_tokens": 3474399.0,
       "step": 3250
     },
     {
+      "entropy": 5.44662567615509,
       "epoch": 1.8998272884283247,
+      "grad_norm": 2.178372621536255,
+      "learning_rate": 1.2695344725987036e-06,
+      "loss": 5.2661,
+      "mean_token_accuracy": 0.3182847076654434,
+      "num_tokens": 3527726.0,
       "step": 3300
     },
     {
+      "entropy": 5.512614865303039,
       "epoch": 1.9286125503742084,
+      "grad_norm": 1.3050425052642822,
+      "learning_rate": 1.2577489687684147e-06,
+      "loss": 5.3416,
+      "mean_token_accuracy": 0.3084403133392334,
+      "num_tokens": 3581980.0,
       "step": 3350
     },
     {
+      "entropy": 5.379772834777832,
       "epoch": 1.9573978123200921,
+      "grad_norm": 1.4584404230117798,
+      "learning_rate": 1.245963464938126e-06,
+      "loss": 5.2087,
+      "mean_token_accuracy": 0.32388432770967485,
+      "num_tokens": 3635393.0,
       "step": 3400
     },
     {
+      "entropy": 5.483665924072266,
       "epoch": 1.9861830742659758,
+      "grad_norm": 1.2157734632492065,
+      "learning_rate": 1.2341779611078374e-06,
+      "loss": 5.3101,
+      "mean_token_accuracy": 0.3121953472495079,
+      "num_tokens": 3689894.0,
       "step": 3450
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 5.711394641805904,
+      "eval_loss": 5.55628776550293,
+      "eval_mean_token_accuracy": 0.2764948787777105,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 3712724.0,
+      "eval_runtime": 50.187,
+      "eval_samples_per_second": 8.648,
+      "eval_steps_per_second": 4.324,
       "step": 3474
     },
     {
+      "entropy": 5.349283556938172,
       "epoch": 2.0149683362118593,
+      "grad_norm": 1.1696771383285522,
+      "learning_rate": 1.2223924572775486e-06,
+      "loss": 5.1782,
+      "mean_token_accuracy": 0.33028870791196824,
+      "num_tokens": 3740861.0,
       "step": 3500
     },
     {
+      "entropy": 5.4721107006073,
       "epoch": 2.043753598157743,
+      "grad_norm": 1.8449370861053467,
+      "learning_rate": 1.2106069534472599e-06,
+      "loss": 5.2978,
+      "mean_token_accuracy": 0.31511022299528124,
+      "num_tokens": 3794869.0,
       "step": 3550
     },
     {
+      "entropy": 5.404226851463318,
       "epoch": 2.0725388601036268,
+      "grad_norm": 3.789496660232544,
+      "learning_rate": 1.198821449616971e-06,
+      "loss": 5.2371,
+      "mean_token_accuracy": 0.32092176616191864,
+      "num_tokens": 3848573.0,
       "step": 3600
     },
     {
+      "entropy": 5.435445628166199,
       "epoch": 2.1013241220495105,
+      "grad_norm": 2.2847959995269775,
+      "learning_rate": 1.1870359457866824e-06,
+      "loss": 5.2662,
+      "mean_token_accuracy": 0.3186633634567261,
+      "num_tokens": 3901204.0,
       "step": 3650
     },
     {
+      "entropy": 5.4066293334960935,
       "epoch": 2.130109383995394,
+      "grad_norm": 1.0950902700424194,
+      "learning_rate": 1.1752504419563935e-06,
+      "loss": 5.2345,
+      "mean_token_accuracy": 0.32156052827835085,
+      "num_tokens": 3953753.0,
       "step": 3700
     },
     {
+      "entropy": 5.272332944869995,
       "epoch": 2.158894645941278,
+      "grad_norm": 2.1477339267730713,
+      "learning_rate": 1.1634649381261048e-06,
+      "loss": 5.1091,
+      "mean_token_accuracy": 0.3380983591079712,
+      "num_tokens": 4005481.0,
       "step": 3750
     },
     {
+      "entropy": 5.4118804311752315,
       "epoch": 2.1876799078871616,
+      "grad_norm": 1.4509484767913818,
+      "learning_rate": 1.151679434295816e-06,
+      "loss": 5.2448,
+      "mean_token_accuracy": 0.3208243528008461,
+      "num_tokens": 4058829.0,
       "step": 3800
     },
     {
+      "entropy": 5.4763900089263915,
       "epoch": 2.2164651698330453,
+      "grad_norm": 1.0856804847717285,
+      "learning_rate": 1.1398939304655273e-06,
+      "loss": 5.3042,
+      "mean_token_accuracy": 0.31338351368904116,
+      "num_tokens": 4113326.0,
       "step": 3850
     },
     {
+      "entropy": 5.328452725410461,
       "epoch": 2.245250431778929,
+      "grad_norm": 3.2843880653381348,
+      "learning_rate": 1.1281084266352386e-06,
+      "loss": 5.1624,
+      "mean_token_accuracy": 0.3305218696594238,
+      "num_tokens": 4165454.0,
       "step": 3900
     },
     {
+      "entropy": 5.383157343864441,
       "epoch": 2.2740356937248127,
+      "grad_norm": 2.207082748413086,
+      "learning_rate": 1.1163229228049497e-06,
+      "loss": 5.2163,
+      "mean_token_accuracy": 0.32331310987472534,
+      "num_tokens": 4219250.0,
       "step": 3950
     },
     {
+      "entropy": 5.585261764526368,
       "epoch": 2.3028209556706964,
+      "grad_norm": 2.7102835178375244,
+      "learning_rate": 1.104537418974661e-06,
+      "loss": 5.4137,
+      "mean_token_accuracy": 0.29959124475717547,
+      "num_tokens": 4274711.0,
       "step": 4000
     },
     {
+      "entropy": 5.434073266983032,
       "epoch": 2.33160621761658,
+      "grad_norm": 1.3775779008865356,
+      "learning_rate": 1.0927519151443724e-06,
+      "loss": 5.2644,
+      "mean_token_accuracy": 0.3175011593103409,
+      "num_tokens": 4328616.0,
       "step": 4050
     },
     {
+      "entropy": 5.462391858100891,
       "epoch": 2.360391479562464,
+      "grad_norm": 1.4101024866104126,
+      "learning_rate": 1.0809664113140838e-06,
+      "loss": 5.2924,
+      "mean_token_accuracy": 0.3137941011786461,
+      "num_tokens": 4382416.0,
       "step": 4100
     },
     {
+      "entropy": 5.529892563819885,
       "epoch": 2.3891767415083476,
+      "grad_norm": 1.2311837673187256,
+      "learning_rate": 1.0691809074837949e-06,
+      "loss": 5.364,
+      "mean_token_accuracy": 0.3046491605043411,
+      "num_tokens": 4437848.0,
       "step": 4150
     },
     {
+      "entropy": 5.4370484542846675,
       "epoch": 2.4179620034542313,
+      "grad_norm": 1.0929864645004272,
+      "learning_rate": 1.0573954036535062e-06,
+      "loss": 5.2734,
+      "mean_token_accuracy": 0.3169013774394989,
+      "num_tokens": 4491185.0,
       "step": 4200
     },
     {
+      "entropy": 5.395377616882325,
       "epoch": 2.446747265400115,
+      "grad_norm": 1.5457273721694946,
+      "learning_rate": 1.0456098998232174e-06,
+      "loss": 5.2276,
+      "mean_token_accuracy": 0.32221508473157884,
+      "num_tokens": 4544086.0,
       "step": 4250
     },
     {
+      "entropy": 5.443737335205078,
       "epoch": 2.4755325273459987,
+      "grad_norm": 1.4844346046447754,
+      "learning_rate": 1.0338243959929287e-06,
+      "loss": 5.2786,
+      "mean_token_accuracy": 0.3157751387357712,
+      "num_tokens": 4597677.0,
       "step": 4300
     },
     {
+      "entropy": 5.419876251220703,
       "epoch": 2.5043177892918824,
+      "grad_norm": 1.2481963634490967,
+      "learning_rate": 1.02203889216264e-06,
+      "loss": 5.2564,
+      "mean_token_accuracy": 0.31889803290367125,
+      "num_tokens": 4651343.0,
       "step": 4350
     },
     {
+      "entropy": 5.578677978515625,
       "epoch": 2.533103051237766,
+      "grad_norm": 2.0005414485931396,
+      "learning_rate": 1.0102533883323512e-06,
+      "loss": 5.4145,
+      "mean_token_accuracy": 0.30037090003490446,
+      "num_tokens": 4705985.0,
       "step": 4400
     },
     {
+      "entropy": 5.279946126937866,
       "epoch": 2.56188831318365,
+      "grad_norm": 1.080521821975708,
+      "learning_rate": 9.984678845020625e-07,
+      "loss": 5.1226,
+      "mean_token_accuracy": 0.3341303279995918,
+      "num_tokens": 4757741.0,
       "step": 4450
     },
     {
+      "entropy": 5.551463279724121,
       "epoch": 2.5906735751295336,
+      "grad_norm": 1.28898024559021,
+      "learning_rate": 9.866823806717736e-07,
+      "loss": 5.3832,
+      "mean_token_accuracy": 0.3028248634934425,
+      "num_tokens": 4812808.0,
       "step": 4500
     },
     {
+      "entropy": 5.3787487554550175,
       "epoch": 2.6194588370754173,
+      "grad_norm": 1.5697983503341675,
+      "learning_rate": 9.74896876841485e-07,
+      "loss": 5.2141,
+      "mean_token_accuracy": 0.3227942296862602,
+      "num_tokens": 4866572.0,
       "step": 4550
     },
     {
+      "entropy": 5.460358958244324,
       "epoch": 2.648244099021301,
+      "grad_norm": 1.3180441856384277,
+      "learning_rate": 9.63111373011196e-07,
+      "loss": 5.2954,
+      "mean_token_accuracy": 0.31269474506378175,
+      "num_tokens": 4921312.0,
       "step": 4600
     },
     {
+      "entropy": 5.434084935188293,
       "epoch": 2.6770293609671847,
+      "grad_norm": 1.2409590482711792,
+      "learning_rate": 9.513258691809074e-07,
+      "loss": 5.271,
+      "mean_token_accuracy": 0.3172155100107193,
+      "num_tokens": 4974289.0,
       "step": 4650
     },
     {
+      "entropy": 5.406955418586731,
       "epoch": 2.7058146229130684,
+      "grad_norm": 1.4782609939575195,
+      "learning_rate": 9.395403653506187e-07,
+      "loss": 5.2473,
+      "mean_token_accuracy": 0.32031788885593415,
+      "num_tokens": 5028149.0,
       "step": 4700
     },
     {
+      "entropy": 5.206603040695191,
       "epoch": 2.734599884858952,
+      "grad_norm": 2.351633071899414,
+      "learning_rate": 9.2775486152033e-07,
+      "loss": 5.0478,
+      "mean_token_accuracy": 0.3428420132398605,
+      "num_tokens": 5079349.0,
       "step": 4750
     },
     {
+      "entropy": 5.388812799453735,
       "epoch": 2.763385146804836,
+      "grad_norm": 7.564618110656738,
+      "learning_rate": 9.159693576900412e-07,
+      "loss": 5.2281,
+      "mean_token_accuracy": 0.3222071170806885,
+      "num_tokens": 5132564.0,
       "step": 4800
     },
     {
+      "entropy": 5.374106278419495,
       "epoch": 2.7921704087507195,
+      "grad_norm": 1.4734679460525513,
+      "learning_rate": 9.041838538597525e-07,
+      "loss": 5.2161,
+      "mean_token_accuracy": 0.3219477406144142,
+      "num_tokens": 5185921.0,
       "step": 4850
     },
     {
+      "entropy": 5.232998585700988,
       "epoch": 2.8209556706966032,
+      "grad_norm": 1.4175471067428589,
+      "learning_rate": 8.923983500294637e-07,
+      "loss": 5.0769,
+      "mean_token_accuracy": 0.3403926733136177,
+      "num_tokens": 5237521.0,
       "step": 4900
     },
     {
+      "entropy": 5.394891719818116,
       "epoch": 2.849740932642487,
+      "grad_norm": 4.951873779296875,
+      "learning_rate": 8.806128461991749e-07,
+      "loss": 5.2344,
+      "mean_token_accuracy": 0.3213117456436157,
+      "num_tokens": 5291104.0,
       "step": 4950
     },
     {
+      "entropy": 5.413805012702942,
       "epoch": 2.8785261945883707,
+      "grad_norm": 1.679518461227417,
+      "learning_rate": 8.688273423688863e-07,
+      "loss": 5.2597,
+      "mean_token_accuracy": 0.3165634173154831,
+      "num_tokens": 5345058.0,
       "step": 5000
     },
     {
+      "entropy": 5.256177935600281,
       "epoch": 2.9073114565342544,
+      "grad_norm": 1.8892916440963745,
+      "learning_rate": 8.570418385385975e-07,
+      "loss": 5.1004,
+      "mean_token_accuracy": 0.3369427987933159,
+      "num_tokens": 5395918.0,
       "step": 5050
     },
     {
+      "entropy": 5.259814453125,
       "epoch": 2.936096718480138,
+      "grad_norm": 1.3802675008773804,
+      "learning_rate": 8.452563347083087e-07,
+      "loss": 5.1057,
+      "mean_token_accuracy": 0.3362414276599884,
+      "num_tokens": 5448086.0,
       "step": 5100
     },
     {
+      "entropy": 5.416206178665161,
       "epoch": 2.964881980426022,
+      "grad_norm": 1.7677236795425415,
+      "learning_rate": 8.3347083087802e-07,
+      "loss": 5.2562,
+      "mean_token_accuracy": 0.31725785195827483,
+      "num_tokens": 5501959.0,
       "step": 5150
     },
     {
+      "entropy": 5.507337794303894,
       "epoch": 2.9936672423719055,
+      "grad_norm": 1.021727442741394,
+      "learning_rate": 8.216853270477313e-07,
+      "loss": 5.344,
+      "mean_token_accuracy": 0.30679062128067014,
+      "num_tokens": 5557908.0,
       "step": 5200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 5.682707933786278,
+      "eval_loss": 5.53223991394043,
+      "eval_mean_token_accuracy": 0.27747743456594404,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 5569086.0,
+      "eval_runtime": 49.9944,
+      "eval_samples_per_second": 8.681,
+      "eval_steps_per_second": 4.34,
       "step": 5211
     },
     {
+      "entropy": 5.209756035804748,
       "epoch": 3.0224525043177892,
+      "grad_norm": 1.725786566734314,
+      "learning_rate": 8.098998232174425e-07,
+      "loss": 5.0541,
+      "mean_token_accuracy": 0.34166110813617706,
+      "num_tokens": 5608917.0,
       "step": 5250
     },
     {
+      "entropy": 5.396296281814575,
       "epoch": 3.051237766263673,
+      "grad_norm": 0.7720207571983337,
+      "learning_rate": 7.981143193871538e-07,
+      "loss": 5.2337,
+      "mean_token_accuracy": 0.32116260558366777,
+      "num_tokens": 5662712.0,
       "step": 5300
     },
     {
+      "entropy": 5.341518473625183,
       "epoch": 3.0800230282095566,
+      "grad_norm": 2.2686808109283447,
+      "learning_rate": 7.86328815556865e-07,
+      "loss": 5.1824,
+      "mean_token_accuracy": 0.32726580530405047,
+      "num_tokens": 5715921.0,
       "step": 5350
     },
     {
+      "entropy": 5.376176896095276,
       "epoch": 3.1088082901554404,
+      "grad_norm": 1.2420796155929565,
+      "learning_rate": 7.745433117265762e-07,
+      "loss": 5.2162,
+      "mean_token_accuracy": 0.32142678707838057,
+      "num_tokens": 5769436.0,
       "step": 5400
     },
     {
+      "entropy": 5.4553061914443965,
       "epoch": 3.137593552101324,
+      "grad_norm": 1.2402859926223755,
+      "learning_rate": 7.627578078962876e-07,
+      "loss": 5.2971,
+      "mean_token_accuracy": 0.31396267503499986,
+      "num_tokens": 5823126.0,
       "step": 5450
     },
     {
+      "entropy": 5.385247969627381,
       "epoch": 3.166378814047208,
+      "grad_norm": 1.112062931060791,
+      "learning_rate": 7.509723040659988e-07,
+      "loss": 5.2324,
+      "mean_token_accuracy": 0.3207343602180481,
+      "num_tokens": 5875751.0,
       "step": 5500
     },
     {
+      "entropy": 5.55422221660614,
       "epoch": 3.1951640759930915,
+      "grad_norm": 1.5440446138381958,
+      "learning_rate": 7.3918680023571e-07,
+      "loss": 5.3902,
+      "mean_token_accuracy": 0.3006985321640968,
+      "num_tokens": 5932163.0,
       "step": 5550
     },
     {
+      "entropy": 5.403217372894287,
       "epoch": 3.223949337938975,
+      "grad_norm": 0.8481096625328064,
+      "learning_rate": 7.274012964054213e-07,
+      "loss": 5.2417,
+      "mean_token_accuracy": 0.3210747820138931,
+      "num_tokens": 5985889.0,
       "step": 5600
     },
     {
+      "entropy": 5.388293180465698,
       "epoch": 3.252734599884859,
+      "grad_norm": 0.9305989146232605,
+      "learning_rate": 7.156157925751326e-07,
+      "loss": 5.2319,
+      "mean_token_accuracy": 0.3206030324101448,
+      "num_tokens": 6040052.0,
       "step": 5650
     },
     {
+      "entropy": 5.401709322929382,
       "epoch": 3.2815198618307426,
+      "grad_norm": 0.8080459237098694,
+      "learning_rate": 7.038302887448438e-07,
+      "loss": 5.2438,
+      "mean_token_accuracy": 0.3199671137332916,
+      "num_tokens": 6092350.0,
       "step": 5700
     },
     {
+      "entropy": 5.4320423412323,
       "epoch": 3.3103051237766263,
+      "grad_norm": 1.9186089038848877,
+      "learning_rate": 6.920447849145551e-07,
+      "loss": 5.2696,
+      "mean_token_accuracy": 0.31657984614372253,
+      "num_tokens": 6146112.0,
       "step": 5750
     },
     {
+      "entropy": 5.276471285820008,
       "epoch": 3.33909038572251,
+      "grad_norm": 1.032879114151001,
+      "learning_rate": 6.802592810842663e-07,
+      "loss": 5.1224,
+      "mean_token_accuracy": 0.3347566506266594,
+      "num_tokens": 6197916.0,
       "step": 5800
     },
     {
+      "entropy": 5.122317051887512,
       "epoch": 3.3678756476683938,
+      "grad_norm": 3.156858444213867,
+      "learning_rate": 6.684737772539775e-07,
+      "loss": 4.9706,
+      "mean_token_accuracy": 0.35455317378044127,
+      "num_tokens": 6247565.0,
       "step": 5850
     },
     {
+      "entropy": 5.346597375869751,
       "epoch": 3.3966609096142775,
+      "grad_norm": 1.2619549036026,
+      "learning_rate": 6.566882734236889e-07,
+      "loss": 5.1902,
+      "mean_token_accuracy": 0.3258721518516541,
+      "num_tokens": 6300481.0,
       "step": 5900
     },
     {
+      "entropy": 5.413151068687439,
       "epoch": 3.425446171560161,
+      "grad_norm": 1.801740050315857,
+      "learning_rate": 6.449027695934001e-07,
+      "loss": 5.2513,
+      "mean_token_accuracy": 0.3187857499718666,
+      "num_tokens": 6353098.0,
       "step": 5950
     },
     {
+      "entropy": 5.464186942577362,
       "epoch": 3.454231433506045,
+      "grad_norm": 1.6306997537612915,
+      "learning_rate": 6.331172657631113e-07,
+      "loss": 5.3043,
+      "mean_token_accuracy": 0.31154109388589857,
+      "num_tokens": 6407984.0,
       "step": 6000
     },
     {
+      "entropy": 5.401795778274536,
       "epoch": 3.4830166954519286,
+      "grad_norm": 1.1694583892822266,
+      "learning_rate": 6.213317619328226e-07,
+      "loss": 5.2427,
+      "mean_token_accuracy": 0.31954523265361784,
+      "num_tokens": 6461854.0,
       "step": 6050
     },
     {
+      "entropy": 5.317689285278321,
       "epoch": 3.5118019573978123,
+      "grad_norm": 0.9361855387687683,
+      "learning_rate": 6.095462581025339e-07,
+      "loss": 5.1588,
+      "mean_token_accuracy": 0.330586878657341,
+      "num_tokens": 6514882.0,
       "step": 6100
     },
     {
+      "entropy": 5.478708257675171,
       "epoch": 3.540587219343696,
+      "grad_norm": 1.05711030960083,
+      "learning_rate": 5.977607542722451e-07,
+      "loss": 5.321,
+      "mean_token_accuracy": 0.3104448106884956,
+      "num_tokens": 6569455.0,
       "step": 6150
     },
     {
+      "entropy": 5.309361801147461,
       "epoch": 3.5693724812895797,
+      "grad_norm": 1.3499550819396973,
+      "learning_rate": 5.859752504419564e-07,
+      "loss": 5.153,
+      "mean_token_accuracy": 0.331512533724308,
+      "num_tokens": 6621734.0,
       "step": 6200
     },
     {
+      "entropy": 5.296572666168213,
       "epoch": 3.5981577432354634,
+      "grad_norm": 1.940708875656128,
+      "learning_rate": 5.741897466116676e-07,
+      "loss": 5.14,
+      "mean_token_accuracy": 0.3299832499027252,
+      "num_tokens": 6674994.0,
       "step": 6250
     },
     {
+      "entropy": 5.544284400939941,
       "epoch": 3.626943005181347,
+      "grad_norm": 1.8903827667236328,
+      "learning_rate": 5.624042427813788e-07,
+      "loss": 5.3885,
+      "mean_token_accuracy": 0.3016947290301323,
+      "num_tokens": 6730674.0,
       "step": 6300
     },
     {
+      "entropy": 5.333053431510925,
       "epoch": 3.655728267127231,
+      "grad_norm": 1.1618578433990479,
+      "learning_rate": 5.506187389510902e-07,
+      "loss": 5.1781,
+      "mean_token_accuracy": 0.3275001719594002,
+      "num_tokens": 6784235.0,
       "step": 6350
     },
     {
+      "entropy": 5.4938449716568,
       "epoch": 3.6845135290731146,
+      "grad_norm": 1.384329080581665,
+      "learning_rate": 5.388332351208014e-07,
+      "loss": 5.3399,
+      "mean_token_accuracy": 0.3068840709328651,
+      "num_tokens": 6839590.0,
       "step": 6400
     },
     {
+      "entropy": 5.277545223236084,
       "epoch": 3.7132987910189983,
+      "grad_norm": 1.8918265104293823,
+      "learning_rate": 5.270477312905126e-07,
+      "loss": 5.1221,
+      "mean_token_accuracy": 0.33364981949329375,
+      "num_tokens": 6891301.0,
       "step": 6450
     },
     {
+      "entropy": 5.40100293636322,
       "epoch": 3.742084052964882,
+      "grad_norm": 1.6968809366226196,
+      "learning_rate": 5.152622274602239e-07,
+      "loss": 5.2471,
+      "mean_token_accuracy": 0.31912936180830004,
+      "num_tokens": 6945510.0,
       "step": 6500
     },
     {
+      "entropy": 5.561220169067383,
       "epoch": 3.7708693149107657,
+      "grad_norm": 2.066960573196411,
+      "learning_rate": 5.034767236299352e-07,
+      "loss": 5.4026,
+      "mean_token_accuracy": 0.2984810543060303,
+      "num_tokens": 7001870.0,
       "step": 6550
     },
     {
+      "entropy": 5.3108087682724,
       "epoch": 3.7996545768566494,
+      "grad_norm": 1.6065007448196411,
+      "learning_rate": 4.916912197996464e-07,
+      "loss": 5.155,
+      "mean_token_accuracy": 0.3304683968424797,
+      "num_tokens": 7053974.0,
       "step": 6600
     },
     {
+      "entropy": 5.323807754516602,
       "epoch": 3.828439838802533,
+      "grad_norm": 2.6806318759918213,
+      "learning_rate": 4.799057159693577e-07,
+      "loss": 5.1653,
+      "mean_token_accuracy": 0.3294159671664238,
+      "num_tokens": 7107061.0,
       "step": 6650
     },
     {
+      "entropy": 5.4716163873672485,
       "epoch": 3.857225100748417,
+      "grad_norm": 1.8264856338500977,
+      "learning_rate": 4.6812021213906895e-07,
+      "loss": 5.3124,
+      "mean_token_accuracy": 0.3109353107213974,
+      "num_tokens": 7161697.0,
       "step": 6700
     },
     {
+      "entropy": 5.382365622520447,
       "epoch": 3.8860103626943006,
+      "grad_norm": 0.9954923987388611,
+      "learning_rate": 4.563347083087802e-07,
+      "loss": 5.2237,
+      "mean_token_accuracy": 0.32161149621009827,
+      "num_tokens": 7215524.0,
       "step": 6750
     },
     {
+      "entropy": 5.277496585845947,
       "epoch": 3.9147956246401843,
+      "grad_norm": 1.267786979675293,
+      "learning_rate": 4.445492044784914e-07,
+      "loss": 5.1265,
+      "mean_token_accuracy": 0.3319795566797257,
+      "num_tokens": 7267329.0,
       "step": 6800
     },
     {
+      "entropy": 5.550942025184631,
       "epoch": 3.943580886586068,
+      "grad_norm": 0.9425063133239746,
+      "learning_rate": 4.3276370064820265e-07,
+      "loss": 5.3898,
+      "mean_token_accuracy": 0.30050904959440233,
+      "num_tokens": 7324070.0,
       "step": 6850
     },
     {
+      "entropy": 5.125799627304077,
       "epoch": 3.9723661485319517,
+      "grad_norm": 5.447021007537842,
+      "learning_rate": 4.20978196817914e-07,
+      "loss": 4.9781,
+      "mean_token_accuracy": 0.3520450854301453,
+      "num_tokens": 7375083.0,
       "step": 6900
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 5.6681923492712905,
+      "eval_loss": 5.525067329406738,
+      "eval_mean_token_accuracy": 0.2779707208893816,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 7425448.0,
+      "eval_runtime": 49.7944,
+      "eval_samples_per_second": 8.716,
+      "eval_steps_per_second": 4.358,
       "step": 6948
     }
   ],
   "logging_steps": 50,
+  "max_steps": 8685,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.016969752533504e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

checkpoint-6948/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8db5c304963110404ebb6947b83ba95bd9b8aad1f9b8b578cc33c46d601e13dc
 size 6225

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a666397e6243ddba6f7279c90610ed552907ef4de0be511faece3826d13e618
 size 6225

checkpoint-8685/adapter_config.json CHANGED Viewed

@@ -25,14 +25,14 @@
   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
-  "r": 8,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "v_proj",
-    "q_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "peft_type": "LORA",
   "peft_version": "0.18.0",
   "qalora_group_size": 16,
+  "r": 24,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "o_proj",
     "k_proj",
     "v_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-8685/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2381d61542c1032294bdfd8d93b87c507ec0307a2bd423dfa1c90ac19f153434
-size 8749064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8b4ecb107db701acdc04f96300149f10454a4f22cc800cab0b968eae74c3415
+size 26182176

checkpoint-8685/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36cfb0e2c01a3583f649b7157010998f7cfe60c81f2d8dd9f8a236e6ac0ea717
-size 17621003

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1299200e098e830dd07921adbf8a60a6476e8cf36d7b7f707c1a922d4319d4d
+size 52486155

checkpoint-8685/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9e2210ef2bde81f3b01f24b5d3b56f7929de6f0dc6c10e40739165ab0cf536d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:400a0ef098a3a7945e367fce95960239dc97197e53382a77b353016a149f9f93
 size 14645

checkpoint-8685/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa0ca13eecc178cf19160562d582bc8e65df34a81c00371e4700177518add503
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:22e56af9f486c216b1657390be7da71b3945baf2e0925cfac7cc23d69d3cd231
 size 1465

checkpoint-8685/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 8685,
-  "best_metric": 5.603951930999756,
   "best_model_checkpoint": "./output/checkpoint-8685",
   "epoch": 5.0,
   "eval_steps": 500,
@@ -10,1800 +10,1800 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 3.657764935493469,
       "epoch": 0.028785261945883708,
-      "grad_norm": 5.520808696746826,
       "learning_rate": 4.9e-07,
-      "loss": 13.8756,
-      "mean_token_accuracy": 0.15039000600576402,
-      "num_tokens": 53093.0,
       "step": 50
     },
     {
-      "entropy": 3.6701580238342286,
       "epoch": 0.057570523891767415,
-      "grad_norm": 5.364443302154541,
       "learning_rate": 9.9e-07,
-      "loss": 14.2271,
-      "mean_token_accuracy": 0.14123578995466232,
-      "num_tokens": 108334.0,
       "step": 100
     },
     {
-      "entropy": 3.571350417137146,
       "epoch": 0.08635578583765112,
-      "grad_norm": 6.120348930358887,
       "learning_rate": 1.49e-06,
-      "loss": 13.0719,
-      "mean_token_accuracy": 0.17464223861694336,
-      "num_tokens": 157491.0,
       "step": 150
     },
     {
-      "entropy": 3.7263419818878174,
       "epoch": 0.11514104778353483,
-      "grad_norm": 7.090941429138184,
       "learning_rate": 1.99e-06,
-      "loss": 13.7425,
-      "mean_token_accuracy": 0.14771999716758727,
-      "num_tokens": 211394.0,
       "step": 200
     },
     {
-      "entropy": 3.8246818876266477,
       "epoch": 0.14392630972941853,
-      "grad_norm": 7.317005157470703,
-      "learning_rate": 1.9904128350616315e-06,
-      "loss": 13.0931,
-      "mean_token_accuracy": 0.16831266060471534,
-      "num_tokens": 263685.0,
       "step": 250
     },
     {
-      "entropy": 4.055451736450196,
       "epoch": 0.17271157167530224,
-      "grad_norm": 7.5889105796813965,
-      "learning_rate": 1.98063001369595e-06,
-      "loss": 12.6562,
-      "mean_token_accuracy": 0.17028855353593828,
-      "num_tokens": 314059.0,
       "step": 300
     },
     {
-      "entropy": 4.237709469795227,
       "epoch": 0.20149683362118595,
-      "grad_norm": 9.854535102844238,
-      "learning_rate": 1.970847192330268e-06,
-      "loss": 12.2612,
-      "mean_token_accuracy": 0.1734047804772854,
-      "num_tokens": 367038.0,
       "step": 350
     },
     {
-      "entropy": 4.658133435249328,
       "epoch": 0.23028209556706966,
-      "grad_norm": 18.193012237548828,
-      "learning_rate": 1.961064370964586e-06,
-      "loss": 12.0381,
-      "mean_token_accuracy": 0.16058035269379617,
-      "num_tokens": 420327.0,
       "step": 400
     },
     {
-      "entropy": 5.148408350944519,
       "epoch": 0.25906735751295334,
-      "grad_norm": 23.47320556640625,
-      "learning_rate": 1.9512815495989045e-06,
-      "loss": 10.9474,
-      "mean_token_accuracy": 0.16484014570713043,
-      "num_tokens": 472429.0,
       "step": 450
     },
     {
-      "entropy": 5.857514944076538,
       "epoch": 0.28785261945883706,
-      "grad_norm": 38.577083587646484,
-      "learning_rate": 1.9414987282332225e-06,
-      "loss": 9.4627,
-      "mean_token_accuracy": 0.16253757804632188,
-      "num_tokens": 526315.0,
       "step": 500
     },
     {
-      "entropy": 6.357027115821839,
       "epoch": 0.31663788140472077,
-      "grad_norm": 21.497377395629883,
-      "learning_rate": 1.9317159068675404e-06,
-      "loss": 8.0126,
-      "mean_token_accuracy": 0.16963028475642206,
-      "num_tokens": 578511.0,
       "step": 550
     },
     {
-      "entropy": 6.513781118392944,
       "epoch": 0.3454231433506045,
-      "grad_norm": 7.595526218414307,
-      "learning_rate": 1.921933085501859e-06,
-      "loss": 7.4114,
-      "mean_token_accuracy": 0.16999967724084855,
-      "num_tokens": 630937.0,
       "step": 600
     },
     {
-      "entropy": 6.396916694641114,
       "epoch": 0.3742084052964882,
-      "grad_norm": 7.277398109436035,
-      "learning_rate": 1.9121502641361767e-06,
-      "loss": 6.915,
-      "mean_token_accuracy": 0.18526431500911714,
-      "num_tokens": 680501.0,
       "step": 650
     },
     {
-      "entropy": 6.685241918563843,
       "epoch": 0.4029936672423719,
-      "grad_norm": 6.1464009284973145,
-      "learning_rate": 1.902367442770495e-06,
-      "loss": 6.939,
-      "mean_token_accuracy": 0.17030285254120828,
-      "num_tokens": 733231.0,
       "step": 700
     },
     {
-      "entropy": 6.59221194267273,
       "epoch": 0.4317789291882556,
-      "grad_norm": 4.717687129974365,
-      "learning_rate": 1.892584621404813e-06,
-      "loss": 6.6518,
-      "mean_token_accuracy": 0.18416573852300644,
-      "num_tokens": 785373.0,
       "step": 750
     },
     {
-      "entropy": 6.6572853946685795,
       "epoch": 0.4605641911341393,
-      "grad_norm": 3.5309388637542725,
-      "learning_rate": 1.8828018000391312e-06,
-      "loss": 6.6038,
-      "mean_token_accuracy": 0.17593510583043098,
-      "num_tokens": 838646.0,
       "step": 800
     },
     {
-      "entropy": 6.598165597915649,
       "epoch": 0.48934945308002303,
-      "grad_norm": 4.042945384979248,
-      "learning_rate": 1.8730189786734493e-06,
-      "loss": 6.4659,
-      "mean_token_accuracy": 0.184499751329422,
-      "num_tokens": 892380.0,
       "step": 850
     },
     {
-      "entropy": 6.5754234790802,
       "epoch": 0.5181347150259067,
-      "grad_norm": 3.1833558082580566,
-      "learning_rate": 1.8632361573077675e-06,
-      "loss": 6.3822,
-      "mean_token_accuracy": 0.19283706933259964,
-      "num_tokens": 947971.0,
       "step": 900
     },
     {
-      "entropy": 6.213122038841248,
       "epoch": 0.5469199769717904,
-      "grad_norm": 4.177810192108154,
-      "learning_rate": 1.8534533359420857e-06,
-      "loss": 5.9971,
-      "mean_token_accuracy": 0.23489593595266342,
-      "num_tokens": 998810.0,
       "step": 950
     },
     {
-      "entropy": 6.298044099807739,
       "epoch": 0.5757052389176741,
-      "grad_norm": 3.098109722137451,
-      "learning_rate": 1.8436705145764038e-06,
-      "loss": 6.0561,
-      "mean_token_accuracy": 0.22645144850015642,
-      "num_tokens": 1050860.0,
       "step": 1000
     },
     {
-      "entropy": 6.316655559539795,
       "epoch": 0.6044905008635578,
-      "grad_norm": 4.703200817108154,
-      "learning_rate": 1.833887693210722e-06,
-      "loss": 6.0663,
-      "mean_token_accuracy": 0.22275402665138244,
-      "num_tokens": 1104304.0,
       "step": 1050
     },
     {
-      "entropy": 6.038654108047485,
       "epoch": 0.6332757628094415,
-      "grad_norm": 4.759252548217773,
-      "learning_rate": 1.8241048718450401e-06,
-      "loss": 5.7784,
-      "mean_token_accuracy": 0.25002532452344894,
-      "num_tokens": 1153605.0,
       "step": 1100
     },
     {
-      "entropy": 5.933659896850586,
       "epoch": 0.6620610247553252,
-      "grad_norm": 8.207566261291504,
-      "learning_rate": 1.814322050479358e-06,
-      "loss": 5.6655,
-      "mean_token_accuracy": 0.2621264266967773,
-      "num_tokens": 1204328.0,
       "step": 1150
     },
     {
-      "entropy": 6.116096878051758,
       "epoch": 0.690846286701209,
-      "grad_norm": 6.12317419052124,
-      "learning_rate": 1.8045392291136762e-06,
-      "loss": 5.839,
-      "mean_token_accuracy": 0.24515481561422348,
-      "num_tokens": 1257415.0,
       "step": 1200
     },
     {
-      "entropy": 6.150517730712891,
       "epoch": 0.7196315486470927,
-      "grad_norm": 5.22706937789917,
-      "learning_rate": 1.7947564077479944e-06,
-      "loss": 5.8714,
-      "mean_token_accuracy": 0.24524727016687392,
-      "num_tokens": 1310049.0,
       "step": 1250
     },
     {
-      "entropy": 6.066065754890442,
       "epoch": 0.7484168105929764,
-      "grad_norm": 5.889018535614014,
-      "learning_rate": 1.7849735863823125e-06,
-      "loss": 5.7909,
-      "mean_token_accuracy": 0.2534559938311577,
-      "num_tokens": 1361794.0,
       "step": 1300
     },
     {
-      "entropy": 5.9255893468856815,
       "epoch": 0.7772020725388601,
-      "grad_norm": 6.514400005340576,
-      "learning_rate": 1.7751907650166307e-06,
-      "loss": 5.6586,
-      "mean_token_accuracy": 0.26638238221406935,
-      "num_tokens": 1412773.0,
       "step": 1350
     },
     {
-      "entropy": 6.057256698608398,
       "epoch": 0.8059873344847438,
-      "grad_norm": 8.18265438079834,
-      "learning_rate": 1.7654079436509488e-06,
-      "loss": 5.7887,
-      "mean_token_accuracy": 0.2534638229012489,
-      "num_tokens": 1465620.0,
       "step": 1400
     },
     {
-      "entropy": 6.05293836593628,
       "epoch": 0.8347725964306275,
-      "grad_norm": 5.678530216217041,
-      "learning_rate": 1.755625122285267e-06,
-      "loss": 5.7898,
-      "mean_token_accuracy": 0.2528185424208641,
-      "num_tokens": 1518899.0,
       "step": 1450
     },
     {
-      "entropy": 5.990337147712707,
       "epoch": 0.8635578583765112,
-      "grad_norm": 6.633603096008301,
-      "learning_rate": 1.7458423009195851e-06,
-      "loss": 5.7232,
-      "mean_token_accuracy": 0.26182772636413576,
-      "num_tokens": 1571304.0,
       "step": 1500
     },
     {
-      "entropy": 6.063954038619995,
       "epoch": 0.8923431203223949,
-      "grad_norm": 5.510496139526367,
-      "learning_rate": 1.7360594795539033e-06,
-      "loss": 5.7971,
-      "mean_token_accuracy": 0.2533514684438705,
-      "num_tokens": 1627369.0,
       "step": 1550
     },
     {
-      "entropy": 5.924159088134766,
       "epoch": 0.9211283822682786,
-      "grad_norm": 4.613114356994629,
-      "learning_rate": 1.7262766581882212e-06,
-      "loss": 5.6507,
-      "mean_token_accuracy": 0.27155053317546846,
-      "num_tokens": 1680401.0,
       "step": 1600
     },
     {
-      "entropy": 6.103739204406739,
       "epoch": 0.9499136442141624,
-      "grad_norm": 5.6744842529296875,
-      "learning_rate": 1.7164938368225394e-06,
-      "loss": 5.8274,
-      "mean_token_accuracy": 0.25028307527303695,
-      "num_tokens": 1735745.0,
       "step": 1650
     },
     {
-      "entropy": 5.8188560962677,
       "epoch": 0.9786989061600461,
-      "grad_norm": 5.090628147125244,
-      "learning_rate": 1.7067110154568575e-06,
-      "loss": 5.5508,
-      "mean_token_accuracy": 0.27921974420547485,
-      "num_tokens": 1786896.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
-      "eval_entropy": 6.118273651544949,
-      "eval_loss": 5.848378658294678,
-      "eval_mean_token_accuracy": 0.23943741564651788,
-      "eval_model_preparation_time": 0.0048,
-      "eval_num_tokens": 1825107.0,
-      "eval_runtime": 79.9471,
-      "eval_samples_per_second": 5.429,
-      "eval_steps_per_second": 2.714,
       "step": 1737
     },
     {
-      "entropy": 5.8781821727752686,
       "epoch": 1.0074841681059297,
-      "grad_norm": 4.617892742156982,
-      "learning_rate": 1.6969281940911757e-06,
-      "loss": 5.5999,
-      "mean_token_accuracy": 0.272807405591011,
-      "num_tokens": 1838864.0,
       "step": 1750
     },
     {
-      "entropy": 5.990532498359681,
       "epoch": 1.0362694300518134,
-      "grad_norm": 4.281843185424805,
-      "learning_rate": 1.687145372725494e-06,
-      "loss": 5.7122,
-      "mean_token_accuracy": 0.2623971113562584,
-      "num_tokens": 1893816.0,
       "step": 1800
     },
     {
-      "entropy": 5.881164779663086,
       "epoch": 1.065054691997697,
-      "grad_norm": 5.956342697143555,
-      "learning_rate": 1.6773625513598122e-06,
-      "loss": 5.5935,
-      "mean_token_accuracy": 0.281170434653759,
-      "num_tokens": 1946532.0,
       "step": 1850
     },
     {
-      "entropy": 5.846065778732299,
       "epoch": 1.0938399539435808,
-      "grad_norm": 2.9725143909454346,
-      "learning_rate": 1.6675797299941304e-06,
-      "loss": 5.5704,
-      "mean_token_accuracy": 0.28434582442045214,
-      "num_tokens": 2000184.0,
       "step": 1900
     },
     {
-      "entropy": 5.80983151435852,
       "epoch": 1.1226252158894645,
-      "grad_norm": 7.230545520782471,
-      "learning_rate": 1.6577969086284485e-06,
-      "loss": 5.5435,
-      "mean_token_accuracy": 0.28852490842342376,
-      "num_tokens": 2052250.0,
       "step": 1950
     },
     {
-      "entropy": 5.764914684295654,
       "epoch": 1.1514104778353482,
-      "grad_norm": 5.969006538391113,
-      "learning_rate": 1.6480140872627667e-06,
-      "loss": 5.505,
-      "mean_token_accuracy": 0.291971475481987,
-      "num_tokens": 2103531.0,
       "step": 2000
     },
     {
-      "entropy": 5.847496213912964,
       "epoch": 1.180195739781232,
-      "grad_norm": 5.924343109130859,
-      "learning_rate": 1.6382312658970846e-06,
-      "loss": 5.5929,
-      "mean_token_accuracy": 0.28092912048101426,
-      "num_tokens": 2157098.0,
       "step": 2050
     },
     {
-      "entropy": 5.761440043449402,
       "epoch": 1.2089810017271156,
-      "grad_norm": 3.5072126388549805,
-      "learning_rate": 1.6284484445314028e-06,
-      "loss": 5.5199,
-      "mean_token_accuracy": 0.2879746726155281,
-      "num_tokens": 2211827.0,
       "step": 2100
     },
     {
-      "entropy": 5.64789267539978,
       "epoch": 1.2377662636729994,
-      "grad_norm": 3.549797534942627,
-      "learning_rate": 1.618665623165721e-06,
-      "loss": 5.4051,
-      "mean_token_accuracy": 0.30424477279186246,
-      "num_tokens": 2262174.0,
       "step": 2150
     },
     {
-      "entropy": 5.837811284065246,
       "epoch": 1.266551525618883,
-      "grad_norm": 3.551928758621216,
-      "learning_rate": 1.608882801800039e-06,
-      "loss": 5.5924,
-      "mean_token_accuracy": 0.2800884509086609,
-      "num_tokens": 2316440.0,
       "step": 2200
     },
     {
-      "entropy": 5.710742998123169,
       "epoch": 1.2953367875647668,
-      "grad_norm": 5.189817905426025,
-      "learning_rate": 1.5990999804343572e-06,
-      "loss": 5.4659,
-      "mean_token_accuracy": 0.2982784253358841,
-      "num_tokens": 2368468.0,
       "step": 2250
     },
     {
-      "entropy": 5.639391016960144,
       "epoch": 1.3241220495106505,
-      "grad_norm": 5.6753153800964355,
-      "learning_rate": 1.5893171590686754e-06,
-      "loss": 5.4055,
-      "mean_token_accuracy": 0.30424224823713303,
-      "num_tokens": 2421180.0,
       "step": 2300
     },
     {
-      "entropy": 5.862650499343872,
       "epoch": 1.3529073114565342,
-      "grad_norm": 3.0865261554718018,
-      "learning_rate": 1.5795343377029935e-06,
-      "loss": 5.6251,
-      "mean_token_accuracy": 0.2777055302262306,
-      "num_tokens": 2476255.0,
       "step": 2350
     },
     {
-      "entropy": 5.623318548202515,
       "epoch": 1.381692573402418,
-      "grad_norm": 3.22993803024292,
-      "learning_rate": 1.5697515163373117e-06,
-      "loss": 5.3962,
-      "mean_token_accuracy": 0.30466238647699356,
-      "num_tokens": 2527674.0,
       "step": 2400
     },
     {
-      "entropy": 5.821551780700684,
       "epoch": 1.4104778353483016,
-      "grad_norm": 4.010779857635498,
-      "learning_rate": 1.5599686949716298e-06,
-      "loss": 5.5974,
-      "mean_token_accuracy": 0.2798157992959023,
-      "num_tokens": 2582909.0,
       "step": 2450
     },
     {
-      "entropy": 5.585216546058655,
       "epoch": 1.4392630972941853,
-      "grad_norm": 5.638322353363037,
-      "learning_rate": 1.5501858736059478e-06,
-      "loss": 5.3738,
-      "mean_token_accuracy": 0.30478625535964965,
-      "num_tokens": 2636579.0,
       "step": 2500
     },
     {
-      "entropy": 5.561697783470154,
       "epoch": 1.468048359240069,
-      "grad_norm": 5.703922748565674,
-      "learning_rate": 1.540403052240266e-06,
-      "loss": 5.3534,
-      "mean_token_accuracy": 0.30862479507923124,
-      "num_tokens": 2687698.0,
       "step": 2550
     },
     {
-      "entropy": 5.647481231689453,
       "epoch": 1.4968336211859528,
-      "grad_norm": 2.2600433826446533,
-      "learning_rate": 1.530620230874584e-06,
-      "loss": 5.4388,
-      "mean_token_accuracy": 0.2973997402191162,
-      "num_tokens": 2740214.0,
       "step": 2600
     },
     {
-      "entropy": 5.578100996017456,
       "epoch": 1.5256188831318365,
-      "grad_norm": 4.077702522277832,
-      "learning_rate": 1.5208374095089022e-06,
-      "loss": 5.3769,
-      "mean_token_accuracy": 0.30530194252729415,
-      "num_tokens": 2792574.0,
       "step": 2650
     },
     {
-      "entropy": 5.573838739395142,
       "epoch": 1.5544041450777202,
-      "grad_norm": 3.5293424129486084,
-      "learning_rate": 1.5110545881432204e-06,
-      "loss": 5.3726,
-      "mean_token_accuracy": 0.30599710553884507,
-      "num_tokens": 2845597.0,
       "step": 2700
     },
     {
-      "entropy": 5.5452189445495605,
       "epoch": 1.583189407023604,
-      "grad_norm": 4.356649398803711,
-      "learning_rate": 1.5012717667775385e-06,
-      "loss": 5.3457,
-      "mean_token_accuracy": 0.3081423792243004,
-      "num_tokens": 2898683.0,
       "step": 2750
     },
     {
-      "entropy": 5.7015859985351565,
       "epoch": 1.6119746689694876,
-      "grad_norm": 3.822186231613159,
-      "learning_rate": 1.4914889454118567e-06,
-      "loss": 5.5027,
-      "mean_token_accuracy": 0.29116119146347047,
-      "num_tokens": 2952290.0,
       "step": 2800
     },
     {
-      "entropy": 5.521328859329223,
       "epoch": 1.6407599309153713,
-      "grad_norm": 3.176685094833374,
-      "learning_rate": 1.4817061240461749e-06,
-      "loss": 5.3289,
-      "mean_token_accuracy": 0.31105489522218704,
-      "num_tokens": 3004556.0,
       "step": 2850
     },
     {
-      "entropy": 5.479469141960144,
       "epoch": 1.669545192861255,
-      "grad_norm": 2.152296781539917,
-      "learning_rate": 1.471923302680493e-06,
-      "loss": 5.296,
-      "mean_token_accuracy": 0.3132500395178795,
-      "num_tokens": 3056448.0,
       "step": 2900
     },
     {
-      "entropy": 5.647905979156494,
       "epoch": 1.6983304548071387,
-      "grad_norm": 2.7002599239349365,
-      "learning_rate": 1.462140481314811e-06,
-      "loss": 5.4571,
-      "mean_token_accuracy": 0.2947456142306328,
-      "num_tokens": 3109539.0,
       "step": 2950
     },
     {
-      "entropy": 5.522715563774109,
       "epoch": 1.7271157167530224,
-      "grad_norm": 5.419680595397949,
-      "learning_rate": 1.452357659949129e-06,
-      "loss": 5.3362,
-      "mean_token_accuracy": 0.30760616779327393,
-      "num_tokens": 3162421.0,
       "step": 3000
     },
     {
-      "entropy": 5.352699360847473,
       "epoch": 1.7559009786989062,
-      "grad_norm": 4.145458698272705,
-      "learning_rate": 1.4425748385834473e-06,
-      "loss": 5.1654,
-      "mean_token_accuracy": 0.3313426411151886,
-      "num_tokens": 3212079.0,
       "step": 3050
     },
     {
-      "entropy": 5.51159740447998,
       "epoch": 1.7846862406447899,
-      "grad_norm": 2.685253858566284,
-      "learning_rate": 1.4327920172177654e-06,
-      "loss": 5.33,
-      "mean_token_accuracy": 0.3081912398338318,
-      "num_tokens": 3264089.0,
       "step": 3100
     },
     {
-      "entropy": 5.230629982948304,
       "epoch": 1.8134715025906736,
-      "grad_norm": 3.12331223487854,
-      "learning_rate": 1.4230091958520836e-06,
-      "loss": 5.0596,
-      "mean_token_accuracy": 0.34315449446439744,
-      "num_tokens": 3311881.0,
       "step": 3150
     },
     {
-      "entropy": 5.51932089805603,
       "epoch": 1.8422567645365573,
-      "grad_norm": 2.483748435974121,
-      "learning_rate": 1.413226374486402e-06,
-      "loss": 5.3417,
-      "mean_token_accuracy": 0.3069167789816856,
-      "num_tokens": 3364861.0,
       "step": 3200
     },
     {
-      "entropy": 5.516515297889709,
       "epoch": 1.871042026482441,
-      "grad_norm": 2.8922979831695557,
-      "learning_rate": 1.40344355312072e-06,
-      "loss": 5.3344,
-      "mean_token_accuracy": 0.31019389897584915,
-      "num_tokens": 3415911.0,
       "step": 3250
     },
     {
-      "entropy": 5.548952431678772,
       "epoch": 1.8998272884283247,
-      "grad_norm": 2.2430121898651123,
-      "learning_rate": 1.3936607317550382e-06,
-      "loss": 5.3644,
-      "mean_token_accuracy": 0.30517252802848815,
-      "num_tokens": 3468338.0,
       "step": 3300
     },
     {
-      "entropy": 5.6118639993667605,
       "epoch": 1.9286125503742084,
-      "grad_norm": 2.498114824295044,
-      "learning_rate": 1.3838779103893564e-06,
-      "loss": 5.4373,
-      "mean_token_accuracy": 0.29593590170145034,
-      "num_tokens": 3521693.0,
       "step": 3350
     },
     {
-      "entropy": 5.479673957824707,
       "epoch": 1.9573978123200921,
-      "grad_norm": 4.210599899291992,
-      "learning_rate": 1.3740950890236743e-06,
-      "loss": 5.3043,
-      "mean_token_accuracy": 0.31091805547475815,
-      "num_tokens": 3574206.0,
       "step": 3400
     },
     {
-      "entropy": 5.581016225814819,
       "epoch": 1.9861830742659758,
-      "grad_norm": 2.762880325317383,
-      "learning_rate": 1.3643122676579925e-06,
-      "loss": 5.4041,
-      "mean_token_accuracy": 0.29961841195821765,
-      "num_tokens": 3627807.0,
       "step": 3450
     },
     {
       "epoch": 2.0,
-      "eval_entropy": 5.80436185977426,
-      "eval_loss": 5.64275598526001,
-      "eval_mean_token_accuracy": 0.26474372877777996,
-      "eval_model_preparation_time": 0.0048,
-      "eval_num_tokens": 3650214.0,
-      "eval_runtime": 80.7759,
-      "eval_samples_per_second": 5.373,
-      "eval_steps_per_second": 2.686,
       "step": 3474
     },
     {
-      "entropy": 5.4502338743209835,
       "epoch": 2.0149683362118593,
-      "grad_norm": 3.085745334625244,
-      "learning_rate": 1.3545294462923106e-06,
-      "loss": 5.2776,
-      "mean_token_accuracy": 0.3168214797973633,
-      "num_tokens": 3677883.0,
       "step": 3500
     },
     {
-      "entropy": 5.572550778388977,
       "epoch": 2.043753598157743,
-      "grad_norm": 4.035412788391113,
-      "learning_rate": 1.3447466249266288e-06,
-      "loss": 5.3954,
-      "mean_token_accuracy": 0.30198297649621964,
-      "num_tokens": 3730991.0,
       "step": 3550
     },
     {
-      "entropy": 5.501015219688416,
       "epoch": 2.0725388601036268,
-      "grad_norm": 7.273624897003174,
-      "learning_rate": 1.334963803560947e-06,
-      "loss": 5.3335,
-      "mean_token_accuracy": 0.3079583531618118,
-      "num_tokens": 3783795.0,
       "step": 3600
     },
     {
-      "entropy": 5.535852227210999,
       "epoch": 2.1013241220495105,
-      "grad_norm": 2.6426734924316406,
-      "learning_rate": 1.325180982195265e-06,
-      "loss": 5.3644,
-      "mean_token_accuracy": 0.30542428642511366,
-      "num_tokens": 3835526.0,
       "step": 3650
     },
     {
-      "entropy": 5.504179673194885,
       "epoch": 2.130109383995394,
-      "grad_norm": 2.1749041080474854,
-      "learning_rate": 1.3153981608295833e-06,
-      "loss": 5.3314,
-      "mean_token_accuracy": 0.30851521909236906,
-      "num_tokens": 3887175.0,
       "step": 3700
     },
     {
-      "entropy": 5.3724824857711795,
       "epoch": 2.158894645941278,
-      "grad_norm": 2.3251688480377197,
-      "learning_rate": 1.3056153394639014e-06,
-      "loss": 5.2056,
-      "mean_token_accuracy": 0.3245506736636162,
-      "num_tokens": 3938003.0,
       "step": 3750
     },
     {
-      "entropy": 5.505883145332336,
       "epoch": 2.1876799078871616,
-      "grad_norm": 2.406859874725342,
-      "learning_rate": 1.2958325180982196e-06,
-      "loss": 5.3383,
-      "mean_token_accuracy": 0.3079656678438187,
-      "num_tokens": 3990451.0,
       "step": 3800
     },
     {
-      "entropy": 5.571912684440613,
       "epoch": 2.2164651698330453,
-      "grad_norm": 2.8970186710357666,
-      "learning_rate": 1.2860496967325375e-06,
-      "loss": 5.3978,
-      "mean_token_accuracy": 0.3008614909648895,
-      "num_tokens": 4044048.0,
       "step": 3850
     },
     {
-      "entropy": 5.423692960739135,
       "epoch": 2.245250431778929,
-      "grad_norm": 5.843964576721191,
-      "learning_rate": 1.2762668753668557e-06,
-      "loss": 5.2595,
-      "mean_token_accuracy": 0.31735698133707047,
-      "num_tokens": 4095276.0,
       "step": 3900
     },
     {
-      "entropy": 5.477164916992187,
       "epoch": 2.2740356937248127,
-      "grad_norm": 3.271005392074585,
-      "learning_rate": 1.2664840540011738e-06,
-      "loss": 5.3098,
-      "mean_token_accuracy": 0.31092607975006104,
-      "num_tokens": 4148172.0,
       "step": 3950
     },
     {
-      "entropy": 5.679584302902222,
       "epoch": 2.3028209556706964,
-      "grad_norm": 3.6198225021362305,
-      "learning_rate": 1.256701232635492e-06,
-      "loss": 5.5076,
-      "mean_token_accuracy": 0.2872884130477905,
-      "num_tokens": 4202733.0,
       "step": 4000
     },
     {
-      "entropy": 5.527384333610534,
       "epoch": 2.33160621761658,
-      "grad_norm": 3.32027268409729,
-      "learning_rate": 1.2469184112698101e-06,
-      "loss": 5.3586,
-      "mean_token_accuracy": 0.304608636200428,
-      "num_tokens": 4255738.0,
       "step": 4050
     },
     {
-      "entropy": 5.556081314086914,
       "epoch": 2.360391479562464,
-      "grad_norm": 3.729132652282715,
-      "learning_rate": 1.2371355899041283e-06,
-      "loss": 5.387,
-      "mean_token_accuracy": 0.3014680635929108,
-      "num_tokens": 4308638.0,
       "step": 4100
     },
     {
-      "entropy": 5.623760852813721,
       "epoch": 2.3891767415083476,
-      "grad_norm": 3.670278549194336,
-      "learning_rate": 1.2273527685384464e-06,
-      "loss": 5.4573,
-      "mean_token_accuracy": 0.2922948771715164,
-      "num_tokens": 4363170.0,
       "step": 4150
     },
     {
-      "entropy": 5.532849233150483,
       "epoch": 2.4179620034542313,
-      "grad_norm": 1.8806607723236084,
-      "learning_rate": 1.2175699471727646e-06,
-      "loss": 5.368,
-      "mean_token_accuracy": 0.3040569290518761,
-      "num_tokens": 4415607.0,
       "step": 4200
     },
     {
-      "entropy": 5.491175107955932,
       "epoch": 2.446747265400115,
-      "grad_norm": 1.9178470373153687,
-      "learning_rate": 1.2077871258070827e-06,
-      "loss": 5.3246,
-      "mean_token_accuracy": 0.309355776309967,
-      "num_tokens": 4467608.0,
       "step": 4250
     },
     {
-      "entropy": 5.539590878486633,
       "epoch": 2.4755325273459987,
-      "grad_norm": 2.679412364959717,
-      "learning_rate": 1.1980043044414007e-06,
-      "loss": 5.3729,
-      "mean_token_accuracy": 0.3032041811943054,
-      "num_tokens": 4520299.0,
       "step": 4300
     },
     {
-      "entropy": 5.5143190240859985,
       "epoch": 2.5043177892918824,
-      "grad_norm": 2.913151741027832,
-      "learning_rate": 1.1882214830757188e-06,
-      "loss": 5.3514,
-      "mean_token_accuracy": 0.30634128242731096,
-      "num_tokens": 4573065.0,
       "step": 4350
     },
     {
-      "entropy": 5.676259469985962,
       "epoch": 2.533103051237766,
-      "grad_norm": 3.4577906131744385,
-      "learning_rate": 1.178438661710037e-06,
-      "loss": 5.5081,
-      "mean_token_accuracy": 0.28829957485198976,
-      "num_tokens": 4626807.0,
       "step": 4400
     },
     {
-      "entropy": 5.377592206001282,
       "epoch": 2.56188831318365,
-      "grad_norm": 2.2610204219818115,
-      "learning_rate": 1.1686558403443551e-06,
-      "loss": 5.2171,
-      "mean_token_accuracy": 0.32207680940628053,
-      "num_tokens": 4677663.0,
       "step": 4450
     },
     {
-      "entropy": 5.646258478164673,
       "epoch": 2.5906735751295336,
-      "grad_norm": 2.0913829803466797,
-      "learning_rate": 1.1588730189786733e-06,
-      "loss": 5.4762,
-      "mean_token_accuracy": 0.2905121323466301,
-      "num_tokens": 4731830.0,
       "step": 4500
     },
     {
-      "entropy": 5.469613900184632,
       "epoch": 2.6194588370754173,
-      "grad_norm": 2.4179136753082275,
-      "learning_rate": 1.1490901976129917e-06,
-      "loss": 5.3066,
-      "mean_token_accuracy": 0.31084585636854173,
-      "num_tokens": 4784694.0,
       "step": 4550
     },
     {
-      "entropy": 5.552228803634644,
       "epoch": 2.648244099021301,
-      "grad_norm": 2.213059663772583,
-      "learning_rate": 1.1393073762473098e-06,
-      "loss": 5.3872,
-      "mean_token_accuracy": 0.3006081366539001,
-      "num_tokens": 4838534.0,
       "step": 4600
     },
     {
-      "entropy": 5.5307044506073,
       "epoch": 2.6770293609671847,
-      "grad_norm": 2.6984758377075195,
-      "learning_rate": 1.129524554881628e-06,
-      "loss": 5.3655,
-      "mean_token_accuracy": 0.30505997538566587,
-      "num_tokens": 4890611.0,
       "step": 4650
     },
     {
-      "entropy": 5.501814904212952,
       "epoch": 2.7058146229130684,
-      "grad_norm": 3.783916711807251,
-      "learning_rate": 1.1197417335159461e-06,
-      "loss": 5.3385,
-      "mean_token_accuracy": 0.3082756090164185,
-      "num_tokens": 4943571.0,
       "step": 4700
     },
     {
-      "entropy": 5.301318726539612,
       "epoch": 2.734599884858952,
-      "grad_norm": 3.2715396881103516,
-      "learning_rate": 1.109958912150264e-06,
-      "loss": 5.1434,
-      "mean_token_accuracy": 0.3303494158387184,
-      "num_tokens": 4993871.0,
       "step": 4750
     },
     {
-      "entropy": 5.483540773391724,
       "epoch": 2.763385146804836,
-      "grad_norm": 8.074889183044434,
-      "learning_rate": 1.1001760907845822e-06,
-      "loss": 5.3212,
-      "mean_token_accuracy": 0.30983769208192824,
-      "num_tokens": 5046187.0,
       "step": 4800
     },
     {
-      "entropy": 5.468323736190796,
       "epoch": 2.7921704087507195,
-      "grad_norm": 2.2561752796173096,
-      "learning_rate": 1.0903932694189004e-06,
-      "loss": 5.3088,
-      "mean_token_accuracy": 0.30977604538202286,
-      "num_tokens": 5098644.0,
       "step": 4850
     },
     {
-      "entropy": 5.326909036636352,
       "epoch": 2.8209556706966032,
-      "grad_norm": 2.868459701538086,
-      "learning_rate": 1.0806104480532185e-06,
-      "loss": 5.1694,
-      "mean_token_accuracy": 0.32808348089456557,
-      "num_tokens": 5149345.0,
       "step": 4900
     },
     {
-      "entropy": 5.490628228187561,
       "epoch": 2.849740932642487,
-      "grad_norm": 7.378853797912598,
-      "learning_rate": 1.0708276266875367e-06,
-      "loss": 5.3273,
-      "mean_token_accuracy": 0.309133038520813,
-      "num_tokens": 5202028.0,
       "step": 4950
     },
     {
-      "entropy": 5.505302619934082,
       "epoch": 2.8785261945883707,
-      "grad_norm": 2.8309922218322754,
-      "learning_rate": 1.0610448053218548e-06,
-      "loss": 5.3511,
-      "mean_token_accuracy": 0.3045568335056305,
-      "num_tokens": 5255082.0,
       "step": 5000
     },
     {
-      "entropy": 5.354332094192505,
       "epoch": 2.9073114565342544,
-      "grad_norm": 2.403330087661743,
-      "learning_rate": 1.051261983956173e-06,
-      "loss": 5.1958,
-      "mean_token_accuracy": 0.3243831008672714,
-      "num_tokens": 5305042.0,
       "step": 5050
     },
     {
-      "entropy": 5.354864113330841,
       "epoch": 2.936096718480138,
-      "grad_norm": 3.686944007873535,
-      "learning_rate": 1.0414791625904911e-06,
-      "loss": 5.1976,
-      "mean_token_accuracy": 0.3240946170687675,
-      "num_tokens": 5356310.0,
       "step": 5100
     },
     {
-      "entropy": 5.5070520734786985,
       "epoch": 2.964881980426022,
-      "grad_norm": 3.5234930515289307,
-      "learning_rate": 1.0316963412248093e-06,
-      "loss": 5.348,
-      "mean_token_accuracy": 0.3057019948959351,
-      "num_tokens": 5409283.0,
       "step": 5150
     },
     {
-      "entropy": 5.598388237953186,
       "epoch": 2.9936672423719055,
-      "grad_norm": 1.5409276485443115,
-      "learning_rate": 1.0219135198591272e-06,
-      "loss": 5.4331,
-      "mean_token_accuracy": 0.29459414482116697,
-      "num_tokens": 5464332.0,
       "step": 5200
     },
     {
       "epoch": 3.0,
-      "eval_entropy": 5.769902462234145,
-      "eval_loss": 5.6168341636657715,
-      "eval_mean_token_accuracy": 0.266466455456848,
-      "eval_model_preparation_time": 0.0048,
-      "eval_num_tokens": 5475321.0,
-      "eval_runtime": 79.9248,
-      "eval_samples_per_second": 5.43,
-      "eval_steps_per_second": 2.715,
       "step": 5211
     },
     {
-      "entropy": 5.303410301208496,
       "epoch": 3.0224525043177892,
-      "grad_norm": 2.317394256591797,
-      "learning_rate": 1.0121306984934454e-06,
-      "loss": 5.1472,
-      "mean_token_accuracy": 0.32964429914951326,
-      "num_tokens": 5514450.0,
       "step": 5250
     },
     {
-      "entropy": 5.48880750656128,
       "epoch": 3.051237766263673,
-      "grad_norm": 1.6131863594055176,
-      "learning_rate": 1.0023478771277635e-06,
-      "loss": 5.3251,
-      "mean_token_accuracy": 0.30899042904376983,
-      "num_tokens": 5567345.0,
       "step": 5300
     },
     {
-      "entropy": 5.434209570884705,
       "epoch": 3.0800230282095566,
-      "grad_norm": 2.421576499938965,
-      "learning_rate": 9.925650557620817e-07,
-      "loss": 5.2747,
-      "mean_token_accuracy": 0.3147905930876732,
-      "num_tokens": 5619654.0,
       "step": 5350
     },
     {
-      "entropy": 5.4664768409729,
       "epoch": 3.1088082901554404,
-      "grad_norm": 1.8281446695327759,
-      "learning_rate": 9.827822343963998e-07,
-      "loss": 5.3059,
-      "mean_token_accuracy": 0.3102376765012741,
-      "num_tokens": 5672269.0,
       "step": 5400
     },
     {
-      "entropy": 5.550107531547546,
       "epoch": 3.137593552101324,
-      "grad_norm": 1.9315296411514282,
-      "learning_rate": 9.72999413030718e-07,
-      "loss": 5.3911,
-      "mean_token_accuracy": 0.301893512904644,
-      "num_tokens": 5725059.0,
       "step": 5450
     },
     {
-      "entropy": 5.48068968296051,
       "epoch": 3.166378814047208,
-      "grad_norm": 1.4690601825714111,
-      "learning_rate": 9.632165916650362e-07,
-      "loss": 5.3265,
-      "mean_token_accuracy": 0.3086855486035347,
-      "num_tokens": 5776784.0,
       "step": 5500
     },
     {
-      "entropy": 5.644747486114502,
       "epoch": 3.1951640759930915,
-      "grad_norm": 2.134573221206665,
-      "learning_rate": 9.534337702993543e-07,
-      "loss": 5.4804,
-      "mean_token_accuracy": 0.2887866684794426,
-      "num_tokens": 5832296.0,
       "step": 5550
     },
     {
-      "entropy": 5.4956268882751464,
       "epoch": 3.223949337938975,
-      "grad_norm": 1.5776804685592651,
-      "learning_rate": 9.436509489336725e-07,
-      "loss": 5.3328,
-      "mean_token_accuracy": 0.30928332000970843,
-      "num_tokens": 5885122.0,
       "step": 5600
     },
     {
-      "entropy": 5.480846815109253,
       "epoch": 3.252734599884859,
-      "grad_norm": 1.858426809310913,
-      "learning_rate": 9.338681275679906e-07,
-      "loss": 5.3237,
-      "mean_token_accuracy": 0.30814250469207766,
-      "num_tokens": 5938386.0,
       "step": 5650
     },
     {
-      "entropy": 5.49823664188385,
       "epoch": 3.2815198618307426,
-      "grad_norm": 2.0530879497528076,
-      "learning_rate": 9.240853062023088e-07,
-      "loss": 5.3393,
-      "mean_token_accuracy": 0.3074695497751236,
-      "num_tokens": 5989784.0,
       "step": 5700
     },
     {
-      "entropy": 5.524387803077698,
       "epoch": 3.3103051237766263,
-      "grad_norm": 2.564458131790161,
-      "learning_rate": 9.143024848366268e-07,
-      "loss": 5.3623,
-      "mean_token_accuracy": 0.3044606932997704,
-      "num_tokens": 6042646.0,
       "step": 5750
     },
     {
-      "entropy": 5.369810061454773,
       "epoch": 3.33909038572251,
-      "grad_norm": 2.5260229110717773,
-      "learning_rate": 9.04519663470945e-07,
-      "loss": 5.2143,
-      "mean_token_accuracy": 0.3225390288233757,
-      "num_tokens": 6093550.0,
       "step": 5800
     },
     {
-      "entropy": 5.216504397392273,
       "epoch": 3.3678756476683938,
-      "grad_norm": 2.785037040710449,
-      "learning_rate": 8.947368421052631e-07,
-      "loss": 5.0643,
-      "mean_token_accuracy": 0.3421778553724289,
-      "num_tokens": 6142299.0,
       "step": 5850
     },
     {
-      "entropy": 5.439607830047607,
       "epoch": 3.3966609096142775,
-      "grad_norm": 1.3990309238433838,
-      "learning_rate": 8.849540207395813e-07,
-      "loss": 5.283,
-      "mean_token_accuracy": 0.3137792694568634,
-      "num_tokens": 6194315.0,
       "step": 5900
     },
     {
-      "entropy": 5.506643385887146,
       "epoch": 3.425446171560161,
-      "grad_norm": 2.5383260250091553,
-      "learning_rate": 8.751711993738994e-07,
-      "loss": 5.3444,
-      "mean_token_accuracy": 0.30654319524765017,
-      "num_tokens": 6246032.0,
       "step": 5950
     },
     {
-      "entropy": 5.555388352870941,
       "epoch": 3.454231433506045,
-      "grad_norm": 2.3208353519439697,
-      "learning_rate": 8.653883780082175e-07,
-      "loss": 5.3934,
-      "mean_token_accuracy": 0.29988031029701234,
-      "num_tokens": 6300018.0,
       "step": 6000
     },
     {
-      "entropy": 5.493673405647278,
       "epoch": 3.4830166954519286,
-      "grad_norm": 2.0232412815093994,
-      "learning_rate": 8.556055566425356e-07,
-      "loss": 5.3325,
-      "mean_token_accuracy": 0.308107231259346,
-      "num_tokens": 6352988.0,
       "step": 6050
     },
     {
-      "entropy": 5.408542203903198,
       "epoch": 3.5118019573978123,
-      "grad_norm": 1.9977768659591675,
-      "learning_rate": 8.458227352768538e-07,
-      "loss": 5.2492,
-      "mean_token_accuracy": 0.3188119521737099,
-      "num_tokens": 6405116.0,
       "step": 6100
     },
     {
-      "entropy": 5.5706956100463865,
       "epoch": 3.540587219343696,
-      "grad_norm": 1.855686902999878,
-      "learning_rate": 8.360399139111719e-07,
-      "loss": 5.4116,
-      "mean_token_accuracy": 0.2984398019313812,
-      "num_tokens": 6458789.0,
       "step": 6150
     },
     {
-      "entropy": 5.402184357643128,
       "epoch": 3.5693724812895797,
-      "grad_norm": 2.1038777828216553,
-      "learning_rate": 8.2625709254549e-07,
-      "loss": 5.2451,
-      "mean_token_accuracy": 0.3192365264892578,
-      "num_tokens": 6510168.0,
       "step": 6200
     },
     {
-      "entropy": 5.387748742103577,
       "epoch": 3.5981577432354634,
-      "grad_norm": 4.078054904937744,
-      "learning_rate": 8.164742711798082e-07,
-      "loss": 5.2308,
-      "mean_token_accuracy": 0.3177107447385788,
-      "num_tokens": 6562528.0,
       "step": 6250
     },
     {
-      "entropy": 5.636818246841431,
       "epoch": 3.626943005181347,
-      "grad_norm": 2.3809945583343506,
-      "learning_rate": 8.066914498141264e-07,
-      "loss": 5.4791,
-      "mean_token_accuracy": 0.2893213045597076,
-      "num_tokens": 6617308.0,
       "step": 6300
     },
     {
-      "entropy": 5.424606614112854,
       "epoch": 3.655728267127231,
-      "grad_norm": 1.5998064279556274,
-      "learning_rate": 7.969086284484446e-07,
-      "loss": 5.2694,
-      "mean_token_accuracy": 0.31542753279209135,
-      "num_tokens": 6669969.0,
       "step": 6350
     },
     {
-      "entropy": 5.585567483901977,
       "epoch": 3.6845135290731146,
-      "grad_norm": 2.5134034156799316,
-      "learning_rate": 7.871258070827627e-07,
-      "loss": 5.4298,
-      "mean_token_accuracy": 0.2948091793060303,
-      "num_tokens": 6724425.0,
       "step": 6400
     },
     {
-      "entropy": 5.370481524467468,
       "epoch": 3.7132987910189983,
-      "grad_norm": 3.1583099365234375,
-      "learning_rate": 7.773429857170808e-07,
-      "loss": 5.2138,
-      "mean_token_accuracy": 0.32175571620464327,
-      "num_tokens": 6775236.0,
       "step": 6450
     },
     {
-      "entropy": 5.492145628929138,
       "epoch": 3.742084052964882,
-      "grad_norm": 2.628059148788452,
-      "learning_rate": 7.675601643513989e-07,
-      "loss": 5.3357,
-      "mean_token_accuracy": 0.3072090440988541,
-      "num_tokens": 6828545.0,
       "step": 6500
     },
     {
-      "entropy": 5.651436891555786,
       "epoch": 3.7708693149107657,
-      "grad_norm": 2.5757639408111572,
-      "learning_rate": 7.577773429857171e-07,
-      "loss": 5.4907,
-      "mean_token_accuracy": 0.2872760292887688,
-      "num_tokens": 6884005.0,
       "step": 6550
     },
     {
-      "entropy": 5.404571523666382,
       "epoch": 3.7996545768566494,
-      "grad_norm": 3.1881847381591797,
-      "learning_rate": 7.479945216200352e-07,
-      "loss": 5.2462,
-      "mean_token_accuracy": 0.31890535563230515,
-      "num_tokens": 6935209.0,
       "step": 6600
     },
     {
-      "entropy": 5.4135113716125485,
       "epoch": 3.828439838802533,
-      "grad_norm": 2.6072287559509277,
-      "learning_rate": 7.382117002543533e-07,
-      "loss": 5.2552,
-      "mean_token_accuracy": 0.3171507343649864,
-      "num_tokens": 6987396.0,
       "step": 6650
     },
     {
-      "entropy": 5.564729566574097,
       "epoch": 3.857225100748417,
-      "grad_norm": 3.593822956085205,
-      "learning_rate": 7.284288788886714e-07,
-      "loss": 5.4031,
-      "mean_token_accuracy": 0.2990047359466553,
-      "num_tokens": 7041132.0,
       "step": 6700
     },
     {
-      "entropy": 5.472572989463806,
       "epoch": 3.8860103626943006,
-      "grad_norm": 1.4898858070373535,
-      "learning_rate": 7.186460575229896e-07,
-      "loss": 5.3129,
-      "mean_token_accuracy": 0.3096827921271324,
-      "num_tokens": 7094059.0,
       "step": 6750
     },
     {
-      "entropy": 5.370901441574096,
       "epoch": 3.9147956246401843,
-      "grad_norm": 1.974563717842102,
-      "learning_rate": 7.088632361573077e-07,
-      "loss": 5.2186,
-      "mean_token_accuracy": 0.31926353454589845,
-      "num_tokens": 7144964.0,
       "step": 6800
     },
     {
-      "entropy": 5.640433759689331,
       "epoch": 3.943580886586068,
-      "grad_norm": 1.1786425113677979,
-      "learning_rate": 6.990804147916259e-07,
-      "loss": 5.4773,
-      "mean_token_accuracy": 0.28867036461830137,
-      "num_tokens": 7200805.0,
       "step": 6850
     },
     {
-      "entropy": 5.216271538734436,
       "epoch": 3.9723661485319517,
-      "grad_norm": 5.045248985290527,
-      "learning_rate": 6.892975934259439e-07,
-      "loss": 5.0688,
-      "mean_token_accuracy": 0.3398125246167183,
-      "num_tokens": 7250918.0,
       "step": 6900
     },
     {
       "epoch": 4.0,
-      "eval_entropy": 5.757329591408303,
-      "eval_loss": 5.606628894805908,
-      "eval_mean_token_accuracy": 0.26740948622402505,
-      "eval_model_preparation_time": 0.0048,
-      "eval_num_tokens": 7300428.0,
-      "eval_runtime": 81.2062,
-      "eval_samples_per_second": 5.344,
-      "eval_steps_per_second": 2.672,
       "step": 6948
     },
     {
-      "entropy": 5.476274309158325,
       "epoch": 4.001151410477835,
-      "grad_norm": 1.600521206855774,
-      "learning_rate": 6.795147720602622e-07,
-      "loss": 5.3151,
-      "mean_token_accuracy": 0.30966584622859955,
-      "num_tokens": 7302803.0,
       "step": 6950
     },
     {
-      "entropy": 5.241420259475708,
       "epoch": 4.029936672423719,
-      "grad_norm": 2.3073410987854004,
-      "learning_rate": 6.697319506945803e-07,
-      "loss": 5.0865,
-      "mean_token_accuracy": 0.3380747744441032,
-      "num_tokens": 7352390.0,
       "step": 7000
     },
     {
-      "entropy": 5.641773633956909,
       "epoch": 4.058721934369602,
-      "grad_norm": 1.6614909172058105,
-      "learning_rate": 6.599491293288985e-07,
-      "loss": 5.4819,
-      "mean_token_accuracy": 0.2898050233721733,
-      "num_tokens": 7406538.0,
       "step": 7050
     },
     {
-      "entropy": 5.347248024940491,
       "epoch": 4.087507196315486,
-      "grad_norm": 1.927628517150879,
-      "learning_rate": 6.501663079632165e-07,
-      "loss": 5.1913,
-      "mean_token_accuracy": 0.3241666054725647,
-      "num_tokens": 7457482.0,
       "step": 7100
     },
     {
-      "entropy": 5.493693404197693,
       "epoch": 4.11629245826137,
-      "grad_norm": 1.5919839143753052,
-      "learning_rate": 6.403834865975347e-07,
-      "loss": 5.3338,
-      "mean_token_accuracy": 0.3070410805940628,
-      "num_tokens": 7510037.0,
       "step": 7150
     },
     {
-      "entropy": 5.3547215032577515,
       "epoch": 4.1450777202072535,
-      "grad_norm": 1.4471710920333862,
-      "learning_rate": 6.306006652318528e-07,
-      "loss": 5.2021,
-      "mean_token_accuracy": 0.3222602027654648,
-      "num_tokens": 7561667.0,
       "step": 7200
     },
     {
-      "entropy": 5.425107836723328,
       "epoch": 4.173862982153137,
-      "grad_norm": 1.9010282754898071,
-      "learning_rate": 6.20817843866171e-07,
-      "loss": 5.2617,
-      "mean_token_accuracy": 0.3172686892747879,
-      "num_tokens": 7614240.0,
       "step": 7250
     },
     {
-      "entropy": 5.351503825187683,
       "epoch": 4.202648244099021,
-      "grad_norm": 2.7427563667297363,
-      "learning_rate": 6.110350225004892e-07,
-      "loss": 5.1957,
-      "mean_token_accuracy": 0.32644627422094347,
-      "num_tokens": 7665244.0,
       "step": 7300
     },
     {
-      "entropy": 5.642507076263428,
       "epoch": 4.231433506044905,
-      "grad_norm": 1.773911952972412,
-      "learning_rate": 6.012522011348072e-07,
-      "loss": 5.4893,
-      "mean_token_accuracy": 0.2874875500798225,
-      "num_tokens": 7719566.0,
       "step": 7350
     },
     {
-      "entropy": 5.471351361274719,
       "epoch": 4.260218767990788,
-      "grad_norm": 2.5300779342651367,
-      "learning_rate": 5.914693797691254e-07,
-      "loss": 5.3174,
-      "mean_token_accuracy": 0.3082795682549477,
-      "num_tokens": 7772208.0,
       "step": 7400
     },
     {
-      "entropy": 5.494040999412537,
       "epoch": 4.289004029936672,
-      "grad_norm": 1.5798758268356323,
-      "learning_rate": 5.816865584034435e-07,
-      "loss": 5.3364,
-      "mean_token_accuracy": 0.30637153565883635,
-      "num_tokens": 7825098.0,
       "step": 7450
     },
     {
-      "entropy": 5.483609600067139,
       "epoch": 4.317789291882556,
-      "grad_norm": 2.237882614135742,
-      "learning_rate": 5.719037370377617e-07,
-      "loss": 5.3241,
-      "mean_token_accuracy": 0.309529247879982,
-      "num_tokens": 7878204.0,
       "step": 7500
     },
     {
-      "entropy": 5.5503676223754885,
       "epoch": 4.3465745538284395,
-      "grad_norm": 1.932957649230957,
-      "learning_rate": 5.621209156720797e-07,
-      "loss": 5.3927,
-      "mean_token_accuracy": 0.29939470887184144,
-      "num_tokens": 7932907.0,
       "step": 7550
     },
     {
-      "entropy": 5.424697647094726,
       "epoch": 4.375359815774323,
-      "grad_norm": 3.6192433834075928,
-      "learning_rate": 5.52338094306398e-07,
-      "loss": 5.2715,
-      "mean_token_accuracy": 0.31552656859159467,
-      "num_tokens": 7984257.0,
       "step": 7600
     },
     {
-      "entropy": 5.484405131340027,
       "epoch": 4.404145077720207,
-      "grad_norm": 1.48371160030365,
-      "learning_rate": 5.425552729407161e-07,
-      "loss": 5.3238,
-      "mean_token_accuracy": 0.3086192473769188,
-      "num_tokens": 8036820.0,
       "step": 7650
     },
     {
-      "entropy": 5.558430523872375,
       "epoch": 4.432930339666091,
-      "grad_norm": 2.446159839630127,
-      "learning_rate": 5.327724515750343e-07,
-      "loss": 5.4013,
-      "mean_token_accuracy": 0.29872660636901854,
-      "num_tokens": 8090915.0,
       "step": 7700
     },
     {
-      "entropy": 5.417011890411377,
       "epoch": 4.461715601611974,
-      "grad_norm": 2.102670669555664,
-      "learning_rate": 5.229896302093524e-07,
-      "loss": 5.2629,
-      "mean_token_accuracy": 0.31736556023359297,
-      "num_tokens": 8142122.0,
       "step": 7750
     },
     {
-      "entropy": 5.323890132904053,
       "epoch": 4.490500863557858,
-      "grad_norm": 1.9391731023788452,
-      "learning_rate": 5.132068088436705e-07,
-      "loss": 5.1701,
-      "mean_token_accuracy": 0.32738196045160295,
-      "num_tokens": 8192836.0,
       "step": 7800
     },
     {
-      "entropy": 5.333034319877624,
       "epoch": 4.519286125503742,
-      "grad_norm": 3.0682387351989746,
-      "learning_rate": 5.034239874779886e-07,
-      "loss": 5.1845,
-      "mean_token_accuracy": 0.32533166408538816,
-      "num_tokens": 8244147.0,
       "step": 7850
     },
     {
-      "entropy": 5.598471412658691,
       "epoch": 4.5480713874496255,
-      "grad_norm": 3.0168399810791016,
-      "learning_rate": 4.936411661123068e-07,
-      "loss": 5.4375,
-      "mean_token_accuracy": 0.2929014927148819,
-      "num_tokens": 8299242.0,
       "step": 7900
     },
     {
-      "entropy": 5.568692264556884,
       "epoch": 4.576856649395509,
-      "grad_norm": 2.0127766132354736,
-      "learning_rate": 4.838583447466249e-07,
-      "loss": 5.4099,
-      "mean_token_accuracy": 0.29787965178489684,
-      "num_tokens": 8353432.0,
       "step": 7950
     },
     {
-      "entropy": 5.416954412460327,
       "epoch": 4.605641911341393,
-      "grad_norm": 3.8953006267547607,
-      "learning_rate": 4.7407552338094304e-07,
-      "loss": 5.2623,
-      "mean_token_accuracy": 0.31632343590259554,
-      "num_tokens": 8405979.0,
       "step": 8000
     },
     {
-      "entropy": 5.688009605407715,
       "epoch": 4.634427173287277,
-      "grad_norm": 2.4968953132629395,
-      "learning_rate": 4.6429270201526114e-07,
-      "loss": 5.5266,
-      "mean_token_accuracy": 0.28443060010671617,
-      "num_tokens": 8460859.0,
       "step": 8050
     },
     {
-      "entropy": 5.4750879192352295,
       "epoch": 4.66321243523316,
-      "grad_norm": 1.6564769744873047,
-      "learning_rate": 4.545098806495793e-07,
-      "loss": 5.3167,
-      "mean_token_accuracy": 0.30900719910860064,
-      "num_tokens": 8513937.0,
       "step": 8100
     },
     {
-      "entropy": 5.329486901760101,
       "epoch": 4.691997697179044,
-      "grad_norm": 2.582631826400757,
-      "learning_rate": 4.4472705928389745e-07,
-      "loss": 5.1773,
-      "mean_token_accuracy": 0.325746659040451,
-      "num_tokens": 8564547.0,
       "step": 8150
     },
     {
-      "entropy": 5.467891716957093,
       "epoch": 4.720782959124928,
-      "grad_norm": 3.1262214183807373,
-      "learning_rate": 4.349442379182156e-07,
-      "loss": 5.3117,
-      "mean_token_accuracy": 0.31063371926546096,
-      "num_tokens": 8615609.0,
       "step": 8200
     },
     {
-      "entropy": 5.448032402992249,
       "epoch": 4.7495682210708114,
-      "grad_norm": 2.420801877975464,
-      "learning_rate": 4.2516141655253376e-07,
-      "loss": 5.2861,
-      "mean_token_accuracy": 0.31280285567045213,
-      "num_tokens": 8668388.0,
       "step": 8250
     },
     {
-      "entropy": 5.474744281768799,
       "epoch": 4.778353483016695,
-      "grad_norm": 2.4817428588867188,
-      "learning_rate": 4.1537859518685186e-07,
-      "loss": 5.3191,
-      "mean_token_accuracy": 0.3090439081192017,
-      "num_tokens": 8720158.0,
       "step": 8300
     },
     {
-      "entropy": 5.3045838880538945,
       "epoch": 4.807138744962579,
-      "grad_norm": 2.723879814147949,
-      "learning_rate": 4.0559577382117e-07,
-      "loss": 5.1525,
-      "mean_token_accuracy": 0.3299118718504906,
-      "num_tokens": 8770236.0,
       "step": 8350
     },
     {
-      "entropy": 5.680503091812134,
       "epoch": 4.835924006908463,
-      "grad_norm": 1.730972409248352,
-      "learning_rate": 3.958129524554881e-07,
-      "loss": 5.5194,
-      "mean_token_accuracy": 0.2835462909936905,
-      "num_tokens": 8825543.0,
       "step": 8400
     },
     {
-      "entropy": 5.447949981689453,
       "epoch": 4.864709268854346,
-      "grad_norm": 1.9867438077926636,
-      "learning_rate": 3.860301310898063e-07,
-      "loss": 5.2872,
-      "mean_token_accuracy": 0.3123849251866341,
-      "num_tokens": 8878664.0,
       "step": 8450
     },
     {
-      "entropy": 5.5367047977447506,
       "epoch": 4.89349453080023,
-      "grad_norm": 2.616309881210327,
-      "learning_rate": 3.762473097241244e-07,
-      "loss": 5.3804,
-      "mean_token_accuracy": 0.30146124720573425,
-      "num_tokens": 8931957.0,
       "step": 8500
     },
     {
-      "entropy": 5.510420970916748,
       "epoch": 4.922279792746114,
-      "grad_norm": 2.0481622219085693,
-      "learning_rate": 3.664644883584426e-07,
-      "loss": 5.3497,
-      "mean_token_accuracy": 0.30415455549955367,
-      "num_tokens": 8985201.0,
       "step": 8550
     },
     {
-      "entropy": 5.335472793579101,
       "epoch": 4.951065054691997,
-      "grad_norm": 1.7575494050979614,
-      "learning_rate": 3.566816669927607e-07,
-      "loss": 5.1842,
-      "mean_token_accuracy": 0.3253355652093887,
-      "num_tokens": 9035766.0,
       "step": 8600
     },
     {
-      "entropy": 5.562930407524109,
       "epoch": 4.979850316637881,
-      "grad_norm": 1.838478446006775,
-      "learning_rate": 3.4689884562707883e-07,
-      "loss": 5.4048,
-      "mean_token_accuracy": 0.3003630799055099,
-      "num_tokens": 9089369.0,
       "step": 8650
     },
     {
       "epoch": 5.0,
-      "eval_entropy": 5.752057710550897,
-      "eval_loss": 5.603951930999756,
-      "eval_mean_token_accuracy": 0.2677862888657003,
-      "eval_model_preparation_time": 0.0048,
-      "eval_num_tokens": 9125535.0,
-      "eval_runtime": 80.6223,
-      "eval_samples_per_second": 5.383,
-      "eval_steps_per_second": 2.692,
       "step": 8685
     }
   ],
   "logging_steps": 50,
-  "max_steps": 10422,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1812,12 +1812,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.2497546465467392e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 8685,
+  "best_metric": 5.523473739624023,
   "best_model_checkpoint": "./output/checkpoint-8685",
   "epoch": 5.0,
   "eval_steps": 500,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 3.606692385673523,
       "epoch": 0.028785261945883708,
+      "grad_norm": 3.2999913692474365,
       "learning_rate": 4.9e-07,
+      "loss": 13.6598,
+      "mean_token_accuracy": 0.16028020828962325,
+      "num_tokens": 53993.0,
       "step": 50
     },
     {
+      "entropy": 3.618675880432129,
       "epoch": 0.057570523891767415,
+      "grad_norm": 3.101252555847168,
       "learning_rate": 9.9e-07,
+      "loss": 14.0188,
+      "mean_token_accuracy": 0.1508466500043869,
+      "num_tokens": 110134.0,
       "step": 100
     },
     {
+      "entropy": 3.5215235900878907,
       "epoch": 0.08635578583765112,
+      "grad_norm": 3.513662815093994,
       "learning_rate": 1.49e-06,
+      "loss": 12.8555,
+      "mean_token_accuracy": 0.18527640983462335,
+      "num_tokens": 160191.0,
       "step": 150
     },
     {
+      "entropy": 3.667909698486328,
       "epoch": 0.11514104778353483,
+      "grad_norm": 4.327610492706299,
       "learning_rate": 1.99e-06,
+      "loss": 13.5394,
+      "mean_token_accuracy": 0.157139780074358,
+      "num_tokens": 214993.0,
       "step": 200
     },
     {
+      "entropy": 3.768263258934021,
       "epoch": 0.14392630972941853,
+      "grad_norm": 4.290107250213623,
+      "learning_rate": 1.988450206246317e-06,
+      "loss": 12.8912,
+      "mean_token_accuracy": 0.17374794125556947,
+      "num_tokens": 268184.0,
       "step": 250
     },
     {
+      "entropy": 3.990619196891785,
       "epoch": 0.17271157167530224,
+      "grad_norm": 4.444278717041016,
+      "learning_rate": 1.976664702416028e-06,
+      "loss": 12.455,
+      "mean_token_accuracy": 0.17780130118131637,
+      "num_tokens": 319458.0,
       "step": 300
     },
     {
+      "entropy": 4.162646284103394,
       "epoch": 0.20149683362118595,
+      "grad_norm": 5.615262508392334,
+      "learning_rate": 1.9648791985857395e-06,
+      "loss": 12.0893,
+      "mean_token_accuracy": 0.18191319867968558,
+      "num_tokens": 373337.0,
       "step": 350
     },
     {
+      "entropy": 4.532100868225098,
       "epoch": 0.23028209556706966,
+      "grad_norm": 10.074016571044922,
+      "learning_rate": 1.9530936947554507e-06,
+      "loss": 11.9261,
+      "mean_token_accuracy": 0.169477596282959,
+      "num_tokens": 427526.0,
       "step": 400
     },
     {
+      "entropy": 4.923871030807495,
       "epoch": 0.25906735751295334,
+      "grad_norm": 16.220163345336914,
+      "learning_rate": 1.9413081909251622e-06,
+      "loss": 11.0048,
+      "mean_token_accuracy": 0.1704501649737358,
+      "num_tokens": 480528.0,
       "step": 450
     },
     {
+      "entropy": 5.521005854606629,
       "epoch": 0.28785261945883706,
+      "grad_norm": 29.904008865356445,
+      "learning_rate": 1.9295226870948733e-06,
+      "loss": 9.6524,
+      "mean_token_accuracy": 0.16450899541378022,
+      "num_tokens": 535314.0,
       "step": 500
     },
     {
+      "entropy": 6.092623329162597,
       "epoch": 0.31663788140472077,
+      "grad_norm": 17.821575164794922,
+      "learning_rate": 1.9177371832645845e-06,
+      "loss": 8.1054,
+      "mean_token_accuracy": 0.17205011785030366,
+      "num_tokens": 588410.0,
       "step": 550
     },
     {
+      "entropy": 6.385262680053711,
       "epoch": 0.3454231433506045,
+      "grad_norm": 5.502202987670898,
+      "learning_rate": 1.9059516794342958e-06,
+      "loss": 7.4313,
+      "mean_token_accuracy": 0.1734227080643177,
+      "num_tokens": 641736.0,
       "step": 600
     },
     {
+      "entropy": 6.278562617301941,
       "epoch": 0.3742084052964882,
+      "grad_norm": 5.4657697677612305,
+      "learning_rate": 1.8941661756040071e-06,
+      "loss": 6.9266,
+      "mean_token_accuracy": 0.18680249139666558,
+      "num_tokens": 692200.0,
       "step": 650
     },
     {
+      "entropy": 6.553266277313233,
       "epoch": 0.4029936672423719,
+      "grad_norm": 4.955812931060791,
+      "learning_rate": 1.8823806717737183e-06,
+      "loss": 6.9847,
+      "mean_token_accuracy": 0.16679802387952805,
+      "num_tokens": 745830.0,
       "step": 700
     },
     {
+      "entropy": 6.470935583114624,
       "epoch": 0.4317789291882556,
+      "grad_norm": 4.198381423950195,
+      "learning_rate": 1.8705951679434296e-06,
+      "loss": 6.7277,
+      "mean_token_accuracy": 0.17847734570503235,
+      "num_tokens": 798872.0,
       "step": 750
     },
     {
+      "entropy": 6.5620588779449465,
       "epoch": 0.4605641911341393,
+      "grad_norm": 3.1793746948242188,
+      "learning_rate": 1.8588096641131407e-06,
+      "loss": 6.7032,
+      "mean_token_accuracy": 0.17336134731769562,
+      "num_tokens": 853045.0,
       "step": 800
     },
     {
+      "entropy": 6.532204885482788,
       "epoch": 0.48934945308002303,
+      "grad_norm": 3.824537515640259,
+      "learning_rate": 1.847024160282852e-06,
+      "loss": 6.5762,
+      "mean_token_accuracy": 0.1805124071240425,
+      "num_tokens": 907679.0,
       "step": 850
     },
     {
+      "entropy": 6.535988225936889,
       "epoch": 0.5181347150259067,
+      "grad_norm": 4.350001811981201,
+      "learning_rate": 1.8352386564525632e-06,
+      "loss": 6.505,
+      "mean_token_accuracy": 0.1842605724930763,
+      "num_tokens": 964170.0,
       "step": 900
     },
     {
+      "entropy": 6.204533562660218,
       "epoch": 0.5469199769717904,
+      "grad_norm": 2.193660020828247,
+      "learning_rate": 1.8234531526222745e-06,
+      "loss": 6.1211,
+      "mean_token_accuracy": 0.21968430042266845,
+      "num_tokens": 1015909.0,
       "step": 950
     },
     {
+      "entropy": 6.308737449645996,
       "epoch": 0.5757052389176741,
+      "grad_norm": 2.325622320175171,
+      "learning_rate": 1.8116676487919857e-06,
+      "loss": 6.1653,
+      "mean_token_accuracy": 0.21636426240205764,
+      "num_tokens": 1068859.0,
       "step": 1000
     },
     {
+      "entropy": 6.332560749053955,
       "epoch": 0.6044905008635578,
+      "grad_norm": 2.0439090728759766,
+      "learning_rate": 1.799882144961697e-06,
+      "loss": 6.1559,
+      "mean_token_accuracy": 0.21859725564718246,
+      "num_tokens": 1123202.0,
       "step": 1050
     },
     {
+      "entropy": 6.042124252319336,
       "epoch": 0.6332757628094415,
+      "grad_norm": 3.621903657913208,
+      "learning_rate": 1.7880966411314081e-06,
+      "loss": 5.8441,
+      "mean_token_accuracy": 0.24906315237283708,
+      "num_tokens": 1173403.0,
       "step": 1100
     },
     {
+      "entropy": 5.921343173980713,
       "epoch": 0.6620610247553252,
+      "grad_norm": 5.658033847808838,
+      "learning_rate": 1.7763111373011195e-06,
+      "loss": 5.7104,
+      "mean_token_accuracy": 0.2625067520141602,
+      "num_tokens": 1225026.0,
       "step": 1150
     },
     {
+      "entropy": 6.093586492538452,
       "epoch": 0.690846286701209,
+      "grad_norm": 2.4292995929718018,
+      "learning_rate": 1.7645256334708308e-06,
+      "loss": 5.8658,
+      "mean_token_accuracy": 0.24842385441064835,
+      "num_tokens": 1279013.0,
       "step": 1200
     },
     {
+      "entropy": 6.119112596511841,
       "epoch": 0.7196315486470927,
+      "grad_norm": 3.369384288787842,
+      "learning_rate": 1.752740129640542e-06,
+      "loss": 5.8784,
+      "mean_token_accuracy": 0.24857850253582,
+      "num_tokens": 1332547.0,
       "step": 1250
     },
     {
+      "entropy": 6.025163550376892,
       "epoch": 0.7484168105929764,
+      "grad_norm": 2.5110116004943848,
+      "learning_rate": 1.7409546258102533e-06,
+      "loss": 5.7769,
+      "mean_token_accuracy": 0.25835376888513567,
+      "num_tokens": 1385192.0,
       "step": 1300
     },
     {
+      "entropy": 5.877259612083435,
       "epoch": 0.7772020725388601,
+      "grad_norm": 2.4179303646087646,
+      "learning_rate": 1.7291691219799646e-06,
+      "loss": 5.6284,
+      "mean_token_accuracy": 0.2756252554059029,
+      "num_tokens": 1437071.0,
       "step": 1350
     },
     {
+      "entropy": 6.002246947288513,
       "epoch": 0.8059873344847438,
+      "grad_norm": 3.494359016418457,
+      "learning_rate": 1.717383618149676e-06,
+      "loss": 5.747,
+      "mean_token_accuracy": 0.26462210685014725,
+      "num_tokens": 1490818.0,
       "step": 1400
     },
     {
+      "entropy": 5.991955623626709,
       "epoch": 0.8347725964306275,
+      "grad_norm": 2.340975761413574,
+      "learning_rate": 1.705598114319387e-06,
+      "loss": 5.7379,
+      "mean_token_accuracy": 0.26444981098175047,
+      "num_tokens": 1544997.0,
       "step": 1450
     },
     {
+      "entropy": 5.91768889427185,
       "epoch": 0.8635578583765112,
+      "grad_norm": 2.2394514083862305,
+      "learning_rate": 1.6938126104890984e-06,
+      "loss": 5.6564,
+      "mean_token_accuracy": 0.2730415526032448,
+      "num_tokens": 1598302.0,
       "step": 1500
     },
     {
+      "entropy": 5.982716989517212,
       "epoch": 0.8923431203223949,
+      "grad_norm": 1.876839518547058,
+      "learning_rate": 1.6820271066588098e-06,
+      "loss": 5.7215,
+      "mean_token_accuracy": 0.26642445534467696,
+      "num_tokens": 1655267.0,
       "step": 1550
     },
     {
+      "entropy": 5.820467872619629,
       "epoch": 0.9211283822682786,
+      "grad_norm": 2.219966173171997,
+      "learning_rate": 1.6702416028285209e-06,
+      "loss": 5.5555,
+      "mean_token_accuracy": 0.2856418335437775,
+      "num_tokens": 1709199.0,
       "step": 1600
     },
     {
+      "entropy": 5.996349005699158,
       "epoch": 0.9499136442141624,
+      "grad_norm": 2.247213840484619,
+      "learning_rate": 1.6584560989982322e-06,
+      "loss": 5.7283,
+      "mean_token_accuracy": 0.2696125540137291,
+      "num_tokens": 1765443.0,
       "step": 1650
     },
     {
+      "entropy": 5.696683068275451,
       "epoch": 0.9786989061600461,
+      "grad_norm": 2.8499979972839355,
+      "learning_rate": 1.6466705951679433e-06,
+      "loss": 5.4335,
+      "mean_token_accuracy": 0.29918427973985673,
+      "num_tokens": 1817494.0,
       "step": 1700
     },
     {
       "epoch": 1.0,
+      "eval_entropy": 5.993559589034401,
+      "eval_loss": 5.737204551696777,
+      "eval_mean_token_accuracy": 0.2618687468739699,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 1856362.0,
+      "eval_runtime": 50.5332,
+      "eval_samples_per_second": 8.588,
+      "eval_steps_per_second": 4.294,
       "step": 1737
     },
     {
+      "entropy": 5.746842083930969,
       "epoch": 1.0074841681059297,
+      "grad_norm": 2.33052921295166,
+      "learning_rate": 1.6348850913376547e-06,
+      "loss": 5.4796,
+      "mean_token_accuracy": 0.2966849410533905,
+      "num_tokens": 1870353.0,
       "step": 1750
     },
     {
+      "entropy": 5.859029049873352,
       "epoch": 1.0362694300518134,
+      "grad_norm": 1.6248886585235596,
+      "learning_rate": 1.6230995875073658e-06,
+      "loss": 5.5975,
+      "mean_token_accuracy": 0.2838129925727844,
+      "num_tokens": 1926205.0,
       "step": 1800
     },
     {
+      "entropy": 5.731445336341858,
       "epoch": 1.065054691997697,
+      "grad_norm": 1.6941566467285156,
+      "learning_rate": 1.6113140836770771e-06,
+      "loss": 5.476,
+      "mean_token_accuracy": 0.2992346465587616,
+      "num_tokens": 1979821.0,
       "step": 1850
     },
     {
+      "entropy": 5.6993954515457155,
       "epoch": 1.0938399539435808,
+      "grad_norm": 1.1746597290039062,
+      "learning_rate": 1.5995285798467883e-06,
+      "loss": 5.4608,
+      "mean_token_accuracy": 0.3000726142525673,
+      "num_tokens": 2034373.0,
       "step": 1900
     },
     {
+      "entropy": 5.668873124122619,
       "epoch": 1.1226252158894645,
+      "grad_norm": 1.728211760520935,
+      "learning_rate": 1.5877430760164996e-06,
+      "loss": 5.4347,
+      "mean_token_accuracy": 0.3033922725915909,
+      "num_tokens": 2087339.0,
       "step": 1950
     },
     {
+      "entropy": 5.624621086120605,
       "epoch": 1.1514104778353482,
+      "grad_norm": 1.4078539609909058,
+      "learning_rate": 1.5759575721862107e-06,
+      "loss": 5.3954,
+      "mean_token_accuracy": 0.30784171640872954,
+      "num_tokens": 2139520.0,
       "step": 2000
     },
     {
+      "entropy": 5.7141213130950925,
       "epoch": 1.180195739781232,
+      "grad_norm": 2.186459541320801,
+      "learning_rate": 1.564172068355922e-06,
+      "loss": 5.4847,
+      "mean_token_accuracy": 0.29594049394130706,
+      "num_tokens": 2193987.0,
       "step": 2050
     },
     {
+      "entropy": 5.632415266036987,
       "epoch": 1.2089810017271156,
+      "grad_norm": 1.3601349592208862,
+      "learning_rate": 1.5523865645256334e-06,
+      "loss": 5.4135,
+      "mean_token_accuracy": 0.30366597563028336,
+      "num_tokens": 2249616.0,
       "step": 2100
     },
     {
+      "entropy": 5.510904269218445,
       "epoch": 1.2377662636729994,
+      "grad_norm": 2.065760612487793,
+      "learning_rate": 1.5406010606953445e-06,
+      "loss": 5.2904,
+      "mean_token_accuracy": 0.3211754837632179,
+      "num_tokens": 2300863.0,
       "step": 2150
     },
     {
+      "entropy": 5.703383626937867,
       "epoch": 1.266551525618883,
+      "grad_norm": 1.1172698736190796,
+      "learning_rate": 1.5288155568650559e-06,
+      "loss": 5.4802,
+      "mean_token_accuracy": 0.29713701367378237,
+      "num_tokens": 2356029.0,
       "step": 2200
     },
     {
+      "entropy": 5.565930342674255,
       "epoch": 1.2953367875647668,
+      "grad_norm": 1.7528513669967651,
+      "learning_rate": 1.5170300530347672e-06,
+      "loss": 5.3518,
+      "mean_token_accuracy": 0.31301232606172563,
+      "num_tokens": 2408957.0,
       "step": 2250
     },
     {
+      "entropy": 5.496430187225342,
       "epoch": 1.3241220495106505,
+      "grad_norm": 1.892640233039856,
+      "learning_rate": 1.5052445492044786e-06,
+      "loss": 5.2967,
+      "mean_token_accuracy": 0.3181899458169937,
+      "num_tokens": 2462569.0,
       "step": 2300
     },
     {
+      "entropy": 5.725150098800659,
       "epoch": 1.3529073114565342,
+      "grad_norm": 1.774940848350525,
+      "learning_rate": 1.4934590453741897e-06,
+      "loss": 5.5215,
+      "mean_token_accuracy": 0.29055028676986694,
+      "num_tokens": 2518544.0,
       "step": 2350
     },
     {
+      "entropy": 5.4884827613830565,
       "epoch": 1.381692573402418,
+      "grad_norm": 2.2167599201202393,
+      "learning_rate": 1.481673541543901e-06,
+      "loss": 5.2917,
+      "mean_token_accuracy": 0.31803421139717103,
+      "num_tokens": 2570863.0,
       "step": 2400
     },
     {
+      "entropy": 5.697079472541809,
       "epoch": 1.4104778353483016,
+      "grad_norm": 1.6489030122756958,
+      "learning_rate": 1.4698880377136124e-06,
+      "loss": 5.4982,
+      "mean_token_accuracy": 0.2925163987278938,
+      "num_tokens": 2626998.0,
       "step": 2450
     },
     {
+      "entropy": 5.46209939956665,
       "epoch": 1.4392630972941853,
+      "grad_norm": 1.153914451599121,
+      "learning_rate": 1.4581025338833235e-06,
+      "loss": 5.2736,
+      "mean_token_accuracy": 0.3182168474793434,
+      "num_tokens": 2681568.0,
       "step": 2500
     },
     {
+      "entropy": 5.4405768728256225,
       "epoch": 1.468048359240069,
+      "grad_norm": 3.6614978313446045,
+      "learning_rate": 1.4463170300530348e-06,
+      "loss": 5.2515,
+      "mean_token_accuracy": 0.3218736210465431,
+      "num_tokens": 2733587.0,
       "step": 2550
     },
     {
+      "entropy": 5.528175053596496,
       "epoch": 1.4968336211859528,
+      "grad_norm": 1.0849746465682983,
+      "learning_rate": 1.434531526222746e-06,
+      "loss": 5.3378,
+      "mean_token_accuracy": 0.31061659604310987,
+      "num_tokens": 2787003.0,
       "step": 2600
     },
     {
+      "entropy": 5.46110897064209,
       "epoch": 1.5256188831318365,
+      "grad_norm": 1.8315683603286743,
+      "learning_rate": 1.4227460223924573e-06,
+      "loss": 5.2782,
+      "mean_token_accuracy": 0.31781029611825945,
+      "num_tokens": 2840263.0,
       "step": 2650
     },
     {
+      "entropy": 5.455560960769653,
       "epoch": 1.5544041450777202,
+      "grad_norm": 1.1859091520309448,
+      "learning_rate": 1.4109605185621684e-06,
+      "loss": 5.2735,
+      "mean_token_accuracy": 0.3194814011454582,
+      "num_tokens": 2894186.0,
       "step": 2700
     },
     {
+      "entropy": 5.430496115684509,
       "epoch": 1.583189407023604,
+      "grad_norm": 2.3500001430511475,
+      "learning_rate": 1.3991750147318797e-06,
+      "loss": 5.2464,
+      "mean_token_accuracy": 0.32140792965888976,
+      "num_tokens": 2948171.0,
       "step": 2750
     },
     {
+      "entropy": 5.588023023605347,
       "epoch": 1.6119746689694876,
+      "grad_norm": 1.727825403213501,
+      "learning_rate": 1.3873895109015909e-06,
+      "loss": 5.4028,
+      "mean_token_accuracy": 0.3039530631899834,
+      "num_tokens": 3002678.0,
       "step": 2800
     },
     {
+      "entropy": 5.410525422096253,
       "epoch": 1.6407599309153713,
+      "grad_norm": 1.3401474952697754,
+      "learning_rate": 1.3756040070713022e-06,
+      "loss": 5.2298,
+      "mean_token_accuracy": 0.324065263569355,
+      "num_tokens": 3055844.0,
       "step": 2850
     },
     {
+      "entropy": 5.36959942817688,
       "epoch": 1.669545192861255,
+      "grad_norm": 1.1892589330673218,
+      "learning_rate": 1.3638185032410133e-06,
+      "loss": 5.1956,
+      "mean_token_accuracy": 0.32639502108097074,
+      "num_tokens": 3108636.0,
       "step": 2900
     },
     {
+      "entropy": 5.53826907157898,
       "epoch": 1.6983304548071387,
+      "grad_norm": 1.2652360200881958,
+      "learning_rate": 1.3520329994107247e-06,
+      "loss": 5.3583,
+      "mean_token_accuracy": 0.3074926760792732,
+      "num_tokens": 3162627.0,
       "step": 2950
     },
     {
+      "entropy": 5.417449145317078,
       "epoch": 1.7271157167530224,
+      "grad_norm": 1.584312915802002,
+      "learning_rate": 1.340247495580436e-06,
+      "loss": 5.2388,
+      "mean_token_accuracy": 0.32019727885723115,
+      "num_tokens": 3216409.0,
       "step": 3000
     },
     {
+      "entropy": 5.241390740871429,
       "epoch": 1.7559009786989062,
+      "grad_norm": 1.5219439268112183,
+      "learning_rate": 1.3284619917501471e-06,
+      "loss": 5.0645,
+      "mean_token_accuracy": 0.3445430138707161,
+      "num_tokens": 3266967.0,
       "step": 3050
     },
     {
+      "entropy": 5.405424036979675,
       "epoch": 1.7846862406447899,
+      "grad_norm": 2.1165153980255127,
+      "learning_rate": 1.3166764879198585e-06,
+      "loss": 5.232,
+      "mean_token_accuracy": 0.32085000157356264,
+      "num_tokens": 3319877.0,
       "step": 3100
     },
     {
+      "entropy": 5.123006024360657,
       "epoch": 1.8134715025906736,
+      "grad_norm": 1.2189785242080688,
+      "learning_rate": 1.3048909840895698e-06,
+      "loss": 4.9582,
+      "mean_token_accuracy": 0.356108532845974,
+      "num_tokens": 3368569.0,
       "step": 3150
     },
     {
+      "entropy": 5.417610831260681,
       "epoch": 1.8422567645365573,
+      "grad_norm": 1.5157604217529297,
+      "learning_rate": 1.2931054802592812e-06,
+      "loss": 5.2454,
+      "mean_token_accuracy": 0.31976755023002623,
+      "num_tokens": 3422449.0,
       "step": 3200
     },
     {
+      "entropy": 5.409690895080566,
       "epoch": 1.871042026482441,
+      "grad_norm": 1.3088161945343018,
+      "learning_rate": 1.2813199764289923e-06,
+      "loss": 5.2348,
+      "mean_token_accuracy": 0.32325415283441544,
+      "num_tokens": 3474399.0,
       "step": 3250
     },
     {
+      "entropy": 5.44662567615509,
       "epoch": 1.8998272884283247,
+      "grad_norm": 2.178372621536255,
+      "learning_rate": 1.2695344725987036e-06,
+      "loss": 5.2661,
+      "mean_token_accuracy": 0.3182847076654434,
+      "num_tokens": 3527726.0,
       "step": 3300
     },
     {
+      "entropy": 5.512614865303039,
       "epoch": 1.9286125503742084,
+      "grad_norm": 1.3050425052642822,
+      "learning_rate": 1.2577489687684147e-06,
+      "loss": 5.3416,
+      "mean_token_accuracy": 0.3084403133392334,
+      "num_tokens": 3581980.0,
       "step": 3350
     },
     {
+      "entropy": 5.379772834777832,
       "epoch": 1.9573978123200921,
+      "grad_norm": 1.4584404230117798,
+      "learning_rate": 1.245963464938126e-06,
+      "loss": 5.2087,
+      "mean_token_accuracy": 0.32388432770967485,
+      "num_tokens": 3635393.0,
       "step": 3400
     },
     {
+      "entropy": 5.483665924072266,
       "epoch": 1.9861830742659758,
+      "grad_norm": 1.2157734632492065,
+      "learning_rate": 1.2341779611078374e-06,
+      "loss": 5.3101,
+      "mean_token_accuracy": 0.3121953472495079,
+      "num_tokens": 3689894.0,
       "step": 3450
     },
     {
       "epoch": 2.0,
+      "eval_entropy": 5.711394641805904,
+      "eval_loss": 5.55628776550293,
+      "eval_mean_token_accuracy": 0.2764948787777105,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 3712724.0,
+      "eval_runtime": 50.187,
+      "eval_samples_per_second": 8.648,
+      "eval_steps_per_second": 4.324,
       "step": 3474
     },
     {
+      "entropy": 5.349283556938172,
       "epoch": 2.0149683362118593,
+      "grad_norm": 1.1696771383285522,
+      "learning_rate": 1.2223924572775486e-06,
+      "loss": 5.1782,
+      "mean_token_accuracy": 0.33028870791196824,
+      "num_tokens": 3740861.0,
       "step": 3500
     },
     {
+      "entropy": 5.4721107006073,
       "epoch": 2.043753598157743,
+      "grad_norm": 1.8449370861053467,
+      "learning_rate": 1.2106069534472599e-06,
+      "loss": 5.2978,
+      "mean_token_accuracy": 0.31511022299528124,
+      "num_tokens": 3794869.0,
       "step": 3550
     },
     {
+      "entropy": 5.404226851463318,
       "epoch": 2.0725388601036268,
+      "grad_norm": 3.789496660232544,
+      "learning_rate": 1.198821449616971e-06,
+      "loss": 5.2371,
+      "mean_token_accuracy": 0.32092176616191864,
+      "num_tokens": 3848573.0,
       "step": 3600
     },
     {
+      "entropy": 5.435445628166199,
       "epoch": 2.1013241220495105,
+      "grad_norm": 2.2847959995269775,
+      "learning_rate": 1.1870359457866824e-06,
+      "loss": 5.2662,
+      "mean_token_accuracy": 0.3186633634567261,
+      "num_tokens": 3901204.0,
       "step": 3650
     },
     {
+      "entropy": 5.4066293334960935,
       "epoch": 2.130109383995394,
+      "grad_norm": 1.0950902700424194,
+      "learning_rate": 1.1752504419563935e-06,
+      "loss": 5.2345,
+      "mean_token_accuracy": 0.32156052827835085,
+      "num_tokens": 3953753.0,
       "step": 3700
     },
     {
+      "entropy": 5.272332944869995,
       "epoch": 2.158894645941278,
+      "grad_norm": 2.1477339267730713,
+      "learning_rate": 1.1634649381261048e-06,
+      "loss": 5.1091,
+      "mean_token_accuracy": 0.3380983591079712,
+      "num_tokens": 4005481.0,
       "step": 3750
     },
     {
+      "entropy": 5.4118804311752315,
       "epoch": 2.1876799078871616,
+      "grad_norm": 1.4509484767913818,
+      "learning_rate": 1.151679434295816e-06,
+      "loss": 5.2448,
+      "mean_token_accuracy": 0.3208243528008461,
+      "num_tokens": 4058829.0,
       "step": 3800
     },
     {
+      "entropy": 5.4763900089263915,
       "epoch": 2.2164651698330453,
+      "grad_norm": 1.0856804847717285,
+      "learning_rate": 1.1398939304655273e-06,
+      "loss": 5.3042,
+      "mean_token_accuracy": 0.31338351368904116,
+      "num_tokens": 4113326.0,
       "step": 3850
     },
     {
+      "entropy": 5.328452725410461,
       "epoch": 2.245250431778929,
+      "grad_norm": 3.2843880653381348,
+      "learning_rate": 1.1281084266352386e-06,
+      "loss": 5.1624,
+      "mean_token_accuracy": 0.3305218696594238,
+      "num_tokens": 4165454.0,
       "step": 3900
     },
     {
+      "entropy": 5.383157343864441,
       "epoch": 2.2740356937248127,
+      "grad_norm": 2.207082748413086,
+      "learning_rate": 1.1163229228049497e-06,
+      "loss": 5.2163,
+      "mean_token_accuracy": 0.32331310987472534,
+      "num_tokens": 4219250.0,
       "step": 3950
     },
     {
+      "entropy": 5.585261764526368,
       "epoch": 2.3028209556706964,
+      "grad_norm": 2.7102835178375244,
+      "learning_rate": 1.104537418974661e-06,
+      "loss": 5.4137,
+      "mean_token_accuracy": 0.29959124475717547,
+      "num_tokens": 4274711.0,
       "step": 4000
     },
     {
+      "entropy": 5.434073266983032,
       "epoch": 2.33160621761658,
+      "grad_norm": 1.3775779008865356,
+      "learning_rate": 1.0927519151443724e-06,
+      "loss": 5.2644,
+      "mean_token_accuracy": 0.3175011593103409,
+      "num_tokens": 4328616.0,
       "step": 4050
     },
     {
+      "entropy": 5.462391858100891,
       "epoch": 2.360391479562464,
+      "grad_norm": 1.4101024866104126,
+      "learning_rate": 1.0809664113140838e-06,
+      "loss": 5.2924,
+      "mean_token_accuracy": 0.3137941011786461,
+      "num_tokens": 4382416.0,
       "step": 4100
     },
     {
+      "entropy": 5.529892563819885,
       "epoch": 2.3891767415083476,
+      "grad_norm": 1.2311837673187256,
+      "learning_rate": 1.0691809074837949e-06,
+      "loss": 5.364,
+      "mean_token_accuracy": 0.3046491605043411,
+      "num_tokens": 4437848.0,
       "step": 4150
     },
     {
+      "entropy": 5.4370484542846675,
       "epoch": 2.4179620034542313,
+      "grad_norm": 1.0929864645004272,
+      "learning_rate": 1.0573954036535062e-06,
+      "loss": 5.2734,
+      "mean_token_accuracy": 0.3169013774394989,
+      "num_tokens": 4491185.0,
       "step": 4200
     },
     {
+      "entropy": 5.395377616882325,
       "epoch": 2.446747265400115,
+      "grad_norm": 1.5457273721694946,
+      "learning_rate": 1.0456098998232174e-06,
+      "loss": 5.2276,
+      "mean_token_accuracy": 0.32221508473157884,
+      "num_tokens": 4544086.0,
       "step": 4250
     },
     {
+      "entropy": 5.443737335205078,
       "epoch": 2.4755325273459987,
+      "grad_norm": 1.4844346046447754,
+      "learning_rate": 1.0338243959929287e-06,
+      "loss": 5.2786,
+      "mean_token_accuracy": 0.3157751387357712,
+      "num_tokens": 4597677.0,
       "step": 4300
     },
     {
+      "entropy": 5.419876251220703,
       "epoch": 2.5043177892918824,
+      "grad_norm": 1.2481963634490967,
+      "learning_rate": 1.02203889216264e-06,
+      "loss": 5.2564,
+      "mean_token_accuracy": 0.31889803290367125,
+      "num_tokens": 4651343.0,
       "step": 4350
     },
     {
+      "entropy": 5.578677978515625,
       "epoch": 2.533103051237766,
+      "grad_norm": 2.0005414485931396,
+      "learning_rate": 1.0102533883323512e-06,
+      "loss": 5.4145,
+      "mean_token_accuracy": 0.30037090003490446,
+      "num_tokens": 4705985.0,
       "step": 4400
     },
     {
+      "entropy": 5.279946126937866,
       "epoch": 2.56188831318365,
+      "grad_norm": 1.080521821975708,
+      "learning_rate": 9.984678845020625e-07,
+      "loss": 5.1226,
+      "mean_token_accuracy": 0.3341303279995918,
+      "num_tokens": 4757741.0,
       "step": 4450
     },
     {
+      "entropy": 5.551463279724121,
       "epoch": 2.5906735751295336,
+      "grad_norm": 1.28898024559021,
+      "learning_rate": 9.866823806717736e-07,
+      "loss": 5.3832,
+      "mean_token_accuracy": 0.3028248634934425,
+      "num_tokens": 4812808.0,
       "step": 4500
     },
     {
+      "entropy": 5.3787487554550175,
       "epoch": 2.6194588370754173,
+      "grad_norm": 1.5697983503341675,
+      "learning_rate": 9.74896876841485e-07,
+      "loss": 5.2141,
+      "mean_token_accuracy": 0.3227942296862602,
+      "num_tokens": 4866572.0,
       "step": 4550
     },
     {
+      "entropy": 5.460358958244324,
       "epoch": 2.648244099021301,
+      "grad_norm": 1.3180441856384277,
+      "learning_rate": 9.63111373011196e-07,
+      "loss": 5.2954,
+      "mean_token_accuracy": 0.31269474506378175,
+      "num_tokens": 4921312.0,
       "step": 4600
     },
     {
+      "entropy": 5.434084935188293,
       "epoch": 2.6770293609671847,
+      "grad_norm": 1.2409590482711792,
+      "learning_rate": 9.513258691809074e-07,
+      "loss": 5.271,
+      "mean_token_accuracy": 0.3172155100107193,
+      "num_tokens": 4974289.0,
       "step": 4650
     },
     {
+      "entropy": 5.406955418586731,
       "epoch": 2.7058146229130684,
+      "grad_norm": 1.4782609939575195,
+      "learning_rate": 9.395403653506187e-07,
+      "loss": 5.2473,
+      "mean_token_accuracy": 0.32031788885593415,
+      "num_tokens": 5028149.0,
       "step": 4700
     },
     {
+      "entropy": 5.206603040695191,
       "epoch": 2.734599884858952,
+      "grad_norm": 2.351633071899414,
+      "learning_rate": 9.2775486152033e-07,
+      "loss": 5.0478,
+      "mean_token_accuracy": 0.3428420132398605,
+      "num_tokens": 5079349.0,
       "step": 4750
     },
     {
+      "entropy": 5.388812799453735,
       "epoch": 2.763385146804836,
+      "grad_norm": 7.564618110656738,
+      "learning_rate": 9.159693576900412e-07,
+      "loss": 5.2281,
+      "mean_token_accuracy": 0.3222071170806885,
+      "num_tokens": 5132564.0,
       "step": 4800
     },
     {
+      "entropy": 5.374106278419495,
       "epoch": 2.7921704087507195,
+      "grad_norm": 1.4734679460525513,
+      "learning_rate": 9.041838538597525e-07,
+      "loss": 5.2161,
+      "mean_token_accuracy": 0.3219477406144142,
+      "num_tokens": 5185921.0,
       "step": 4850
     },
     {
+      "entropy": 5.232998585700988,
       "epoch": 2.8209556706966032,
+      "grad_norm": 1.4175471067428589,
+      "learning_rate": 8.923983500294637e-07,
+      "loss": 5.0769,
+      "mean_token_accuracy": 0.3403926733136177,
+      "num_tokens": 5237521.0,
       "step": 4900
     },
     {
+      "entropy": 5.394891719818116,
       "epoch": 2.849740932642487,
+      "grad_norm": 4.951873779296875,
+      "learning_rate": 8.806128461991749e-07,
+      "loss": 5.2344,
+      "mean_token_accuracy": 0.3213117456436157,
+      "num_tokens": 5291104.0,
       "step": 4950
     },
     {
+      "entropy": 5.413805012702942,
       "epoch": 2.8785261945883707,
+      "grad_norm": 1.679518461227417,
+      "learning_rate": 8.688273423688863e-07,
+      "loss": 5.2597,
+      "mean_token_accuracy": 0.3165634173154831,
+      "num_tokens": 5345058.0,
       "step": 5000
     },
     {
+      "entropy": 5.256177935600281,
       "epoch": 2.9073114565342544,
+      "grad_norm": 1.8892916440963745,
+      "learning_rate": 8.570418385385975e-07,
+      "loss": 5.1004,
+      "mean_token_accuracy": 0.3369427987933159,
+      "num_tokens": 5395918.0,
       "step": 5050
     },
     {
+      "entropy": 5.259814453125,
       "epoch": 2.936096718480138,
+      "grad_norm": 1.3802675008773804,
+      "learning_rate": 8.452563347083087e-07,
+      "loss": 5.1057,
+      "mean_token_accuracy": 0.3362414276599884,
+      "num_tokens": 5448086.0,
       "step": 5100
     },
     {
+      "entropy": 5.416206178665161,
       "epoch": 2.964881980426022,
+      "grad_norm": 1.7677236795425415,
+      "learning_rate": 8.3347083087802e-07,
+      "loss": 5.2562,
+      "mean_token_accuracy": 0.31725785195827483,
+      "num_tokens": 5501959.0,
       "step": 5150
     },
     {
+      "entropy": 5.507337794303894,
       "epoch": 2.9936672423719055,
+      "grad_norm": 1.021727442741394,
+      "learning_rate": 8.216853270477313e-07,
+      "loss": 5.344,
+      "mean_token_accuracy": 0.30679062128067014,
+      "num_tokens": 5557908.0,
       "step": 5200
     },
     {
       "epoch": 3.0,
+      "eval_entropy": 5.682707933786278,
+      "eval_loss": 5.53223991394043,
+      "eval_mean_token_accuracy": 0.27747743456594404,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 5569086.0,
+      "eval_runtime": 49.9944,
+      "eval_samples_per_second": 8.681,
+      "eval_steps_per_second": 4.34,
       "step": 5211
     },
     {
+      "entropy": 5.209756035804748,
       "epoch": 3.0224525043177892,
+      "grad_norm": 1.725786566734314,
+      "learning_rate": 8.098998232174425e-07,
+      "loss": 5.0541,
+      "mean_token_accuracy": 0.34166110813617706,
+      "num_tokens": 5608917.0,
       "step": 5250
     },
     {
+      "entropy": 5.396296281814575,
       "epoch": 3.051237766263673,
+      "grad_norm": 0.7720207571983337,
+      "learning_rate": 7.981143193871538e-07,
+      "loss": 5.2337,
+      "mean_token_accuracy": 0.32116260558366777,
+      "num_tokens": 5662712.0,
       "step": 5300
     },
     {
+      "entropy": 5.341518473625183,
       "epoch": 3.0800230282095566,
+      "grad_norm": 2.2686808109283447,
+      "learning_rate": 7.86328815556865e-07,
+      "loss": 5.1824,
+      "mean_token_accuracy": 0.32726580530405047,
+      "num_tokens": 5715921.0,
       "step": 5350
     },
     {
+      "entropy": 5.376176896095276,
       "epoch": 3.1088082901554404,
+      "grad_norm": 1.2420796155929565,
+      "learning_rate": 7.745433117265762e-07,
+      "loss": 5.2162,
+      "mean_token_accuracy": 0.32142678707838057,
+      "num_tokens": 5769436.0,
       "step": 5400
     },
     {
+      "entropy": 5.4553061914443965,
       "epoch": 3.137593552101324,
+      "grad_norm": 1.2402859926223755,
+      "learning_rate": 7.627578078962876e-07,
+      "loss": 5.2971,
+      "mean_token_accuracy": 0.31396267503499986,
+      "num_tokens": 5823126.0,
       "step": 5450
     },
     {
+      "entropy": 5.385247969627381,
       "epoch": 3.166378814047208,
+      "grad_norm": 1.112062931060791,
+      "learning_rate": 7.509723040659988e-07,
+      "loss": 5.2324,
+      "mean_token_accuracy": 0.3207343602180481,
+      "num_tokens": 5875751.0,
       "step": 5500
     },
     {
+      "entropy": 5.55422221660614,
       "epoch": 3.1951640759930915,
+      "grad_norm": 1.5440446138381958,
+      "learning_rate": 7.3918680023571e-07,
+      "loss": 5.3902,
+      "mean_token_accuracy": 0.3006985321640968,
+      "num_tokens": 5932163.0,
       "step": 5550
     },
     {
+      "entropy": 5.403217372894287,
       "epoch": 3.223949337938975,
+      "grad_norm": 0.8481096625328064,
+      "learning_rate": 7.274012964054213e-07,
+      "loss": 5.2417,
+      "mean_token_accuracy": 0.3210747820138931,
+      "num_tokens": 5985889.0,
       "step": 5600
     },
     {
+      "entropy": 5.388293180465698,
       "epoch": 3.252734599884859,
+      "grad_norm": 0.9305989146232605,
+      "learning_rate": 7.156157925751326e-07,
+      "loss": 5.2319,
+      "mean_token_accuracy": 0.3206030324101448,
+      "num_tokens": 6040052.0,
       "step": 5650
     },
     {
+      "entropy": 5.401709322929382,
       "epoch": 3.2815198618307426,
+      "grad_norm": 0.8080459237098694,
+      "learning_rate": 7.038302887448438e-07,
+      "loss": 5.2438,
+      "mean_token_accuracy": 0.3199671137332916,
+      "num_tokens": 6092350.0,
       "step": 5700
     },
     {
+      "entropy": 5.4320423412323,
       "epoch": 3.3103051237766263,
+      "grad_norm": 1.9186089038848877,
+      "learning_rate": 6.920447849145551e-07,
+      "loss": 5.2696,
+      "mean_token_accuracy": 0.31657984614372253,
+      "num_tokens": 6146112.0,
       "step": 5750
     },
     {
+      "entropy": 5.276471285820008,
       "epoch": 3.33909038572251,
+      "grad_norm": 1.032879114151001,
+      "learning_rate": 6.802592810842663e-07,
+      "loss": 5.1224,
+      "mean_token_accuracy": 0.3347566506266594,
+      "num_tokens": 6197916.0,
       "step": 5800
     },
     {
+      "entropy": 5.122317051887512,
       "epoch": 3.3678756476683938,
+      "grad_norm": 3.156858444213867,
+      "learning_rate": 6.684737772539775e-07,
+      "loss": 4.9706,
+      "mean_token_accuracy": 0.35455317378044127,
+      "num_tokens": 6247565.0,
       "step": 5850
     },
     {
+      "entropy": 5.346597375869751,
       "epoch": 3.3966609096142775,
+      "grad_norm": 1.2619549036026,
+      "learning_rate": 6.566882734236889e-07,
+      "loss": 5.1902,
+      "mean_token_accuracy": 0.3258721518516541,
+      "num_tokens": 6300481.0,
       "step": 5900
     },
     {
+      "entropy": 5.413151068687439,
       "epoch": 3.425446171560161,
+      "grad_norm": 1.801740050315857,
+      "learning_rate": 6.449027695934001e-07,
+      "loss": 5.2513,
+      "mean_token_accuracy": 0.3187857499718666,
+      "num_tokens": 6353098.0,
       "step": 5950
     },
     {
+      "entropy": 5.464186942577362,
       "epoch": 3.454231433506045,
+      "grad_norm": 1.6306997537612915,
+      "learning_rate": 6.331172657631113e-07,
+      "loss": 5.3043,
+      "mean_token_accuracy": 0.31154109388589857,
+      "num_tokens": 6407984.0,
       "step": 6000
     },
     {
+      "entropy": 5.401795778274536,
       "epoch": 3.4830166954519286,
+      "grad_norm": 1.1694583892822266,
+      "learning_rate": 6.213317619328226e-07,
+      "loss": 5.2427,
+      "mean_token_accuracy": 0.31954523265361784,
+      "num_tokens": 6461854.0,
       "step": 6050
     },
     {
+      "entropy": 5.317689285278321,
       "epoch": 3.5118019573978123,
+      "grad_norm": 0.9361855387687683,
+      "learning_rate": 6.095462581025339e-07,
+      "loss": 5.1588,
+      "mean_token_accuracy": 0.330586878657341,
+      "num_tokens": 6514882.0,
       "step": 6100
     },
     {
+      "entropy": 5.478708257675171,
       "epoch": 3.540587219343696,
+      "grad_norm": 1.05711030960083,
+      "learning_rate": 5.977607542722451e-07,
+      "loss": 5.321,
+      "mean_token_accuracy": 0.3104448106884956,
+      "num_tokens": 6569455.0,
       "step": 6150
     },
     {
+      "entropy": 5.309361801147461,
       "epoch": 3.5693724812895797,
+      "grad_norm": 1.3499550819396973,
+      "learning_rate": 5.859752504419564e-07,
+      "loss": 5.153,
+      "mean_token_accuracy": 0.331512533724308,
+      "num_tokens": 6621734.0,
       "step": 6200
     },
     {
+      "entropy": 5.296572666168213,
       "epoch": 3.5981577432354634,
+      "grad_norm": 1.940708875656128,
+      "learning_rate": 5.741897466116676e-07,
+      "loss": 5.14,
+      "mean_token_accuracy": 0.3299832499027252,
+      "num_tokens": 6674994.0,
       "step": 6250
     },
     {
+      "entropy": 5.544284400939941,
       "epoch": 3.626943005181347,
+      "grad_norm": 1.8903827667236328,
+      "learning_rate": 5.624042427813788e-07,
+      "loss": 5.3885,
+      "mean_token_accuracy": 0.3016947290301323,
+      "num_tokens": 6730674.0,
       "step": 6300
     },
     {
+      "entropy": 5.333053431510925,
       "epoch": 3.655728267127231,
+      "grad_norm": 1.1618578433990479,
+      "learning_rate": 5.506187389510902e-07,
+      "loss": 5.1781,
+      "mean_token_accuracy": 0.3275001719594002,
+      "num_tokens": 6784235.0,
       "step": 6350
     },
     {
+      "entropy": 5.4938449716568,
       "epoch": 3.6845135290731146,
+      "grad_norm": 1.384329080581665,
+      "learning_rate": 5.388332351208014e-07,
+      "loss": 5.3399,
+      "mean_token_accuracy": 0.3068840709328651,
+      "num_tokens": 6839590.0,
       "step": 6400
     },
     {
+      "entropy": 5.277545223236084,
       "epoch": 3.7132987910189983,
+      "grad_norm": 1.8918265104293823,
+      "learning_rate": 5.270477312905126e-07,
+      "loss": 5.1221,
+      "mean_token_accuracy": 0.33364981949329375,
+      "num_tokens": 6891301.0,
       "step": 6450
     },
     {
+      "entropy": 5.40100293636322,
       "epoch": 3.742084052964882,
+      "grad_norm": 1.6968809366226196,
+      "learning_rate": 5.152622274602239e-07,
+      "loss": 5.2471,
+      "mean_token_accuracy": 0.31912936180830004,
+      "num_tokens": 6945510.0,
       "step": 6500
     },
     {
+      "entropy": 5.561220169067383,
       "epoch": 3.7708693149107657,
+      "grad_norm": 2.066960573196411,
+      "learning_rate": 5.034767236299352e-07,
+      "loss": 5.4026,
+      "mean_token_accuracy": 0.2984810543060303,
+      "num_tokens": 7001870.0,
       "step": 6550
     },
     {
+      "entropy": 5.3108087682724,
       "epoch": 3.7996545768566494,
+      "grad_norm": 1.6065007448196411,
+      "learning_rate": 4.916912197996464e-07,
+      "loss": 5.155,
+      "mean_token_accuracy": 0.3304683968424797,
+      "num_tokens": 7053974.0,
       "step": 6600
     },
     {
+      "entropy": 5.323807754516602,
       "epoch": 3.828439838802533,
+      "grad_norm": 2.6806318759918213,
+      "learning_rate": 4.799057159693577e-07,
+      "loss": 5.1653,
+      "mean_token_accuracy": 0.3294159671664238,
+      "num_tokens": 7107061.0,
       "step": 6650
     },
     {
+      "entropy": 5.4716163873672485,
       "epoch": 3.857225100748417,
+      "grad_norm": 1.8264856338500977,
+      "learning_rate": 4.6812021213906895e-07,
+      "loss": 5.3124,
+      "mean_token_accuracy": 0.3109353107213974,
+      "num_tokens": 7161697.0,
       "step": 6700
     },
     {
+      "entropy": 5.382365622520447,
       "epoch": 3.8860103626943006,
+      "grad_norm": 0.9954923987388611,
+      "learning_rate": 4.563347083087802e-07,
+      "loss": 5.2237,
+      "mean_token_accuracy": 0.32161149621009827,
+      "num_tokens": 7215524.0,
       "step": 6750
     },
     {
+      "entropy": 5.277496585845947,
       "epoch": 3.9147956246401843,
+      "grad_norm": 1.267786979675293,
+      "learning_rate": 4.445492044784914e-07,
+      "loss": 5.1265,
+      "mean_token_accuracy": 0.3319795566797257,
+      "num_tokens": 7267329.0,
       "step": 6800
     },
     {
+      "entropy": 5.550942025184631,
       "epoch": 3.943580886586068,
+      "grad_norm": 0.9425063133239746,
+      "learning_rate": 4.3276370064820265e-07,
+      "loss": 5.3898,
+      "mean_token_accuracy": 0.30050904959440233,
+      "num_tokens": 7324070.0,
       "step": 6850
     },
     {
+      "entropy": 5.125799627304077,
       "epoch": 3.9723661485319517,
+      "grad_norm": 5.447021007537842,
+      "learning_rate": 4.20978196817914e-07,
+      "loss": 4.9781,
+      "mean_token_accuracy": 0.3520450854301453,
+      "num_tokens": 7375083.0,
       "step": 6900
     },
     {
       "epoch": 4.0,
+      "eval_entropy": 5.6681923492712905,
+      "eval_loss": 5.525067329406738,
+      "eval_mean_token_accuracy": 0.2779707208893816,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 7425448.0,
+      "eval_runtime": 49.7944,
+      "eval_samples_per_second": 8.716,
+      "eval_steps_per_second": 4.358,
       "step": 6948
     },
     {
+      "entropy": 5.38487633228302,
       "epoch": 4.001151410477835,
+      "grad_norm": 1.2222857475280762,
+      "learning_rate": 4.091926929876252e-07,
+      "loss": 5.2243,
+      "mean_token_accuracy": 0.32152373433113096,
+      "num_tokens": 7427859.0,
       "step": 6950
     },
     {
+      "entropy": 5.151427125930786,
       "epoch": 4.029936672423719,
+      "grad_norm": 1.804520606994629,
+      "learning_rate": 3.9740718915733645e-07,
+      "loss": 4.9966,
+      "mean_token_accuracy": 0.3502719843387604,
+      "num_tokens": 7478346.0,
       "step": 7000
     },
     {
+      "entropy": 5.550741171836853,
       "epoch": 4.058721934369602,
+      "grad_norm": 0.9588176608085632,
+      "learning_rate": 3.856216853270477e-07,
+      "loss": 5.3924,
+      "mean_token_accuracy": 0.30148445934057233,
+      "num_tokens": 7533394.0,
       "step": 7050
     },
     {
+      "entropy": 5.254554944038391,
       "epoch": 4.087507196315486,
+      "grad_norm": 2.456322431564331,
+      "learning_rate": 3.7383618149675897e-07,
+      "loss": 5.1002,
+      "mean_token_accuracy": 0.3362416020035744,
+      "num_tokens": 7585238.0,
       "step": 7100
     },
     {
+      "entropy": 5.400679998397827,
       "epoch": 4.11629245826137,
+      "grad_norm": 1.2165497541427612,
+      "learning_rate": 3.6205067766647026e-07,
+      "loss": 5.2434,
+      "mean_token_accuracy": 0.3191445592045784,
+      "num_tokens": 7638693.0,
       "step": 7150
     },
     {
+      "entropy": 5.261249952316284,
       "epoch": 4.1450777202072535,
+      "grad_norm": 1.1991236209869385,
+      "learning_rate": 3.502651738361815e-07,
+      "loss": 5.1129,
+      "mean_token_accuracy": 0.33393161594867704,
+      "num_tokens": 7691223.0,
       "step": 7200
     },
     {
+      "entropy": 5.33568838596344,
       "epoch": 4.173862982153137,
+      "grad_norm": 1.2175132036209106,
+      "learning_rate": 3.384796700058927e-07,
+      "loss": 5.1725,
+      "mean_token_accuracy": 0.32868497937917707,
+      "num_tokens": 7744696.0,
       "step": 7250
     },
     {
+      "entropy": 5.25973867893219,
       "epoch": 4.202648244099021,
+      "grad_norm": 1.4588052034378052,
+      "learning_rate": 3.2669416617560395e-07,
+      "loss": 5.105,
+      "mean_token_accuracy": 0.3384602865576744,
+      "num_tokens": 7796600.0,
       "step": 7300
     },
     {
+      "entropy": 5.551795811653137,
       "epoch": 4.231433506044905,
+      "grad_norm": 1.017745852470398,
+      "learning_rate": 3.149086623453153e-07,
+      "loss": 5.3996,
+      "mean_token_accuracy": 0.29976913034915925,
+      "num_tokens": 7851822.0,
       "step": 7350
     },
     {
+      "entropy": 5.379249300956726,
       "epoch": 4.260218767990788,
+      "grad_norm": 1.7130656242370605,
+      "learning_rate": 3.031231585150265e-07,
+      "loss": 5.2267,
+      "mean_token_accuracy": 0.3196685525774956,
+      "num_tokens": 7905364.0,
       "step": 7400
     },
     {
+      "entropy": 5.402966260910034,
       "epoch": 4.289004029936672,
+      "grad_norm": 1.3162118196487427,
+      "learning_rate": 2.9133765468473776e-07,
+      "loss": 5.2473,
+      "mean_token_accuracy": 0.31836180537939074,
+      "num_tokens": 7959154.0,
       "step": 7450
     },
     {
+      "entropy": 5.393479719161987,
       "epoch": 4.317789291882556,
+      "grad_norm": 1.5286513566970825,
+      "learning_rate": 2.79552150854449e-07,
+      "loss": 5.2345,
+      "mean_token_accuracy": 0.32134009718894957,
+      "num_tokens": 8013160.0,
       "step": 7500
     },
     {
+      "entropy": 5.46117250919342,
       "epoch": 4.3465745538284395,
+      "grad_norm": 1.3793199062347412,
+      "learning_rate": 2.6776664702416027e-07,
+      "loss": 5.3056,
+      "mean_token_accuracy": 0.311002559363842,
+      "num_tokens": 8068763.0,
       "step": 7550
     },
     {
+      "entropy": 5.331483993530274,
       "epoch": 4.375359815774323,
+      "grad_norm": 2.3478105068206787,
+      "learning_rate": 2.5598114319387156e-07,
+      "loss": 5.1795,
+      "mean_token_accuracy": 0.32778155684471133,
+      "num_tokens": 8121013.0,
       "step": 7600
     },
     {
+      "entropy": 5.39360936164856,
       "epoch": 4.404145077720207,
+      "grad_norm": 1.095144510269165,
+      "learning_rate": 2.441956393635828e-07,
+      "loss": 5.2346,
+      "mean_token_accuracy": 0.3206799927353859,
+      "num_tokens": 8174476.0,
       "step": 7650
     },
     {
+      "entropy": 5.468272385597229,
       "epoch": 4.432930339666091,
+      "grad_norm": 1.161205768585205,
+      "learning_rate": 2.3241013553329402e-07,
+      "loss": 5.3126,
+      "mean_token_accuracy": 0.3104386702179909,
+      "num_tokens": 8229471.0,
       "step": 7700
     },
     {
+      "entropy": 5.325088725090027,
       "epoch": 4.461715601611974,
+      "grad_norm": 1.2813605070114136,
+      "learning_rate": 2.206246317030053e-07,
+      "loss": 5.1722,
+      "mean_token_accuracy": 0.32928301066160204,
+      "num_tokens": 8281578.0,
       "step": 7750
     },
     {
+      "entropy": 5.231600880622864,
       "epoch": 4.490500863557858,
+      "grad_norm": 1.0202534198760986,
+      "learning_rate": 2.0883912787271654e-07,
+      "loss": 5.0794,
+      "mean_token_accuracy": 0.3391410967707634,
+      "num_tokens": 8333192.0,
       "step": 7800
     },
     {
+      "entropy": 5.243114166259765,
       "epoch": 4.519286125503742,
+      "grad_norm": 1.8178458213806152,
+      "learning_rate": 1.9705362404242783e-07,
+      "loss": 5.0944,
+      "mean_token_accuracy": 0.33702247083187103,
+      "num_tokens": 8385403.0,
       "step": 7850
     },
     {
+      "entropy": 5.509276785850525,
       "epoch": 4.5480713874496255,
+      "grad_norm": 1.2947449684143066,
+      "learning_rate": 1.8526812021213906e-07,
+      "loss": 5.3504,
+      "mean_token_accuracy": 0.30472870826721193,
+      "num_tokens": 8441398.0,
       "step": 7900
     },
     {
+      "entropy": 5.47810329914093,
       "epoch": 4.576856649395509,
+      "grad_norm": 1.3030011653900146,
+      "learning_rate": 1.7348261638185032e-07,
+      "loss": 5.3205,
+      "mean_token_accuracy": 0.3097413584589958,
+      "num_tokens": 8496488.0,
       "step": 7950
     },
     {
+      "entropy": 5.325540552139282,
       "epoch": 4.605641911341393,
+      "grad_norm": 1.807919979095459,
+      "learning_rate": 1.6169711255156158e-07,
+      "loss": 5.1724,
+      "mean_token_accuracy": 0.32793802350759504,
+      "num_tokens": 8549935.0,
       "step": 8000
     },
     {
+      "entropy": 5.597971448898315,
       "epoch": 4.634427173287277,
+      "grad_norm": 2.5746006965637207,
+      "learning_rate": 1.499116087212728e-07,
+      "loss": 5.4384,
+      "mean_token_accuracy": 0.2962429064512253,
+      "num_tokens": 8605715.0,
       "step": 8050
     },
     {
+      "entropy": 5.385147652626038,
       "epoch": 4.66321243523316,
+      "grad_norm": 1.3230502605438232,
+      "learning_rate": 1.381261048909841e-07,
+      "loss": 5.2287,
+      "mean_token_accuracy": 0.32063129514455796,
+      "num_tokens": 8659693.0,
       "step": 8100
     },
     {
+      "entropy": 5.237564296722412,
       "epoch": 4.691997697179044,
+      "grad_norm": 1.5461162328720093,
+      "learning_rate": 1.2634060106069533e-07,
+      "loss": 5.0868,
+      "mean_token_accuracy": 0.3380086237192154,
+      "num_tokens": 8711203.0,
       "step": 8150
     },
     {
+      "entropy": 5.3754426288604735,
       "epoch": 4.720782959124928,
+      "grad_norm": 1.540111780166626,
+      "learning_rate": 1.145550972304066e-07,
+      "loss": 5.2201,
+      "mean_token_accuracy": 0.3232385951280594,
+      "num_tokens": 8763164.0,
       "step": 8200
     },
     {
+      "entropy": 5.358118782043457,
       "epoch": 4.7495682210708114,
+      "grad_norm": 1.160130500793457,
+      "learning_rate": 1.0276959340011786e-07,
+      "loss": 5.1986,
+      "mean_token_accuracy": 0.32435122996568677,
+      "num_tokens": 8816843.0,
       "step": 8250
     },
     {
+      "entropy": 5.382785997390747,
       "epoch": 4.778353483016695,
+      "grad_norm": 1.19467031955719,
+      "learning_rate": 9.09840895698291e-08,
+      "loss": 5.2294,
+      "mean_token_accuracy": 0.320581151843071,
+      "num_tokens": 8869513.0,
       "step": 8300
     },
     {
+      "entropy": 5.213022809028626,
       "epoch": 4.807138744962579,
+      "grad_norm": 2.9769742488861084,
+      "learning_rate": 7.919858573954036e-08,
+      "loss": 5.0619,
+      "mean_token_accuracy": 0.3414875140786171,
+      "num_tokens": 8920491.0,
       "step": 8350
     },
     {
+      "entropy": 5.5911472082138065,
       "epoch": 4.835924006908463,
+      "grad_norm": 1.083928108215332,
+      "learning_rate": 6.741308190925162e-08,
+      "loss": 5.4315,
+      "mean_token_accuracy": 0.2953196579217911,
+      "num_tokens": 8976698.0,
       "step": 8400
     },
     {
+      "entropy": 5.360013060569763,
       "epoch": 4.864709268854346,
+      "grad_norm": 0.9796308279037476,
+      "learning_rate": 5.562757807896287e-08,
+      "loss": 5.1997,
+      "mean_token_accuracy": 0.32382034361362455,
+      "num_tokens": 9030719.0,
       "step": 8450
     },
     {
+      "entropy": 5.447426581382752,
       "epoch": 4.89349453080023,
+      "grad_norm": 1.2438750267028809,
+      "learning_rate": 4.384207424867413e-08,
+      "loss": 5.2921,
+      "mean_token_accuracy": 0.31339066684246064,
+      "num_tokens": 9084912.0,
       "step": 8500
     },
     {
+      "entropy": 5.419556441307068,
       "epoch": 4.922279792746114,
+      "grad_norm": 1.0203313827514648,
+      "learning_rate": 3.205657041838539e-08,
+      "loss": 5.2623,
+      "mean_token_accuracy": 0.31564354538917544,
+      "num_tokens": 9139056.0,
       "step": 8550
     },
     {
+      "entropy": 5.24355613231659,
       "epoch": 4.951065054691997,
+      "grad_norm": 1.5694708824157715,
+      "learning_rate": 2.027106658809664e-08,
+      "loss": 5.0942,
+      "mean_token_accuracy": 0.3373285266757011,
+      "num_tokens": 9190520.0,
       "step": 8600
     },
     {
+      "entropy": 5.4742378282547,
       "epoch": 4.979850316637881,
+      "grad_norm": 1.4123504161834717,
+      "learning_rate": 8.485562757807896e-09,
+      "loss": 5.3169,
+      "mean_token_accuracy": 0.3118377339839935,
+      "num_tokens": 9245023.0,
       "step": 8650
     },
     {
       "epoch": 5.0,
+      "eval_entropy": 5.6646331444313995,
+      "eval_loss": 5.523473739624023,
+      "eval_mean_token_accuracy": 0.27800820795347064,
+      "eval_model_preparation_time": 0.0045,
+      "eval_num_tokens": 9281810.0,
+      "eval_runtime": 49.9701,
+      "eval_samples_per_second": 8.685,
+      "eval_steps_per_second": 4.343,
       "step": 8685
     }
   ],
   "logging_steps": 50,
+  "max_steps": 8685,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.2710932022552064e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

checkpoint-8685/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5475e33e58f46f793ad6cd889040e12bcec7c861a0875b6fe270cefbfc94cccc
 size 6225

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a666397e6243ddba6f7279c90610ed552907ef4de0be511faece3826d13e618
 size 6225

runs/Dec04_11-47-13_129-213-84-8/events.out.tfevents.1764848895.129-213-84-8.25442.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d77d61fb6af4433636be0b2505f03048f2b7390f5cb67124dae3bb4156bd4898
+size 77711

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8db5c304963110404ebb6947b83ba95bd9b8aad1f9b8b578cc33c46d601e13dc
 size 6225

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a666397e6243ddba6f7279c90610ed552907ef4de0be511faece3826d13e618
 size 6225