rootxhacker commited on Apr 21, 2025

Commit

f527b7a

verified ·

1 Parent(s): 0e140f0

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-1000/config.json +30 -0
checkpoint-1000/generation_config.json +7 -0
checkpoint-1000/model.safetensors +3 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +24 -0
checkpoint-1000/tokenizer.json +0 -0
checkpoint-1000/tokenizer.model +3 -0
checkpoint-1000/tokenizer_config.json +42 -0
checkpoint-1000/trainer_state.json +934 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-1500/config.json +30 -0
checkpoint-1500/generation_config.json +7 -0
checkpoint-1500/model.safetensors +3 -0
checkpoint-1500/optimizer.pt +3 -0
checkpoint-1500/rng_state.pth +3 -0
checkpoint-1500/scheduler.pt +3 -0
checkpoint-1500/special_tokens_map.json +24 -0
checkpoint-1500/tokenizer.json +0 -0
checkpoint-1500/tokenizer.model +3 -0
checkpoint-1500/tokenizer_config.json +42 -0
checkpoint-1500/trainer_state.json +1384 -0
checkpoint-1500/training_args.bin +3 -0
checkpoint-2000/config.json +30 -0
checkpoint-2000/generation_config.json +7 -0
checkpoint-2000/model.safetensors +3 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/rng_state.pth +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/special_tokens_map.json +24 -0
checkpoint-2000/tokenizer.json +0 -0
checkpoint-2000/tokenizer.model +3 -0
checkpoint-2000/tokenizer_config.json +42 -0
checkpoint-2000/trainer_state.json +1834 -0
checkpoint-2000/training_args.bin +3 -0
checkpoint-2500/config.json +30 -0
checkpoint-2500/generation_config.json +7 -0
checkpoint-2500/model.safetensors +3 -0
checkpoint-2500/optimizer.pt +3 -0
checkpoint-2500/rng_state.pth +3 -0
checkpoint-2500/scheduler.pt +3 -0
checkpoint-2500/special_tokens_map.json +24 -0
checkpoint-2500/tokenizer.json +0 -0
checkpoint-2500/tokenizer.model +3 -0
checkpoint-2500/tokenizer_config.json +42 -0
checkpoint-2500/trainer_state.json +2284 -0
checkpoint-2500/training_args.bin +3 -0
checkpoint-3000/config.json +30 -0
checkpoint-3000/generation_config.json +7 -0

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 256,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f7395b37e375386f7e020f0feb5871f091865a01cf21af070229210bc865b70
+size 309900448

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3285b9116f849885b7b430d8e5b630a3fa6a4a4197087805d064eac02d1daa9f
+size 619836730

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeecd634c6d2fbef24b299add90a57b4006935a51eedba880504e0df7f872f59
+size 1064

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,934 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4912194522903107,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004912194522903107,
+      "grad_norm": 2.5265462398529053,
+      "learning_rate": 1.995577395577396e-05,
+      "loss": 5.7783,
+      "mean_token_accuracy": 0.17638254687190055,
+      "num_tokens": 50745.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.009824389045806214,
+      "grad_norm": 1.7381863594055176,
+      "learning_rate": 1.9906633906633906e-05,
+      "loss": 5.4596,
+      "mean_token_accuracy": 0.20633984543383121,
+      "num_tokens": 101681.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.01473658356870932,
+      "grad_norm": 2.0286130905151367,
+      "learning_rate": 1.985749385749386e-05,
+      "loss": 5.2069,
+      "mean_token_accuracy": 0.2354225989431143,
+      "num_tokens": 153620.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.019648778091612428,
+      "grad_norm": 2.2828938961029053,
+      "learning_rate": 1.980835380835381e-05,
+      "loss": 5.0637,
+      "mean_token_accuracy": 0.2486753471195698,
+      "num_tokens": 205428.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.024560972614515536,
+      "grad_norm": 2.247742176055908,
+      "learning_rate": 1.975921375921376e-05,
+      "loss": 4.7071,
+      "mean_token_accuracy": 0.2982919864356518,
+      "num_tokens": 260794.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.02947316713741864,
+      "grad_norm": 1.4552102088928223,
+      "learning_rate": 1.9710073710073712e-05,
+      "loss": 4.5951,
+      "mean_token_accuracy": 0.3140149611979723,
+      "num_tokens": 314216.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.03438536166032175,
+      "grad_norm": 2.032104969024658,
+      "learning_rate": 1.9660933660933663e-05,
+      "loss": 4.3963,
+      "mean_token_accuracy": 0.33228743858635423,
+      "num_tokens": 365608.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.039297556183224856,
+      "grad_norm": 1.5947270393371582,
+      "learning_rate": 1.9611793611793614e-05,
+      "loss": 4.2578,
+      "mean_token_accuracy": 0.3510261565446854,
+      "num_tokens": 418509.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.04420975070612796,
+      "grad_norm": 1.9174288511276245,
+      "learning_rate": 1.9562653562653564e-05,
+      "loss": 4.0457,
+      "mean_token_accuracy": 0.38185270577669145,
+      "num_tokens": 472608.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.04912194522903107,
+      "grad_norm": 1.5742830038070679,
+      "learning_rate": 1.9513513513513515e-05,
+      "loss": 4.0492,
+      "mean_token_accuracy": 0.37742224968969823,
+      "num_tokens": 521777.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.054034139751934177,
+      "grad_norm": 1.5624850988388062,
+      "learning_rate": 1.9464373464373466e-05,
+      "loss": 3.7053,
+      "mean_token_accuracy": 0.41850126534700394,
+      "num_tokens": 580161.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.05894633427483728,
+      "grad_norm": 2.199150562286377,
+      "learning_rate": 1.9415233415233417e-05,
+      "loss": 3.6982,
+      "mean_token_accuracy": 0.4235368125140667,
+      "num_tokens": 627843.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.06385852879774039,
+      "grad_norm": 1.8548036813735962,
+      "learning_rate": 1.9366093366093367e-05,
+      "loss": 3.3414,
+      "mean_token_accuracy": 0.4654690891504288,
+      "num_tokens": 681443.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.0687707233206435,
+      "grad_norm": 2.78169846534729,
+      "learning_rate": 1.9316953316953318e-05,
+      "loss": 3.2679,
+      "mean_token_accuracy": 0.4711888641119003,
+      "num_tokens": 733457.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.07368291784354661,
+      "grad_norm": 2.4450321197509766,
+      "learning_rate": 1.926781326781327e-05,
+      "loss": 3.3377,
+      "mean_token_accuracy": 0.4799527756869793,
+      "num_tokens": 787769.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.07859511236644971,
+      "grad_norm": 1.7717996835708618,
+      "learning_rate": 1.921867321867322e-05,
+      "loss": 2.8853,
+      "mean_token_accuracy": 0.541524414718151,
+      "num_tokens": 843485.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.08350730688935282,
+      "grad_norm": 2.8402254581451416,
+      "learning_rate": 1.9169533169533174e-05,
+      "loss": 2.862,
+      "mean_token_accuracy": 0.5626954190433026,
+      "num_tokens": 894003.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.08841950141225592,
+      "grad_norm": 1.5486701726913452,
+      "learning_rate": 1.912039312039312e-05,
+      "loss": 2.7533,
+      "mean_token_accuracy": 0.5848119542002678,
+      "num_tokens": 949726.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.09333169593515903,
+      "grad_norm": 1.3785852193832397,
+      "learning_rate": 1.9071253071253072e-05,
+      "loss": 2.7602,
+      "mean_token_accuracy": 0.5894295200705528,
+      "num_tokens": 1000146.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.09824389045806214,
+      "grad_norm": 1.6824640035629272,
+      "learning_rate": 1.9022113022113026e-05,
+      "loss": 2.6345,
+      "mean_token_accuracy": 0.5961507339030504,
+      "num_tokens": 1050142.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.10315608498096525,
+      "grad_norm": 1.0604822635650635,
+      "learning_rate": 1.8972972972972973e-05,
+      "loss": 2.4517,
+      "mean_token_accuracy": 0.6296438351273537,
+      "num_tokens": 1099646.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.10806827950386835,
+      "grad_norm": 1.9105230569839478,
+      "learning_rate": 1.8923832923832924e-05,
+      "loss": 2.4563,
+      "mean_token_accuracy": 0.6365545220673084,
+      "num_tokens": 1148100.0,
+      "step": 220
+    },
+    {
+      "epoch": 0.11298047402677146,
+      "grad_norm": 1.41056227684021,
+      "learning_rate": 1.8874692874692878e-05,
+      "loss": 2.4017,
+      "mean_token_accuracy": 0.6691348008811474,
+      "num_tokens": 1198987.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.11789266854967456,
+      "grad_norm": 1.0573596954345703,
+      "learning_rate": 1.8825552825552825e-05,
+      "loss": 2.3199,
+      "mean_token_accuracy": 0.6731609679758549,
+      "num_tokens": 1249335.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.12280486307257768,
+      "grad_norm": 1.6629279851913452,
+      "learning_rate": 1.877641277641278e-05,
+      "loss": 1.9335,
+      "mean_token_accuracy": 0.7327558636665344,
+      "num_tokens": 1303157.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.12771705759548077,
+      "grad_norm": 1.704005479812622,
+      "learning_rate": 1.872727272727273e-05,
+      "loss": 2.1897,
+      "mean_token_accuracy": 0.6974137671291828,
+      "num_tokens": 1355455.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.1326292521183839,
+      "grad_norm": 1.0553226470947266,
+      "learning_rate": 1.8678132678132678e-05,
+      "loss": 1.9321,
+      "mean_token_accuracy": 0.7327657997608185,
+      "num_tokens": 1407508.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.137541446641287,
+      "grad_norm": 1.101886510848999,
+      "learning_rate": 1.8628992628992632e-05,
+      "loss": 1.9929,
+      "mean_token_accuracy": 0.7272698871791363,
+      "num_tokens": 1460595.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.1424536411641901,
+      "grad_norm": 2.005901575088501,
+      "learning_rate": 1.8579852579852583e-05,
+      "loss": 1.7147,
+      "mean_token_accuracy": 0.7604942478239536,
+      "num_tokens": 1512647.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.14736583568709322,
+      "grad_norm": 7.757036209106445,
+      "learning_rate": 1.853071253071253e-05,
+      "loss": 1.7571,
+      "mean_token_accuracy": 0.7603825606405735,
+      "num_tokens": 1565516.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.1522780302099963,
+      "grad_norm": 0.8850768208503723,
+      "learning_rate": 1.8481572481572484e-05,
+      "loss": 1.5439,
+      "mean_token_accuracy": 0.7915346205234528,
+      "num_tokens": 1620194.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.15719022473289943,
+      "grad_norm": 1.2887756824493408,
+      "learning_rate": 1.8432432432432435e-05,
+      "loss": 1.5419,
+      "mean_token_accuracy": 0.7885693073272705,
+      "num_tokens": 1672317.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.16210241925580254,
+      "grad_norm": 2.562720537185669,
+      "learning_rate": 1.8383292383292385e-05,
+      "loss": 1.5783,
+      "mean_token_accuracy": 0.7889993876218796,
+      "num_tokens": 1728513.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.16701461377870563,
+      "grad_norm": 2.907665491104126,
+      "learning_rate": 1.8334152334152336e-05,
+      "loss": 1.6573,
+      "mean_token_accuracy": 0.7675686649978161,
+      "num_tokens": 1777759.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.17192680830160875,
+      "grad_norm": 0.8430731892585754,
+      "learning_rate": 1.8285012285012287e-05,
+      "loss": 1.664,
+      "mean_token_accuracy": 0.7618721649050713,
+      "num_tokens": 1833279.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.17683900282451184,
+      "grad_norm": 1.1680371761322021,
+      "learning_rate": 1.8235872235872238e-05,
+      "loss": 1.515,
+      "mean_token_accuracy": 0.7789990782737732,
+      "num_tokens": 1882531.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.18175119734741496,
+      "grad_norm": 2.009002208709717,
+      "learning_rate": 1.818673218673219e-05,
+      "loss": 1.4555,
+      "mean_token_accuracy": 0.7983467862010002,
+      "num_tokens": 1934619.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.18666339187031805,
+      "grad_norm": 1.3894531726837158,
+      "learning_rate": 1.813759213759214e-05,
+      "loss": 1.6206,
+      "mean_token_accuracy": 0.7681202955543995,
+      "num_tokens": 1987231.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.19157558639322117,
+      "grad_norm": 0.7266082763671875,
+      "learning_rate": 1.808845208845209e-05,
+      "loss": 1.3022,
+      "mean_token_accuracy": 0.818102091550827,
+      "num_tokens": 2039985.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.1964877809161243,
+      "grad_norm": 0.7502278089523315,
+      "learning_rate": 1.803931203931204e-05,
+      "loss": 1.3902,
+      "mean_token_accuracy": 0.792433574795723,
+      "num_tokens": 2092178.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.20139997543902738,
+      "grad_norm": 0.8366674780845642,
+      "learning_rate": 1.799017199017199e-05,
+      "loss": 1.5385,
+      "mean_token_accuracy": 0.7903823673725128,
+      "num_tokens": 2151243.0,
+      "step": 410
+    },
+    {
+      "epoch": 0.2063121699619305,
+      "grad_norm": 0.7726922035217285,
+      "learning_rate": 1.7941031941031942e-05,
+      "loss": 1.3529,
+      "mean_token_accuracy": 0.8017133295536041,
+      "num_tokens": 2201072.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.2112243644848336,
+      "grad_norm": 0.650055468082428,
+      "learning_rate": 1.7891891891891893e-05,
+      "loss": 1.4312,
+      "mean_token_accuracy": 0.7957115054130555,
+      "num_tokens": 2256591.0,
+      "step": 430
+    },
+    {
+      "epoch": 0.2161365590077367,
+      "grad_norm": 0.9430303573608398,
+      "learning_rate": 1.7842751842751843e-05,
+      "loss": 1.1938,
+      "mean_token_accuracy": 0.8211165018379688,
+      "num_tokens": 2308048.0,
+      "step": 440
+    },
+    {
+      "epoch": 0.22104875353063982,
+      "grad_norm": 0.9191327691078186,
+      "learning_rate": 1.7793611793611794e-05,
+      "loss": 1.1662,
+      "mean_token_accuracy": 0.8298586897552014,
+      "num_tokens": 2363573.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.22596094805354291,
+      "grad_norm": 0.7493109703063965,
+      "learning_rate": 1.7744471744471745e-05,
+      "loss": 1.5908,
+      "mean_token_accuracy": 0.7651749603450299,
+      "num_tokens": 2413187.0,
+      "step": 460
+    },
+    {
+      "epoch": 0.23087314257644603,
+      "grad_norm": 0.5522422790527344,
+      "learning_rate": 1.7695331695331696e-05,
+      "loss": 1.3707,
+      "mean_token_accuracy": 0.7843399420380592,
+      "num_tokens": 2468041.0,
+      "step": 470
+    },
+    {
+      "epoch": 0.23578533709934912,
+      "grad_norm": 0.6577270030975342,
+      "learning_rate": 1.764619164619165e-05,
+      "loss": 1.4679,
+      "mean_token_accuracy": 0.7856365032494068,
+      "num_tokens": 2517753.0,
+      "step": 480
+    },
+    {
+      "epoch": 0.24069753162225224,
+      "grad_norm": 0.9699747562408447,
+      "learning_rate": 1.7597051597051597e-05,
+      "loss": 1.3493,
+      "mean_token_accuracy": 0.8016418114304542,
+      "num_tokens": 2568072.0,
+      "step": 490
+    },
+    {
+      "epoch": 0.24560972614515536,
+      "grad_norm": 2.0955657958984375,
+      "learning_rate": 1.7547911547911548e-05,
+      "loss": 0.9634,
+      "mean_token_accuracy": 0.8412673205137253,
+      "num_tokens": 2617143.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.25052192066805845,
+      "grad_norm": 0.7577691078186035,
+      "learning_rate": 1.7498771498771502e-05,
+      "loss": 1.0889,
+      "mean_token_accuracy": 0.8479016363620758,
+      "num_tokens": 2669318.0,
+      "step": 510
+    },
+    {
+      "epoch": 0.25543411519096154,
+      "grad_norm": 0.5891643762588501,
+      "learning_rate": 1.744963144963145e-05,
+      "loss": 1.1811,
+      "mean_token_accuracy": 0.82891755849123,
+      "num_tokens": 2723151.0,
+      "step": 520
+    },
+    {
+      "epoch": 0.2603463097138647,
+      "grad_norm": 0.7815893292427063,
+      "learning_rate": 1.74004914004914e-05,
+      "loss": 1.3488,
+      "mean_token_accuracy": 0.7971963949501515,
+      "num_tokens": 2774274.0,
+      "step": 530
+    },
+    {
+      "epoch": 0.2652585042367678,
+      "grad_norm": 0.365824818611145,
+      "learning_rate": 1.7351351351351354e-05,
+      "loss": 1.129,
+      "mean_token_accuracy": 0.8214888103306294,
+      "num_tokens": 2825301.0,
+      "step": 540
+    },
+    {
+      "epoch": 0.27017069875967087,
+      "grad_norm": 0.5682836174964905,
+      "learning_rate": 1.73022113022113e-05,
+      "loss": 1.0752,
+      "mean_token_accuracy": 0.8513655051589012,
+      "num_tokens": 2877767.0,
+      "step": 550
+    },
+    {
+      "epoch": 0.275082893282574,
+      "grad_norm": 0.9484438300132751,
+      "learning_rate": 1.7253071253071256e-05,
+      "loss": 1.1606,
+      "mean_token_accuracy": 0.8191152907907963,
+      "num_tokens": 2929216.0,
+      "step": 560
+    },
+    {
+      "epoch": 0.2799950878054771,
+      "grad_norm": 0.7097403407096863,
+      "learning_rate": 1.7203931203931206e-05,
+      "loss": 1.0245,
+      "mean_token_accuracy": 0.8594455644488335,
+      "num_tokens": 2983287.0,
+      "step": 570
+    },
+    {
+      "epoch": 0.2849072823283802,
+      "grad_norm": 2.197983741760254,
+      "learning_rate": 1.7154791154791157e-05,
+      "loss": 1.0116,
+      "mean_token_accuracy": 0.8458577767014503,
+      "num_tokens": 3036426.0,
+      "step": 580
+    },
+    {
+      "epoch": 0.2898194768512833,
+      "grad_norm": 0.9750831723213196,
+      "learning_rate": 1.7105651105651108e-05,
+      "loss": 1.2482,
+      "mean_token_accuracy": 0.8097934015095234,
+      "num_tokens": 3090471.0,
+      "step": 590
+    },
+    {
+      "epoch": 0.29473167137418643,
+      "grad_norm": 0.7452868223190308,
+      "learning_rate": 1.705651105651106e-05,
+      "loss": 0.9643,
+      "mean_token_accuracy": 0.8562554508447647,
+      "num_tokens": 3143095.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.2996438658970895,
+      "grad_norm": 0.3684370815753937,
+      "learning_rate": 1.700737100737101e-05,
+      "loss": 0.8587,
+      "mean_token_accuracy": 0.8684959009289741,
+      "num_tokens": 3193778.0,
+      "step": 610
+    },
+    {
+      "epoch": 0.3045560604199926,
+      "grad_norm": 0.4814823567867279,
+      "learning_rate": 1.695823095823096e-05,
+      "loss": 0.8246,
+      "mean_token_accuracy": 0.8646811529994011,
+      "num_tokens": 3249776.0,
+      "step": 620
+    },
+    {
+      "epoch": 0.30946825494289576,
+      "grad_norm": 0.6298699378967285,
+      "learning_rate": 1.690909090909091e-05,
+      "loss": 1.0043,
+      "mean_token_accuracy": 0.849489164352417,
+      "num_tokens": 3301301.0,
+      "step": 630
+    },
+    {
+      "epoch": 0.31438044946579885,
+      "grad_norm": 0.6802086234092712,
+      "learning_rate": 1.685995085995086e-05,
+      "loss": 0.9932,
+      "mean_token_accuracy": 0.8412040494382381,
+      "num_tokens": 3351834.0,
+      "step": 640
+    },
+    {
+      "epoch": 0.31929264398870194,
+      "grad_norm": 0.4441145062446594,
+      "learning_rate": 1.6810810810810812e-05,
+      "loss": 0.9093,
+      "mean_token_accuracy": 0.8644197151064873,
+      "num_tokens": 3402630.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.3242048385116051,
+      "grad_norm": 0.5664909482002258,
+      "learning_rate": 1.6761670761670763e-05,
+      "loss": 1.0511,
+      "mean_token_accuracy": 0.8302886992692947,
+      "num_tokens": 3453600.0,
+      "step": 660
+    },
+    {
+      "epoch": 0.3291170330345082,
+      "grad_norm": 0.898231029510498,
+      "learning_rate": 1.6712530712530714e-05,
+      "loss": 1.2663,
+      "mean_token_accuracy": 0.7889795318245888,
+      "num_tokens": 3501154.0,
+      "step": 670
+    },
+    {
+      "epoch": 0.33402922755741127,
+      "grad_norm": 0.49926525354385376,
+      "learning_rate": 1.6663390663390664e-05,
+      "loss": 1.0539,
+      "mean_token_accuracy": 0.8462485030293465,
+      "num_tokens": 3552076.0,
+      "step": 680
+    },
+    {
+      "epoch": 0.33894142208031436,
+      "grad_norm": 0.5327655673027039,
+      "learning_rate": 1.6614250614250615e-05,
+      "loss": 1.0757,
+      "mean_token_accuracy": 0.8260165579617024,
+      "num_tokens": 3602651.0,
+      "step": 690
+    },
+    {
+      "epoch": 0.3438536166032175,
+      "grad_norm": 0.5295992493629456,
+      "learning_rate": 1.6565110565110566e-05,
+      "loss": 0.9826,
+      "mean_token_accuracy": 0.8445935681462288,
+      "num_tokens": 3656310.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.3487658111261206,
+      "grad_norm": 0.584396243095398,
+      "learning_rate": 1.6515970515970517e-05,
+      "loss": 0.9771,
+      "mean_token_accuracy": 0.8513481065630912,
+      "num_tokens": 3712764.0,
+      "step": 710
+    },
+    {
+      "epoch": 0.3536780056490237,
+      "grad_norm": 0.5786782503128052,
+      "learning_rate": 1.6466830466830467e-05,
+      "loss": 1.0812,
+      "mean_token_accuracy": 0.8179432228207588,
+      "num_tokens": 3761995.0,
+      "step": 720
+    },
+    {
+      "epoch": 0.35859020017192683,
+      "grad_norm": 0.3496871888637543,
+      "learning_rate": 1.6417690417690418e-05,
+      "loss": 1.0407,
+      "mean_token_accuracy": 0.8126879334449768,
+      "num_tokens": 3811493.0,
+      "step": 730
+    },
+    {
+      "epoch": 0.3635023946948299,
+      "grad_norm": 0.5038619041442871,
+      "learning_rate": 1.636855036855037e-05,
+      "loss": 1.1602,
+      "mean_token_accuracy": 0.8141254656016826,
+      "num_tokens": 3859376.0,
+      "step": 740
+    },
+    {
+      "epoch": 0.368414589217733,
+      "grad_norm": 0.4643881320953369,
+      "learning_rate": 1.631941031941032e-05,
+      "loss": 0.8819,
+      "mean_token_accuracy": 0.8545275427401066,
+      "num_tokens": 3912052.0,
+      "step": 750
+    },
+    {
+      "epoch": 0.3733267837406361,
+      "grad_norm": 0.4222355782985687,
+      "learning_rate": 1.6270270270270274e-05,
+      "loss": 0.8333,
+      "mean_token_accuracy": 0.8552621826529503,
+      "num_tokens": 3965078.0,
+      "step": 760
+    },
+    {
+      "epoch": 0.37823897826353925,
+      "grad_norm": 0.4513651728630066,
+      "learning_rate": 1.6221130221130224e-05,
+      "loss": 1.0386,
+      "mean_token_accuracy": 0.8259748943150044,
+      "num_tokens": 4015489.0,
+      "step": 770
+    },
+    {
+      "epoch": 0.38315117278644234,
+      "grad_norm": 0.5292590856552124,
+      "learning_rate": 1.6171990171990172e-05,
+      "loss": 0.8968,
+      "mean_token_accuracy": 0.8551326602697372,
+      "num_tokens": 4067831.0,
+      "step": 780
+    },
+    {
+      "epoch": 0.38806336730934543,
+      "grad_norm": 0.49815845489501953,
+      "learning_rate": 1.6122850122850126e-05,
+      "loss": 1.0808,
+      "mean_token_accuracy": 0.8252614364027977,
+      "num_tokens": 4117945.0,
+      "step": 790
+    },
+    {
+      "epoch": 0.3929755618322486,
+      "grad_norm": 0.339728981256485,
+      "learning_rate": 1.6073710073710077e-05,
+      "loss": 0.9569,
+      "mean_token_accuracy": 0.8419950112700463,
+      "num_tokens": 4171138.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.39788775635515167,
+      "grad_norm": 0.4530418813228607,
+      "learning_rate": 1.6024570024570024e-05,
+      "loss": 1.1355,
+      "mean_token_accuracy": 0.8250428631901741,
+      "num_tokens": 4223765.0,
+      "step": 810
+    },
+    {
+      "epoch": 0.40279995087805476,
+      "grad_norm": 0.5202032923698425,
+      "learning_rate": 1.5975429975429978e-05,
+      "loss": 0.8306,
+      "mean_token_accuracy": 0.865328436344862,
+      "num_tokens": 4278056.0,
+      "step": 820
+    },
+    {
+      "epoch": 0.4077121454009579,
+      "grad_norm": 0.4732300043106079,
+      "learning_rate": 1.592628992628993e-05,
+      "loss": 1.3396,
+      "mean_token_accuracy": 0.783781211823225,
+      "num_tokens": 4326704.0,
+      "step": 830
+    },
+    {
+      "epoch": 0.412624339923861,
+      "grad_norm": 0.49258068203926086,
+      "learning_rate": 1.5877149877149876e-05,
+      "loss": 0.8462,
+      "mean_token_accuracy": 0.8517311483621597,
+      "num_tokens": 4378538.0,
+      "step": 840
+    },
+    {
+      "epoch": 0.4175365344467641,
+      "grad_norm": 0.8045883774757385,
+      "learning_rate": 1.582800982800983e-05,
+      "loss": 0.9785,
+      "mean_token_accuracy": 0.8369067624211312,
+      "num_tokens": 4429893.0,
+      "step": 850
+    },
+    {
+      "epoch": 0.4224487289696672,
+      "grad_norm": 0.361854612827301,
+      "learning_rate": 1.577886977886978e-05,
+      "loss": 0.936,
+      "mean_token_accuracy": 0.8446702107787132,
+      "num_tokens": 4481594.0,
+      "step": 860
+    },
+    {
+      "epoch": 0.4273609234925703,
+      "grad_norm": 0.593479573726654,
+      "learning_rate": 1.572972972972973e-05,
+      "loss": 0.8245,
+      "mean_token_accuracy": 0.8750210002064704,
+      "num_tokens": 4534098.0,
+      "step": 870
+    },
+    {
+      "epoch": 0.4322731180154734,
+      "grad_norm": 0.31826287508010864,
+      "learning_rate": 1.5680589680589682e-05,
+      "loss": 0.94,
+      "mean_token_accuracy": 0.8408755764365197,
+      "num_tokens": 4587111.0,
+      "step": 880
+    },
+    {
+      "epoch": 0.4371853125383765,
+      "grad_norm": 1.4076229333877563,
+      "learning_rate": 1.5631449631449633e-05,
+      "loss": 1.0176,
+      "mean_token_accuracy": 0.8321189761161805,
+      "num_tokens": 4640388.0,
+      "step": 890
+    },
+    {
+      "epoch": 0.44209750706127965,
+      "grad_norm": 0.6677824854850769,
+      "learning_rate": 1.5582309582309584e-05,
+      "loss": 1.2891,
+      "mean_token_accuracy": 0.7943175598978996,
+      "num_tokens": 4691468.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.44700970158418274,
+      "grad_norm": 0.4233896732330322,
+      "learning_rate": 1.5533169533169535e-05,
+      "loss": 1.1053,
+      "mean_token_accuracy": 0.8279901027679444,
+      "num_tokens": 4741844.0,
+      "step": 910
+    },
+    {
+      "epoch": 0.45192189610708583,
+      "grad_norm": 0.35591593384742737,
+      "learning_rate": 1.5484029484029485e-05,
+      "loss": 0.8832,
+      "mean_token_accuracy": 0.8491488620638847,
+      "num_tokens": 4793741.0,
+      "step": 920
+    },
+    {
+      "epoch": 0.4568340906299889,
+      "grad_norm": 0.6583911180496216,
+      "learning_rate": 1.5434889434889436e-05,
+      "loss": 0.8387,
+      "mean_token_accuracy": 0.8648917526006699,
+      "num_tokens": 4848466.0,
+      "step": 930
+    },
+    {
+      "epoch": 0.46174628515289207,
+      "grad_norm": 0.4065934717655182,
+      "learning_rate": 1.5385749385749387e-05,
+      "loss": 0.9242,
+      "mean_token_accuracy": 0.8412024281919003,
+      "num_tokens": 4901992.0,
+      "step": 940
+    },
+    {
+      "epoch": 0.46665847967579516,
+      "grad_norm": 0.3458426594734192,
+      "learning_rate": 1.5336609336609338e-05,
+      "loss": 0.8545,
+      "mean_token_accuracy": 0.855231161415577,
+      "num_tokens": 4956964.0,
+      "step": 950
+    },
+    {
+      "epoch": 0.47157067419869825,
+      "grad_norm": 0.6710091233253479,
+      "learning_rate": 1.5287469287469288e-05,
+      "loss": 0.9583,
+      "mean_token_accuracy": 0.8393168188631535,
+      "num_tokens": 5011287.0,
+      "step": 960
+    },
+    {
+      "epoch": 0.4764828687216014,
+      "grad_norm": 0.3753456771373749,
+      "learning_rate": 1.5238329238329239e-05,
+      "loss": 0.9738,
+      "mean_token_accuracy": 0.8375437319278717,
+      "num_tokens": 5061714.0,
+      "step": 970
+    },
+    {
+      "epoch": 0.4813950632445045,
+      "grad_norm": 1.2011836767196655,
+      "learning_rate": 1.5189189189189191e-05,
+      "loss": 1.0972,
+      "mean_token_accuracy": 0.8070526115596295,
+      "num_tokens": 5114645.0,
+      "step": 980
+    },
+    {
+      "epoch": 0.4863072577674076,
+      "grad_norm": 0.37889617681503296,
+      "learning_rate": 1.5140049140049142e-05,
+      "loss": 0.9442,
+      "mean_token_accuracy": 0.8458199493587018,
+      "num_tokens": 5165485.0,
+      "step": 990
+    },
+    {
+      "epoch": 0.4912194522903107,
+      "grad_norm": 0.6613748669624329,
+      "learning_rate": 1.5090909090909091e-05,
+      "loss": 1.0196,
+      "mean_token_accuracy": 0.8272999472916126,
+      "num_tokens": 5216189.0,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 4070,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2496109039294464.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f63465acd95be88e019f04b736064426478945f5bc6a4d825ebd1918a32c185
+size 5624

checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 256,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1500/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea0629dd2abd2e666406c88a39560ec581af3595c16bbb8ff35329466bd63d2d
+size 309900448

checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0cd50ea568f86477ec67ecdaa77e138a2b039cb8e4ad4c51a9fa85e7f7eeeb1a
+size 619836730

checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca361f1f2c04365c2c5cae49e0862ec9ba61ccb6a79f1f4ad7fce3b1d9facd48
+size 1064

checkpoint-1500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1500/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-1500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1384 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.736829178435466,
+  "eval_steps": 500,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004912194522903107,
+      "grad_norm": 2.5265462398529053,
+      "learning_rate": 1.995577395577396e-05,
+      "loss": 5.7783,
+      "mean_token_accuracy": 0.17638254687190055,
+      "num_tokens": 50745.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.009824389045806214,
+      "grad_norm": 1.7381863594055176,
+      "learning_rate": 1.9906633906633906e-05,
+      "loss": 5.4596,
+      "mean_token_accuracy": 0.20633984543383121,
+      "num_tokens": 101681.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.01473658356870932,
+      "grad_norm": 2.0286130905151367,
+      "learning_rate": 1.985749385749386e-05,
+      "loss": 5.2069,
+      "mean_token_accuracy": 0.2354225989431143,
+      "num_tokens": 153620.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.019648778091612428,
+      "grad_norm": 2.2828938961029053,
+      "learning_rate": 1.980835380835381e-05,
+      "loss": 5.0637,
+      "mean_token_accuracy": 0.2486753471195698,
+      "num_tokens": 205428.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.024560972614515536,
+      "grad_norm": 2.247742176055908,
+      "learning_rate": 1.975921375921376e-05,
+      "loss": 4.7071,
+      "mean_token_accuracy": 0.2982919864356518,
+      "num_tokens": 260794.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.02947316713741864,
+      "grad_norm": 1.4552102088928223,
+      "learning_rate": 1.9710073710073712e-05,
+      "loss": 4.5951,
+      "mean_token_accuracy": 0.3140149611979723,
+      "num_tokens": 314216.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.03438536166032175,
+      "grad_norm": 2.032104969024658,
+      "learning_rate": 1.9660933660933663e-05,
+      "loss": 4.3963,
+      "mean_token_accuracy": 0.33228743858635423,
+      "num_tokens": 365608.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.039297556183224856,
+      "grad_norm": 1.5947270393371582,
+      "learning_rate": 1.9611793611793614e-05,
+      "loss": 4.2578,
+      "mean_token_accuracy": 0.3510261565446854,
+      "num_tokens": 418509.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.04420975070612796,
+      "grad_norm": 1.9174288511276245,
+      "learning_rate": 1.9562653562653564e-05,
+      "loss": 4.0457,
+      "mean_token_accuracy": 0.38185270577669145,
+      "num_tokens": 472608.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.04912194522903107,
+      "grad_norm": 1.5742830038070679,
+      "learning_rate": 1.9513513513513515e-05,
+      "loss": 4.0492,
+      "mean_token_accuracy": 0.37742224968969823,
+      "num_tokens": 521777.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.054034139751934177,
+      "grad_norm": 1.5624850988388062,
+      "learning_rate": 1.9464373464373466e-05,
+      "loss": 3.7053,
+      "mean_token_accuracy": 0.41850126534700394,
+      "num_tokens": 580161.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.05894633427483728,
+      "grad_norm": 2.199150562286377,
+      "learning_rate": 1.9415233415233417e-05,
+      "loss": 3.6982,
+      "mean_token_accuracy": 0.4235368125140667,
+      "num_tokens": 627843.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.06385852879774039,
+      "grad_norm": 1.8548036813735962,
+      "learning_rate": 1.9366093366093367e-05,
+      "loss": 3.3414,
+      "mean_token_accuracy": 0.4654690891504288,
+      "num_tokens": 681443.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.0687707233206435,
+      "grad_norm": 2.78169846534729,
+      "learning_rate": 1.9316953316953318e-05,
+      "loss": 3.2679,
+      "mean_token_accuracy": 0.4711888641119003,
+      "num_tokens": 733457.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.07368291784354661,
+      "grad_norm": 2.4450321197509766,
+      "learning_rate": 1.926781326781327e-05,
+      "loss": 3.3377,
+      "mean_token_accuracy": 0.4799527756869793,
+      "num_tokens": 787769.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.07859511236644971,
+      "grad_norm": 1.7717996835708618,
+      "learning_rate": 1.921867321867322e-05,
+      "loss": 2.8853,
+      "mean_token_accuracy": 0.541524414718151,
+      "num_tokens": 843485.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.08350730688935282,
+      "grad_norm": 2.8402254581451416,
+      "learning_rate": 1.9169533169533174e-05,
+      "loss": 2.862,
+      "mean_token_accuracy": 0.5626954190433026,
+      "num_tokens": 894003.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.08841950141225592,
+      "grad_norm": 1.5486701726913452,
+      "learning_rate": 1.912039312039312e-05,
+      "loss": 2.7533,
+      "mean_token_accuracy": 0.5848119542002678,
+      "num_tokens": 949726.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.09333169593515903,
+      "grad_norm": 1.3785852193832397,
+      "learning_rate": 1.9071253071253072e-05,
+      "loss": 2.7602,
+      "mean_token_accuracy": 0.5894295200705528,
+      "num_tokens": 1000146.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.09824389045806214,
+      "grad_norm": 1.6824640035629272,
+      "learning_rate": 1.9022113022113026e-05,
+      "loss": 2.6345,
+      "mean_token_accuracy": 0.5961507339030504,
+      "num_tokens": 1050142.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.10315608498096525,
+      "grad_norm": 1.0604822635650635,
+      "learning_rate": 1.8972972972972973e-05,
+      "loss": 2.4517,
+      "mean_token_accuracy": 0.6296438351273537,
+      "num_tokens": 1099646.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.10806827950386835,
+      "grad_norm": 1.9105230569839478,
+      "learning_rate": 1.8923832923832924e-05,
+      "loss": 2.4563,
+      "mean_token_accuracy": 0.6365545220673084,
+      "num_tokens": 1148100.0,
+      "step": 220
+    },
+    {
+      "epoch": 0.11298047402677146,
+      "grad_norm": 1.41056227684021,
+      "learning_rate": 1.8874692874692878e-05,
+      "loss": 2.4017,
+      "mean_token_accuracy": 0.6691348008811474,
+      "num_tokens": 1198987.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.11789266854967456,
+      "grad_norm": 1.0573596954345703,
+      "learning_rate": 1.8825552825552825e-05,
+      "loss": 2.3199,
+      "mean_token_accuracy": 0.6731609679758549,
+      "num_tokens": 1249335.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.12280486307257768,
+      "grad_norm": 1.6629279851913452,
+      "learning_rate": 1.877641277641278e-05,
+      "loss": 1.9335,
+      "mean_token_accuracy": 0.7327558636665344,
+      "num_tokens": 1303157.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.12771705759548077,
+      "grad_norm": 1.704005479812622,
+      "learning_rate": 1.872727272727273e-05,
+      "loss": 2.1897,
+      "mean_token_accuracy": 0.6974137671291828,
+      "num_tokens": 1355455.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.1326292521183839,
+      "grad_norm": 1.0553226470947266,
+      "learning_rate": 1.8678132678132678e-05,
+      "loss": 1.9321,
+      "mean_token_accuracy": 0.7327657997608185,
+      "num_tokens": 1407508.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.137541446641287,
+      "grad_norm": 1.101886510848999,
+      "learning_rate": 1.8628992628992632e-05,
+      "loss": 1.9929,
+      "mean_token_accuracy": 0.7272698871791363,
+      "num_tokens": 1460595.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.1424536411641901,
+      "grad_norm": 2.005901575088501,
+      "learning_rate": 1.8579852579852583e-05,
+      "loss": 1.7147,
+      "mean_token_accuracy": 0.7604942478239536,
+      "num_tokens": 1512647.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.14736583568709322,
+      "grad_norm": 7.757036209106445,
+      "learning_rate": 1.853071253071253e-05,
+      "loss": 1.7571,
+      "mean_token_accuracy": 0.7603825606405735,
+      "num_tokens": 1565516.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.1522780302099963,
+      "grad_norm": 0.8850768208503723,
+      "learning_rate": 1.8481572481572484e-05,
+      "loss": 1.5439,
+      "mean_token_accuracy": 0.7915346205234528,
+      "num_tokens": 1620194.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.15719022473289943,
+      "grad_norm": 1.2887756824493408,
+      "learning_rate": 1.8432432432432435e-05,
+      "loss": 1.5419,
+      "mean_token_accuracy": 0.7885693073272705,
+      "num_tokens": 1672317.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.16210241925580254,
+      "grad_norm": 2.562720537185669,
+      "learning_rate": 1.8383292383292385e-05,
+      "loss": 1.5783,
+      "mean_token_accuracy": 0.7889993876218796,
+      "num_tokens": 1728513.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.16701461377870563,
+      "grad_norm": 2.907665491104126,
+      "learning_rate": 1.8334152334152336e-05,
+      "loss": 1.6573,
+      "mean_token_accuracy": 0.7675686649978161,
+      "num_tokens": 1777759.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.17192680830160875,
+      "grad_norm": 0.8430731892585754,
+      "learning_rate": 1.8285012285012287e-05,
+      "loss": 1.664,
+      "mean_token_accuracy": 0.7618721649050713,
+      "num_tokens": 1833279.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.17683900282451184,
+      "grad_norm": 1.1680371761322021,
+      "learning_rate": 1.8235872235872238e-05,
+      "loss": 1.515,
+      "mean_token_accuracy": 0.7789990782737732,
+      "num_tokens": 1882531.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.18175119734741496,
+      "grad_norm": 2.009002208709717,
+      "learning_rate": 1.818673218673219e-05,
+      "loss": 1.4555,
+      "mean_token_accuracy": 0.7983467862010002,
+      "num_tokens": 1934619.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.18666339187031805,
+      "grad_norm": 1.3894531726837158,
+      "learning_rate": 1.813759213759214e-05,
+      "loss": 1.6206,
+      "mean_token_accuracy": 0.7681202955543995,
+      "num_tokens": 1987231.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.19157558639322117,
+      "grad_norm": 0.7266082763671875,
+      "learning_rate": 1.808845208845209e-05,
+      "loss": 1.3022,
+      "mean_token_accuracy": 0.818102091550827,
+      "num_tokens": 2039985.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.1964877809161243,
+      "grad_norm": 0.7502278089523315,
+      "learning_rate": 1.803931203931204e-05,
+      "loss": 1.3902,
+      "mean_token_accuracy": 0.792433574795723,
+      "num_tokens": 2092178.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.20139997543902738,
+      "grad_norm": 0.8366674780845642,
+      "learning_rate": 1.799017199017199e-05,
+      "loss": 1.5385,
+      "mean_token_accuracy": 0.7903823673725128,
+      "num_tokens": 2151243.0,
+      "step": 410
+    },
+    {
+      "epoch": 0.2063121699619305,
+      "grad_norm": 0.7726922035217285,
+      "learning_rate": 1.7941031941031942e-05,
+      "loss": 1.3529,
+      "mean_token_accuracy": 0.8017133295536041,
+      "num_tokens": 2201072.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.2112243644848336,
+      "grad_norm": 0.650055468082428,
+      "learning_rate": 1.7891891891891893e-05,
+      "loss": 1.4312,
+      "mean_token_accuracy": 0.7957115054130555,
+      "num_tokens": 2256591.0,
+      "step": 430
+    },
+    {
+      "epoch": 0.2161365590077367,
+      "grad_norm": 0.9430303573608398,
+      "learning_rate": 1.7842751842751843e-05,
+      "loss": 1.1938,
+      "mean_token_accuracy": 0.8211165018379688,
+      "num_tokens": 2308048.0,
+      "step": 440
+    },
+    {
+      "epoch": 0.22104875353063982,
+      "grad_norm": 0.9191327691078186,
+      "learning_rate": 1.7793611793611794e-05,
+      "loss": 1.1662,
+      "mean_token_accuracy": 0.8298586897552014,
+      "num_tokens": 2363573.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.22596094805354291,
+      "grad_norm": 0.7493109703063965,
+      "learning_rate": 1.7744471744471745e-05,
+      "loss": 1.5908,
+      "mean_token_accuracy": 0.7651749603450299,
+      "num_tokens": 2413187.0,
+      "step": 460
+    },
+    {
+      "epoch": 0.23087314257644603,
+      "grad_norm": 0.5522422790527344,
+      "learning_rate": 1.7695331695331696e-05,
+      "loss": 1.3707,
+      "mean_token_accuracy": 0.7843399420380592,
+      "num_tokens": 2468041.0,
+      "step": 470
+    },
+    {
+      "epoch": 0.23578533709934912,
+      "grad_norm": 0.6577270030975342,
+      "learning_rate": 1.764619164619165e-05,
+      "loss": 1.4679,
+      "mean_token_accuracy": 0.7856365032494068,
+      "num_tokens": 2517753.0,
+      "step": 480
+    },
+    {
+      "epoch": 0.24069753162225224,
+      "grad_norm": 0.9699747562408447,
+      "learning_rate": 1.7597051597051597e-05,
+      "loss": 1.3493,
+      "mean_token_accuracy": 0.8016418114304542,
+      "num_tokens": 2568072.0,
+      "step": 490
+    },
+    {
+      "epoch": 0.24560972614515536,
+      "grad_norm": 2.0955657958984375,
+      "learning_rate": 1.7547911547911548e-05,
+      "loss": 0.9634,
+      "mean_token_accuracy": 0.8412673205137253,
+      "num_tokens": 2617143.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.25052192066805845,
+      "grad_norm": 0.7577691078186035,
+      "learning_rate": 1.7498771498771502e-05,
+      "loss": 1.0889,
+      "mean_token_accuracy": 0.8479016363620758,
+      "num_tokens": 2669318.0,
+      "step": 510
+    },
+    {
+      "epoch": 0.25543411519096154,
+      "grad_norm": 0.5891643762588501,
+      "learning_rate": 1.744963144963145e-05,
+      "loss": 1.1811,
+      "mean_token_accuracy": 0.82891755849123,
+      "num_tokens": 2723151.0,
+      "step": 520
+    },
+    {
+      "epoch": 0.2603463097138647,
+      "grad_norm": 0.7815893292427063,
+      "learning_rate": 1.74004914004914e-05,
+      "loss": 1.3488,
+      "mean_token_accuracy": 0.7971963949501515,
+      "num_tokens": 2774274.0,
+      "step": 530
+    },
+    {
+      "epoch": 0.2652585042367678,
+      "grad_norm": 0.365824818611145,
+      "learning_rate": 1.7351351351351354e-05,
+      "loss": 1.129,
+      "mean_token_accuracy": 0.8214888103306294,
+      "num_tokens": 2825301.0,
+      "step": 540
+    },
+    {
+      "epoch": 0.27017069875967087,
+      "grad_norm": 0.5682836174964905,
+      "learning_rate": 1.73022113022113e-05,
+      "loss": 1.0752,
+      "mean_token_accuracy": 0.8513655051589012,
+      "num_tokens": 2877767.0,
+      "step": 550
+    },
+    {
+      "epoch": 0.275082893282574,
+      "grad_norm": 0.9484438300132751,
+      "learning_rate": 1.7253071253071256e-05,
+      "loss": 1.1606,
+      "mean_token_accuracy": 0.8191152907907963,
+      "num_tokens": 2929216.0,
+      "step": 560
+    },
+    {
+      "epoch": 0.2799950878054771,
+      "grad_norm": 0.7097403407096863,
+      "learning_rate": 1.7203931203931206e-05,
+      "loss": 1.0245,
+      "mean_token_accuracy": 0.8594455644488335,
+      "num_tokens": 2983287.0,
+      "step": 570
+    },
+    {
+      "epoch": 0.2849072823283802,
+      "grad_norm": 2.197983741760254,
+      "learning_rate": 1.7154791154791157e-05,
+      "loss": 1.0116,
+      "mean_token_accuracy": 0.8458577767014503,
+      "num_tokens": 3036426.0,
+      "step": 580
+    },
+    {
+      "epoch": 0.2898194768512833,
+      "grad_norm": 0.9750831723213196,
+      "learning_rate": 1.7105651105651108e-05,
+      "loss": 1.2482,
+      "mean_token_accuracy": 0.8097934015095234,
+      "num_tokens": 3090471.0,
+      "step": 590
+    },
+    {
+      "epoch": 0.29473167137418643,
+      "grad_norm": 0.7452868223190308,
+      "learning_rate": 1.705651105651106e-05,
+      "loss": 0.9643,
+      "mean_token_accuracy": 0.8562554508447647,
+      "num_tokens": 3143095.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.2996438658970895,
+      "grad_norm": 0.3684370815753937,
+      "learning_rate": 1.700737100737101e-05,
+      "loss": 0.8587,
+      "mean_token_accuracy": 0.8684959009289741,
+      "num_tokens": 3193778.0,
+      "step": 610
+    },
+    {
+      "epoch": 0.3045560604199926,
+      "grad_norm": 0.4814823567867279,
+      "learning_rate": 1.695823095823096e-05,
+      "loss": 0.8246,
+      "mean_token_accuracy": 0.8646811529994011,
+      "num_tokens": 3249776.0,
+      "step": 620
+    },
+    {
+      "epoch": 0.30946825494289576,
+      "grad_norm": 0.6298699378967285,
+      "learning_rate": 1.690909090909091e-05,
+      "loss": 1.0043,
+      "mean_token_accuracy": 0.849489164352417,
+      "num_tokens": 3301301.0,
+      "step": 630
+    },
+    {
+      "epoch": 0.31438044946579885,
+      "grad_norm": 0.6802086234092712,
+      "learning_rate": 1.685995085995086e-05,
+      "loss": 0.9932,
+      "mean_token_accuracy": 0.8412040494382381,
+      "num_tokens": 3351834.0,
+      "step": 640
+    },
+    {
+      "epoch": 0.31929264398870194,
+      "grad_norm": 0.4441145062446594,
+      "learning_rate": 1.6810810810810812e-05,
+      "loss": 0.9093,
+      "mean_token_accuracy": 0.8644197151064873,
+      "num_tokens": 3402630.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.3242048385116051,
+      "grad_norm": 0.5664909482002258,
+      "learning_rate": 1.6761670761670763e-05,
+      "loss": 1.0511,
+      "mean_token_accuracy": 0.8302886992692947,
+      "num_tokens": 3453600.0,
+      "step": 660
+    },
+    {
+      "epoch": 0.3291170330345082,
+      "grad_norm": 0.898231029510498,
+      "learning_rate": 1.6712530712530714e-05,
+      "loss": 1.2663,
+      "mean_token_accuracy": 0.7889795318245888,
+      "num_tokens": 3501154.0,
+      "step": 670
+    },
+    {
+      "epoch": 0.33402922755741127,
+      "grad_norm": 0.49926525354385376,
+      "learning_rate": 1.6663390663390664e-05,
+      "loss": 1.0539,
+      "mean_token_accuracy": 0.8462485030293465,
+      "num_tokens": 3552076.0,
+      "step": 680
+    },
+    {
+      "epoch": 0.33894142208031436,
+      "grad_norm": 0.5327655673027039,
+      "learning_rate": 1.6614250614250615e-05,
+      "loss": 1.0757,
+      "mean_token_accuracy": 0.8260165579617024,
+      "num_tokens": 3602651.0,
+      "step": 690
+    },
+    {
+      "epoch": 0.3438536166032175,
+      "grad_norm": 0.5295992493629456,
+      "learning_rate": 1.6565110565110566e-05,
+      "loss": 0.9826,
+      "mean_token_accuracy": 0.8445935681462288,
+      "num_tokens": 3656310.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.3487658111261206,
+      "grad_norm": 0.584396243095398,
+      "learning_rate": 1.6515970515970517e-05,
+      "loss": 0.9771,
+      "mean_token_accuracy": 0.8513481065630912,
+      "num_tokens": 3712764.0,
+      "step": 710
+    },
+    {
+      "epoch": 0.3536780056490237,
+      "grad_norm": 0.5786782503128052,
+      "learning_rate": 1.6466830466830467e-05,
+      "loss": 1.0812,
+      "mean_token_accuracy": 0.8179432228207588,
+      "num_tokens": 3761995.0,
+      "step": 720
+    },
+    {
+      "epoch": 0.35859020017192683,
+      "grad_norm": 0.3496871888637543,
+      "learning_rate": 1.6417690417690418e-05,
+      "loss": 1.0407,
+      "mean_token_accuracy": 0.8126879334449768,
+      "num_tokens": 3811493.0,
+      "step": 730
+    },
+    {
+      "epoch": 0.3635023946948299,
+      "grad_norm": 0.5038619041442871,
+      "learning_rate": 1.636855036855037e-05,
+      "loss": 1.1602,
+      "mean_token_accuracy": 0.8141254656016826,
+      "num_tokens": 3859376.0,
+      "step": 740
+    },
+    {
+      "epoch": 0.368414589217733,
+      "grad_norm": 0.4643881320953369,
+      "learning_rate": 1.631941031941032e-05,
+      "loss": 0.8819,
+      "mean_token_accuracy": 0.8545275427401066,
+      "num_tokens": 3912052.0,
+      "step": 750
+    },
+    {
+      "epoch": 0.3733267837406361,
+      "grad_norm": 0.4222355782985687,
+      "learning_rate": 1.6270270270270274e-05,
+      "loss": 0.8333,
+      "mean_token_accuracy": 0.8552621826529503,
+      "num_tokens": 3965078.0,
+      "step": 760
+    },
+    {
+      "epoch": 0.37823897826353925,
+      "grad_norm": 0.4513651728630066,
+      "learning_rate": 1.6221130221130224e-05,
+      "loss": 1.0386,
+      "mean_token_accuracy": 0.8259748943150044,
+      "num_tokens": 4015489.0,
+      "step": 770
+    },
+    {
+      "epoch": 0.38315117278644234,
+      "grad_norm": 0.5292590856552124,
+      "learning_rate": 1.6171990171990172e-05,
+      "loss": 0.8968,
+      "mean_token_accuracy": 0.8551326602697372,
+      "num_tokens": 4067831.0,
+      "step": 780
+    },
+    {
+      "epoch": 0.38806336730934543,
+      "grad_norm": 0.49815845489501953,
+      "learning_rate": 1.6122850122850126e-05,
+      "loss": 1.0808,
+      "mean_token_accuracy": 0.8252614364027977,
+      "num_tokens": 4117945.0,
+      "step": 790
+    },
+    {
+      "epoch": 0.3929755618322486,
+      "grad_norm": 0.339728981256485,
+      "learning_rate": 1.6073710073710077e-05,
+      "loss": 0.9569,
+      "mean_token_accuracy": 0.8419950112700463,
+      "num_tokens": 4171138.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.39788775635515167,
+      "grad_norm": 0.4530418813228607,
+      "learning_rate": 1.6024570024570024e-05,
+      "loss": 1.1355,
+      "mean_token_accuracy": 0.8250428631901741,
+      "num_tokens": 4223765.0,
+      "step": 810
+    },
+    {
+      "epoch": 0.40279995087805476,
+      "grad_norm": 0.5202032923698425,
+      "learning_rate": 1.5975429975429978e-05,
+      "loss": 0.8306,
+      "mean_token_accuracy": 0.865328436344862,
+      "num_tokens": 4278056.0,
+      "step": 820
+    },
+    {
+      "epoch": 0.4077121454009579,
+      "grad_norm": 0.4732300043106079,
+      "learning_rate": 1.592628992628993e-05,
+      "loss": 1.3396,
+      "mean_token_accuracy": 0.783781211823225,
+      "num_tokens": 4326704.0,
+      "step": 830
+    },
+    {
+      "epoch": 0.412624339923861,
+      "grad_norm": 0.49258068203926086,
+      "learning_rate": 1.5877149877149876e-05,
+      "loss": 0.8462,
+      "mean_token_accuracy": 0.8517311483621597,
+      "num_tokens": 4378538.0,
+      "step": 840
+    },
+    {
+      "epoch": 0.4175365344467641,
+      "grad_norm": 0.8045883774757385,
+      "learning_rate": 1.582800982800983e-05,
+      "loss": 0.9785,
+      "mean_token_accuracy": 0.8369067624211312,
+      "num_tokens": 4429893.0,
+      "step": 850
+    },
+    {
+      "epoch": 0.4224487289696672,
+      "grad_norm": 0.361854612827301,
+      "learning_rate": 1.577886977886978e-05,
+      "loss": 0.936,
+      "mean_token_accuracy": 0.8446702107787132,
+      "num_tokens": 4481594.0,
+      "step": 860
+    },
+    {
+      "epoch": 0.4273609234925703,
+      "grad_norm": 0.593479573726654,
+      "learning_rate": 1.572972972972973e-05,
+      "loss": 0.8245,
+      "mean_token_accuracy": 0.8750210002064704,
+      "num_tokens": 4534098.0,
+      "step": 870
+    },
+    {
+      "epoch": 0.4322731180154734,
+      "grad_norm": 0.31826287508010864,
+      "learning_rate": 1.5680589680589682e-05,
+      "loss": 0.94,
+      "mean_token_accuracy": 0.8408755764365197,
+      "num_tokens": 4587111.0,
+      "step": 880
+    },
+    {
+      "epoch": 0.4371853125383765,
+      "grad_norm": 1.4076229333877563,
+      "learning_rate": 1.5631449631449633e-05,
+      "loss": 1.0176,
+      "mean_token_accuracy": 0.8321189761161805,
+      "num_tokens": 4640388.0,
+      "step": 890
+    },
+    {
+      "epoch": 0.44209750706127965,
+      "grad_norm": 0.6677824854850769,
+      "learning_rate": 1.5582309582309584e-05,
+      "loss": 1.2891,
+      "mean_token_accuracy": 0.7943175598978996,
+      "num_tokens": 4691468.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.44700970158418274,
+      "grad_norm": 0.4233896732330322,
+      "learning_rate": 1.5533169533169535e-05,
+      "loss": 1.1053,
+      "mean_token_accuracy": 0.8279901027679444,
+      "num_tokens": 4741844.0,
+      "step": 910
+    },
+    {
+      "epoch": 0.45192189610708583,
+      "grad_norm": 0.35591593384742737,
+      "learning_rate": 1.5484029484029485e-05,
+      "loss": 0.8832,
+      "mean_token_accuracy": 0.8491488620638847,
+      "num_tokens": 4793741.0,
+      "step": 920
+    },
+    {
+      "epoch": 0.4568340906299889,
+      "grad_norm": 0.6583911180496216,
+      "learning_rate": 1.5434889434889436e-05,
+      "loss": 0.8387,
+      "mean_token_accuracy": 0.8648917526006699,
+      "num_tokens": 4848466.0,
+      "step": 930
+    },
+    {
+      "epoch": 0.46174628515289207,
+      "grad_norm": 0.4065934717655182,
+      "learning_rate": 1.5385749385749387e-05,
+      "loss": 0.9242,
+      "mean_token_accuracy": 0.8412024281919003,
+      "num_tokens": 4901992.0,
+      "step": 940
+    },
+    {
+      "epoch": 0.46665847967579516,
+      "grad_norm": 0.3458426594734192,
+      "learning_rate": 1.5336609336609338e-05,
+      "loss": 0.8545,
+      "mean_token_accuracy": 0.855231161415577,
+      "num_tokens": 4956964.0,
+      "step": 950
+    },
+    {
+      "epoch": 0.47157067419869825,
+      "grad_norm": 0.6710091233253479,
+      "learning_rate": 1.5287469287469288e-05,
+      "loss": 0.9583,
+      "mean_token_accuracy": 0.8393168188631535,
+      "num_tokens": 5011287.0,
+      "step": 960
+    },
+    {
+      "epoch": 0.4764828687216014,
+      "grad_norm": 0.3753456771373749,
+      "learning_rate": 1.5238329238329239e-05,
+      "loss": 0.9738,
+      "mean_token_accuracy": 0.8375437319278717,
+      "num_tokens": 5061714.0,
+      "step": 970
+    },
+    {
+      "epoch": 0.4813950632445045,
+      "grad_norm": 1.2011836767196655,
+      "learning_rate": 1.5189189189189191e-05,
+      "loss": 1.0972,
+      "mean_token_accuracy": 0.8070526115596295,
+      "num_tokens": 5114645.0,
+      "step": 980
+    },
+    {
+      "epoch": 0.4863072577674076,
+      "grad_norm": 0.37889617681503296,
+      "learning_rate": 1.5140049140049142e-05,
+      "loss": 0.9442,
+      "mean_token_accuracy": 0.8458199493587018,
+      "num_tokens": 5165485.0,
+      "step": 990
+    },
+    {
+      "epoch": 0.4912194522903107,
+      "grad_norm": 0.6613748669624329,
+      "learning_rate": 1.5090909090909091e-05,
+      "loss": 1.0196,
+      "mean_token_accuracy": 0.8272999472916126,
+      "num_tokens": 5216189.0,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4961316468132138,
+      "grad_norm": 0.7825655937194824,
+      "learning_rate": 1.5041769041769044e-05,
+      "loss": 1.011,
+      "mean_token_accuracy": 0.8262499138712883,
+      "num_tokens": 5269248.0,
+      "step": 1010
+    },
+    {
+      "epoch": 0.5010438413361169,
+      "grad_norm": 0.2106683850288391,
+      "learning_rate": 1.4992628992628994e-05,
+      "loss": 0.9098,
+      "mean_token_accuracy": 0.8512444771826267,
+      "num_tokens": 5322524.0,
+      "step": 1020
+    },
+    {
+      "epoch": 0.50595603585902,
+      "grad_norm": 0.8093978762626648,
+      "learning_rate": 1.4943488943488943e-05,
+      "loss": 1.2403,
+      "mean_token_accuracy": 0.7969906754791737,
+      "num_tokens": 5370123.0,
+      "step": 1030
+    },
+    {
+      "epoch": 0.5108682303819231,
+      "grad_norm": 0.5412647724151611,
+      "learning_rate": 1.4894348894348896e-05,
+      "loss": 0.8821,
+      "mean_token_accuracy": 0.8460625484585762,
+      "num_tokens": 5422125.0,
+      "step": 1040
+    },
+    {
+      "epoch": 0.5157804249048262,
+      "grad_norm": 0.5411800146102905,
+      "learning_rate": 1.4845208845208847e-05,
+      "loss": 1.0804,
+      "mean_token_accuracy": 0.8199978180229663,
+      "num_tokens": 5472127.0,
+      "step": 1050
+    },
+    {
+      "epoch": 0.5206926194277294,
+      "grad_norm": 0.4349406063556671,
+      "learning_rate": 1.4796068796068797e-05,
+      "loss": 0.7559,
+      "mean_token_accuracy": 0.8662853054702282,
+      "num_tokens": 5525028.0,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5256048139506324,
+      "grad_norm": 0.4738285541534424,
+      "learning_rate": 1.4746928746928748e-05,
+      "loss": 1.1225,
+      "mean_token_accuracy": 0.8103010386228562,
+      "num_tokens": 5570859.0,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5305170084735356,
+      "grad_norm": 0.6644457578659058,
+      "learning_rate": 1.46977886977887e-05,
+      "loss": 0.9334,
+      "mean_token_accuracy": 0.8213524237275124,
+      "num_tokens": 5618933.0,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5354292029964387,
+      "grad_norm": 0.3038887083530426,
+      "learning_rate": 1.464864864864865e-05,
+      "loss": 1.0292,
+      "mean_token_accuracy": 0.810487725585699,
+      "num_tokens": 5664922.0,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5403413975193417,
+      "grad_norm": 0.26083576679229736,
+      "learning_rate": 1.45995085995086e-05,
+      "loss": 0.9084,
+      "mean_token_accuracy": 0.836492794752121,
+      "num_tokens": 5716671.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5452535920422449,
+      "grad_norm": 0.36848321557044983,
+      "learning_rate": 1.4550368550368553e-05,
+      "loss": 1.1544,
+      "mean_token_accuracy": 0.8033395648002625,
+      "num_tokens": 5764576.0,
+      "step": 1110
+    },
+    {
+      "epoch": 0.550165786565148,
+      "grad_norm": 0.3338620662689209,
+      "learning_rate": 1.4501228501228502e-05,
+      "loss": 1.0114,
+      "mean_token_accuracy": 0.8188160583376884,
+      "num_tokens": 5816699.0,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5550779810880511,
+      "grad_norm": 0.3278094232082367,
+      "learning_rate": 1.4452088452088452e-05,
+      "loss": 0.6189,
+      "mean_token_accuracy": 0.8895823881030083,
+      "num_tokens": 5874257.0,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5599901756109542,
+      "grad_norm": 0.4236205220222473,
+      "learning_rate": 1.4402948402948405e-05,
+      "loss": 0.9474,
+      "mean_token_accuracy": 0.8435555145144462,
+      "num_tokens": 5925628.0,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5649023701338572,
+      "grad_norm": 0.21693912148475647,
+      "learning_rate": 1.4353808353808354e-05,
+      "loss": 0.9109,
+      "mean_token_accuracy": 0.842586936801672,
+      "num_tokens": 5977130.0,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5698145646567604,
+      "grad_norm": 0.6288137435913086,
+      "learning_rate": 1.4304668304668306e-05,
+      "loss": 0.7005,
+      "mean_token_accuracy": 0.877720920741558,
+      "num_tokens": 6032405.0,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5747267591796635,
+      "grad_norm": 0.29411551356315613,
+      "learning_rate": 1.4255528255528257e-05,
+      "loss": 0.9163,
+      "mean_token_accuracy": 0.8345251567661762,
+      "num_tokens": 6081769.0,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5796389537025666,
+      "grad_norm": 0.3542836308479309,
+      "learning_rate": 1.420638820638821e-05,
+      "loss": 0.8983,
+      "mean_token_accuracy": 0.8478083908557892,
+      "num_tokens": 6131660.0,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5845511482254697,
+      "grad_norm": 0.6326059103012085,
+      "learning_rate": 1.4157248157248158e-05,
+      "loss": 1.055,
+      "mean_token_accuracy": 0.8133970260620117,
+      "num_tokens": 6177706.0,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5894633427483729,
+      "grad_norm": 0.39950093626976013,
+      "learning_rate": 1.410810810810811e-05,
+      "loss": 0.6446,
+      "mean_token_accuracy": 0.8883207038044929,
+      "num_tokens": 6231530.0,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5943755372712759,
+      "grad_norm": 1.4949785470962524,
+      "learning_rate": 1.4058968058968062e-05,
+      "loss": 0.8527,
+      "mean_token_accuracy": 0.8495218820869923,
+      "num_tokens": 6284936.0,
+      "step": 1210
+    },
+    {
+      "epoch": 0.599287731794179,
+      "grad_norm": 0.5013307332992554,
+      "learning_rate": 1.400982800982801e-05,
+      "loss": 0.9342,
+      "mean_token_accuracy": 0.8461359746754169,
+      "num_tokens": 6338328.0,
+      "step": 1220
+    },
+    {
+      "epoch": 0.6041999263170822,
+      "grad_norm": 0.4373924136161804,
+      "learning_rate": 1.3960687960687961e-05,
+      "loss": 0.7957,
+      "mean_token_accuracy": 0.8590179920196533,
+      "num_tokens": 6391247.0,
+      "step": 1230
+    },
+    {
+      "epoch": 0.6091121208399852,
+      "grad_norm": 0.30794695019721985,
+      "learning_rate": 1.3911547911547914e-05,
+      "loss": 0.9578,
+      "mean_token_accuracy": 0.8326818406581878,
+      "num_tokens": 6444004.0,
+      "step": 1240
+    },
+    {
+      "epoch": 0.6140243153628884,
+      "grad_norm": 0.3918187618255615,
+      "learning_rate": 1.3862407862407863e-05,
+      "loss": 0.8732,
+      "mean_token_accuracy": 0.8658828616142273,
+      "num_tokens": 6495578.0,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6189365098857915,
+      "grad_norm": 0.2752901315689087,
+      "learning_rate": 1.3813267813267814e-05,
+      "loss": 0.9506,
+      "mean_token_accuracy": 0.8301159009337425,
+      "num_tokens": 6545604.0,
+      "step": 1260
+    },
+    {
+      "epoch": 0.6238487044086946,
+      "grad_norm": 0.460627943277359,
+      "learning_rate": 1.3764127764127766e-05,
+      "loss": 1.0007,
+      "mean_token_accuracy": 0.8227074682712555,
+      "num_tokens": 6594381.0,
+      "step": 1270
+    },
+    {
+      "epoch": 0.6287608989315977,
+      "grad_norm": 0.4065866768360138,
+      "learning_rate": 1.3714987714987715e-05,
+      "loss": 0.8056,
+      "mean_token_accuracy": 0.8646926179528236,
+      "num_tokens": 6649190.0,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6336730934545008,
+      "grad_norm": 0.4343368113040924,
+      "learning_rate": 1.3665847665847667e-05,
+      "loss": 0.8879,
+      "mean_token_accuracy": 0.8385777972638607,
+      "num_tokens": 6701394.0,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6385852879774039,
+      "grad_norm": 0.5364151000976562,
+      "learning_rate": 1.3616707616707618e-05,
+      "loss": 0.9419,
+      "mean_token_accuracy": 0.8308121666312218,
+      "num_tokens": 6752270.0,
+      "step": 1300
+    },
+    {
+      "epoch": 0.643497482500307,
+      "grad_norm": 0.3982967734336853,
+      "learning_rate": 1.3567567567567567e-05,
+      "loss": 1.0305,
+      "mean_token_accuracy": 0.8274823799729347,
+      "num_tokens": 6805857.0,
+      "step": 1310
+    },
+    {
+      "epoch": 0.6484096770232102,
+      "grad_norm": 0.7117066383361816,
+      "learning_rate": 1.351842751842752e-05,
+      "loss": 1.0594,
+      "mean_token_accuracy": 0.8103688299655915,
+      "num_tokens": 6852455.0,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6533218715461132,
+      "grad_norm": 0.3083662986755371,
+      "learning_rate": 1.346928746928747e-05,
+      "loss": 1.0412,
+      "mean_token_accuracy": 0.8186712831258773,
+      "num_tokens": 6896950.0,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6582340660690164,
+      "grad_norm": 0.4959128499031067,
+      "learning_rate": 1.342014742014742e-05,
+      "loss": 0.9348,
+      "mean_token_accuracy": 0.8453299880027771,
+      "num_tokens": 6950814.0,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6631462605919194,
+      "grad_norm": 0.8182358145713806,
+      "learning_rate": 1.3371007371007372e-05,
+      "loss": 1.0552,
+      "mean_token_accuracy": 0.8226786606013775,
+      "num_tokens": 7003460.0,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6680584551148225,
+      "grad_norm": 0.43365928530693054,
+      "learning_rate": 1.3321867321867323e-05,
+      "loss": 0.8795,
+      "mean_token_accuracy": 0.8458721756935119,
+      "num_tokens": 7054901.0,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6729706496377257,
+      "grad_norm": 0.2876506745815277,
+      "learning_rate": 1.3272727272727275e-05,
+      "loss": 0.8282,
+      "mean_token_accuracy": 0.8459444969892502,
+      "num_tokens": 7106038.0,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6778828441606287,
+      "grad_norm": 0.4010944068431854,
+      "learning_rate": 1.3223587223587224e-05,
+      "loss": 0.7836,
+      "mean_token_accuracy": 0.8610207386314869,
+      "num_tokens": 7159651.0,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6827950386835319,
+      "grad_norm": 0.19336983561515808,
+      "learning_rate": 1.3174447174447176e-05,
+      "loss": 1.0039,
+      "mean_token_accuracy": 0.8369563437998295,
+      "num_tokens": 7204811.0,
+      "step": 1390
+    },
+    {
+      "epoch": 0.687707233206435,
+      "grad_norm": 0.5056695938110352,
+      "learning_rate": 1.3125307125307127e-05,
+      "loss": 0.6854,
+      "mean_token_accuracy": 0.878055976331234,
+      "num_tokens": 7256836.0,
+      "step": 1400
+    },
+    {
+      "epoch": 0.692619427729338,
+      "grad_norm": 0.3462684750556946,
+      "learning_rate": 1.3076167076167076e-05,
+      "loss": 1.2627,
+      "mean_token_accuracy": 0.7998166553676128,
+      "num_tokens": 7308913.0,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6975316222522412,
+      "grad_norm": 0.2867954671382904,
+      "learning_rate": 1.3027027027027029e-05,
+      "loss": 0.6718,
+      "mean_token_accuracy": 0.8842718601226807,
+      "num_tokens": 7365814.0,
+      "step": 1420
+    },
+    {
+      "epoch": 0.7024438167751443,
+      "grad_norm": 0.4659688472747803,
+      "learning_rate": 1.297788697788698e-05,
+      "loss": 1.1291,
+      "mean_token_accuracy": 0.8083386868238449,
+      "num_tokens": 7419238.0,
+      "step": 1430
+    },
+    {
+      "epoch": 0.7073560112980474,
+      "grad_norm": 0.41312354803085327,
+      "learning_rate": 1.2928746928746928e-05,
+      "loss": 0.8625,
+      "mean_token_accuracy": 0.8470474675297737,
+      "num_tokens": 7469177.0,
+      "step": 1440
+    },
+    {
+      "epoch": 0.7122682058209505,
+      "grad_norm": 0.5044501423835754,
+      "learning_rate": 1.2879606879606881e-05,
+      "loss": 0.8186,
+      "mean_token_accuracy": 0.8533941991627216,
+      "num_tokens": 7520617.0,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7171804003438537,
+      "grad_norm": 0.3712249994277954,
+      "learning_rate": 1.2830466830466832e-05,
+      "loss": 0.912,
+      "mean_token_accuracy": 0.838789189606905,
+      "num_tokens": 7569361.0,
+      "step": 1460
+    },
+    {
+      "epoch": 0.7220925948667567,
+      "grad_norm": 0.5090559720993042,
+      "learning_rate": 1.2781326781326782e-05,
+      "loss": 0.9559,
+      "mean_token_accuracy": 0.8298265844583511,
+      "num_tokens": 7619902.0,
+      "step": 1470
+    },
+    {
+      "epoch": 0.7270047893896598,
+      "grad_norm": 0.40056052803993225,
+      "learning_rate": 1.2732186732186733e-05,
+      "loss": 0.9697,
+      "mean_token_accuracy": 0.8409195326268672,
+      "num_tokens": 7671364.0,
+      "step": 1480
+    },
+    {
+      "epoch": 0.731916983912563,
+      "grad_norm": 0.5502124428749084,
+      "learning_rate": 1.2683046683046685e-05,
+      "loss": 0.974,
+      "mean_token_accuracy": 0.8395135879516602,
+      "num_tokens": 7721501.0,
+      "step": 1490
+    },
+    {
+      "epoch": 0.736829178435466,
+      "grad_norm": 0.49662184715270996,
+      "learning_rate": 1.2633906633906635e-05,
+      "loss": 0.9764,
+      "mean_token_accuracy": 0.8396995335817337,
+      "num_tokens": 7771721.0,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 4070,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3728779897522176.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f63465acd95be88e019f04b736064426478945f5bc6a4d825ebd1918a32c185
+size 5624

checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 256,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-2000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-2000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3824a210c206d5d5491ba736aba3435ebacea1c722f9c74a279b3d583479cab
+size 309900448

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92fa9fcf020f273ef184b82aa11943d9a87a5b2461971520c00913705cbe6e3e
+size 619836730

checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88e61fef9f4f907eb38d9682fc9809a7c039e80531a21b5d3ebdb66b732cd2ff
+size 1064

checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1834 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9824389045806214,
+  "eval_steps": 500,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004912194522903107,
+      "grad_norm": 2.5265462398529053,
+      "learning_rate": 1.995577395577396e-05,
+      "loss": 5.7783,
+      "mean_token_accuracy": 0.17638254687190055,
+      "num_tokens": 50745.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.009824389045806214,
+      "grad_norm": 1.7381863594055176,
+      "learning_rate": 1.9906633906633906e-05,
+      "loss": 5.4596,
+      "mean_token_accuracy": 0.20633984543383121,
+      "num_tokens": 101681.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.01473658356870932,
+      "grad_norm": 2.0286130905151367,
+      "learning_rate": 1.985749385749386e-05,
+      "loss": 5.2069,
+      "mean_token_accuracy": 0.2354225989431143,
+      "num_tokens": 153620.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.019648778091612428,
+      "grad_norm": 2.2828938961029053,
+      "learning_rate": 1.980835380835381e-05,
+      "loss": 5.0637,
+      "mean_token_accuracy": 0.2486753471195698,
+      "num_tokens": 205428.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.024560972614515536,
+      "grad_norm": 2.247742176055908,
+      "learning_rate": 1.975921375921376e-05,
+      "loss": 4.7071,
+      "mean_token_accuracy": 0.2982919864356518,
+      "num_tokens": 260794.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.02947316713741864,
+      "grad_norm": 1.4552102088928223,
+      "learning_rate": 1.9710073710073712e-05,
+      "loss": 4.5951,
+      "mean_token_accuracy": 0.3140149611979723,
+      "num_tokens": 314216.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.03438536166032175,
+      "grad_norm": 2.032104969024658,
+      "learning_rate": 1.9660933660933663e-05,
+      "loss": 4.3963,
+      "mean_token_accuracy": 0.33228743858635423,
+      "num_tokens": 365608.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.039297556183224856,
+      "grad_norm": 1.5947270393371582,
+      "learning_rate": 1.9611793611793614e-05,
+      "loss": 4.2578,
+      "mean_token_accuracy": 0.3510261565446854,
+      "num_tokens": 418509.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.04420975070612796,
+      "grad_norm": 1.9174288511276245,
+      "learning_rate": 1.9562653562653564e-05,
+      "loss": 4.0457,
+      "mean_token_accuracy": 0.38185270577669145,
+      "num_tokens": 472608.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.04912194522903107,
+      "grad_norm": 1.5742830038070679,
+      "learning_rate": 1.9513513513513515e-05,
+      "loss": 4.0492,
+      "mean_token_accuracy": 0.37742224968969823,
+      "num_tokens": 521777.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.054034139751934177,
+      "grad_norm": 1.5624850988388062,
+      "learning_rate": 1.9464373464373466e-05,
+      "loss": 3.7053,
+      "mean_token_accuracy": 0.41850126534700394,
+      "num_tokens": 580161.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.05894633427483728,
+      "grad_norm": 2.199150562286377,
+      "learning_rate": 1.9415233415233417e-05,
+      "loss": 3.6982,
+      "mean_token_accuracy": 0.4235368125140667,
+      "num_tokens": 627843.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.06385852879774039,
+      "grad_norm": 1.8548036813735962,
+      "learning_rate": 1.9366093366093367e-05,
+      "loss": 3.3414,
+      "mean_token_accuracy": 0.4654690891504288,
+      "num_tokens": 681443.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.0687707233206435,
+      "grad_norm": 2.78169846534729,
+      "learning_rate": 1.9316953316953318e-05,
+      "loss": 3.2679,
+      "mean_token_accuracy": 0.4711888641119003,
+      "num_tokens": 733457.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.07368291784354661,
+      "grad_norm": 2.4450321197509766,
+      "learning_rate": 1.926781326781327e-05,
+      "loss": 3.3377,
+      "mean_token_accuracy": 0.4799527756869793,
+      "num_tokens": 787769.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.07859511236644971,
+      "grad_norm": 1.7717996835708618,
+      "learning_rate": 1.921867321867322e-05,
+      "loss": 2.8853,
+      "mean_token_accuracy": 0.541524414718151,
+      "num_tokens": 843485.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.08350730688935282,
+      "grad_norm": 2.8402254581451416,
+      "learning_rate": 1.9169533169533174e-05,
+      "loss": 2.862,
+      "mean_token_accuracy": 0.5626954190433026,
+      "num_tokens": 894003.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.08841950141225592,
+      "grad_norm": 1.5486701726913452,
+      "learning_rate": 1.912039312039312e-05,
+      "loss": 2.7533,
+      "mean_token_accuracy": 0.5848119542002678,
+      "num_tokens": 949726.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.09333169593515903,
+      "grad_norm": 1.3785852193832397,
+      "learning_rate": 1.9071253071253072e-05,
+      "loss": 2.7602,
+      "mean_token_accuracy": 0.5894295200705528,
+      "num_tokens": 1000146.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.09824389045806214,
+      "grad_norm": 1.6824640035629272,
+      "learning_rate": 1.9022113022113026e-05,
+      "loss": 2.6345,
+      "mean_token_accuracy": 0.5961507339030504,
+      "num_tokens": 1050142.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.10315608498096525,
+      "grad_norm": 1.0604822635650635,
+      "learning_rate": 1.8972972972972973e-05,
+      "loss": 2.4517,
+      "mean_token_accuracy": 0.6296438351273537,
+      "num_tokens": 1099646.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.10806827950386835,
+      "grad_norm": 1.9105230569839478,
+      "learning_rate": 1.8923832923832924e-05,
+      "loss": 2.4563,
+      "mean_token_accuracy": 0.6365545220673084,
+      "num_tokens": 1148100.0,
+      "step": 220
+    },
+    {
+      "epoch": 0.11298047402677146,
+      "grad_norm": 1.41056227684021,
+      "learning_rate": 1.8874692874692878e-05,
+      "loss": 2.4017,
+      "mean_token_accuracy": 0.6691348008811474,
+      "num_tokens": 1198987.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.11789266854967456,
+      "grad_norm": 1.0573596954345703,
+      "learning_rate": 1.8825552825552825e-05,
+      "loss": 2.3199,
+      "mean_token_accuracy": 0.6731609679758549,
+      "num_tokens": 1249335.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.12280486307257768,
+      "grad_norm": 1.6629279851913452,
+      "learning_rate": 1.877641277641278e-05,
+      "loss": 1.9335,
+      "mean_token_accuracy": 0.7327558636665344,
+      "num_tokens": 1303157.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.12771705759548077,
+      "grad_norm": 1.704005479812622,
+      "learning_rate": 1.872727272727273e-05,
+      "loss": 2.1897,
+      "mean_token_accuracy": 0.6974137671291828,
+      "num_tokens": 1355455.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.1326292521183839,
+      "grad_norm": 1.0553226470947266,
+      "learning_rate": 1.8678132678132678e-05,
+      "loss": 1.9321,
+      "mean_token_accuracy": 0.7327657997608185,
+      "num_tokens": 1407508.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.137541446641287,
+      "grad_norm": 1.101886510848999,
+      "learning_rate": 1.8628992628992632e-05,
+      "loss": 1.9929,
+      "mean_token_accuracy": 0.7272698871791363,
+      "num_tokens": 1460595.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.1424536411641901,
+      "grad_norm": 2.005901575088501,
+      "learning_rate": 1.8579852579852583e-05,
+      "loss": 1.7147,
+      "mean_token_accuracy": 0.7604942478239536,
+      "num_tokens": 1512647.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.14736583568709322,
+      "grad_norm": 7.757036209106445,
+      "learning_rate": 1.853071253071253e-05,
+      "loss": 1.7571,
+      "mean_token_accuracy": 0.7603825606405735,
+      "num_tokens": 1565516.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.1522780302099963,
+      "grad_norm": 0.8850768208503723,
+      "learning_rate": 1.8481572481572484e-05,
+      "loss": 1.5439,
+      "mean_token_accuracy": 0.7915346205234528,
+      "num_tokens": 1620194.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.15719022473289943,
+      "grad_norm": 1.2887756824493408,
+      "learning_rate": 1.8432432432432435e-05,
+      "loss": 1.5419,
+      "mean_token_accuracy": 0.7885693073272705,
+      "num_tokens": 1672317.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.16210241925580254,
+      "grad_norm": 2.562720537185669,
+      "learning_rate": 1.8383292383292385e-05,
+      "loss": 1.5783,
+      "mean_token_accuracy": 0.7889993876218796,
+      "num_tokens": 1728513.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.16701461377870563,
+      "grad_norm": 2.907665491104126,
+      "learning_rate": 1.8334152334152336e-05,
+      "loss": 1.6573,
+      "mean_token_accuracy": 0.7675686649978161,
+      "num_tokens": 1777759.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.17192680830160875,
+      "grad_norm": 0.8430731892585754,
+      "learning_rate": 1.8285012285012287e-05,
+      "loss": 1.664,
+      "mean_token_accuracy": 0.7618721649050713,
+      "num_tokens": 1833279.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.17683900282451184,
+      "grad_norm": 1.1680371761322021,
+      "learning_rate": 1.8235872235872238e-05,
+      "loss": 1.515,
+      "mean_token_accuracy": 0.7789990782737732,
+      "num_tokens": 1882531.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.18175119734741496,
+      "grad_norm": 2.009002208709717,
+      "learning_rate": 1.818673218673219e-05,
+      "loss": 1.4555,
+      "mean_token_accuracy": 0.7983467862010002,
+      "num_tokens": 1934619.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.18666339187031805,
+      "grad_norm": 1.3894531726837158,
+      "learning_rate": 1.813759213759214e-05,
+      "loss": 1.6206,
+      "mean_token_accuracy": 0.7681202955543995,
+      "num_tokens": 1987231.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.19157558639322117,
+      "grad_norm": 0.7266082763671875,
+      "learning_rate": 1.808845208845209e-05,
+      "loss": 1.3022,
+      "mean_token_accuracy": 0.818102091550827,
+      "num_tokens": 2039985.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.1964877809161243,
+      "grad_norm": 0.7502278089523315,
+      "learning_rate": 1.803931203931204e-05,
+      "loss": 1.3902,
+      "mean_token_accuracy": 0.792433574795723,
+      "num_tokens": 2092178.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.20139997543902738,
+      "grad_norm": 0.8366674780845642,
+      "learning_rate": 1.799017199017199e-05,
+      "loss": 1.5385,
+      "mean_token_accuracy": 0.7903823673725128,
+      "num_tokens": 2151243.0,
+      "step": 410
+    },
+    {
+      "epoch": 0.2063121699619305,
+      "grad_norm": 0.7726922035217285,
+      "learning_rate": 1.7941031941031942e-05,
+      "loss": 1.3529,
+      "mean_token_accuracy": 0.8017133295536041,
+      "num_tokens": 2201072.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.2112243644848336,
+      "grad_norm": 0.650055468082428,
+      "learning_rate": 1.7891891891891893e-05,
+      "loss": 1.4312,
+      "mean_token_accuracy": 0.7957115054130555,
+      "num_tokens": 2256591.0,
+      "step": 430
+    },
+    {
+      "epoch": 0.2161365590077367,
+      "grad_norm": 0.9430303573608398,
+      "learning_rate": 1.7842751842751843e-05,
+      "loss": 1.1938,
+      "mean_token_accuracy": 0.8211165018379688,
+      "num_tokens": 2308048.0,
+      "step": 440
+    },
+    {
+      "epoch": 0.22104875353063982,
+      "grad_norm": 0.9191327691078186,
+      "learning_rate": 1.7793611793611794e-05,
+      "loss": 1.1662,
+      "mean_token_accuracy": 0.8298586897552014,
+      "num_tokens": 2363573.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.22596094805354291,
+      "grad_norm": 0.7493109703063965,
+      "learning_rate": 1.7744471744471745e-05,
+      "loss": 1.5908,
+      "mean_token_accuracy": 0.7651749603450299,
+      "num_tokens": 2413187.0,
+      "step": 460
+    },
+    {
+      "epoch": 0.23087314257644603,
+      "grad_norm": 0.5522422790527344,
+      "learning_rate": 1.7695331695331696e-05,
+      "loss": 1.3707,
+      "mean_token_accuracy": 0.7843399420380592,
+      "num_tokens": 2468041.0,
+      "step": 470
+    },
+    {
+      "epoch": 0.23578533709934912,
+      "grad_norm": 0.6577270030975342,
+      "learning_rate": 1.764619164619165e-05,
+      "loss": 1.4679,
+      "mean_token_accuracy": 0.7856365032494068,
+      "num_tokens": 2517753.0,
+      "step": 480
+    },
+    {
+      "epoch": 0.24069753162225224,
+      "grad_norm": 0.9699747562408447,
+      "learning_rate": 1.7597051597051597e-05,
+      "loss": 1.3493,
+      "mean_token_accuracy": 0.8016418114304542,
+      "num_tokens": 2568072.0,
+      "step": 490
+    },
+    {
+      "epoch": 0.24560972614515536,
+      "grad_norm": 2.0955657958984375,
+      "learning_rate": 1.7547911547911548e-05,
+      "loss": 0.9634,
+      "mean_token_accuracy": 0.8412673205137253,
+      "num_tokens": 2617143.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.25052192066805845,
+      "grad_norm": 0.7577691078186035,
+      "learning_rate": 1.7498771498771502e-05,
+      "loss": 1.0889,
+      "mean_token_accuracy": 0.8479016363620758,
+      "num_tokens": 2669318.0,
+      "step": 510
+    },
+    {
+      "epoch": 0.25543411519096154,
+      "grad_norm": 0.5891643762588501,
+      "learning_rate": 1.744963144963145e-05,
+      "loss": 1.1811,
+      "mean_token_accuracy": 0.82891755849123,
+      "num_tokens": 2723151.0,
+      "step": 520
+    },
+    {
+      "epoch": 0.2603463097138647,
+      "grad_norm": 0.7815893292427063,
+      "learning_rate": 1.74004914004914e-05,
+      "loss": 1.3488,
+      "mean_token_accuracy": 0.7971963949501515,
+      "num_tokens": 2774274.0,
+      "step": 530
+    },
+    {
+      "epoch": 0.2652585042367678,
+      "grad_norm": 0.365824818611145,
+      "learning_rate": 1.7351351351351354e-05,
+      "loss": 1.129,
+      "mean_token_accuracy": 0.8214888103306294,
+      "num_tokens": 2825301.0,
+      "step": 540
+    },
+    {
+      "epoch": 0.27017069875967087,
+      "grad_norm": 0.5682836174964905,
+      "learning_rate": 1.73022113022113e-05,
+      "loss": 1.0752,
+      "mean_token_accuracy": 0.8513655051589012,
+      "num_tokens": 2877767.0,
+      "step": 550
+    },
+    {
+      "epoch": 0.275082893282574,
+      "grad_norm": 0.9484438300132751,
+      "learning_rate": 1.7253071253071256e-05,
+      "loss": 1.1606,
+      "mean_token_accuracy": 0.8191152907907963,
+      "num_tokens": 2929216.0,
+      "step": 560
+    },
+    {
+      "epoch": 0.2799950878054771,
+      "grad_norm": 0.7097403407096863,
+      "learning_rate": 1.7203931203931206e-05,
+      "loss": 1.0245,
+      "mean_token_accuracy": 0.8594455644488335,
+      "num_tokens": 2983287.0,
+      "step": 570
+    },
+    {
+      "epoch": 0.2849072823283802,
+      "grad_norm": 2.197983741760254,
+      "learning_rate": 1.7154791154791157e-05,
+      "loss": 1.0116,
+      "mean_token_accuracy": 0.8458577767014503,
+      "num_tokens": 3036426.0,
+      "step": 580
+    },
+    {
+      "epoch": 0.2898194768512833,
+      "grad_norm": 0.9750831723213196,
+      "learning_rate": 1.7105651105651108e-05,
+      "loss": 1.2482,
+      "mean_token_accuracy": 0.8097934015095234,
+      "num_tokens": 3090471.0,
+      "step": 590
+    },
+    {
+      "epoch": 0.29473167137418643,
+      "grad_norm": 0.7452868223190308,
+      "learning_rate": 1.705651105651106e-05,
+      "loss": 0.9643,
+      "mean_token_accuracy": 0.8562554508447647,
+      "num_tokens": 3143095.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.2996438658970895,
+      "grad_norm": 0.3684370815753937,
+      "learning_rate": 1.700737100737101e-05,
+      "loss": 0.8587,
+      "mean_token_accuracy": 0.8684959009289741,
+      "num_tokens": 3193778.0,
+      "step": 610
+    },
+    {
+      "epoch": 0.3045560604199926,
+      "grad_norm": 0.4814823567867279,
+      "learning_rate": 1.695823095823096e-05,
+      "loss": 0.8246,
+      "mean_token_accuracy": 0.8646811529994011,
+      "num_tokens": 3249776.0,
+      "step": 620
+    },
+    {
+      "epoch": 0.30946825494289576,
+      "grad_norm": 0.6298699378967285,
+      "learning_rate": 1.690909090909091e-05,
+      "loss": 1.0043,
+      "mean_token_accuracy": 0.849489164352417,
+      "num_tokens": 3301301.0,
+      "step": 630
+    },
+    {
+      "epoch": 0.31438044946579885,
+      "grad_norm": 0.6802086234092712,
+      "learning_rate": 1.685995085995086e-05,
+      "loss": 0.9932,
+      "mean_token_accuracy": 0.8412040494382381,
+      "num_tokens": 3351834.0,
+      "step": 640
+    },
+    {
+      "epoch": 0.31929264398870194,
+      "grad_norm": 0.4441145062446594,
+      "learning_rate": 1.6810810810810812e-05,
+      "loss": 0.9093,
+      "mean_token_accuracy": 0.8644197151064873,
+      "num_tokens": 3402630.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.3242048385116051,
+      "grad_norm": 0.5664909482002258,
+      "learning_rate": 1.6761670761670763e-05,
+      "loss": 1.0511,
+      "mean_token_accuracy": 0.8302886992692947,
+      "num_tokens": 3453600.0,
+      "step": 660
+    },
+    {
+      "epoch": 0.3291170330345082,
+      "grad_norm": 0.898231029510498,
+      "learning_rate": 1.6712530712530714e-05,
+      "loss": 1.2663,
+      "mean_token_accuracy": 0.7889795318245888,
+      "num_tokens": 3501154.0,
+      "step": 670
+    },
+    {
+      "epoch": 0.33402922755741127,
+      "grad_norm": 0.49926525354385376,
+      "learning_rate": 1.6663390663390664e-05,
+      "loss": 1.0539,
+      "mean_token_accuracy": 0.8462485030293465,
+      "num_tokens": 3552076.0,
+      "step": 680
+    },
+    {
+      "epoch": 0.33894142208031436,
+      "grad_norm": 0.5327655673027039,
+      "learning_rate": 1.6614250614250615e-05,
+      "loss": 1.0757,
+      "mean_token_accuracy": 0.8260165579617024,
+      "num_tokens": 3602651.0,
+      "step": 690
+    },
+    {
+      "epoch": 0.3438536166032175,
+      "grad_norm": 0.5295992493629456,
+      "learning_rate": 1.6565110565110566e-05,
+      "loss": 0.9826,
+      "mean_token_accuracy": 0.8445935681462288,
+      "num_tokens": 3656310.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.3487658111261206,
+      "grad_norm": 0.584396243095398,
+      "learning_rate": 1.6515970515970517e-05,
+      "loss": 0.9771,
+      "mean_token_accuracy": 0.8513481065630912,
+      "num_tokens": 3712764.0,
+      "step": 710
+    },
+    {
+      "epoch": 0.3536780056490237,
+      "grad_norm": 0.5786782503128052,
+      "learning_rate": 1.6466830466830467e-05,
+      "loss": 1.0812,
+      "mean_token_accuracy": 0.8179432228207588,
+      "num_tokens": 3761995.0,
+      "step": 720
+    },
+    {
+      "epoch": 0.35859020017192683,
+      "grad_norm": 0.3496871888637543,
+      "learning_rate": 1.6417690417690418e-05,
+      "loss": 1.0407,
+      "mean_token_accuracy": 0.8126879334449768,
+      "num_tokens": 3811493.0,
+      "step": 730
+    },
+    {
+      "epoch": 0.3635023946948299,
+      "grad_norm": 0.5038619041442871,
+      "learning_rate": 1.636855036855037e-05,
+      "loss": 1.1602,
+      "mean_token_accuracy": 0.8141254656016826,
+      "num_tokens": 3859376.0,
+      "step": 740
+    },
+    {
+      "epoch": 0.368414589217733,
+      "grad_norm": 0.4643881320953369,
+      "learning_rate": 1.631941031941032e-05,
+      "loss": 0.8819,
+      "mean_token_accuracy": 0.8545275427401066,
+      "num_tokens": 3912052.0,
+      "step": 750
+    },
+    {
+      "epoch": 0.3733267837406361,
+      "grad_norm": 0.4222355782985687,
+      "learning_rate": 1.6270270270270274e-05,
+      "loss": 0.8333,
+      "mean_token_accuracy": 0.8552621826529503,
+      "num_tokens": 3965078.0,
+      "step": 760
+    },
+    {
+      "epoch": 0.37823897826353925,
+      "grad_norm": 0.4513651728630066,
+      "learning_rate": 1.6221130221130224e-05,
+      "loss": 1.0386,
+      "mean_token_accuracy": 0.8259748943150044,
+      "num_tokens": 4015489.0,
+      "step": 770
+    },
+    {
+      "epoch": 0.38315117278644234,
+      "grad_norm": 0.5292590856552124,
+      "learning_rate": 1.6171990171990172e-05,
+      "loss": 0.8968,
+      "mean_token_accuracy": 0.8551326602697372,
+      "num_tokens": 4067831.0,
+      "step": 780
+    },
+    {
+      "epoch": 0.38806336730934543,
+      "grad_norm": 0.49815845489501953,
+      "learning_rate": 1.6122850122850126e-05,
+      "loss": 1.0808,
+      "mean_token_accuracy": 0.8252614364027977,
+      "num_tokens": 4117945.0,
+      "step": 790
+    },
+    {
+      "epoch": 0.3929755618322486,
+      "grad_norm": 0.339728981256485,
+      "learning_rate": 1.6073710073710077e-05,
+      "loss": 0.9569,
+      "mean_token_accuracy": 0.8419950112700463,
+      "num_tokens": 4171138.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.39788775635515167,
+      "grad_norm": 0.4530418813228607,
+      "learning_rate": 1.6024570024570024e-05,
+      "loss": 1.1355,
+      "mean_token_accuracy": 0.8250428631901741,
+      "num_tokens": 4223765.0,
+      "step": 810
+    },
+    {
+      "epoch": 0.40279995087805476,
+      "grad_norm": 0.5202032923698425,
+      "learning_rate": 1.5975429975429978e-05,
+      "loss": 0.8306,
+      "mean_token_accuracy": 0.865328436344862,
+      "num_tokens": 4278056.0,
+      "step": 820
+    },
+    {
+      "epoch": 0.4077121454009579,
+      "grad_norm": 0.4732300043106079,
+      "learning_rate": 1.592628992628993e-05,
+      "loss": 1.3396,
+      "mean_token_accuracy": 0.783781211823225,
+      "num_tokens": 4326704.0,
+      "step": 830
+    },
+    {
+      "epoch": 0.412624339923861,
+      "grad_norm": 0.49258068203926086,
+      "learning_rate": 1.5877149877149876e-05,
+      "loss": 0.8462,
+      "mean_token_accuracy": 0.8517311483621597,
+      "num_tokens": 4378538.0,
+      "step": 840
+    },
+    {
+      "epoch": 0.4175365344467641,
+      "grad_norm": 0.8045883774757385,
+      "learning_rate": 1.582800982800983e-05,
+      "loss": 0.9785,
+      "mean_token_accuracy": 0.8369067624211312,
+      "num_tokens": 4429893.0,
+      "step": 850
+    },
+    {
+      "epoch": 0.4224487289696672,
+      "grad_norm": 0.361854612827301,
+      "learning_rate": 1.577886977886978e-05,
+      "loss": 0.936,
+      "mean_token_accuracy": 0.8446702107787132,
+      "num_tokens": 4481594.0,
+      "step": 860
+    },
+    {
+      "epoch": 0.4273609234925703,
+      "grad_norm": 0.593479573726654,
+      "learning_rate": 1.572972972972973e-05,
+      "loss": 0.8245,
+      "mean_token_accuracy": 0.8750210002064704,
+      "num_tokens": 4534098.0,
+      "step": 870
+    },
+    {
+      "epoch": 0.4322731180154734,
+      "grad_norm": 0.31826287508010864,
+      "learning_rate": 1.5680589680589682e-05,
+      "loss": 0.94,
+      "mean_token_accuracy": 0.8408755764365197,
+      "num_tokens": 4587111.0,
+      "step": 880
+    },
+    {
+      "epoch": 0.4371853125383765,
+      "grad_norm": 1.4076229333877563,
+      "learning_rate": 1.5631449631449633e-05,
+      "loss": 1.0176,
+      "mean_token_accuracy": 0.8321189761161805,
+      "num_tokens": 4640388.0,
+      "step": 890
+    },
+    {
+      "epoch": 0.44209750706127965,
+      "grad_norm": 0.6677824854850769,
+      "learning_rate": 1.5582309582309584e-05,
+      "loss": 1.2891,
+      "mean_token_accuracy": 0.7943175598978996,
+      "num_tokens": 4691468.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.44700970158418274,
+      "grad_norm": 0.4233896732330322,
+      "learning_rate": 1.5533169533169535e-05,
+      "loss": 1.1053,
+      "mean_token_accuracy": 0.8279901027679444,
+      "num_tokens": 4741844.0,
+      "step": 910
+    },
+    {
+      "epoch": 0.45192189610708583,
+      "grad_norm": 0.35591593384742737,
+      "learning_rate": 1.5484029484029485e-05,
+      "loss": 0.8832,
+      "mean_token_accuracy": 0.8491488620638847,
+      "num_tokens": 4793741.0,
+      "step": 920
+    },
+    {
+      "epoch": 0.4568340906299889,
+      "grad_norm": 0.6583911180496216,
+      "learning_rate": 1.5434889434889436e-05,
+      "loss": 0.8387,
+      "mean_token_accuracy": 0.8648917526006699,
+      "num_tokens": 4848466.0,
+      "step": 930
+    },
+    {
+      "epoch": 0.46174628515289207,
+      "grad_norm": 0.4065934717655182,
+      "learning_rate": 1.5385749385749387e-05,
+      "loss": 0.9242,
+      "mean_token_accuracy": 0.8412024281919003,
+      "num_tokens": 4901992.0,
+      "step": 940
+    },
+    {
+      "epoch": 0.46665847967579516,
+      "grad_norm": 0.3458426594734192,
+      "learning_rate": 1.5336609336609338e-05,
+      "loss": 0.8545,
+      "mean_token_accuracy": 0.855231161415577,
+      "num_tokens": 4956964.0,
+      "step": 950
+    },
+    {
+      "epoch": 0.47157067419869825,
+      "grad_norm": 0.6710091233253479,
+      "learning_rate": 1.5287469287469288e-05,
+      "loss": 0.9583,
+      "mean_token_accuracy": 0.8393168188631535,
+      "num_tokens": 5011287.0,
+      "step": 960
+    },
+    {
+      "epoch": 0.4764828687216014,
+      "grad_norm": 0.3753456771373749,
+      "learning_rate": 1.5238329238329239e-05,
+      "loss": 0.9738,
+      "mean_token_accuracy": 0.8375437319278717,
+      "num_tokens": 5061714.0,
+      "step": 970
+    },
+    {
+      "epoch": 0.4813950632445045,
+      "grad_norm": 1.2011836767196655,
+      "learning_rate": 1.5189189189189191e-05,
+      "loss": 1.0972,
+      "mean_token_accuracy": 0.8070526115596295,
+      "num_tokens": 5114645.0,
+      "step": 980
+    },
+    {
+      "epoch": 0.4863072577674076,
+      "grad_norm": 0.37889617681503296,
+      "learning_rate": 1.5140049140049142e-05,
+      "loss": 0.9442,
+      "mean_token_accuracy": 0.8458199493587018,
+      "num_tokens": 5165485.0,
+      "step": 990
+    },
+    {
+      "epoch": 0.4912194522903107,
+      "grad_norm": 0.6613748669624329,
+      "learning_rate": 1.5090909090909091e-05,
+      "loss": 1.0196,
+      "mean_token_accuracy": 0.8272999472916126,
+      "num_tokens": 5216189.0,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4961316468132138,
+      "grad_norm": 0.7825655937194824,
+      "learning_rate": 1.5041769041769044e-05,
+      "loss": 1.011,
+      "mean_token_accuracy": 0.8262499138712883,
+      "num_tokens": 5269248.0,
+      "step": 1010
+    },
+    {
+      "epoch": 0.5010438413361169,
+      "grad_norm": 0.2106683850288391,
+      "learning_rate": 1.4992628992628994e-05,
+      "loss": 0.9098,
+      "mean_token_accuracy": 0.8512444771826267,
+      "num_tokens": 5322524.0,
+      "step": 1020
+    },
+    {
+      "epoch": 0.50595603585902,
+      "grad_norm": 0.8093978762626648,
+      "learning_rate": 1.4943488943488943e-05,
+      "loss": 1.2403,
+      "mean_token_accuracy": 0.7969906754791737,
+      "num_tokens": 5370123.0,
+      "step": 1030
+    },
+    {
+      "epoch": 0.5108682303819231,
+      "grad_norm": 0.5412647724151611,
+      "learning_rate": 1.4894348894348896e-05,
+      "loss": 0.8821,
+      "mean_token_accuracy": 0.8460625484585762,
+      "num_tokens": 5422125.0,
+      "step": 1040
+    },
+    {
+      "epoch": 0.5157804249048262,
+      "grad_norm": 0.5411800146102905,
+      "learning_rate": 1.4845208845208847e-05,
+      "loss": 1.0804,
+      "mean_token_accuracy": 0.8199978180229663,
+      "num_tokens": 5472127.0,
+      "step": 1050
+    },
+    {
+      "epoch": 0.5206926194277294,
+      "grad_norm": 0.4349406063556671,
+      "learning_rate": 1.4796068796068797e-05,
+      "loss": 0.7559,
+      "mean_token_accuracy": 0.8662853054702282,
+      "num_tokens": 5525028.0,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5256048139506324,
+      "grad_norm": 0.4738285541534424,
+      "learning_rate": 1.4746928746928748e-05,
+      "loss": 1.1225,
+      "mean_token_accuracy": 0.8103010386228562,
+      "num_tokens": 5570859.0,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5305170084735356,
+      "grad_norm": 0.6644457578659058,
+      "learning_rate": 1.46977886977887e-05,
+      "loss": 0.9334,
+      "mean_token_accuracy": 0.8213524237275124,
+      "num_tokens": 5618933.0,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5354292029964387,
+      "grad_norm": 0.3038887083530426,
+      "learning_rate": 1.464864864864865e-05,
+      "loss": 1.0292,
+      "mean_token_accuracy": 0.810487725585699,
+      "num_tokens": 5664922.0,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5403413975193417,
+      "grad_norm": 0.26083576679229736,
+      "learning_rate": 1.45995085995086e-05,
+      "loss": 0.9084,
+      "mean_token_accuracy": 0.836492794752121,
+      "num_tokens": 5716671.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5452535920422449,
+      "grad_norm": 0.36848321557044983,
+      "learning_rate": 1.4550368550368553e-05,
+      "loss": 1.1544,
+      "mean_token_accuracy": 0.8033395648002625,
+      "num_tokens": 5764576.0,
+      "step": 1110
+    },
+    {
+      "epoch": 0.550165786565148,
+      "grad_norm": 0.3338620662689209,
+      "learning_rate": 1.4501228501228502e-05,
+      "loss": 1.0114,
+      "mean_token_accuracy": 0.8188160583376884,
+      "num_tokens": 5816699.0,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5550779810880511,
+      "grad_norm": 0.3278094232082367,
+      "learning_rate": 1.4452088452088452e-05,
+      "loss": 0.6189,
+      "mean_token_accuracy": 0.8895823881030083,
+      "num_tokens": 5874257.0,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5599901756109542,
+      "grad_norm": 0.4236205220222473,
+      "learning_rate": 1.4402948402948405e-05,
+      "loss": 0.9474,
+      "mean_token_accuracy": 0.8435555145144462,
+      "num_tokens": 5925628.0,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5649023701338572,
+      "grad_norm": 0.21693912148475647,
+      "learning_rate": 1.4353808353808354e-05,
+      "loss": 0.9109,
+      "mean_token_accuracy": 0.842586936801672,
+      "num_tokens": 5977130.0,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5698145646567604,
+      "grad_norm": 0.6288137435913086,
+      "learning_rate": 1.4304668304668306e-05,
+      "loss": 0.7005,
+      "mean_token_accuracy": 0.877720920741558,
+      "num_tokens": 6032405.0,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5747267591796635,
+      "grad_norm": 0.29411551356315613,
+      "learning_rate": 1.4255528255528257e-05,
+      "loss": 0.9163,
+      "mean_token_accuracy": 0.8345251567661762,
+      "num_tokens": 6081769.0,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5796389537025666,
+      "grad_norm": 0.3542836308479309,
+      "learning_rate": 1.420638820638821e-05,
+      "loss": 0.8983,
+      "mean_token_accuracy": 0.8478083908557892,
+      "num_tokens": 6131660.0,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5845511482254697,
+      "grad_norm": 0.6326059103012085,
+      "learning_rate": 1.4157248157248158e-05,
+      "loss": 1.055,
+      "mean_token_accuracy": 0.8133970260620117,
+      "num_tokens": 6177706.0,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5894633427483729,
+      "grad_norm": 0.39950093626976013,
+      "learning_rate": 1.410810810810811e-05,
+      "loss": 0.6446,
+      "mean_token_accuracy": 0.8883207038044929,
+      "num_tokens": 6231530.0,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5943755372712759,
+      "grad_norm": 1.4949785470962524,
+      "learning_rate": 1.4058968058968062e-05,
+      "loss": 0.8527,
+      "mean_token_accuracy": 0.8495218820869923,
+      "num_tokens": 6284936.0,
+      "step": 1210
+    },
+    {
+      "epoch": 0.599287731794179,
+      "grad_norm": 0.5013307332992554,
+      "learning_rate": 1.400982800982801e-05,
+      "loss": 0.9342,
+      "mean_token_accuracy": 0.8461359746754169,
+      "num_tokens": 6338328.0,
+      "step": 1220
+    },
+    {
+      "epoch": 0.6041999263170822,
+      "grad_norm": 0.4373924136161804,
+      "learning_rate": 1.3960687960687961e-05,
+      "loss": 0.7957,
+      "mean_token_accuracy": 0.8590179920196533,
+      "num_tokens": 6391247.0,
+      "step": 1230
+    },
+    {
+      "epoch": 0.6091121208399852,
+      "grad_norm": 0.30794695019721985,
+      "learning_rate": 1.3911547911547914e-05,
+      "loss": 0.9578,
+      "mean_token_accuracy": 0.8326818406581878,
+      "num_tokens": 6444004.0,
+      "step": 1240
+    },
+    {
+      "epoch": 0.6140243153628884,
+      "grad_norm": 0.3918187618255615,
+      "learning_rate": 1.3862407862407863e-05,
+      "loss": 0.8732,
+      "mean_token_accuracy": 0.8658828616142273,
+      "num_tokens": 6495578.0,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6189365098857915,
+      "grad_norm": 0.2752901315689087,
+      "learning_rate": 1.3813267813267814e-05,
+      "loss": 0.9506,
+      "mean_token_accuracy": 0.8301159009337425,
+      "num_tokens": 6545604.0,
+      "step": 1260
+    },
+    {
+      "epoch": 0.6238487044086946,
+      "grad_norm": 0.460627943277359,
+      "learning_rate": 1.3764127764127766e-05,
+      "loss": 1.0007,
+      "mean_token_accuracy": 0.8227074682712555,
+      "num_tokens": 6594381.0,
+      "step": 1270
+    },
+    {
+      "epoch": 0.6287608989315977,
+      "grad_norm": 0.4065866768360138,
+      "learning_rate": 1.3714987714987715e-05,
+      "loss": 0.8056,
+      "mean_token_accuracy": 0.8646926179528236,
+      "num_tokens": 6649190.0,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6336730934545008,
+      "grad_norm": 0.4343368113040924,
+      "learning_rate": 1.3665847665847667e-05,
+      "loss": 0.8879,
+      "mean_token_accuracy": 0.8385777972638607,
+      "num_tokens": 6701394.0,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6385852879774039,
+      "grad_norm": 0.5364151000976562,
+      "learning_rate": 1.3616707616707618e-05,
+      "loss": 0.9419,
+      "mean_token_accuracy": 0.8308121666312218,
+      "num_tokens": 6752270.0,
+      "step": 1300
+    },
+    {
+      "epoch": 0.643497482500307,
+      "grad_norm": 0.3982967734336853,
+      "learning_rate": 1.3567567567567567e-05,
+      "loss": 1.0305,
+      "mean_token_accuracy": 0.8274823799729347,
+      "num_tokens": 6805857.0,
+      "step": 1310
+    },
+    {
+      "epoch": 0.6484096770232102,
+      "grad_norm": 0.7117066383361816,
+      "learning_rate": 1.351842751842752e-05,
+      "loss": 1.0594,
+      "mean_token_accuracy": 0.8103688299655915,
+      "num_tokens": 6852455.0,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6533218715461132,
+      "grad_norm": 0.3083662986755371,
+      "learning_rate": 1.346928746928747e-05,
+      "loss": 1.0412,
+      "mean_token_accuracy": 0.8186712831258773,
+      "num_tokens": 6896950.0,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6582340660690164,
+      "grad_norm": 0.4959128499031067,
+      "learning_rate": 1.342014742014742e-05,
+      "loss": 0.9348,
+      "mean_token_accuracy": 0.8453299880027771,
+      "num_tokens": 6950814.0,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6631462605919194,
+      "grad_norm": 0.8182358145713806,
+      "learning_rate": 1.3371007371007372e-05,
+      "loss": 1.0552,
+      "mean_token_accuracy": 0.8226786606013775,
+      "num_tokens": 7003460.0,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6680584551148225,
+      "grad_norm": 0.43365928530693054,
+      "learning_rate": 1.3321867321867323e-05,
+      "loss": 0.8795,
+      "mean_token_accuracy": 0.8458721756935119,
+      "num_tokens": 7054901.0,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6729706496377257,
+      "grad_norm": 0.2876506745815277,
+      "learning_rate": 1.3272727272727275e-05,
+      "loss": 0.8282,
+      "mean_token_accuracy": 0.8459444969892502,
+      "num_tokens": 7106038.0,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6778828441606287,
+      "grad_norm": 0.4010944068431854,
+      "learning_rate": 1.3223587223587224e-05,
+      "loss": 0.7836,
+      "mean_token_accuracy": 0.8610207386314869,
+      "num_tokens": 7159651.0,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6827950386835319,
+      "grad_norm": 0.19336983561515808,
+      "learning_rate": 1.3174447174447176e-05,
+      "loss": 1.0039,
+      "mean_token_accuracy": 0.8369563437998295,
+      "num_tokens": 7204811.0,
+      "step": 1390
+    },
+    {
+      "epoch": 0.687707233206435,
+      "grad_norm": 0.5056695938110352,
+      "learning_rate": 1.3125307125307127e-05,
+      "loss": 0.6854,
+      "mean_token_accuracy": 0.878055976331234,
+      "num_tokens": 7256836.0,
+      "step": 1400
+    },
+    {
+      "epoch": 0.692619427729338,
+      "grad_norm": 0.3462684750556946,
+      "learning_rate": 1.3076167076167076e-05,
+      "loss": 1.2627,
+      "mean_token_accuracy": 0.7998166553676128,
+      "num_tokens": 7308913.0,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6975316222522412,
+      "grad_norm": 0.2867954671382904,
+      "learning_rate": 1.3027027027027029e-05,
+      "loss": 0.6718,
+      "mean_token_accuracy": 0.8842718601226807,
+      "num_tokens": 7365814.0,
+      "step": 1420
+    },
+    {
+      "epoch": 0.7024438167751443,
+      "grad_norm": 0.4659688472747803,
+      "learning_rate": 1.297788697788698e-05,
+      "loss": 1.1291,
+      "mean_token_accuracy": 0.8083386868238449,
+      "num_tokens": 7419238.0,
+      "step": 1430
+    },
+    {
+      "epoch": 0.7073560112980474,
+      "grad_norm": 0.41312354803085327,
+      "learning_rate": 1.2928746928746928e-05,
+      "loss": 0.8625,
+      "mean_token_accuracy": 0.8470474675297737,
+      "num_tokens": 7469177.0,
+      "step": 1440
+    },
+    {
+      "epoch": 0.7122682058209505,
+      "grad_norm": 0.5044501423835754,
+      "learning_rate": 1.2879606879606881e-05,
+      "loss": 0.8186,
+      "mean_token_accuracy": 0.8533941991627216,
+      "num_tokens": 7520617.0,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7171804003438537,
+      "grad_norm": 0.3712249994277954,
+      "learning_rate": 1.2830466830466832e-05,
+      "loss": 0.912,
+      "mean_token_accuracy": 0.838789189606905,
+      "num_tokens": 7569361.0,
+      "step": 1460
+    },
+    {
+      "epoch": 0.7220925948667567,
+      "grad_norm": 0.5090559720993042,
+      "learning_rate": 1.2781326781326782e-05,
+      "loss": 0.9559,
+      "mean_token_accuracy": 0.8298265844583511,
+      "num_tokens": 7619902.0,
+      "step": 1470
+    },
+    {
+      "epoch": 0.7270047893896598,
+      "grad_norm": 0.40056052803993225,
+      "learning_rate": 1.2732186732186733e-05,
+      "loss": 0.9697,
+      "mean_token_accuracy": 0.8409195326268672,
+      "num_tokens": 7671364.0,
+      "step": 1480
+    },
+    {
+      "epoch": 0.731916983912563,
+      "grad_norm": 0.5502124428749084,
+      "learning_rate": 1.2683046683046685e-05,
+      "loss": 0.974,
+      "mean_token_accuracy": 0.8395135879516602,
+      "num_tokens": 7721501.0,
+      "step": 1490
+    },
+    {
+      "epoch": 0.736829178435466,
+      "grad_norm": 0.49662184715270996,
+      "learning_rate": 1.2633906633906635e-05,
+      "loss": 0.9764,
+      "mean_token_accuracy": 0.8396995335817337,
+      "num_tokens": 7771721.0,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7417413729583692,
+      "grad_norm": 0.26574891805648804,
+      "learning_rate": 1.2584766584766585e-05,
+      "loss": 0.8165,
+      "mean_token_accuracy": 0.8401172868907452,
+      "num_tokens": 7822046.0,
+      "step": 1510
+    },
+    {
+      "epoch": 0.7466535674812722,
+      "grad_norm": 0.6338578462600708,
+      "learning_rate": 1.2535626535626538e-05,
+      "loss": 0.9305,
+      "mean_token_accuracy": 0.8319102026522159,
+      "num_tokens": 7874800.0,
+      "step": 1520
+    },
+    {
+      "epoch": 0.7515657620041754,
+      "grad_norm": 0.45722728967666626,
+      "learning_rate": 1.2486486486486487e-05,
+      "loss": 0.817,
+      "mean_token_accuracy": 0.865605479478836,
+      "num_tokens": 7928044.0,
+      "step": 1530
+    },
+    {
+      "epoch": 0.7564779565270785,
+      "grad_norm": 0.2256188988685608,
+      "learning_rate": 1.2437346437346437e-05,
+      "loss": 1.0366,
+      "mean_token_accuracy": 0.8243134960532188,
+      "num_tokens": 7976774.0,
+      "step": 1540
+    },
+    {
+      "epoch": 0.7613901510499815,
+      "grad_norm": 0.3194807469844818,
+      "learning_rate": 1.238820638820639e-05,
+      "loss": 0.8638,
+      "mean_token_accuracy": 0.8425570398569107,
+      "num_tokens": 8027431.0,
+      "step": 1550
+    },
+    {
+      "epoch": 0.7663023455728847,
+      "grad_norm": 0.7870245575904846,
+      "learning_rate": 1.2339066339066339e-05,
+      "loss": 1.1827,
+      "mean_token_accuracy": 0.8022145099937916,
+      "num_tokens": 8076248.0,
+      "step": 1560
+    },
+    {
+      "epoch": 0.7712145400957878,
+      "grad_norm": 1.0986965894699097,
+      "learning_rate": 1.2289926289926291e-05,
+      "loss": 1.0736,
+      "mean_token_accuracy": 0.8118120074272156,
+      "num_tokens": 8128333.0,
+      "step": 1570
+    },
+    {
+      "epoch": 0.7761267346186909,
+      "grad_norm": 0.6505934000015259,
+      "learning_rate": 1.2240786240786242e-05,
+      "loss": 0.957,
+      "mean_token_accuracy": 0.8350290179252624,
+      "num_tokens": 8177196.0,
+      "step": 1580
+    },
+    {
+      "epoch": 0.781038929141594,
+      "grad_norm": 0.35571786761283875,
+      "learning_rate": 1.2191646191646194e-05,
+      "loss": 0.8929,
+      "mean_token_accuracy": 0.8486527316272259,
+      "num_tokens": 8229113.0,
+      "step": 1590
+    },
+    {
+      "epoch": 0.7859511236644972,
+      "grad_norm": 0.4012582004070282,
+      "learning_rate": 1.2142506142506144e-05,
+      "loss": 0.7953,
+      "mean_token_accuracy": 0.8502931199967861,
+      "num_tokens": 8283001.0,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7908633181874002,
+      "grad_norm": 0.25499385595321655,
+      "learning_rate": 1.2093366093366094e-05,
+      "loss": 0.9205,
+      "mean_token_accuracy": 0.8501100361347198,
+      "num_tokens": 8334978.0,
+      "step": 1610
+    },
+    {
+      "epoch": 0.7957755127103033,
+      "grad_norm": 0.5996484756469727,
+      "learning_rate": 1.2044226044226047e-05,
+      "loss": 0.9237,
+      "mean_token_accuracy": 0.8439513966441154,
+      "num_tokens": 8390388.0,
+      "step": 1620
+    },
+    {
+      "epoch": 0.8006877072332065,
+      "grad_norm": 0.4831118583679199,
+      "learning_rate": 1.1995085995085996e-05,
+      "loss": 0.7179,
+      "mean_token_accuracy": 0.8848425835371018,
+      "num_tokens": 8445335.0,
+      "step": 1630
+    },
+    {
+      "epoch": 0.8055999017561095,
+      "grad_norm": 0.3229360580444336,
+      "learning_rate": 1.1945945945945946e-05,
+      "loss": 1.1637,
+      "mean_token_accuracy": 0.8010388404130936,
+      "num_tokens": 8494343.0,
+      "step": 1640
+    },
+    {
+      "epoch": 0.8105120962790127,
+      "grad_norm": 1.2905784845352173,
+      "learning_rate": 1.1896805896805899e-05,
+      "loss": 0.9642,
+      "mean_token_accuracy": 0.829357648640871,
+      "num_tokens": 8542794.0,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8154242908019158,
+      "grad_norm": 0.33358246088027954,
+      "learning_rate": 1.1847665847665848e-05,
+      "loss": 0.8557,
+      "mean_token_accuracy": 0.85107681453228,
+      "num_tokens": 8597837.0,
+      "step": 1660
+    },
+    {
+      "epoch": 0.8203364853248188,
+      "grad_norm": 0.30174124240875244,
+      "learning_rate": 1.17985257985258e-05,
+      "loss": 0.6798,
+      "mean_token_accuracy": 0.8848607018589973,
+      "num_tokens": 8651855.0,
+      "step": 1670
+    },
+    {
+      "epoch": 0.825248679847722,
+      "grad_norm": 0.41789162158966064,
+      "learning_rate": 1.1749385749385751e-05,
+      "loss": 0.7969,
+      "mean_token_accuracy": 0.859107281267643,
+      "num_tokens": 8705043.0,
+      "step": 1680
+    },
+    {
+      "epoch": 0.830160874370625,
+      "grad_norm": 0.5565118193626404,
+      "learning_rate": 1.17002457002457e-05,
+      "loss": 0.8947,
+      "mean_token_accuracy": 0.8513899371027946,
+      "num_tokens": 8753735.0,
+      "step": 1690
+    },
+    {
+      "epoch": 0.8350730688935282,
+      "grad_norm": 0.8451042771339417,
+      "learning_rate": 1.1651105651105653e-05,
+      "loss": 1.1201,
+      "mean_token_accuracy": 0.7937561281025409,
+      "num_tokens": 8799611.0,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8399852634164313,
+      "grad_norm": 0.8886920213699341,
+      "learning_rate": 1.1601965601965603e-05,
+      "loss": 0.8187,
+      "mean_token_accuracy": 0.8588108576834201,
+      "num_tokens": 8852789.0,
+      "step": 1710
+    },
+    {
+      "epoch": 0.8448974579393344,
+      "grad_norm": 0.8036173582077026,
+      "learning_rate": 1.1552825552825552e-05,
+      "loss": 0.8139,
+      "mean_token_accuracy": 0.868566033244133,
+      "num_tokens": 8904446.0,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8498096524622375,
+      "grad_norm": 0.8208529949188232,
+      "learning_rate": 1.1503685503685505e-05,
+      "loss": 0.9869,
+      "mean_token_accuracy": 0.8289718352258205,
+      "num_tokens": 8955674.0,
+      "step": 1730
+    },
+    {
+      "epoch": 0.8547218469851406,
+      "grad_norm": 0.48808610439300537,
+      "learning_rate": 1.1454545454545455e-05,
+      "loss": 0.6682,
+      "mean_token_accuracy": 0.8741697937250137,
+      "num_tokens": 9008895.0,
+      "step": 1740
+    },
+    {
+      "epoch": 0.8596340415080437,
+      "grad_norm": 0.30963972210884094,
+      "learning_rate": 1.1405405405405404e-05,
+      "loss": 0.8816,
+      "mean_token_accuracy": 0.843504398316145,
+      "num_tokens": 9059352.0,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8645462360309468,
+      "grad_norm": 0.2593599855899811,
+      "learning_rate": 1.1356265356265357e-05,
+      "loss": 1.0678,
+      "mean_token_accuracy": 0.8158367194235325,
+      "num_tokens": 9105840.0,
+      "step": 1760
+    },
+    {
+      "epoch": 0.86945843055385,
+      "grad_norm": 0.2662312984466553,
+      "learning_rate": 1.1307125307125308e-05,
+      "loss": 0.988,
+      "mean_token_accuracy": 0.8375108957290649,
+      "num_tokens": 9158645.0,
+      "step": 1770
+    },
+    {
+      "epoch": 0.874370625076753,
+      "grad_norm": 0.2985932528972626,
+      "learning_rate": 1.125798525798526e-05,
+      "loss": 0.7872,
+      "mean_token_accuracy": 0.8592289894819259,
+      "num_tokens": 9205661.0,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8792828195996562,
+      "grad_norm": 0.26380449533462524,
+      "learning_rate": 1.1208845208845209e-05,
+      "loss": 1.1826,
+      "mean_token_accuracy": 0.7935345992445946,
+      "num_tokens": 9251283.0,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8841950141225593,
+      "grad_norm": 0.5365442633628845,
+      "learning_rate": 1.1159705159705162e-05,
+      "loss": 0.9483,
+      "mean_token_accuracy": 0.8279004551470279,
+      "num_tokens": 9298506.0,
+      "step": 1800
+    },
+    {
+      "epoch": 0.8891072086454623,
+      "grad_norm": 0.35537609457969666,
+      "learning_rate": 1.1110565110565112e-05,
+      "loss": 0.6907,
+      "mean_token_accuracy": 0.874860267341137,
+      "num_tokens": 9352301.0,
+      "step": 1810
+    },
+    {
+      "epoch": 0.8940194031683655,
+      "grad_norm": 0.36677488684654236,
+      "learning_rate": 1.1061425061425061e-05,
+      "loss": 0.8506,
+      "mean_token_accuracy": 0.847238763421774,
+      "num_tokens": 9401209.0,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8989315976912686,
+      "grad_norm": 0.35230782628059387,
+      "learning_rate": 1.1012285012285014e-05,
+      "loss": 0.9664,
+      "mean_token_accuracy": 0.8267447024583816,
+      "num_tokens": 9451239.0,
+      "step": 1830
+    },
+    {
+      "epoch": 0.9038437922141717,
+      "grad_norm": 0.5595026612281799,
+      "learning_rate": 1.0963144963144964e-05,
+      "loss": 1.0239,
+      "mean_token_accuracy": 0.8194499731063842,
+      "num_tokens": 9504396.0,
+      "step": 1840
+    },
+    {
+      "epoch": 0.9087559867370748,
+      "grad_norm": 0.38404449820518494,
+      "learning_rate": 1.0914004914004913e-05,
+      "loss": 0.9903,
+      "mean_token_accuracy": 0.8269840359687806,
+      "num_tokens": 9555148.0,
+      "step": 1850
+    },
+    {
+      "epoch": 0.9136681812599778,
+      "grad_norm": 0.41196462512016296,
+      "learning_rate": 1.0864864864864866e-05,
+      "loss": 1.0264,
+      "mean_token_accuracy": 0.8328478842973709,
+      "num_tokens": 9606453.0,
+      "step": 1860
+    },
+    {
+      "epoch": 0.918580375782881,
+      "grad_norm": 0.5028640031814575,
+      "learning_rate": 1.0815724815724817e-05,
+      "loss": 0.7749,
+      "mean_token_accuracy": 0.8660773292183876,
+      "num_tokens": 9658869.0,
+      "step": 1870
+    },
+    {
+      "epoch": 0.9234925703057841,
+      "grad_norm": 0.2295975685119629,
+      "learning_rate": 1.0766584766584767e-05,
+      "loss": 0.8817,
+      "mean_token_accuracy": 0.83365648239851,
+      "num_tokens": 9708994.0,
+      "step": 1880
+    },
+    {
+      "epoch": 0.9284047648286872,
+      "grad_norm": 0.24253033101558685,
+      "learning_rate": 1.0717444717444718e-05,
+      "loss": 0.9226,
+      "mean_token_accuracy": 0.8485260397195816,
+      "num_tokens": 9760081.0,
+      "step": 1890
+    },
+    {
+      "epoch": 0.9333169593515903,
+      "grad_norm": 0.2894159257411957,
+      "learning_rate": 1.066830466830467e-05,
+      "loss": 0.7618,
+      "mean_token_accuracy": 0.8669800266623497,
+      "num_tokens": 9810101.0,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9382291538744935,
+      "grad_norm": 0.36487090587615967,
+      "learning_rate": 1.061916461916462e-05,
+      "loss": 0.8968,
+      "mean_token_accuracy": 0.8443298265337944,
+      "num_tokens": 9861741.0,
+      "step": 1910
+    },
+    {
+      "epoch": 0.9431413483973965,
+      "grad_norm": 0.2829186022281647,
+      "learning_rate": 1.057002457002457e-05,
+      "loss": 0.821,
+      "mean_token_accuracy": 0.8466833367943764,
+      "num_tokens": 9913833.0,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9480535429202996,
+      "grad_norm": 0.6794554591178894,
+      "learning_rate": 1.0520884520884523e-05,
+      "loss": 0.7578,
+      "mean_token_accuracy": 0.8747551962733269,
+      "num_tokens": 9970247.0,
+      "step": 1930
+    },
+    {
+      "epoch": 0.9529657374432028,
+      "grad_norm": 0.6977810263633728,
+      "learning_rate": 1.0471744471744472e-05,
+      "loss": 0.8165,
+      "mean_token_accuracy": 0.8567108184099197,
+      "num_tokens": 10019920.0,
+      "step": 1940
+    },
+    {
+      "epoch": 0.9578779319661058,
+      "grad_norm": 0.504741907119751,
+      "learning_rate": 1.0422604422604422e-05,
+      "loss": 0.9742,
+      "mean_token_accuracy": 0.8300105221569538,
+      "num_tokens": 10066930.0,
+      "step": 1950
+    },
+    {
+      "epoch": 0.962790126489009,
+      "grad_norm": 2.085604190826416,
+      "learning_rate": 1.0373464373464375e-05,
+      "loss": 0.9191,
+      "mean_token_accuracy": 0.8302432119846344,
+      "num_tokens": 10116405.0,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9677023210119121,
+      "grad_norm": 0.5094314813613892,
+      "learning_rate": 1.0324324324324324e-05,
+      "loss": 0.6908,
+      "mean_token_accuracy": 0.8804146230220795,
+      "num_tokens": 10171793.0,
+      "step": 1970
+    },
+    {
+      "epoch": 0.9726145155348151,
+      "grad_norm": 0.7494292259216309,
+      "learning_rate": 1.0275184275184276e-05,
+      "loss": 0.9316,
+      "mean_token_accuracy": 0.8486801907420158,
+      "num_tokens": 10223476.0,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9775267100577183,
+      "grad_norm": 0.5121098756790161,
+      "learning_rate": 1.0226044226044227e-05,
+      "loss": 0.8121,
+      "mean_token_accuracy": 0.8445978663861752,
+      "num_tokens": 10276795.0,
+      "step": 1990
+    },
+    {
+      "epoch": 0.9824389045806214,
+      "grad_norm": 0.22474397718906403,
+      "learning_rate": 1.017690417690418e-05,
+      "loss": 0.7328,
+      "mean_token_accuracy": 0.8750261560082435,
+      "num_tokens": 10327432.0,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 4070,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4970062051430400.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f63465acd95be88e019f04b736064426478945f5bc6a4d825ebd1918a32c185
+size 5624

checkpoint-2500/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 256,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-2500/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

checkpoint-2500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7269e6a62d4f8e469e1ac91c3fc87c3622c15acaed0baf41b64c382efff51963
+size 309900448

checkpoint-2500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:524626fa184d64a8deed6d2f16691d94fc9500c69b8bff2b53f8c8c2301bd2ba
+size 619836730

checkpoint-2500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b66e3cc7c452b707ddac5caf0aa17618afb9bc1a0333600a22c4afb353f3165
+size 14244

checkpoint-2500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26c1a0b563555b92f5a3125e4fdd77875692a9192d373c1789d607dee3f6fedd
+size 1064

checkpoint-2500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2500/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

checkpoint-2500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-2500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2284 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.2284170453149945,
+  "eval_steps": 500,
+  "global_step": 2500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004912194522903107,
+      "grad_norm": 2.5265462398529053,
+      "learning_rate": 1.995577395577396e-05,
+      "loss": 5.7783,
+      "mean_token_accuracy": 0.17638254687190055,
+      "num_tokens": 50745.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.009824389045806214,
+      "grad_norm": 1.7381863594055176,
+      "learning_rate": 1.9906633906633906e-05,
+      "loss": 5.4596,
+      "mean_token_accuracy": 0.20633984543383121,
+      "num_tokens": 101681.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.01473658356870932,
+      "grad_norm": 2.0286130905151367,
+      "learning_rate": 1.985749385749386e-05,
+      "loss": 5.2069,
+      "mean_token_accuracy": 0.2354225989431143,
+      "num_tokens": 153620.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.019648778091612428,
+      "grad_norm": 2.2828938961029053,
+      "learning_rate": 1.980835380835381e-05,
+      "loss": 5.0637,
+      "mean_token_accuracy": 0.2486753471195698,
+      "num_tokens": 205428.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.024560972614515536,
+      "grad_norm": 2.247742176055908,
+      "learning_rate": 1.975921375921376e-05,
+      "loss": 4.7071,
+      "mean_token_accuracy": 0.2982919864356518,
+      "num_tokens": 260794.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.02947316713741864,
+      "grad_norm": 1.4552102088928223,
+      "learning_rate": 1.9710073710073712e-05,
+      "loss": 4.5951,
+      "mean_token_accuracy": 0.3140149611979723,
+      "num_tokens": 314216.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.03438536166032175,
+      "grad_norm": 2.032104969024658,
+      "learning_rate": 1.9660933660933663e-05,
+      "loss": 4.3963,
+      "mean_token_accuracy": 0.33228743858635423,
+      "num_tokens": 365608.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.039297556183224856,
+      "grad_norm": 1.5947270393371582,
+      "learning_rate": 1.9611793611793614e-05,
+      "loss": 4.2578,
+      "mean_token_accuracy": 0.3510261565446854,
+      "num_tokens": 418509.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.04420975070612796,
+      "grad_norm": 1.9174288511276245,
+      "learning_rate": 1.9562653562653564e-05,
+      "loss": 4.0457,
+      "mean_token_accuracy": 0.38185270577669145,
+      "num_tokens": 472608.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.04912194522903107,
+      "grad_norm": 1.5742830038070679,
+      "learning_rate": 1.9513513513513515e-05,
+      "loss": 4.0492,
+      "mean_token_accuracy": 0.37742224968969823,
+      "num_tokens": 521777.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.054034139751934177,
+      "grad_norm": 1.5624850988388062,
+      "learning_rate": 1.9464373464373466e-05,
+      "loss": 3.7053,
+      "mean_token_accuracy": 0.41850126534700394,
+      "num_tokens": 580161.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.05894633427483728,
+      "grad_norm": 2.199150562286377,
+      "learning_rate": 1.9415233415233417e-05,
+      "loss": 3.6982,
+      "mean_token_accuracy": 0.4235368125140667,
+      "num_tokens": 627843.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.06385852879774039,
+      "grad_norm": 1.8548036813735962,
+      "learning_rate": 1.9366093366093367e-05,
+      "loss": 3.3414,
+      "mean_token_accuracy": 0.4654690891504288,
+      "num_tokens": 681443.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.0687707233206435,
+      "grad_norm": 2.78169846534729,
+      "learning_rate": 1.9316953316953318e-05,
+      "loss": 3.2679,
+      "mean_token_accuracy": 0.4711888641119003,
+      "num_tokens": 733457.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.07368291784354661,
+      "grad_norm": 2.4450321197509766,
+      "learning_rate": 1.926781326781327e-05,
+      "loss": 3.3377,
+      "mean_token_accuracy": 0.4799527756869793,
+      "num_tokens": 787769.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.07859511236644971,
+      "grad_norm": 1.7717996835708618,
+      "learning_rate": 1.921867321867322e-05,
+      "loss": 2.8853,
+      "mean_token_accuracy": 0.541524414718151,
+      "num_tokens": 843485.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.08350730688935282,
+      "grad_norm": 2.8402254581451416,
+      "learning_rate": 1.9169533169533174e-05,
+      "loss": 2.862,
+      "mean_token_accuracy": 0.5626954190433026,
+      "num_tokens": 894003.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.08841950141225592,
+      "grad_norm": 1.5486701726913452,
+      "learning_rate": 1.912039312039312e-05,
+      "loss": 2.7533,
+      "mean_token_accuracy": 0.5848119542002678,
+      "num_tokens": 949726.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.09333169593515903,
+      "grad_norm": 1.3785852193832397,
+      "learning_rate": 1.9071253071253072e-05,
+      "loss": 2.7602,
+      "mean_token_accuracy": 0.5894295200705528,
+      "num_tokens": 1000146.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.09824389045806214,
+      "grad_norm": 1.6824640035629272,
+      "learning_rate": 1.9022113022113026e-05,
+      "loss": 2.6345,
+      "mean_token_accuracy": 0.5961507339030504,
+      "num_tokens": 1050142.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.10315608498096525,
+      "grad_norm": 1.0604822635650635,
+      "learning_rate": 1.8972972972972973e-05,
+      "loss": 2.4517,
+      "mean_token_accuracy": 0.6296438351273537,
+      "num_tokens": 1099646.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.10806827950386835,
+      "grad_norm": 1.9105230569839478,
+      "learning_rate": 1.8923832923832924e-05,
+      "loss": 2.4563,
+      "mean_token_accuracy": 0.6365545220673084,
+      "num_tokens": 1148100.0,
+      "step": 220
+    },
+    {
+      "epoch": 0.11298047402677146,
+      "grad_norm": 1.41056227684021,
+      "learning_rate": 1.8874692874692878e-05,
+      "loss": 2.4017,
+      "mean_token_accuracy": 0.6691348008811474,
+      "num_tokens": 1198987.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.11789266854967456,
+      "grad_norm": 1.0573596954345703,
+      "learning_rate": 1.8825552825552825e-05,
+      "loss": 2.3199,
+      "mean_token_accuracy": 0.6731609679758549,
+      "num_tokens": 1249335.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.12280486307257768,
+      "grad_norm": 1.6629279851913452,
+      "learning_rate": 1.877641277641278e-05,
+      "loss": 1.9335,
+      "mean_token_accuracy": 0.7327558636665344,
+      "num_tokens": 1303157.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.12771705759548077,
+      "grad_norm": 1.704005479812622,
+      "learning_rate": 1.872727272727273e-05,
+      "loss": 2.1897,
+      "mean_token_accuracy": 0.6974137671291828,
+      "num_tokens": 1355455.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.1326292521183839,
+      "grad_norm": 1.0553226470947266,
+      "learning_rate": 1.8678132678132678e-05,
+      "loss": 1.9321,
+      "mean_token_accuracy": 0.7327657997608185,
+      "num_tokens": 1407508.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.137541446641287,
+      "grad_norm": 1.101886510848999,
+      "learning_rate": 1.8628992628992632e-05,
+      "loss": 1.9929,
+      "mean_token_accuracy": 0.7272698871791363,
+      "num_tokens": 1460595.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.1424536411641901,
+      "grad_norm": 2.005901575088501,
+      "learning_rate": 1.8579852579852583e-05,
+      "loss": 1.7147,
+      "mean_token_accuracy": 0.7604942478239536,
+      "num_tokens": 1512647.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.14736583568709322,
+      "grad_norm": 7.757036209106445,
+      "learning_rate": 1.853071253071253e-05,
+      "loss": 1.7571,
+      "mean_token_accuracy": 0.7603825606405735,
+      "num_tokens": 1565516.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.1522780302099963,
+      "grad_norm": 0.8850768208503723,
+      "learning_rate": 1.8481572481572484e-05,
+      "loss": 1.5439,
+      "mean_token_accuracy": 0.7915346205234528,
+      "num_tokens": 1620194.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.15719022473289943,
+      "grad_norm": 1.2887756824493408,
+      "learning_rate": 1.8432432432432435e-05,
+      "loss": 1.5419,
+      "mean_token_accuracy": 0.7885693073272705,
+      "num_tokens": 1672317.0,
+      "step": 320
+    },
+    {
+      "epoch": 0.16210241925580254,
+      "grad_norm": 2.562720537185669,
+      "learning_rate": 1.8383292383292385e-05,
+      "loss": 1.5783,
+      "mean_token_accuracy": 0.7889993876218796,
+      "num_tokens": 1728513.0,
+      "step": 330
+    },
+    {
+      "epoch": 0.16701461377870563,
+      "grad_norm": 2.907665491104126,
+      "learning_rate": 1.8334152334152336e-05,
+      "loss": 1.6573,
+      "mean_token_accuracy": 0.7675686649978161,
+      "num_tokens": 1777759.0,
+      "step": 340
+    },
+    {
+      "epoch": 0.17192680830160875,
+      "grad_norm": 0.8430731892585754,
+      "learning_rate": 1.8285012285012287e-05,
+      "loss": 1.664,
+      "mean_token_accuracy": 0.7618721649050713,
+      "num_tokens": 1833279.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.17683900282451184,
+      "grad_norm": 1.1680371761322021,
+      "learning_rate": 1.8235872235872238e-05,
+      "loss": 1.515,
+      "mean_token_accuracy": 0.7789990782737732,
+      "num_tokens": 1882531.0,
+      "step": 360
+    },
+    {
+      "epoch": 0.18175119734741496,
+      "grad_norm": 2.009002208709717,
+      "learning_rate": 1.818673218673219e-05,
+      "loss": 1.4555,
+      "mean_token_accuracy": 0.7983467862010002,
+      "num_tokens": 1934619.0,
+      "step": 370
+    },
+    {
+      "epoch": 0.18666339187031805,
+      "grad_norm": 1.3894531726837158,
+      "learning_rate": 1.813759213759214e-05,
+      "loss": 1.6206,
+      "mean_token_accuracy": 0.7681202955543995,
+      "num_tokens": 1987231.0,
+      "step": 380
+    },
+    {
+      "epoch": 0.19157558639322117,
+      "grad_norm": 0.7266082763671875,
+      "learning_rate": 1.808845208845209e-05,
+      "loss": 1.3022,
+      "mean_token_accuracy": 0.818102091550827,
+      "num_tokens": 2039985.0,
+      "step": 390
+    },
+    {
+      "epoch": 0.1964877809161243,
+      "grad_norm": 0.7502278089523315,
+      "learning_rate": 1.803931203931204e-05,
+      "loss": 1.3902,
+      "mean_token_accuracy": 0.792433574795723,
+      "num_tokens": 2092178.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.20139997543902738,
+      "grad_norm": 0.8366674780845642,
+      "learning_rate": 1.799017199017199e-05,
+      "loss": 1.5385,
+      "mean_token_accuracy": 0.7903823673725128,
+      "num_tokens": 2151243.0,
+      "step": 410
+    },
+    {
+      "epoch": 0.2063121699619305,
+      "grad_norm": 0.7726922035217285,
+      "learning_rate": 1.7941031941031942e-05,
+      "loss": 1.3529,
+      "mean_token_accuracy": 0.8017133295536041,
+      "num_tokens": 2201072.0,
+      "step": 420
+    },
+    {
+      "epoch": 0.2112243644848336,
+      "grad_norm": 0.650055468082428,
+      "learning_rate": 1.7891891891891893e-05,
+      "loss": 1.4312,
+      "mean_token_accuracy": 0.7957115054130555,
+      "num_tokens": 2256591.0,
+      "step": 430
+    },
+    {
+      "epoch": 0.2161365590077367,
+      "grad_norm": 0.9430303573608398,
+      "learning_rate": 1.7842751842751843e-05,
+      "loss": 1.1938,
+      "mean_token_accuracy": 0.8211165018379688,
+      "num_tokens": 2308048.0,
+      "step": 440
+    },
+    {
+      "epoch": 0.22104875353063982,
+      "grad_norm": 0.9191327691078186,
+      "learning_rate": 1.7793611793611794e-05,
+      "loss": 1.1662,
+      "mean_token_accuracy": 0.8298586897552014,
+      "num_tokens": 2363573.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.22596094805354291,
+      "grad_norm": 0.7493109703063965,
+      "learning_rate": 1.7744471744471745e-05,
+      "loss": 1.5908,
+      "mean_token_accuracy": 0.7651749603450299,
+      "num_tokens": 2413187.0,
+      "step": 460
+    },
+    {
+      "epoch": 0.23087314257644603,
+      "grad_norm": 0.5522422790527344,
+      "learning_rate": 1.7695331695331696e-05,
+      "loss": 1.3707,
+      "mean_token_accuracy": 0.7843399420380592,
+      "num_tokens": 2468041.0,
+      "step": 470
+    },
+    {
+      "epoch": 0.23578533709934912,
+      "grad_norm": 0.6577270030975342,
+      "learning_rate": 1.764619164619165e-05,
+      "loss": 1.4679,
+      "mean_token_accuracy": 0.7856365032494068,
+      "num_tokens": 2517753.0,
+      "step": 480
+    },
+    {
+      "epoch": 0.24069753162225224,
+      "grad_norm": 0.9699747562408447,
+      "learning_rate": 1.7597051597051597e-05,
+      "loss": 1.3493,
+      "mean_token_accuracy": 0.8016418114304542,
+      "num_tokens": 2568072.0,
+      "step": 490
+    },
+    {
+      "epoch": 0.24560972614515536,
+      "grad_norm": 2.0955657958984375,
+      "learning_rate": 1.7547911547911548e-05,
+      "loss": 0.9634,
+      "mean_token_accuracy": 0.8412673205137253,
+      "num_tokens": 2617143.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.25052192066805845,
+      "grad_norm": 0.7577691078186035,
+      "learning_rate": 1.7498771498771502e-05,
+      "loss": 1.0889,
+      "mean_token_accuracy": 0.8479016363620758,
+      "num_tokens": 2669318.0,
+      "step": 510
+    },
+    {
+      "epoch": 0.25543411519096154,
+      "grad_norm": 0.5891643762588501,
+      "learning_rate": 1.744963144963145e-05,
+      "loss": 1.1811,
+      "mean_token_accuracy": 0.82891755849123,
+      "num_tokens": 2723151.0,
+      "step": 520
+    },
+    {
+      "epoch": 0.2603463097138647,
+      "grad_norm": 0.7815893292427063,
+      "learning_rate": 1.74004914004914e-05,
+      "loss": 1.3488,
+      "mean_token_accuracy": 0.7971963949501515,
+      "num_tokens": 2774274.0,
+      "step": 530
+    },
+    {
+      "epoch": 0.2652585042367678,
+      "grad_norm": 0.365824818611145,
+      "learning_rate": 1.7351351351351354e-05,
+      "loss": 1.129,
+      "mean_token_accuracy": 0.8214888103306294,
+      "num_tokens": 2825301.0,
+      "step": 540
+    },
+    {
+      "epoch": 0.27017069875967087,
+      "grad_norm": 0.5682836174964905,
+      "learning_rate": 1.73022113022113e-05,
+      "loss": 1.0752,
+      "mean_token_accuracy": 0.8513655051589012,
+      "num_tokens": 2877767.0,
+      "step": 550
+    },
+    {
+      "epoch": 0.275082893282574,
+      "grad_norm": 0.9484438300132751,
+      "learning_rate": 1.7253071253071256e-05,
+      "loss": 1.1606,
+      "mean_token_accuracy": 0.8191152907907963,
+      "num_tokens": 2929216.0,
+      "step": 560
+    },
+    {
+      "epoch": 0.2799950878054771,
+      "grad_norm": 0.7097403407096863,
+      "learning_rate": 1.7203931203931206e-05,
+      "loss": 1.0245,
+      "mean_token_accuracy": 0.8594455644488335,
+      "num_tokens": 2983287.0,
+      "step": 570
+    },
+    {
+      "epoch": 0.2849072823283802,
+      "grad_norm": 2.197983741760254,
+      "learning_rate": 1.7154791154791157e-05,
+      "loss": 1.0116,
+      "mean_token_accuracy": 0.8458577767014503,
+      "num_tokens": 3036426.0,
+      "step": 580
+    },
+    {
+      "epoch": 0.2898194768512833,
+      "grad_norm": 0.9750831723213196,
+      "learning_rate": 1.7105651105651108e-05,
+      "loss": 1.2482,
+      "mean_token_accuracy": 0.8097934015095234,
+      "num_tokens": 3090471.0,
+      "step": 590
+    },
+    {
+      "epoch": 0.29473167137418643,
+      "grad_norm": 0.7452868223190308,
+      "learning_rate": 1.705651105651106e-05,
+      "loss": 0.9643,
+      "mean_token_accuracy": 0.8562554508447647,
+      "num_tokens": 3143095.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.2996438658970895,
+      "grad_norm": 0.3684370815753937,
+      "learning_rate": 1.700737100737101e-05,
+      "loss": 0.8587,
+      "mean_token_accuracy": 0.8684959009289741,
+      "num_tokens": 3193778.0,
+      "step": 610
+    },
+    {
+      "epoch": 0.3045560604199926,
+      "grad_norm": 0.4814823567867279,
+      "learning_rate": 1.695823095823096e-05,
+      "loss": 0.8246,
+      "mean_token_accuracy": 0.8646811529994011,
+      "num_tokens": 3249776.0,
+      "step": 620
+    },
+    {
+      "epoch": 0.30946825494289576,
+      "grad_norm": 0.6298699378967285,
+      "learning_rate": 1.690909090909091e-05,
+      "loss": 1.0043,
+      "mean_token_accuracy": 0.849489164352417,
+      "num_tokens": 3301301.0,
+      "step": 630
+    },
+    {
+      "epoch": 0.31438044946579885,
+      "grad_norm": 0.6802086234092712,
+      "learning_rate": 1.685995085995086e-05,
+      "loss": 0.9932,
+      "mean_token_accuracy": 0.8412040494382381,
+      "num_tokens": 3351834.0,
+      "step": 640
+    },
+    {
+      "epoch": 0.31929264398870194,
+      "grad_norm": 0.4441145062446594,
+      "learning_rate": 1.6810810810810812e-05,
+      "loss": 0.9093,
+      "mean_token_accuracy": 0.8644197151064873,
+      "num_tokens": 3402630.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.3242048385116051,
+      "grad_norm": 0.5664909482002258,
+      "learning_rate": 1.6761670761670763e-05,
+      "loss": 1.0511,
+      "mean_token_accuracy": 0.8302886992692947,
+      "num_tokens": 3453600.0,
+      "step": 660
+    },
+    {
+      "epoch": 0.3291170330345082,
+      "grad_norm": 0.898231029510498,
+      "learning_rate": 1.6712530712530714e-05,
+      "loss": 1.2663,
+      "mean_token_accuracy": 0.7889795318245888,
+      "num_tokens": 3501154.0,
+      "step": 670
+    },
+    {
+      "epoch": 0.33402922755741127,
+      "grad_norm": 0.49926525354385376,
+      "learning_rate": 1.6663390663390664e-05,
+      "loss": 1.0539,
+      "mean_token_accuracy": 0.8462485030293465,
+      "num_tokens": 3552076.0,
+      "step": 680
+    },
+    {
+      "epoch": 0.33894142208031436,
+      "grad_norm": 0.5327655673027039,
+      "learning_rate": 1.6614250614250615e-05,
+      "loss": 1.0757,
+      "mean_token_accuracy": 0.8260165579617024,
+      "num_tokens": 3602651.0,
+      "step": 690
+    },
+    {
+      "epoch": 0.3438536166032175,
+      "grad_norm": 0.5295992493629456,
+      "learning_rate": 1.6565110565110566e-05,
+      "loss": 0.9826,
+      "mean_token_accuracy": 0.8445935681462288,
+      "num_tokens": 3656310.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.3487658111261206,
+      "grad_norm": 0.584396243095398,
+      "learning_rate": 1.6515970515970517e-05,
+      "loss": 0.9771,
+      "mean_token_accuracy": 0.8513481065630912,
+      "num_tokens": 3712764.0,
+      "step": 710
+    },
+    {
+      "epoch": 0.3536780056490237,
+      "grad_norm": 0.5786782503128052,
+      "learning_rate": 1.6466830466830467e-05,
+      "loss": 1.0812,
+      "mean_token_accuracy": 0.8179432228207588,
+      "num_tokens": 3761995.0,
+      "step": 720
+    },
+    {
+      "epoch": 0.35859020017192683,
+      "grad_norm": 0.3496871888637543,
+      "learning_rate": 1.6417690417690418e-05,
+      "loss": 1.0407,
+      "mean_token_accuracy": 0.8126879334449768,
+      "num_tokens": 3811493.0,
+      "step": 730
+    },
+    {
+      "epoch": 0.3635023946948299,
+      "grad_norm": 0.5038619041442871,
+      "learning_rate": 1.636855036855037e-05,
+      "loss": 1.1602,
+      "mean_token_accuracy": 0.8141254656016826,
+      "num_tokens": 3859376.0,
+      "step": 740
+    },
+    {
+      "epoch": 0.368414589217733,
+      "grad_norm": 0.4643881320953369,
+      "learning_rate": 1.631941031941032e-05,
+      "loss": 0.8819,
+      "mean_token_accuracy": 0.8545275427401066,
+      "num_tokens": 3912052.0,
+      "step": 750
+    },
+    {
+      "epoch": 0.3733267837406361,
+      "grad_norm": 0.4222355782985687,
+      "learning_rate": 1.6270270270270274e-05,
+      "loss": 0.8333,
+      "mean_token_accuracy": 0.8552621826529503,
+      "num_tokens": 3965078.0,
+      "step": 760
+    },
+    {
+      "epoch": 0.37823897826353925,
+      "grad_norm": 0.4513651728630066,
+      "learning_rate": 1.6221130221130224e-05,
+      "loss": 1.0386,
+      "mean_token_accuracy": 0.8259748943150044,
+      "num_tokens": 4015489.0,
+      "step": 770
+    },
+    {
+      "epoch": 0.38315117278644234,
+      "grad_norm": 0.5292590856552124,
+      "learning_rate": 1.6171990171990172e-05,
+      "loss": 0.8968,
+      "mean_token_accuracy": 0.8551326602697372,
+      "num_tokens": 4067831.0,
+      "step": 780
+    },
+    {
+      "epoch": 0.38806336730934543,
+      "grad_norm": 0.49815845489501953,
+      "learning_rate": 1.6122850122850126e-05,
+      "loss": 1.0808,
+      "mean_token_accuracy": 0.8252614364027977,
+      "num_tokens": 4117945.0,
+      "step": 790
+    },
+    {
+      "epoch": 0.3929755618322486,
+      "grad_norm": 0.339728981256485,
+      "learning_rate": 1.6073710073710077e-05,
+      "loss": 0.9569,
+      "mean_token_accuracy": 0.8419950112700463,
+      "num_tokens": 4171138.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.39788775635515167,
+      "grad_norm": 0.4530418813228607,
+      "learning_rate": 1.6024570024570024e-05,
+      "loss": 1.1355,
+      "mean_token_accuracy": 0.8250428631901741,
+      "num_tokens": 4223765.0,
+      "step": 810
+    },
+    {
+      "epoch": 0.40279995087805476,
+      "grad_norm": 0.5202032923698425,
+      "learning_rate": 1.5975429975429978e-05,
+      "loss": 0.8306,
+      "mean_token_accuracy": 0.865328436344862,
+      "num_tokens": 4278056.0,
+      "step": 820
+    },
+    {
+      "epoch": 0.4077121454009579,
+      "grad_norm": 0.4732300043106079,
+      "learning_rate": 1.592628992628993e-05,
+      "loss": 1.3396,
+      "mean_token_accuracy": 0.783781211823225,
+      "num_tokens": 4326704.0,
+      "step": 830
+    },
+    {
+      "epoch": 0.412624339923861,
+      "grad_norm": 0.49258068203926086,
+      "learning_rate": 1.5877149877149876e-05,
+      "loss": 0.8462,
+      "mean_token_accuracy": 0.8517311483621597,
+      "num_tokens": 4378538.0,
+      "step": 840
+    },
+    {
+      "epoch": 0.4175365344467641,
+      "grad_norm": 0.8045883774757385,
+      "learning_rate": 1.582800982800983e-05,
+      "loss": 0.9785,
+      "mean_token_accuracy": 0.8369067624211312,
+      "num_tokens": 4429893.0,
+      "step": 850
+    },
+    {
+      "epoch": 0.4224487289696672,
+      "grad_norm": 0.361854612827301,
+      "learning_rate": 1.577886977886978e-05,
+      "loss": 0.936,
+      "mean_token_accuracy": 0.8446702107787132,
+      "num_tokens": 4481594.0,
+      "step": 860
+    },
+    {
+      "epoch": 0.4273609234925703,
+      "grad_norm": 0.593479573726654,
+      "learning_rate": 1.572972972972973e-05,
+      "loss": 0.8245,
+      "mean_token_accuracy": 0.8750210002064704,
+      "num_tokens": 4534098.0,
+      "step": 870
+    },
+    {
+      "epoch": 0.4322731180154734,
+      "grad_norm": 0.31826287508010864,
+      "learning_rate": 1.5680589680589682e-05,
+      "loss": 0.94,
+      "mean_token_accuracy": 0.8408755764365197,
+      "num_tokens": 4587111.0,
+      "step": 880
+    },
+    {
+      "epoch": 0.4371853125383765,
+      "grad_norm": 1.4076229333877563,
+      "learning_rate": 1.5631449631449633e-05,
+      "loss": 1.0176,
+      "mean_token_accuracy": 0.8321189761161805,
+      "num_tokens": 4640388.0,
+      "step": 890
+    },
+    {
+      "epoch": 0.44209750706127965,
+      "grad_norm": 0.6677824854850769,
+      "learning_rate": 1.5582309582309584e-05,
+      "loss": 1.2891,
+      "mean_token_accuracy": 0.7943175598978996,
+      "num_tokens": 4691468.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.44700970158418274,
+      "grad_norm": 0.4233896732330322,
+      "learning_rate": 1.5533169533169535e-05,
+      "loss": 1.1053,
+      "mean_token_accuracy": 0.8279901027679444,
+      "num_tokens": 4741844.0,
+      "step": 910
+    },
+    {
+      "epoch": 0.45192189610708583,
+      "grad_norm": 0.35591593384742737,
+      "learning_rate": 1.5484029484029485e-05,
+      "loss": 0.8832,
+      "mean_token_accuracy": 0.8491488620638847,
+      "num_tokens": 4793741.0,
+      "step": 920
+    },
+    {
+      "epoch": 0.4568340906299889,
+      "grad_norm": 0.6583911180496216,
+      "learning_rate": 1.5434889434889436e-05,
+      "loss": 0.8387,
+      "mean_token_accuracy": 0.8648917526006699,
+      "num_tokens": 4848466.0,
+      "step": 930
+    },
+    {
+      "epoch": 0.46174628515289207,
+      "grad_norm": 0.4065934717655182,
+      "learning_rate": 1.5385749385749387e-05,
+      "loss": 0.9242,
+      "mean_token_accuracy": 0.8412024281919003,
+      "num_tokens": 4901992.0,
+      "step": 940
+    },
+    {
+      "epoch": 0.46665847967579516,
+      "grad_norm": 0.3458426594734192,
+      "learning_rate": 1.5336609336609338e-05,
+      "loss": 0.8545,
+      "mean_token_accuracy": 0.855231161415577,
+      "num_tokens": 4956964.0,
+      "step": 950
+    },
+    {
+      "epoch": 0.47157067419869825,
+      "grad_norm": 0.6710091233253479,
+      "learning_rate": 1.5287469287469288e-05,
+      "loss": 0.9583,
+      "mean_token_accuracy": 0.8393168188631535,
+      "num_tokens": 5011287.0,
+      "step": 960
+    },
+    {
+      "epoch": 0.4764828687216014,
+      "grad_norm": 0.3753456771373749,
+      "learning_rate": 1.5238329238329239e-05,
+      "loss": 0.9738,
+      "mean_token_accuracy": 0.8375437319278717,
+      "num_tokens": 5061714.0,
+      "step": 970
+    },
+    {
+      "epoch": 0.4813950632445045,
+      "grad_norm": 1.2011836767196655,
+      "learning_rate": 1.5189189189189191e-05,
+      "loss": 1.0972,
+      "mean_token_accuracy": 0.8070526115596295,
+      "num_tokens": 5114645.0,
+      "step": 980
+    },
+    {
+      "epoch": 0.4863072577674076,
+      "grad_norm": 0.37889617681503296,
+      "learning_rate": 1.5140049140049142e-05,
+      "loss": 0.9442,
+      "mean_token_accuracy": 0.8458199493587018,
+      "num_tokens": 5165485.0,
+      "step": 990
+    },
+    {
+      "epoch": 0.4912194522903107,
+      "grad_norm": 0.6613748669624329,
+      "learning_rate": 1.5090909090909091e-05,
+      "loss": 1.0196,
+      "mean_token_accuracy": 0.8272999472916126,
+      "num_tokens": 5216189.0,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4961316468132138,
+      "grad_norm": 0.7825655937194824,
+      "learning_rate": 1.5041769041769044e-05,
+      "loss": 1.011,
+      "mean_token_accuracy": 0.8262499138712883,
+      "num_tokens": 5269248.0,
+      "step": 1010
+    },
+    {
+      "epoch": 0.5010438413361169,
+      "grad_norm": 0.2106683850288391,
+      "learning_rate": 1.4992628992628994e-05,
+      "loss": 0.9098,
+      "mean_token_accuracy": 0.8512444771826267,
+      "num_tokens": 5322524.0,
+      "step": 1020
+    },
+    {
+      "epoch": 0.50595603585902,
+      "grad_norm": 0.8093978762626648,
+      "learning_rate": 1.4943488943488943e-05,
+      "loss": 1.2403,
+      "mean_token_accuracy": 0.7969906754791737,
+      "num_tokens": 5370123.0,
+      "step": 1030
+    },
+    {
+      "epoch": 0.5108682303819231,
+      "grad_norm": 0.5412647724151611,
+      "learning_rate": 1.4894348894348896e-05,
+      "loss": 0.8821,
+      "mean_token_accuracy": 0.8460625484585762,
+      "num_tokens": 5422125.0,
+      "step": 1040
+    },
+    {
+      "epoch": 0.5157804249048262,
+      "grad_norm": 0.5411800146102905,
+      "learning_rate": 1.4845208845208847e-05,
+      "loss": 1.0804,
+      "mean_token_accuracy": 0.8199978180229663,
+      "num_tokens": 5472127.0,
+      "step": 1050
+    },
+    {
+      "epoch": 0.5206926194277294,
+      "grad_norm": 0.4349406063556671,
+      "learning_rate": 1.4796068796068797e-05,
+      "loss": 0.7559,
+      "mean_token_accuracy": 0.8662853054702282,
+      "num_tokens": 5525028.0,
+      "step": 1060
+    },
+    {
+      "epoch": 0.5256048139506324,
+      "grad_norm": 0.4738285541534424,
+      "learning_rate": 1.4746928746928748e-05,
+      "loss": 1.1225,
+      "mean_token_accuracy": 0.8103010386228562,
+      "num_tokens": 5570859.0,
+      "step": 1070
+    },
+    {
+      "epoch": 0.5305170084735356,
+      "grad_norm": 0.6644457578659058,
+      "learning_rate": 1.46977886977887e-05,
+      "loss": 0.9334,
+      "mean_token_accuracy": 0.8213524237275124,
+      "num_tokens": 5618933.0,
+      "step": 1080
+    },
+    {
+      "epoch": 0.5354292029964387,
+      "grad_norm": 0.3038887083530426,
+      "learning_rate": 1.464864864864865e-05,
+      "loss": 1.0292,
+      "mean_token_accuracy": 0.810487725585699,
+      "num_tokens": 5664922.0,
+      "step": 1090
+    },
+    {
+      "epoch": 0.5403413975193417,
+      "grad_norm": 0.26083576679229736,
+      "learning_rate": 1.45995085995086e-05,
+      "loss": 0.9084,
+      "mean_token_accuracy": 0.836492794752121,
+      "num_tokens": 5716671.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5452535920422449,
+      "grad_norm": 0.36848321557044983,
+      "learning_rate": 1.4550368550368553e-05,
+      "loss": 1.1544,
+      "mean_token_accuracy": 0.8033395648002625,
+      "num_tokens": 5764576.0,
+      "step": 1110
+    },
+    {
+      "epoch": 0.550165786565148,
+      "grad_norm": 0.3338620662689209,
+      "learning_rate": 1.4501228501228502e-05,
+      "loss": 1.0114,
+      "mean_token_accuracy": 0.8188160583376884,
+      "num_tokens": 5816699.0,
+      "step": 1120
+    },
+    {
+      "epoch": 0.5550779810880511,
+      "grad_norm": 0.3278094232082367,
+      "learning_rate": 1.4452088452088452e-05,
+      "loss": 0.6189,
+      "mean_token_accuracy": 0.8895823881030083,
+      "num_tokens": 5874257.0,
+      "step": 1130
+    },
+    {
+      "epoch": 0.5599901756109542,
+      "grad_norm": 0.4236205220222473,
+      "learning_rate": 1.4402948402948405e-05,
+      "loss": 0.9474,
+      "mean_token_accuracy": 0.8435555145144462,
+      "num_tokens": 5925628.0,
+      "step": 1140
+    },
+    {
+      "epoch": 0.5649023701338572,
+      "grad_norm": 0.21693912148475647,
+      "learning_rate": 1.4353808353808354e-05,
+      "loss": 0.9109,
+      "mean_token_accuracy": 0.842586936801672,
+      "num_tokens": 5977130.0,
+      "step": 1150
+    },
+    {
+      "epoch": 0.5698145646567604,
+      "grad_norm": 0.6288137435913086,
+      "learning_rate": 1.4304668304668306e-05,
+      "loss": 0.7005,
+      "mean_token_accuracy": 0.877720920741558,
+      "num_tokens": 6032405.0,
+      "step": 1160
+    },
+    {
+      "epoch": 0.5747267591796635,
+      "grad_norm": 0.29411551356315613,
+      "learning_rate": 1.4255528255528257e-05,
+      "loss": 0.9163,
+      "mean_token_accuracy": 0.8345251567661762,
+      "num_tokens": 6081769.0,
+      "step": 1170
+    },
+    {
+      "epoch": 0.5796389537025666,
+      "grad_norm": 0.3542836308479309,
+      "learning_rate": 1.420638820638821e-05,
+      "loss": 0.8983,
+      "mean_token_accuracy": 0.8478083908557892,
+      "num_tokens": 6131660.0,
+      "step": 1180
+    },
+    {
+      "epoch": 0.5845511482254697,
+      "grad_norm": 0.6326059103012085,
+      "learning_rate": 1.4157248157248158e-05,
+      "loss": 1.055,
+      "mean_token_accuracy": 0.8133970260620117,
+      "num_tokens": 6177706.0,
+      "step": 1190
+    },
+    {
+      "epoch": 0.5894633427483729,
+      "grad_norm": 0.39950093626976013,
+      "learning_rate": 1.410810810810811e-05,
+      "loss": 0.6446,
+      "mean_token_accuracy": 0.8883207038044929,
+      "num_tokens": 6231530.0,
+      "step": 1200
+    },
+    {
+      "epoch": 0.5943755372712759,
+      "grad_norm": 1.4949785470962524,
+      "learning_rate": 1.4058968058968062e-05,
+      "loss": 0.8527,
+      "mean_token_accuracy": 0.8495218820869923,
+      "num_tokens": 6284936.0,
+      "step": 1210
+    },
+    {
+      "epoch": 0.599287731794179,
+      "grad_norm": 0.5013307332992554,
+      "learning_rate": 1.400982800982801e-05,
+      "loss": 0.9342,
+      "mean_token_accuracy": 0.8461359746754169,
+      "num_tokens": 6338328.0,
+      "step": 1220
+    },
+    {
+      "epoch": 0.6041999263170822,
+      "grad_norm": 0.4373924136161804,
+      "learning_rate": 1.3960687960687961e-05,
+      "loss": 0.7957,
+      "mean_token_accuracy": 0.8590179920196533,
+      "num_tokens": 6391247.0,
+      "step": 1230
+    },
+    {
+      "epoch": 0.6091121208399852,
+      "grad_norm": 0.30794695019721985,
+      "learning_rate": 1.3911547911547914e-05,
+      "loss": 0.9578,
+      "mean_token_accuracy": 0.8326818406581878,
+      "num_tokens": 6444004.0,
+      "step": 1240
+    },
+    {
+      "epoch": 0.6140243153628884,
+      "grad_norm": 0.3918187618255615,
+      "learning_rate": 1.3862407862407863e-05,
+      "loss": 0.8732,
+      "mean_token_accuracy": 0.8658828616142273,
+      "num_tokens": 6495578.0,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6189365098857915,
+      "grad_norm": 0.2752901315689087,
+      "learning_rate": 1.3813267813267814e-05,
+      "loss": 0.9506,
+      "mean_token_accuracy": 0.8301159009337425,
+      "num_tokens": 6545604.0,
+      "step": 1260
+    },
+    {
+      "epoch": 0.6238487044086946,
+      "grad_norm": 0.460627943277359,
+      "learning_rate": 1.3764127764127766e-05,
+      "loss": 1.0007,
+      "mean_token_accuracy": 0.8227074682712555,
+      "num_tokens": 6594381.0,
+      "step": 1270
+    },
+    {
+      "epoch": 0.6287608989315977,
+      "grad_norm": 0.4065866768360138,
+      "learning_rate": 1.3714987714987715e-05,
+      "loss": 0.8056,
+      "mean_token_accuracy": 0.8646926179528236,
+      "num_tokens": 6649190.0,
+      "step": 1280
+    },
+    {
+      "epoch": 0.6336730934545008,
+      "grad_norm": 0.4343368113040924,
+      "learning_rate": 1.3665847665847667e-05,
+      "loss": 0.8879,
+      "mean_token_accuracy": 0.8385777972638607,
+      "num_tokens": 6701394.0,
+      "step": 1290
+    },
+    {
+      "epoch": 0.6385852879774039,
+      "grad_norm": 0.5364151000976562,
+      "learning_rate": 1.3616707616707618e-05,
+      "loss": 0.9419,
+      "mean_token_accuracy": 0.8308121666312218,
+      "num_tokens": 6752270.0,
+      "step": 1300
+    },
+    {
+      "epoch": 0.643497482500307,
+      "grad_norm": 0.3982967734336853,
+      "learning_rate": 1.3567567567567567e-05,
+      "loss": 1.0305,
+      "mean_token_accuracy": 0.8274823799729347,
+      "num_tokens": 6805857.0,
+      "step": 1310
+    },
+    {
+      "epoch": 0.6484096770232102,
+      "grad_norm": 0.7117066383361816,
+      "learning_rate": 1.351842751842752e-05,
+      "loss": 1.0594,
+      "mean_token_accuracy": 0.8103688299655915,
+      "num_tokens": 6852455.0,
+      "step": 1320
+    },
+    {
+      "epoch": 0.6533218715461132,
+      "grad_norm": 0.3083662986755371,
+      "learning_rate": 1.346928746928747e-05,
+      "loss": 1.0412,
+      "mean_token_accuracy": 0.8186712831258773,
+      "num_tokens": 6896950.0,
+      "step": 1330
+    },
+    {
+      "epoch": 0.6582340660690164,
+      "grad_norm": 0.4959128499031067,
+      "learning_rate": 1.342014742014742e-05,
+      "loss": 0.9348,
+      "mean_token_accuracy": 0.8453299880027771,
+      "num_tokens": 6950814.0,
+      "step": 1340
+    },
+    {
+      "epoch": 0.6631462605919194,
+      "grad_norm": 0.8182358145713806,
+      "learning_rate": 1.3371007371007372e-05,
+      "loss": 1.0552,
+      "mean_token_accuracy": 0.8226786606013775,
+      "num_tokens": 7003460.0,
+      "step": 1350
+    },
+    {
+      "epoch": 0.6680584551148225,
+      "grad_norm": 0.43365928530693054,
+      "learning_rate": 1.3321867321867323e-05,
+      "loss": 0.8795,
+      "mean_token_accuracy": 0.8458721756935119,
+      "num_tokens": 7054901.0,
+      "step": 1360
+    },
+    {
+      "epoch": 0.6729706496377257,
+      "grad_norm": 0.2876506745815277,
+      "learning_rate": 1.3272727272727275e-05,
+      "loss": 0.8282,
+      "mean_token_accuracy": 0.8459444969892502,
+      "num_tokens": 7106038.0,
+      "step": 1370
+    },
+    {
+      "epoch": 0.6778828441606287,
+      "grad_norm": 0.4010944068431854,
+      "learning_rate": 1.3223587223587224e-05,
+      "loss": 0.7836,
+      "mean_token_accuracy": 0.8610207386314869,
+      "num_tokens": 7159651.0,
+      "step": 1380
+    },
+    {
+      "epoch": 0.6827950386835319,
+      "grad_norm": 0.19336983561515808,
+      "learning_rate": 1.3174447174447176e-05,
+      "loss": 1.0039,
+      "mean_token_accuracy": 0.8369563437998295,
+      "num_tokens": 7204811.0,
+      "step": 1390
+    },
+    {
+      "epoch": 0.687707233206435,
+      "grad_norm": 0.5056695938110352,
+      "learning_rate": 1.3125307125307127e-05,
+      "loss": 0.6854,
+      "mean_token_accuracy": 0.878055976331234,
+      "num_tokens": 7256836.0,
+      "step": 1400
+    },
+    {
+      "epoch": 0.692619427729338,
+      "grad_norm": 0.3462684750556946,
+      "learning_rate": 1.3076167076167076e-05,
+      "loss": 1.2627,
+      "mean_token_accuracy": 0.7998166553676128,
+      "num_tokens": 7308913.0,
+      "step": 1410
+    },
+    {
+      "epoch": 0.6975316222522412,
+      "grad_norm": 0.2867954671382904,
+      "learning_rate": 1.3027027027027029e-05,
+      "loss": 0.6718,
+      "mean_token_accuracy": 0.8842718601226807,
+      "num_tokens": 7365814.0,
+      "step": 1420
+    },
+    {
+      "epoch": 0.7024438167751443,
+      "grad_norm": 0.4659688472747803,
+      "learning_rate": 1.297788697788698e-05,
+      "loss": 1.1291,
+      "mean_token_accuracy": 0.8083386868238449,
+      "num_tokens": 7419238.0,
+      "step": 1430
+    },
+    {
+      "epoch": 0.7073560112980474,
+      "grad_norm": 0.41312354803085327,
+      "learning_rate": 1.2928746928746928e-05,
+      "loss": 0.8625,
+      "mean_token_accuracy": 0.8470474675297737,
+      "num_tokens": 7469177.0,
+      "step": 1440
+    },
+    {
+      "epoch": 0.7122682058209505,
+      "grad_norm": 0.5044501423835754,
+      "learning_rate": 1.2879606879606881e-05,
+      "loss": 0.8186,
+      "mean_token_accuracy": 0.8533941991627216,
+      "num_tokens": 7520617.0,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7171804003438537,
+      "grad_norm": 0.3712249994277954,
+      "learning_rate": 1.2830466830466832e-05,
+      "loss": 0.912,
+      "mean_token_accuracy": 0.838789189606905,
+      "num_tokens": 7569361.0,
+      "step": 1460
+    },
+    {
+      "epoch": 0.7220925948667567,
+      "grad_norm": 0.5090559720993042,
+      "learning_rate": 1.2781326781326782e-05,
+      "loss": 0.9559,
+      "mean_token_accuracy": 0.8298265844583511,
+      "num_tokens": 7619902.0,
+      "step": 1470
+    },
+    {
+      "epoch": 0.7270047893896598,
+      "grad_norm": 0.40056052803993225,
+      "learning_rate": 1.2732186732186733e-05,
+      "loss": 0.9697,
+      "mean_token_accuracy": 0.8409195326268672,
+      "num_tokens": 7671364.0,
+      "step": 1480
+    },
+    {
+      "epoch": 0.731916983912563,
+      "grad_norm": 0.5502124428749084,
+      "learning_rate": 1.2683046683046685e-05,
+      "loss": 0.974,
+      "mean_token_accuracy": 0.8395135879516602,
+      "num_tokens": 7721501.0,
+      "step": 1490
+    },
+    {
+      "epoch": 0.736829178435466,
+      "grad_norm": 0.49662184715270996,
+      "learning_rate": 1.2633906633906635e-05,
+      "loss": 0.9764,
+      "mean_token_accuracy": 0.8396995335817337,
+      "num_tokens": 7771721.0,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7417413729583692,
+      "grad_norm": 0.26574891805648804,
+      "learning_rate": 1.2584766584766585e-05,
+      "loss": 0.8165,
+      "mean_token_accuracy": 0.8401172868907452,
+      "num_tokens": 7822046.0,
+      "step": 1510
+    },
+    {
+      "epoch": 0.7466535674812722,
+      "grad_norm": 0.6338578462600708,
+      "learning_rate": 1.2535626535626538e-05,
+      "loss": 0.9305,
+      "mean_token_accuracy": 0.8319102026522159,
+      "num_tokens": 7874800.0,
+      "step": 1520
+    },
+    {
+      "epoch": 0.7515657620041754,
+      "grad_norm": 0.45722728967666626,
+      "learning_rate": 1.2486486486486487e-05,
+      "loss": 0.817,
+      "mean_token_accuracy": 0.865605479478836,
+      "num_tokens": 7928044.0,
+      "step": 1530
+    },
+    {
+      "epoch": 0.7564779565270785,
+      "grad_norm": 0.2256188988685608,
+      "learning_rate": 1.2437346437346437e-05,
+      "loss": 1.0366,
+      "mean_token_accuracy": 0.8243134960532188,
+      "num_tokens": 7976774.0,
+      "step": 1540
+    },
+    {
+      "epoch": 0.7613901510499815,
+      "grad_norm": 0.3194807469844818,
+      "learning_rate": 1.238820638820639e-05,
+      "loss": 0.8638,
+      "mean_token_accuracy": 0.8425570398569107,
+      "num_tokens": 8027431.0,
+      "step": 1550
+    },
+    {
+      "epoch": 0.7663023455728847,
+      "grad_norm": 0.7870245575904846,
+      "learning_rate": 1.2339066339066339e-05,
+      "loss": 1.1827,
+      "mean_token_accuracy": 0.8022145099937916,
+      "num_tokens": 8076248.0,
+      "step": 1560
+    },
+    {
+      "epoch": 0.7712145400957878,
+      "grad_norm": 1.0986965894699097,
+      "learning_rate": 1.2289926289926291e-05,
+      "loss": 1.0736,
+      "mean_token_accuracy": 0.8118120074272156,
+      "num_tokens": 8128333.0,
+      "step": 1570
+    },
+    {
+      "epoch": 0.7761267346186909,
+      "grad_norm": 0.6505934000015259,
+      "learning_rate": 1.2240786240786242e-05,
+      "loss": 0.957,
+      "mean_token_accuracy": 0.8350290179252624,
+      "num_tokens": 8177196.0,
+      "step": 1580
+    },
+    {
+      "epoch": 0.781038929141594,
+      "grad_norm": 0.35571786761283875,
+      "learning_rate": 1.2191646191646194e-05,
+      "loss": 0.8929,
+      "mean_token_accuracy": 0.8486527316272259,
+      "num_tokens": 8229113.0,
+      "step": 1590
+    },
+    {
+      "epoch": 0.7859511236644972,
+      "grad_norm": 0.4012582004070282,
+      "learning_rate": 1.2142506142506144e-05,
+      "loss": 0.7953,
+      "mean_token_accuracy": 0.8502931199967861,
+      "num_tokens": 8283001.0,
+      "step": 1600
+    },
+    {
+      "epoch": 0.7908633181874002,
+      "grad_norm": 0.25499385595321655,
+      "learning_rate": 1.2093366093366094e-05,
+      "loss": 0.9205,
+      "mean_token_accuracy": 0.8501100361347198,
+      "num_tokens": 8334978.0,
+      "step": 1610
+    },
+    {
+      "epoch": 0.7957755127103033,
+      "grad_norm": 0.5996484756469727,
+      "learning_rate": 1.2044226044226047e-05,
+      "loss": 0.9237,
+      "mean_token_accuracy": 0.8439513966441154,
+      "num_tokens": 8390388.0,
+      "step": 1620
+    },
+    {
+      "epoch": 0.8006877072332065,
+      "grad_norm": 0.4831118583679199,
+      "learning_rate": 1.1995085995085996e-05,
+      "loss": 0.7179,
+      "mean_token_accuracy": 0.8848425835371018,
+      "num_tokens": 8445335.0,
+      "step": 1630
+    },
+    {
+      "epoch": 0.8055999017561095,
+      "grad_norm": 0.3229360580444336,
+      "learning_rate": 1.1945945945945946e-05,
+      "loss": 1.1637,
+      "mean_token_accuracy": 0.8010388404130936,
+      "num_tokens": 8494343.0,
+      "step": 1640
+    },
+    {
+      "epoch": 0.8105120962790127,
+      "grad_norm": 1.2905784845352173,
+      "learning_rate": 1.1896805896805899e-05,
+      "loss": 0.9642,
+      "mean_token_accuracy": 0.829357648640871,
+      "num_tokens": 8542794.0,
+      "step": 1650
+    },
+    {
+      "epoch": 0.8154242908019158,
+      "grad_norm": 0.33358246088027954,
+      "learning_rate": 1.1847665847665848e-05,
+      "loss": 0.8557,
+      "mean_token_accuracy": 0.85107681453228,
+      "num_tokens": 8597837.0,
+      "step": 1660
+    },
+    {
+      "epoch": 0.8203364853248188,
+      "grad_norm": 0.30174124240875244,
+      "learning_rate": 1.17985257985258e-05,
+      "loss": 0.6798,
+      "mean_token_accuracy": 0.8848607018589973,
+      "num_tokens": 8651855.0,
+      "step": 1670
+    },
+    {
+      "epoch": 0.825248679847722,
+      "grad_norm": 0.41789162158966064,
+      "learning_rate": 1.1749385749385751e-05,
+      "loss": 0.7969,
+      "mean_token_accuracy": 0.859107281267643,
+      "num_tokens": 8705043.0,
+      "step": 1680
+    },
+    {
+      "epoch": 0.830160874370625,
+      "grad_norm": 0.5565118193626404,
+      "learning_rate": 1.17002457002457e-05,
+      "loss": 0.8947,
+      "mean_token_accuracy": 0.8513899371027946,
+      "num_tokens": 8753735.0,
+      "step": 1690
+    },
+    {
+      "epoch": 0.8350730688935282,
+      "grad_norm": 0.8451042771339417,
+      "learning_rate": 1.1651105651105653e-05,
+      "loss": 1.1201,
+      "mean_token_accuracy": 0.7937561281025409,
+      "num_tokens": 8799611.0,
+      "step": 1700
+    },
+    {
+      "epoch": 0.8399852634164313,
+      "grad_norm": 0.8886920213699341,
+      "learning_rate": 1.1601965601965603e-05,
+      "loss": 0.8187,
+      "mean_token_accuracy": 0.8588108576834201,
+      "num_tokens": 8852789.0,
+      "step": 1710
+    },
+    {
+      "epoch": 0.8448974579393344,
+      "grad_norm": 0.8036173582077026,
+      "learning_rate": 1.1552825552825552e-05,
+      "loss": 0.8139,
+      "mean_token_accuracy": 0.868566033244133,
+      "num_tokens": 8904446.0,
+      "step": 1720
+    },
+    {
+      "epoch": 0.8498096524622375,
+      "grad_norm": 0.8208529949188232,
+      "learning_rate": 1.1503685503685505e-05,
+      "loss": 0.9869,
+      "mean_token_accuracy": 0.8289718352258205,
+      "num_tokens": 8955674.0,
+      "step": 1730
+    },
+    {
+      "epoch": 0.8547218469851406,
+      "grad_norm": 0.48808610439300537,
+      "learning_rate": 1.1454545454545455e-05,
+      "loss": 0.6682,
+      "mean_token_accuracy": 0.8741697937250137,
+      "num_tokens": 9008895.0,
+      "step": 1740
+    },
+    {
+      "epoch": 0.8596340415080437,
+      "grad_norm": 0.30963972210884094,
+      "learning_rate": 1.1405405405405404e-05,
+      "loss": 0.8816,
+      "mean_token_accuracy": 0.843504398316145,
+      "num_tokens": 9059352.0,
+      "step": 1750
+    },
+    {
+      "epoch": 0.8645462360309468,
+      "grad_norm": 0.2593599855899811,
+      "learning_rate": 1.1356265356265357e-05,
+      "loss": 1.0678,
+      "mean_token_accuracy": 0.8158367194235325,
+      "num_tokens": 9105840.0,
+      "step": 1760
+    },
+    {
+      "epoch": 0.86945843055385,
+      "grad_norm": 0.2662312984466553,
+      "learning_rate": 1.1307125307125308e-05,
+      "loss": 0.988,
+      "mean_token_accuracy": 0.8375108957290649,
+      "num_tokens": 9158645.0,
+      "step": 1770
+    },
+    {
+      "epoch": 0.874370625076753,
+      "grad_norm": 0.2985932528972626,
+      "learning_rate": 1.125798525798526e-05,
+      "loss": 0.7872,
+      "mean_token_accuracy": 0.8592289894819259,
+      "num_tokens": 9205661.0,
+      "step": 1780
+    },
+    {
+      "epoch": 0.8792828195996562,
+      "grad_norm": 0.26380449533462524,
+      "learning_rate": 1.1208845208845209e-05,
+      "loss": 1.1826,
+      "mean_token_accuracy": 0.7935345992445946,
+      "num_tokens": 9251283.0,
+      "step": 1790
+    },
+    {
+      "epoch": 0.8841950141225593,
+      "grad_norm": 0.5365442633628845,
+      "learning_rate": 1.1159705159705162e-05,
+      "loss": 0.9483,
+      "mean_token_accuracy": 0.8279004551470279,
+      "num_tokens": 9298506.0,
+      "step": 1800
+    },
+    {
+      "epoch": 0.8891072086454623,
+      "grad_norm": 0.35537609457969666,
+      "learning_rate": 1.1110565110565112e-05,
+      "loss": 0.6907,
+      "mean_token_accuracy": 0.874860267341137,
+      "num_tokens": 9352301.0,
+      "step": 1810
+    },
+    {
+      "epoch": 0.8940194031683655,
+      "grad_norm": 0.36677488684654236,
+      "learning_rate": 1.1061425061425061e-05,
+      "loss": 0.8506,
+      "mean_token_accuracy": 0.847238763421774,
+      "num_tokens": 9401209.0,
+      "step": 1820
+    },
+    {
+      "epoch": 0.8989315976912686,
+      "grad_norm": 0.35230782628059387,
+      "learning_rate": 1.1012285012285014e-05,
+      "loss": 0.9664,
+      "mean_token_accuracy": 0.8267447024583816,
+      "num_tokens": 9451239.0,
+      "step": 1830
+    },
+    {
+      "epoch": 0.9038437922141717,
+      "grad_norm": 0.5595026612281799,
+      "learning_rate": 1.0963144963144964e-05,
+      "loss": 1.0239,
+      "mean_token_accuracy": 0.8194499731063842,
+      "num_tokens": 9504396.0,
+      "step": 1840
+    },
+    {
+      "epoch": 0.9087559867370748,
+      "grad_norm": 0.38404449820518494,
+      "learning_rate": 1.0914004914004913e-05,
+      "loss": 0.9903,
+      "mean_token_accuracy": 0.8269840359687806,
+      "num_tokens": 9555148.0,
+      "step": 1850
+    },
+    {
+      "epoch": 0.9136681812599778,
+      "grad_norm": 0.41196462512016296,
+      "learning_rate": 1.0864864864864866e-05,
+      "loss": 1.0264,
+      "mean_token_accuracy": 0.8328478842973709,
+      "num_tokens": 9606453.0,
+      "step": 1860
+    },
+    {
+      "epoch": 0.918580375782881,
+      "grad_norm": 0.5028640031814575,
+      "learning_rate": 1.0815724815724817e-05,
+      "loss": 0.7749,
+      "mean_token_accuracy": 0.8660773292183876,
+      "num_tokens": 9658869.0,
+      "step": 1870
+    },
+    {
+      "epoch": 0.9234925703057841,
+      "grad_norm": 0.2295975685119629,
+      "learning_rate": 1.0766584766584767e-05,
+      "loss": 0.8817,
+      "mean_token_accuracy": 0.83365648239851,
+      "num_tokens": 9708994.0,
+      "step": 1880
+    },
+    {
+      "epoch": 0.9284047648286872,
+      "grad_norm": 0.24253033101558685,
+      "learning_rate": 1.0717444717444718e-05,
+      "loss": 0.9226,
+      "mean_token_accuracy": 0.8485260397195816,
+      "num_tokens": 9760081.0,
+      "step": 1890
+    },
+    {
+      "epoch": 0.9333169593515903,
+      "grad_norm": 0.2894159257411957,
+      "learning_rate": 1.066830466830467e-05,
+      "loss": 0.7618,
+      "mean_token_accuracy": 0.8669800266623497,
+      "num_tokens": 9810101.0,
+      "step": 1900
+    },
+    {
+      "epoch": 0.9382291538744935,
+      "grad_norm": 0.36487090587615967,
+      "learning_rate": 1.061916461916462e-05,
+      "loss": 0.8968,
+      "mean_token_accuracy": 0.8443298265337944,
+      "num_tokens": 9861741.0,
+      "step": 1910
+    },
+    {
+      "epoch": 0.9431413483973965,
+      "grad_norm": 0.2829186022281647,
+      "learning_rate": 1.057002457002457e-05,
+      "loss": 0.821,
+      "mean_token_accuracy": 0.8466833367943764,
+      "num_tokens": 9913833.0,
+      "step": 1920
+    },
+    {
+      "epoch": 0.9480535429202996,
+      "grad_norm": 0.6794554591178894,
+      "learning_rate": 1.0520884520884523e-05,
+      "loss": 0.7578,
+      "mean_token_accuracy": 0.8747551962733269,
+      "num_tokens": 9970247.0,
+      "step": 1930
+    },
+    {
+      "epoch": 0.9529657374432028,
+      "grad_norm": 0.6977810263633728,
+      "learning_rate": 1.0471744471744472e-05,
+      "loss": 0.8165,
+      "mean_token_accuracy": 0.8567108184099197,
+      "num_tokens": 10019920.0,
+      "step": 1940
+    },
+    {
+      "epoch": 0.9578779319661058,
+      "grad_norm": 0.504741907119751,
+      "learning_rate": 1.0422604422604422e-05,
+      "loss": 0.9742,
+      "mean_token_accuracy": 0.8300105221569538,
+      "num_tokens": 10066930.0,
+      "step": 1950
+    },
+    {
+      "epoch": 0.962790126489009,
+      "grad_norm": 2.085604190826416,
+      "learning_rate": 1.0373464373464375e-05,
+      "loss": 0.9191,
+      "mean_token_accuracy": 0.8302432119846344,
+      "num_tokens": 10116405.0,
+      "step": 1960
+    },
+    {
+      "epoch": 0.9677023210119121,
+      "grad_norm": 0.5094314813613892,
+      "learning_rate": 1.0324324324324324e-05,
+      "loss": 0.6908,
+      "mean_token_accuracy": 0.8804146230220795,
+      "num_tokens": 10171793.0,
+      "step": 1970
+    },
+    {
+      "epoch": 0.9726145155348151,
+      "grad_norm": 0.7494292259216309,
+      "learning_rate": 1.0275184275184276e-05,
+      "loss": 0.9316,
+      "mean_token_accuracy": 0.8486801907420158,
+      "num_tokens": 10223476.0,
+      "step": 1980
+    },
+    {
+      "epoch": 0.9775267100577183,
+      "grad_norm": 0.5121098756790161,
+      "learning_rate": 1.0226044226044227e-05,
+      "loss": 0.8121,
+      "mean_token_accuracy": 0.8445978663861752,
+      "num_tokens": 10276795.0,
+      "step": 1990
+    },
+    {
+      "epoch": 0.9824389045806214,
+      "grad_norm": 0.22474397718906403,
+      "learning_rate": 1.017690417690418e-05,
+      "loss": 0.7328,
+      "mean_token_accuracy": 0.8750261560082435,
+      "num_tokens": 10327432.0,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9873510991035245,
+      "grad_norm": 0.6674897074699402,
+      "learning_rate": 1.0127764127764129e-05,
+      "loss": 0.9154,
+      "mean_token_accuracy": 0.8323157578706741,
+      "num_tokens": 10376006.0,
+      "step": 2010
+    },
+    {
+      "epoch": 0.9922632936264276,
+      "grad_norm": 0.30504295229911804,
+      "learning_rate": 1.007862407862408e-05,
+      "loss": 0.6402,
+      "mean_token_accuracy": 0.891994646191597,
+      "num_tokens": 10431051.0,
+      "step": 2020
+    },
+    {
+      "epoch": 0.9971754881493308,
+      "grad_norm": 0.39028123021125793,
+      "learning_rate": 1.0029484029484032e-05,
+      "loss": 1.0563,
+      "mean_token_accuracy": 0.8198968544602394,
+      "num_tokens": 10482628.0,
+      "step": 2030
+    },
+    {
+      "epoch": 1.0024560972614516,
+      "grad_norm": 0.4253966212272644,
+      "learning_rate": 9.980343980343982e-06,
+      "loss": 1.1883,
+      "mean_token_accuracy": 0.8364348382484622,
+      "num_tokens": 10540047.0,
+      "step": 2040
+    },
+    {
+      "epoch": 1.0073682917843547,
+      "grad_norm": 0.3172409236431122,
+      "learning_rate": 9.931203931203932e-06,
+      "loss": 0.7889,
+      "mean_token_accuracy": 0.8587934225797653,
+      "num_tokens": 10594209.0,
+      "step": 2050
+    },
+    {
+      "epoch": 1.0122804863072579,
+      "grad_norm": 0.2890489101409912,
+      "learning_rate": 9.882063882063882e-06,
+      "loss": 0.948,
+      "mean_token_accuracy": 0.8293856546282768,
+      "num_tokens": 10639797.0,
+      "step": 2060
+    },
+    {
+      "epoch": 1.0171926808301608,
+      "grad_norm": 0.2283569574356079,
+      "learning_rate": 9.832923832923835e-06,
+      "loss": 0.8061,
+      "mean_token_accuracy": 0.8454312592744827,
+      "num_tokens": 10691672.0,
+      "step": 2070
+    },
+    {
+      "epoch": 1.022104875353064,
+      "grad_norm": 0.53035968542099,
+      "learning_rate": 9.783783783783785e-06,
+      "loss": 0.9801,
+      "mean_token_accuracy": 0.8315344356000424,
+      "num_tokens": 10745561.0,
+      "step": 2080
+    },
+    {
+      "epoch": 1.027017069875967,
+      "grad_norm": 0.18628983199596405,
+      "learning_rate": 9.734643734643734e-06,
+      "loss": 0.8569,
+      "mean_token_accuracy": 0.8437845915555954,
+      "num_tokens": 10798814.0,
+      "step": 2090
+    },
+    {
+      "epoch": 1.0319292643988702,
+      "grad_norm": 0.33779898285865784,
+      "learning_rate": 9.685503685503687e-06,
+      "loss": 0.7244,
+      "mean_token_accuracy": 0.871407438069582,
+      "num_tokens": 10850368.0,
+      "step": 2100
+    },
+    {
+      "epoch": 1.0368414589217734,
+      "grad_norm": 0.3872124254703522,
+      "learning_rate": 9.636363636363638e-06,
+      "loss": 0.7797,
+      "mean_token_accuracy": 0.85552798807621,
+      "num_tokens": 10904570.0,
+      "step": 2110
+    },
+    {
+      "epoch": 1.0417536534446765,
+      "grad_norm": 0.3307070732116699,
+      "learning_rate": 9.587223587223588e-06,
+      "loss": 0.71,
+      "mean_token_accuracy": 0.8858561724424362,
+      "num_tokens": 10958970.0,
+      "step": 2120
+    },
+    {
+      "epoch": 1.0466658479675794,
+      "grad_norm": 0.2884276211261749,
+      "learning_rate": 9.538083538083539e-06,
+      "loss": 0.8769,
+      "mean_token_accuracy": 0.8532223105430603,
+      "num_tokens": 11014110.0,
+      "step": 2130
+    },
+    {
+      "epoch": 1.0515780424904826,
+      "grad_norm": 0.3521365225315094,
+      "learning_rate": 9.48894348894349e-06,
+      "loss": 0.7054,
+      "mean_token_accuracy": 0.8789783351123333,
+      "num_tokens": 11069318.0,
+      "step": 2140
+    },
+    {
+      "epoch": 1.0564902370133857,
+      "grad_norm": 0.7055663466453552,
+      "learning_rate": 9.43980343980344e-06,
+      "loss": 0.9756,
+      "mean_token_accuracy": 0.8204010255634785,
+      "num_tokens": 11117893.0,
+      "step": 2150
+    },
+    {
+      "epoch": 1.0614024315362889,
+      "grad_norm": 0.3963095247745514,
+      "learning_rate": 9.390663390663391e-06,
+      "loss": 0.837,
+      "mean_token_accuracy": 0.8513067305088043,
+      "num_tokens": 11172734.0,
+      "step": 2160
+    },
+    {
+      "epoch": 1.066314626059192,
+      "grad_norm": 0.567969024181366,
+      "learning_rate": 9.341523341523342e-06,
+      "loss": 0.983,
+      "mean_token_accuracy": 0.8270547963678837,
+      "num_tokens": 11223656.0,
+      "step": 2170
+    },
+    {
+      "epoch": 1.071226820582095,
+      "grad_norm": 0.47293904423713684,
+      "learning_rate": 9.292383292383293e-06,
+      "loss": 0.862,
+      "mean_token_accuracy": 0.8456276826560497,
+      "num_tokens": 11274037.0,
+      "step": 2180
+    },
+    {
+      "epoch": 1.076139015104998,
+      "grad_norm": 0.2276432365179062,
+      "learning_rate": 9.243243243243243e-06,
+      "loss": 1.0856,
+      "mean_token_accuracy": 0.8078479148447514,
+      "num_tokens": 11324027.0,
+      "step": 2190
+    },
+    {
+      "epoch": 1.0810512096279012,
+      "grad_norm": 0.5022515058517456,
+      "learning_rate": 9.194103194103194e-06,
+      "loss": 0.7426,
+      "mean_token_accuracy": 0.8734906181693077,
+      "num_tokens": 11374912.0,
+      "step": 2200
+    },
+    {
+      "epoch": 1.0859634041508044,
+      "grad_norm": 0.33764153718948364,
+      "learning_rate": 9.144963144963147e-06,
+      "loss": 0.9392,
+      "mean_token_accuracy": 0.840320710837841,
+      "num_tokens": 11429664.0,
+      "step": 2210
+    },
+    {
+      "epoch": 1.0908755986737075,
+      "grad_norm": 0.4857289791107178,
+      "learning_rate": 9.095823095823096e-06,
+      "loss": 0.7073,
+      "mean_token_accuracy": 0.8782361626625061,
+      "num_tokens": 11480264.0,
+      "step": 2220
+    },
+    {
+      "epoch": 1.0957877931966107,
+      "grad_norm": 0.2599787712097168,
+      "learning_rate": 9.046683046683048e-06,
+      "loss": 0.6804,
+      "mean_token_accuracy": 0.8698379978537559,
+      "num_tokens": 11530942.0,
+      "step": 2230
+    },
+    {
+      "epoch": 1.1006999877195136,
+      "grad_norm": 0.5495312213897705,
+      "learning_rate": 8.997542997542999e-06,
+      "loss": 0.9495,
+      "mean_token_accuracy": 0.8306553058326245,
+      "num_tokens": 11582088.0,
+      "step": 2240
+    },
+    {
+      "epoch": 1.1056121822424168,
+      "grad_norm": 0.3552323579788208,
+      "learning_rate": 8.94840294840295e-06,
+      "loss": 0.944,
+      "mean_token_accuracy": 0.8352946802973747,
+      "num_tokens": 11635417.0,
+      "step": 2250
+    },
+    {
+      "epoch": 1.11052437676532,
+      "grad_norm": 0.4491831958293915,
+      "learning_rate": 8.8992628992629e-06,
+      "loss": 0.8545,
+      "mean_token_accuracy": 0.8397120088338852,
+      "num_tokens": 11686180.0,
+      "step": 2260
+    },
+    {
+      "epoch": 1.115436571288223,
+      "grad_norm": 0.319167822599411,
+      "learning_rate": 8.850122850122851e-06,
+      "loss": 0.8211,
+      "mean_token_accuracy": 0.8514452539384365,
+      "num_tokens": 11740948.0,
+      "step": 2270
+    },
+    {
+      "epoch": 1.1203487658111262,
+      "grad_norm": 0.32985174655914307,
+      "learning_rate": 8.800982800982802e-06,
+      "loss": 0.7957,
+      "mean_token_accuracy": 0.8484233103692531,
+      "num_tokens": 11793790.0,
+      "step": 2280
+    },
+    {
+      "epoch": 1.1252609603340291,
+      "grad_norm": 0.24254177510738373,
+      "learning_rate": 8.751842751842752e-06,
+      "loss": 1.1364,
+      "mean_token_accuracy": 0.8023369990289211,
+      "num_tokens": 11843673.0,
+      "step": 2290
+    },
+    {
+      "epoch": 1.1301731548569323,
+      "grad_norm": 0.3639405071735382,
+      "learning_rate": 8.702702702702703e-06,
+      "loss": 0.7676,
+      "mean_token_accuracy": 0.8642957217991352,
+      "num_tokens": 11900152.0,
+      "step": 2300
+    },
+    {
+      "epoch": 1.1350853493798354,
+      "grad_norm": 0.3733905255794525,
+      "learning_rate": 8.653562653562654e-06,
+      "loss": 0.7797,
+      "mean_token_accuracy": 0.8661677822470665,
+      "num_tokens": 11954897.0,
+      "step": 2310
+    },
+    {
+      "epoch": 1.1399975439027386,
+      "grad_norm": 0.6224343776702881,
+      "learning_rate": 8.604422604422605e-06,
+      "loss": 0.7757,
+      "mean_token_accuracy": 0.863005454838276,
+      "num_tokens": 12008625.0,
+      "step": 2320
+    },
+    {
+      "epoch": 1.1449097384256417,
+      "grad_norm": 0.6588796973228455,
+      "learning_rate": 8.555282555282555e-06,
+      "loss": 0.7962,
+      "mean_token_accuracy": 0.8574208118021488,
+      "num_tokens": 12059951.0,
+      "step": 2330
+    },
+    {
+      "epoch": 1.1498219329485448,
+      "grad_norm": 0.35367152094841003,
+      "learning_rate": 8.506142506142508e-06,
+      "loss": 0.7097,
+      "mean_token_accuracy": 0.8655361987650394,
+      "num_tokens": 12110175.0,
+      "step": 2340
+    },
+    {
+      "epoch": 1.154734127471448,
+      "grad_norm": 0.2823013663291931,
+      "learning_rate": 8.457002457002459e-06,
+      "loss": 0.7687,
+      "mean_token_accuracy": 0.8638794094324111,
+      "num_tokens": 12163112.0,
+      "step": 2350
+    },
+    {
+      "epoch": 1.159646321994351,
+      "grad_norm": 0.24300046265125275,
+      "learning_rate": 8.407862407862408e-06,
+      "loss": 0.7411,
+      "mean_token_accuracy": 0.8563850894570351,
+      "num_tokens": 12213345.0,
+      "step": 2360
+    },
+    {
+      "epoch": 1.164558516517254,
+      "grad_norm": 0.5503495335578918,
+      "learning_rate": 8.35872235872236e-06,
+      "loss": 0.8215,
+      "mean_token_accuracy": 0.8549113497138023,
+      "num_tokens": 12264518.0,
+      "step": 2370
+    },
+    {
+      "epoch": 1.1694707110401572,
+      "grad_norm": 1.1128441095352173,
+      "learning_rate": 8.30958230958231e-06,
+      "loss": 0.8864,
+      "mean_token_accuracy": 0.8373782582581043,
+      "num_tokens": 12315487.0,
+      "step": 2380
+    },
+    {
+      "epoch": 1.1743829055630604,
+      "grad_norm": 0.3037548363208771,
+      "learning_rate": 8.260442260442261e-06,
+      "loss": 1.0085,
+      "mean_token_accuracy": 0.829988357424736,
+      "num_tokens": 12369302.0,
+      "step": 2390
+    },
+    {
+      "epoch": 1.1792951000859635,
+      "grad_norm": 0.5334797501564026,
+      "learning_rate": 8.211302211302212e-06,
+      "loss": 0.9124,
+      "mean_token_accuracy": 0.8381602048873902,
+      "num_tokens": 12418500.0,
+      "step": 2400
+    },
+    {
+      "epoch": 1.1842072946088664,
+      "grad_norm": 0.29138582944869995,
+      "learning_rate": 8.162162162162163e-06,
+      "loss": 0.7768,
+      "mean_token_accuracy": 0.8604146704077721,
+      "num_tokens": 12469596.0,
+      "step": 2410
+    },
+    {
+      "epoch": 1.1891194891317696,
+      "grad_norm": 0.3019094467163086,
+      "learning_rate": 8.113022113022114e-06,
+      "loss": 0.92,
+      "mean_token_accuracy": 0.839411947131157,
+      "num_tokens": 12521960.0,
+      "step": 2420
+    },
+    {
+      "epoch": 1.1940316836546727,
+      "grad_norm": 0.37577369809150696,
+      "learning_rate": 8.063882063882064e-06,
+      "loss": 0.7576,
+      "mean_token_accuracy": 0.8685958325862885,
+      "num_tokens": 12572182.0,
+      "step": 2430
+    },
+    {
+      "epoch": 1.1989438781775759,
+      "grad_norm": 1.5805540084838867,
+      "learning_rate": 8.014742014742015e-06,
+      "loss": 0.8623,
+      "mean_token_accuracy": 0.8443202301859856,
+      "num_tokens": 12623257.0,
+      "step": 2440
+    },
+    {
+      "epoch": 1.203856072700479,
+      "grad_norm": 0.5873517394065857,
+      "learning_rate": 7.965601965601968e-06,
+      "loss": 0.8229,
+      "mean_token_accuracy": 0.8458457998931408,
+      "num_tokens": 12673313.0,
+      "step": 2450
+    },
+    {
+      "epoch": 1.2087682672233822,
+      "grad_norm": 0.4337753355503082,
+      "learning_rate": 7.916461916461917e-06,
+      "loss": 0.7783,
+      "mean_token_accuracy": 0.8670792311429978,
+      "num_tokens": 12726249.0,
+      "step": 2460
+    },
+    {
+      "epoch": 1.213680461746285,
+      "grad_norm": 0.2580586075782776,
+      "learning_rate": 7.867321867321867e-06,
+      "loss": 0.8532,
+      "mean_token_accuracy": 0.8490586526691913,
+      "num_tokens": 12779593.0,
+      "step": 2470
+    },
+    {
+      "epoch": 1.2185926562691882,
+      "grad_norm": 0.6018544435501099,
+      "learning_rate": 7.81818181818182e-06,
+      "loss": 0.9073,
+      "mean_token_accuracy": 0.8452610522508621,
+      "num_tokens": 12829244.0,
+      "step": 2480
+    },
+    {
+      "epoch": 1.2235048507920914,
+      "grad_norm": 0.42789220809936523,
+      "learning_rate": 7.76904176904177e-06,
+      "loss": 0.8733,
+      "mean_token_accuracy": 0.8365338027477265,
+      "num_tokens": 12878770.0,
+      "step": 2490
+    },
+    {
+      "epoch": 1.2284170453149945,
+      "grad_norm": 0.34881478548049927,
+      "learning_rate": 7.71990171990172e-06,
+      "loss": 0.7468,
+      "mean_token_accuracy": 0.863375435769558,
+      "num_tokens": 12931644.0,
+      "step": 2500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 4070,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6216342387720192.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f63465acd95be88e019f04b736064426478945f5bc6a4d825ebd1918a32c185
+size 5624

checkpoint-3000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1024,
+  "max_position_embeddings": 256,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 6,
+  "num_hidden_layers": 6,
+  "num_key_value_heads": 6,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-3000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}