Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

special_tokens_map.json +1 -2
tokenizer.json +2 -2
tokenizer_config.json +0 -2
trainer_state.json +2031 -0
training_args.bin +3 -0

special_tokens_map.json CHANGED Viewed

@@ -12,6 +12,5 @@
     "normalized": false,
     "rstrip": false,
     "single_word": false
-  },
-  "pad_token": "<|end_of_text|>"
 }

     "normalized": false,
     "rstrip": false,
     "single_word": false
+  }
 }

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e70f9ea20d19f585f2d837bf6c4b3059535f849faaee175c2af93ed692e02d30
-size 17210243

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c5cf44023714fb39b05e71e425f8d7b92805ff73f7988b083b8c87f0bf87393
+size 17209961

tokenizer_config.json CHANGED Viewed

@@ -2050,7 +2050,6 @@
     }
   },
   "bos_token": "<|begin_of_text|>",
-  "chat_template": "{%- for message in messages %}{%- if message['role'] == 'system' %}## System:{{- message['content'].strip() }}\n{%- elif message['role'] == 'user' %}## Instruction: {{- message['content'].strip() }}\n{%- elif message['role'] == 'assistant' %}## Response: {{- message['content'].strip() }}\n{%- endif %}{%- endfor %}",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|end_of_text|>",
   "extra_special_tokens": {},
@@ -2059,6 +2058,5 @@
     "attention_mask"
   ],
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "<|end_of_text|>",
   "tokenizer_class": "PreTrainedTokenizer"
 }

     }
   },
   "bos_token": "<|begin_of_text|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|end_of_text|>",
   "extra_special_tokens": {},
     "attention_mask"
   ],
   "model_max_length": 1000000000000000019884624838656,
   "tokenizer_class": "PreTrainedTokenizer"
 }

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2031 @@

+{
+  "best_global_step": 9250,
+  "best_metric": 0.9165179133415222,
+  "best_model_checkpoint": "./results/checkpoint-9000",
+  "epoch": 4.997752808988764,
+  "eval_steps": 250,
+  "global_step": 9455,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.026437541308658295,
+      "grad_norm": 43.99717712402344,
+      "learning_rate": 0.00034625958983852136,
+      "loss": 9.1282,
+      "mean_token_accuracy": 0.3046248774370179,
+      "num_tokens": 1638400.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.05287508261731659,
+      "grad_norm": 6.144142150878906,
+      "learning_rate": 0.000407611186724682,
+      "loss": 4.215,
+      "mean_token_accuracy": 0.4404753165692091,
+      "num_tokens": 3276800.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.07931262392597488,
+      "grad_norm": 2.289468288421631,
+      "learning_rate": 0.0004434995702624468,
+      "loss": 3.3619,
+      "mean_token_accuracy": 0.4969379284977913,
+      "num_tokens": 4915200.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.10575016523463318,
+      "grad_norm": 1.4314253330230713,
+      "learning_rate": 0.0004689627836108426,
+      "loss": 2.3482,
+      "mean_token_accuracy": 0.6427779817581176,
+      "num_tokens": 6553600.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.13218770654329148,
+      "grad_norm": 1.0555275678634644,
+      "learning_rate": 0.0004887135863147016,
+      "loss": 2.0093,
+      "step": 250
+    },
+    {
+      "epoch": 0.13218770654329148,
+      "eval_loss": 1.941351056098938,
+      "eval_mean_token_accuracy": 0.6896467157826616,
+      "eval_num_tokens": 8192000.0,
+      "eval_runtime": 1710.841,
+      "eval_samples_per_second": 4.422,
+      "eval_steps_per_second": 0.553,
+      "step": 250
+    },
+    {
+      "epoch": 0.15862524785194976,
+      "grad_norm": 1.0403132438659668,
+      "learning_rate": 0.0004991822047759241,
+      "loss": 1.8613,
+      "mean_token_accuracy": 0.6918438403308391,
+      "num_tokens": 9830400.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.18506278916060806,
+      "grad_norm": 1.0463595390319824,
+      "learning_rate": 0.0004964562206956711,
+      "loss": 1.7529,
+      "mean_token_accuracy": 0.7160025656223297,
+      "num_tokens": 11468800.0,
+      "step": 350
+    },
+    {
+      "epoch": 0.21150033046926636,
+      "grad_norm": 0.8012986183166504,
+      "learning_rate": 0.0004937302366154182,
+      "loss": 1.642,
+      "mean_token_accuracy": 0.731451002061367,
+      "num_tokens": 13107200.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.23793787177792466,
+      "grad_norm": 0.9207384586334229,
+      "learning_rate": 0.0004910042525351653,
+      "loss": 1.5717,
+      "mean_token_accuracy": 0.7387188410758972,
+      "num_tokens": 14745600.0,
+      "step": 450
+    },
+    {
+      "epoch": 0.26437541308658297,
+      "grad_norm": 0.6695268750190735,
+      "learning_rate": 0.00048827826845491225,
+      "loss": 1.5342,
+      "step": 500
+    },
+    {
+      "epoch": 0.26437541308658297,
+      "eval_loss": 1.520922064781189,
+      "eval_mean_token_accuracy": 0.7428315233982643,
+      "eval_num_tokens": 16384000.0,
+      "eval_runtime": 1711.3798,
+      "eval_samples_per_second": 4.42,
+      "eval_steps_per_second": 0.553,
+      "step": 500
+    },
+    {
+      "epoch": 0.29081295439524124,
+      "grad_norm": 0.7166313529014587,
+      "learning_rate": 0.0004855522843746593,
+      "loss": 1.5115,
+      "mean_token_accuracy": 0.7436290304362774,
+      "num_tokens": 18022400.0,
+      "step": 550
+    },
+    {
+      "epoch": 0.3172504957038995,
+      "grad_norm": 0.7090346217155457,
+      "learning_rate": 0.00048282630029440626,
+      "loss": 1.4558,
+      "mean_token_accuracy": 0.7508443316817284,
+      "num_tokens": 19660800.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.34368803701255785,
+      "grad_norm": 0.8063613176345825,
+      "learning_rate": 0.00048010031621415335,
+      "loss": 1.4464,
+      "mean_token_accuracy": 0.7509249743819236,
+      "num_tokens": 21299200.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.3701255783212161,
+      "grad_norm": 1.142205834388733,
+      "learning_rate": 0.0004773743321339004,
+      "loss": 1.3984,
+      "mean_token_accuracy": 0.756721040904522,
+      "num_tokens": 22937600.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.3965631196298744,
+      "grad_norm": 0.8467270135879517,
+      "learning_rate": 0.00047464834805364736,
+      "loss": 1.3935,
+      "step": 750
+    },
+    {
+      "epoch": 0.3965631196298744,
+      "eval_loss": 1.3857780694961548,
+      "eval_mean_token_accuracy": 0.7577579059888142,
+      "eval_num_tokens": 24576000.0,
+      "eval_runtime": 1712.2261,
+      "eval_samples_per_second": 4.418,
+      "eval_steps_per_second": 0.552,
+      "step": 750
+    },
+    {
+      "epoch": 0.4230006609385327,
+      "grad_norm": 0.7939649820327759,
+      "learning_rate": 0.0004719223639733944,
+      "loss": 1.3699,
+      "mean_token_accuracy": 0.7578213591873646,
+      "num_tokens": 26214400.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.449438202247191,
+      "grad_norm": 0.7455005645751953,
+      "learning_rate": 0.0004691963798931415,
+      "loss": 1.3693,
+      "mean_token_accuracy": 0.7589296215772628,
+      "num_tokens": 27852800.0,
+      "step": 850
+    },
+    {
+      "epoch": 0.47587574355584933,
+      "grad_norm": 0.7528285980224609,
+      "learning_rate": 0.00046647039581288846,
+      "loss": 1.3242,
+      "mean_token_accuracy": 0.7669953557848931,
+      "num_tokens": 29491200.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.5023132848645075,
+      "grad_norm": 0.8056386113166809,
+      "learning_rate": 0.0004637444117326355,
+      "loss": 1.335,
+      "mean_token_accuracy": 0.7646432068943977,
+      "num_tokens": 31129600.0,
+      "step": 950
+    },
+    {
+      "epoch": 0.5287508261731659,
+      "grad_norm": 0.7774543166160583,
+      "learning_rate": 0.0004610184276523825,
+      "loss": 1.3286,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5287508261731659,
+      "eval_loss": 1.3367868661880493,
+      "eval_mean_token_accuracy": 0.7645143720362706,
+      "eval_num_tokens": 32768000.0,
+      "eval_runtime": 1713.3241,
+      "eval_samples_per_second": 4.415,
+      "eval_steps_per_second": 0.552,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5551883674818242,
+      "grad_norm": 1.0932977199554443,
+      "learning_rate": 0.00045829244357212956,
+      "loss": 1.3357,
+      "mean_token_accuracy": 0.7644849714636802,
+      "num_tokens": 34406400.0,
+      "step": 1050
+    },
+    {
+      "epoch": 0.5816259087904825,
+      "grad_norm": 0.9064853191375732,
+      "learning_rate": 0.0004555664594918766,
+      "loss": 1.3309,
+      "mean_token_accuracy": 0.7655669602751732,
+      "num_tokens": 36044800.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.6080634500991408,
+      "grad_norm": 1.1222511529922485,
+      "learning_rate": 0.0004528404754116236,
+      "loss": 1.3088,
+      "mean_token_accuracy": 0.7684097030758857,
+      "num_tokens": 37683200.0,
+      "step": 1150
+    },
+    {
+      "epoch": 0.634500991407799,
+      "grad_norm": 0.8550713658332825,
+      "learning_rate": 0.0004501144913313706,
+      "loss": 1.3121,
+      "mean_token_accuracy": 0.7672879993915558,
+      "num_tokens": 39321600.0,
+      "step": 1200
+    },
+    {
+      "epoch": 0.6609385327164574,
+      "grad_norm": 1.1444681882858276,
+      "learning_rate": 0.0004473885072511177,
+      "loss": 1.3124,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6609385327164574,
+      "eval_loss": 1.3140060901641846,
+      "eval_mean_token_accuracy": 0.7666200130988882,
+      "eval_num_tokens": 40960000.0,
+      "eval_runtime": 1711.9779,
+      "eval_samples_per_second": 4.419,
+      "eval_steps_per_second": 0.553,
+      "step": 1250
+    },
+    {
+      "epoch": 0.6873760740251157,
+      "grad_norm": 0.9385507702827454,
+      "learning_rate": 0.0004446625231708647,
+      "loss": 1.299,
+      "mean_token_accuracy": 0.7683782380819321,
+      "num_tokens": 42598400.0,
+      "step": 1300
+    },
+    {
+      "epoch": 0.713813615333774,
+      "grad_norm": 0.9909027218818665,
+      "learning_rate": 0.0004419365390906117,
+      "loss": 1.2776,
+      "mean_token_accuracy": 0.7721034941077233,
+      "num_tokens": 44236800.0,
+      "step": 1350
+    },
+    {
+      "epoch": 0.7402511566424322,
+      "grad_norm": 1.0495429039001465,
+      "learning_rate": 0.00043921055501035873,
+      "loss": 1.2533,
+      "mean_token_accuracy": 0.7770307904481888,
+      "num_tokens": 45875200.0,
+      "step": 1400
+    },
+    {
+      "epoch": 0.7666886979510905,
+      "grad_norm": 0.9478822350502014,
+      "learning_rate": 0.0004364845709301058,
+      "loss": 1.2386,
+      "mean_token_accuracy": 0.7782954525947571,
+      "num_tokens": 47513600.0,
+      "step": 1450
+    },
+    {
+      "epoch": 0.7931262392597488,
+      "grad_norm": 0.9904903173446655,
+      "learning_rate": 0.0004337585868498528,
+      "loss": 1.2542,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7931262392597488,
+      "eval_loss": 1.2644829750061035,
+      "eval_mean_token_accuracy": 0.7736368500027042,
+      "eval_num_tokens": 49152000.0,
+      "eval_runtime": 1711.2255,
+      "eval_samples_per_second": 4.421,
+      "eval_steps_per_second": 0.553,
+      "step": 1500
+    },
+    {
+      "epoch": 0.8195637805684072,
+      "grad_norm": 0.797590970993042,
+      "learning_rate": 0.00043103260276959983,
+      "loss": 1.2613,
+      "mean_token_accuracy": 0.7753057803213597,
+      "num_tokens": 50790400.0,
+      "step": 1550
+    },
+    {
+      "epoch": 0.8460013218770654,
+      "grad_norm": 1.1253471374511719,
+      "learning_rate": 0.0004283066186893468,
+      "loss": 1.2626,
+      "mean_token_accuracy": 0.7741856071352958,
+      "num_tokens": 52428800.0,
+      "step": 1600
+    },
+    {
+      "epoch": 0.8724388631857237,
+      "grad_norm": 0.9880785346031189,
+      "learning_rate": 0.0004255806346090939,
+      "loss": 1.2731,
+      "mean_token_accuracy": 0.7714717736840249,
+      "num_tokens": 54067200.0,
+      "step": 1650
+    },
+    {
+      "epoch": 0.898876404494382,
+      "grad_norm": 0.7777257561683655,
+      "learning_rate": 0.00042285465052884093,
+      "loss": 1.2649,
+      "mean_token_accuracy": 0.7737677192687988,
+      "num_tokens": 55705600.0,
+      "step": 1700
+    },
+    {
+      "epoch": 0.9253139458030403,
+      "grad_norm": 0.8958262801170349,
+      "learning_rate": 0.0004201286664485879,
+      "loss": 1.2498,
+      "step": 1750
+    },
+    {
+      "epoch": 0.9253139458030403,
+      "eval_loss": 1.2289273738861084,
+      "eval_mean_token_accuracy": 0.7793115381836639,
+      "eval_num_tokens": 57344000.0,
+      "eval_runtime": 1711.9208,
+      "eval_samples_per_second": 4.419,
+      "eval_steps_per_second": 0.553,
+      "step": 1750
+    },
+    {
+      "epoch": 0.9517514871116987,
+      "grad_norm": 0.9251750111579895,
+      "learning_rate": 0.00041740268236833495,
+      "loss": 1.2212,
+      "mean_token_accuracy": 0.7776866452395916,
+      "num_tokens": 58982400.0,
+      "step": 1800
+    },
+    {
+      "epoch": 0.9781890284203569,
+      "grad_norm": 0.8101162910461426,
+      "learning_rate": 0.00041467669828808203,
+      "loss": 1.2025,
+      "mean_token_accuracy": 0.7838043755292893,
+      "num_tokens": 60620800.0,
+      "step": 1850
+    },
+    {
+      "epoch": 1.0042300066093852,
+      "grad_norm": 1.5328075885772705,
+      "learning_rate": 0.00041200523388943414,
+      "loss": 1.2204,
+      "mean_token_accuracy": 0.7796021451804843,
+      "num_tokens": 62234624.0,
+      "step": 1900
+    },
+    {
+      "epoch": 1.0306675479180436,
+      "grad_norm": 0.9993696212768555,
+      "learning_rate": 0.0004092792498091811,
+      "loss": 1.1622,
+      "mean_token_accuracy": 0.7850250500440598,
+      "num_tokens": 63873024.0,
+      "step": 1950
+    },
+    {
+      "epoch": 1.057105089226702,
+      "grad_norm": 0.9176653027534485,
+      "learning_rate": 0.00040655326572892816,
+      "loss": 1.1807,
+      "step": 2000
+    },
+    {
+      "epoch": 1.057105089226702,
+      "eval_loss": 1.2058873176574707,
+      "eval_mean_token_accuracy": 0.7832688034588893,
+      "eval_num_tokens": 65511424.0,
+      "eval_runtime": 1712.3284,
+      "eval_samples_per_second": 4.418,
+      "eval_steps_per_second": 0.552,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0835426305353602,
+      "grad_norm": 1.060483455657959,
+      "learning_rate": 0.00040382728164867513,
+      "loss": 1.1635,
+      "mean_token_accuracy": 0.7839937689900398,
+      "num_tokens": 67149824.0,
+      "step": 2050
+    },
+    {
+      "epoch": 1.1099801718440185,
+      "grad_norm": 1.3085092306137085,
+      "learning_rate": 0.0004011012975684222,
+      "loss": 1.1928,
+      "mean_token_accuracy": 0.7807007575035095,
+      "num_tokens": 68788224.0,
+      "step": 2100
+    },
+    {
+      "epoch": 1.1364177131526767,
+      "grad_norm": 0.9808939695358276,
+      "learning_rate": 0.00039837531348816925,
+      "loss": 1.1454,
+      "mean_token_accuracy": 0.7877211648225785,
+      "num_tokens": 70426624.0,
+      "step": 2150
+    },
+    {
+      "epoch": 1.162855254461335,
+      "grad_norm": 0.8935715556144714,
+      "learning_rate": 0.00039564932940791623,
+      "loss": 1.1514,
+      "mean_token_accuracy": 0.7872568437457085,
+      "num_tokens": 72065024.0,
+      "step": 2200
+    },
+    {
+      "epoch": 1.1892927957699935,
+      "grad_norm": 0.9606215357780457,
+      "learning_rate": 0.00039292334532766327,
+      "loss": 1.1569,
+      "step": 2250
+    },
+    {
+      "epoch": 1.1892927957699935,
+      "eval_loss": 1.1869500875473022,
+      "eval_mean_token_accuracy": 0.7853513486037547,
+      "eval_num_tokens": 73703424.0,
+      "eval_runtime": 1713.6219,
+      "eval_samples_per_second": 4.415,
+      "eval_steps_per_second": 0.552,
+      "step": 2250
+    },
+    {
+      "epoch": 1.2157303370786516,
+      "grad_norm": 1.2232052087783813,
+      "learning_rate": 0.00039019736124741035,
+      "loss": 1.1651,
+      "mean_token_accuracy": 0.785599644035101,
+      "num_tokens": 75341824.0,
+      "step": 2300
+    },
+    {
+      "epoch": 1.24216787838731,
+      "grad_norm": 1.2846604585647583,
+      "learning_rate": 0.00038747137716715733,
+      "loss": 1.1691,
+      "mean_token_accuracy": 0.7854020059108734,
+      "num_tokens": 76980224.0,
+      "step": 2350
+    },
+    {
+      "epoch": 1.2686054196959682,
+      "grad_norm": 1.0899465084075928,
+      "learning_rate": 0.00038474539308690437,
+      "loss": 1.1416,
+      "mean_token_accuracy": 0.7897036933898925,
+      "num_tokens": 78618624.0,
+      "step": 2400
+    },
+    {
+      "epoch": 1.2950429610046266,
+      "grad_norm": 1.0662829875946045,
+      "learning_rate": 0.0003820194090066514,
+      "loss": 1.1435,
+      "mean_token_accuracy": 0.7887658843398094,
+      "num_tokens": 80257024.0,
+      "step": 2450
+    },
+    {
+      "epoch": 1.321480502313285,
+      "grad_norm": 0.9844885468482971,
+      "learning_rate": 0.00037929342492639843,
+      "loss": 1.1374,
+      "step": 2500
+    },
+    {
+      "epoch": 1.321480502313285,
+      "eval_loss": 1.1827911138534546,
+      "eval_mean_token_accuracy": 0.7856577540930936,
+      "eval_num_tokens": 81895424.0,
+      "eval_runtime": 1711.6622,
+      "eval_samples_per_second": 4.42,
+      "eval_steps_per_second": 0.553,
+      "step": 2500
+    },
+    {
+      "epoch": 1.3479180436219431,
+      "grad_norm": 0.8380193710327148,
+      "learning_rate": 0.00037656744084614547,
+      "loss": 1.1353,
+      "mean_token_accuracy": 0.790248963534832,
+      "num_tokens": 83533824.0,
+      "step": 2550
+    },
+    {
+      "epoch": 1.3743555849306015,
+      "grad_norm": 0.7707766890525818,
+      "learning_rate": 0.0003738414567658925,
+      "loss": 1.1309,
+      "mean_token_accuracy": 0.7910679399967193,
+      "num_tokens": 85172224.0,
+      "step": 2600
+    },
+    {
+      "epoch": 1.4007931262392597,
+      "grad_norm": 1.3123962879180908,
+      "learning_rate": 0.0003711154726856395,
+      "loss": 1.119,
+      "mean_token_accuracy": 0.7927541556954384,
+      "num_tokens": 86810624.0,
+      "step": 2650
+    },
+    {
+      "epoch": 1.427230667547918,
+      "grad_norm": 0.9434394836425781,
+      "learning_rate": 0.00036838948860538656,
+      "loss": 1.1233,
+      "mean_token_accuracy": 0.7917754176259041,
+      "num_tokens": 88449024.0,
+      "step": 2700
+    },
+    {
+      "epoch": 1.4536682088565764,
+      "grad_norm": 1.0501152276992798,
+      "learning_rate": 0.0003656635045251336,
+      "loss": 1.1463,
+      "step": 2750
+    },
+    {
+      "epoch": 1.4536682088565764,
+      "eval_loss": 1.1497071981430054,
+      "eval_mean_token_accuracy": 0.7899814840981119,
+      "eval_num_tokens": 90087424.0,
+      "eval_runtime": 1712.288,
+      "eval_samples_per_second": 4.418,
+      "eval_steps_per_second": 0.552,
+      "step": 2750
+    },
+    {
+      "epoch": 1.4801057501652346,
+      "grad_norm": 1.1930551528930664,
+      "learning_rate": 0.0003629375204448806,
+      "loss": 1.1309,
+      "mean_token_accuracy": 0.7891275675594807,
+      "num_tokens": 91725824.0,
+      "step": 2800
+    },
+    {
+      "epoch": 1.5065432914738928,
+      "grad_norm": 1.3507503271102905,
+      "learning_rate": 0.0003602115363646276,
+      "loss": 1.1303,
+      "mean_token_accuracy": 0.7900684276223182,
+      "num_tokens": 93364224.0,
+      "step": 2850
+    },
+    {
+      "epoch": 1.5329808327825512,
+      "grad_norm": 0.935932993888855,
+      "learning_rate": 0.0003574855522843747,
+      "loss": 1.124,
+      "mean_token_accuracy": 0.7918371230363845,
+      "num_tokens": 95002624.0,
+      "step": 2900
+    },
+    {
+      "epoch": 1.5594183740912095,
+      "grad_norm": 1.3527334928512573,
+      "learning_rate": 0.0003547595682041217,
+      "loss": 1.1103,
+      "mean_token_accuracy": 0.7935648819804192,
+      "num_tokens": 96641024.0,
+      "step": 2950
+    },
+    {
+      "epoch": 1.585855915399868,
+      "grad_norm": 0.8783284425735474,
+      "learning_rate": 0.0003520335841238687,
+      "loss": 1.113,
+      "step": 3000
+    },
+    {
+      "epoch": 1.585855915399868,
+      "eval_loss": 1.1312052011489868,
+      "eval_mean_token_accuracy": 0.7928862137597913,
+      "eval_num_tokens": 98279424.0,
+      "eval_runtime": 1712.2465,
+      "eval_samples_per_second": 4.418,
+      "eval_steps_per_second": 0.552,
+      "step": 3000
+    },
+    {
+      "epoch": 1.612293456708526,
+      "grad_norm": 1.079725980758667,
+      "learning_rate": 0.00034930760004361574,
+      "loss": 1.107,
+      "mean_token_accuracy": 0.7933507452905179,
+      "num_tokens": 99917824.0,
+      "step": 3050
+    },
+    {
+      "epoch": 1.6387309980171842,
+      "grad_norm": 1.188661813735962,
+      "learning_rate": 0.0003465816159633628,
+      "loss": 1.1139,
+      "mean_token_accuracy": 0.7925458225607872,
+      "num_tokens": 101556224.0,
+      "step": 3100
+    },
+    {
+      "epoch": 1.6651685393258426,
+      "grad_norm": 0.983051061630249,
+      "learning_rate": 0.0003438556318831098,
+      "loss": 1.1198,
+      "mean_token_accuracy": 0.7924914485216141,
+      "num_tokens": 103194624.0,
+      "step": 3150
+    },
+    {
+      "epoch": 1.691606080634501,
+      "grad_norm": 0.9756836891174316,
+      "learning_rate": 0.00034112964780285684,
+      "loss": 1.1175,
+      "mean_token_accuracy": 0.7917662528157234,
+      "num_tokens": 104833024.0,
+      "step": 3200
+    },
+    {
+      "epoch": 1.7180436219431594,
+      "grad_norm": 1.1230757236480713,
+      "learning_rate": 0.0003384036637226039,
+      "loss": 1.0988,
+      "step": 3250
+    },
+    {
+      "epoch": 1.7180436219431594,
+      "eval_loss": 1.1241850852966309,
+      "eval_mean_token_accuracy": 0.793406566215116,
+      "eval_num_tokens": 106471424.0,
+      "eval_runtime": 1712.6064,
+      "eval_samples_per_second": 4.417,
+      "eval_steps_per_second": 0.552,
+      "step": 3250
+    },
+    {
+      "epoch": 1.7444811632518176,
+      "grad_norm": 1.3361942768096924,
+      "learning_rate": 0.0003356776796423509,
+      "loss": 1.0957,
+      "mean_token_accuracy": 0.7953433538973331,
+      "num_tokens": 108109824.0,
+      "step": 3300
+    },
+    {
+      "epoch": 1.7709187045604757,
+      "grad_norm": 0.8606221079826355,
+      "learning_rate": 0.00033295169556209794,
+      "loss": 1.072,
+      "mean_token_accuracy": 0.7988990727066994,
+      "num_tokens": 109748224.0,
+      "step": 3350
+    },
+    {
+      "epoch": 1.7973562458691341,
+      "grad_norm": 1.1985405683517456,
+      "learning_rate": 0.0003302257114818449,
+      "loss": 1.0964,
+      "mean_token_accuracy": 0.7953415229916573,
+      "num_tokens": 111386624.0,
+      "step": 3400
+    },
+    {
+      "epoch": 1.8237937871777925,
+      "grad_norm": 1.0375052690505981,
+      "learning_rate": 0.000327499727401592,
+      "loss": 1.0821,
+      "mean_token_accuracy": 0.7982869046926498,
+      "num_tokens": 113025024.0,
+      "step": 3450
+    },
+    {
+      "epoch": 1.8502313284864509,
+      "grad_norm": 1.037645936012268,
+      "learning_rate": 0.00032477374332133904,
+      "loss": 1.0854,
+      "step": 3500
+    },
+    {
+      "epoch": 1.8502313284864509,
+      "eval_loss": 1.1053054332733154,
+      "eval_mean_token_accuracy": 0.7964076004119051,
+      "eval_num_tokens": 114663424.0,
+      "eval_runtime": 1713.2036,
+      "eval_samples_per_second": 4.416,
+      "eval_steps_per_second": 0.552,
+      "step": 3500
+    },
+    {
+      "epoch": 1.876668869795109,
+      "grad_norm": 0.8609442114830017,
+      "learning_rate": 0.000322047759241086,
+      "loss": 1.0789,
+      "mean_token_accuracy": 0.7976255512237549,
+      "num_tokens": 116301824.0,
+      "step": 3550
+    },
+    {
+      "epoch": 1.9031064111037672,
+      "grad_norm": 0.7845131158828735,
+      "learning_rate": 0.00031932177516083305,
+      "loss": 1.1106,
+      "mean_token_accuracy": 0.7933571606874465,
+      "num_tokens": 117940224.0,
+      "step": 3600
+    },
+    {
+      "epoch": 1.9295439524124256,
+      "grad_norm": 0.9003056287765503,
+      "learning_rate": 0.00031659579108058014,
+      "loss": 1.0636,
+      "mean_token_accuracy": 0.7998753663897514,
+      "num_tokens": 119578624.0,
+      "step": 3650
+    },
+    {
+      "epoch": 1.955981493721084,
+      "grad_norm": 1.202172040939331,
+      "learning_rate": 0.0003138698070003271,
+      "loss": 1.0809,
+      "mean_token_accuracy": 0.7975763711333275,
+      "num_tokens": 121217024.0,
+      "step": 3700
+    },
+    {
+      "epoch": 1.9824190350297424,
+      "grad_norm": 0.6643933653831482,
+      "learning_rate": 0.00031114382292007415,
+      "loss": 1.0808,
+      "step": 3750
+    },
+    {
+      "epoch": 1.9824190350297424,
+      "eval_loss": 1.0950915813446045,
+      "eval_mean_token_accuracy": 0.7972050871833939,
+      "eval_num_tokens": 122855424.0,
+      "eval_runtime": 1713.9729,
+      "eval_samples_per_second": 4.414,
+      "eval_steps_per_second": 0.552,
+      "step": 3750
+    },
+    {
+      "epoch": 2.0084600132187704,
+      "grad_norm": 1.0089055299758911,
+      "learning_rate": 0.00030847235852142626,
+      "loss": 1.0434,
+      "mean_token_accuracy": 0.7995400524860065,
+      "num_tokens": 124469248.0,
+      "step": 3800
+    },
+    {
+      "epoch": 2.034897554527429,
+      "grad_norm": 1.8495018482208252,
+      "learning_rate": 0.00030574637444117324,
+      "loss": 1.0069,
+      "mean_token_accuracy": 0.8041293996572495,
+      "num_tokens": 126107648.0,
+      "step": 3850
+    },
+    {
+      "epoch": 2.061335095836087,
+      "grad_norm": 0.9792631268501282,
+      "learning_rate": 0.0003030203903609203,
+      "loss": 1.0248,
+      "mean_token_accuracy": 0.800488149523735,
+      "num_tokens": 127746048.0,
+      "step": 3900
+    },
+    {
+      "epoch": 2.0877726371447456,
+      "grad_norm": 1.0454398393630981,
+      "learning_rate": 0.00030029440628066736,
+      "loss": 1.0032,
+      "mean_token_accuracy": 0.8048930823802948,
+      "num_tokens": 129384448.0,
+      "step": 3950
+    },
+    {
+      "epoch": 2.114210178453404,
+      "grad_norm": 1.124090313911438,
+      "learning_rate": 0.00029756842220041434,
+      "loss": 1.0141,
+      "step": 4000
+    },
+    {
+      "epoch": 2.114210178453404,
+      "eval_loss": 1.0894951820373535,
+      "eval_mean_token_accuracy": 0.7976183624146604,
+      "eval_num_tokens": 131022848.0,
+      "eval_runtime": 1713.146,
+      "eval_samples_per_second": 4.416,
+      "eval_steps_per_second": 0.552,
+      "step": 4000
+    },
+    {
+      "epoch": 2.140647719762062,
+      "grad_norm": 1.068744421005249,
+      "learning_rate": 0.0002948424381201614,
+      "loss": 1.017,
+      "mean_token_accuracy": 0.8032655183970928,
+      "num_tokens": 132661248.0,
+      "step": 4050
+    },
+    {
+      "epoch": 2.1670852610707203,
+      "grad_norm": 0.6453216671943665,
+      "learning_rate": 0.0002921164540399084,
+      "loss": 1.0173,
+      "mean_token_accuracy": 0.8023881965875626,
+      "num_tokens": 134299648.0,
+      "step": 4100
+    },
+    {
+      "epoch": 2.1935228023793787,
+      "grad_norm": 0.8488343954086304,
+      "learning_rate": 0.00028939046995965544,
+      "loss": 1.0192,
+      "mean_token_accuracy": 0.8028500735759735,
+      "num_tokens": 135938048.0,
+      "step": 4150
+    },
+    {
+      "epoch": 2.219960343688037,
+      "grad_norm": 1.107086181640625,
+      "learning_rate": 0.00028666448587940247,
+      "loss": 1.0167,
+      "mean_token_accuracy": 0.8023680368065834,
+      "num_tokens": 137576448.0,
+      "step": 4200
+    },
+    {
+      "epoch": 2.2463978849966955,
+      "grad_norm": 0.9816263914108276,
+      "learning_rate": 0.0002839385017991495,
+      "loss": 1.026,
+      "step": 4250
+    },
+    {
+      "epoch": 2.2463978849966955,
+      "eval_loss": 1.070574402809143,
+      "eval_mean_token_accuracy": 0.8008053159738948,
+      "eval_num_tokens": 139214848.0,
+      "eval_runtime": 1713.5677,
+      "eval_samples_per_second": 4.415,
+      "eval_steps_per_second": 0.552,
+      "step": 4250
+    },
+    {
+      "epoch": 2.2728354263053534,
+      "grad_norm": 1.0816267728805542,
+      "learning_rate": 0.00028121251771889654,
+      "loss": 1.0271,
+      "mean_token_accuracy": 0.8018050470948219,
+      "num_tokens": 140853248.0,
+      "step": 4300
+    },
+    {
+      "epoch": 2.299272967614012,
+      "grad_norm": 1.1499203443527222,
+      "learning_rate": 0.00027848653363864357,
+      "loss": 1.0008,
+      "mean_token_accuracy": 0.8052902013063431,
+      "num_tokens": 142491648.0,
+      "step": 4350
+    },
+    {
+      "epoch": 2.32571050892267,
+      "grad_norm": 0.9058449864387512,
+      "learning_rate": 0.0002757605495583906,
+      "loss": 1.002,
+      "mean_token_accuracy": 0.806196848154068,
+      "num_tokens": 144130048.0,
+      "step": 4400
+    },
+    {
+      "epoch": 2.3521480502313286,
+      "grad_norm": 0.8086408972740173,
+      "learning_rate": 0.0002730345654781376,
+      "loss": 0.9968,
+      "mean_token_accuracy": 0.8068004646897315,
+      "num_tokens": 145768448.0,
+      "step": 4450
+    },
+    {
+      "epoch": 2.378585591539987,
+      "grad_norm": 0.9422939419746399,
+      "learning_rate": 0.00027030858139788467,
+      "loss": 0.9925,
+      "step": 4500
+    },
+    {
+      "epoch": 2.378585591539987,
+      "eval_loss": 1.0708719491958618,
+      "eval_mean_token_accuracy": 0.8005553823570872,
+      "eval_num_tokens": 147406848.0,
+      "eval_runtime": 1714.6525,
+      "eval_samples_per_second": 4.412,
+      "eval_steps_per_second": 0.552,
+      "step": 4500
+    },
+    {
+      "epoch": 2.405023132848645,
+      "grad_norm": 0.9562957882881165,
+      "learning_rate": 0.0002675825973176317,
+      "loss": 1.0125,
+      "mean_token_accuracy": 0.8054704304039478,
+      "num_tokens": 149045248.0,
+      "step": 4550
+    },
+    {
+      "epoch": 2.4314606741573033,
+      "grad_norm": 0.8408384919166565,
+      "learning_rate": 0.0002648566132373787,
+      "loss": 1.0194,
+      "mean_token_accuracy": 0.8027529340982437,
+      "num_tokens": 150683648.0,
+      "step": 4600
+    },
+    {
+      "epoch": 2.4578982154659617,
+      "grad_norm": 0.9756256341934204,
+      "learning_rate": 0.0002621306291571257,
+      "loss": 0.9828,
+      "mean_token_accuracy": 0.8083504402637481,
+      "num_tokens": 152322048.0,
+      "step": 4650
+    },
+    {
+      "epoch": 2.48433575677462,
+      "grad_norm": 1.2137442827224731,
+      "learning_rate": 0.0002594046450768728,
+      "loss": 1.0021,
+      "mean_token_accuracy": 0.8056860953569412,
+      "num_tokens": 153960448.0,
+      "step": 4700
+    },
+    {
+      "epoch": 2.5107732980832784,
+      "grad_norm": 0.7544079422950745,
+      "learning_rate": 0.0002566786609966198,
+      "loss": 1.0089,
+      "step": 4750
+    },
+    {
+      "epoch": 2.5107732980832784,
+      "eval_loss": 1.0549876689910889,
+      "eval_mean_token_accuracy": 0.8026504306158102,
+      "eval_num_tokens": 155598848.0,
+      "eval_runtime": 1712.6528,
+      "eval_samples_per_second": 4.417,
+      "eval_steps_per_second": 0.552,
+      "step": 4750
+    },
+    {
+      "epoch": 2.5372108393919364,
+      "grad_norm": 1.3571584224700928,
+      "learning_rate": 0.0002539526769163668,
+      "loss": 0.9947,
+      "mean_token_accuracy": 0.8055629892647267,
+      "num_tokens": 157237248.0,
+      "step": 4800
+    },
+    {
+      "epoch": 2.5636483807005948,
+      "grad_norm": 0.9661728739738464,
+      "learning_rate": 0.00025122669283611385,
+      "loss": 0.9934,
+      "mean_token_accuracy": 0.8067454797029495,
+      "num_tokens": 158875648.0,
+      "step": 4850
+    },
+    {
+      "epoch": 2.590085922009253,
+      "grad_norm": 0.8960219025611877,
+      "learning_rate": 0.0002485007087558609,
+      "loss": 1.0084,
+      "mean_token_accuracy": 0.8042240959405899,
+      "num_tokens": 160514048.0,
+      "step": 4900
+    },
+    {
+      "epoch": 2.6165234633179115,
+      "grad_norm": 0.8337807059288025,
+      "learning_rate": 0.0002457747246756079,
+      "loss": 1.0028,
+      "mean_token_accuracy": 0.8062023460865021,
+      "num_tokens": 162152448.0,
+      "step": 4950
+    },
+    {
+      "epoch": 2.64296100462657,
+      "grad_norm": 1.2237184047698975,
+      "learning_rate": 0.00024304874059535492,
+      "loss": 0.9907,
+      "step": 5000
+    },
+    {
+      "epoch": 2.64296100462657,
+      "eval_loss": 1.0443217754364014,
+      "eval_mean_token_accuracy": 0.8038508863706165,
+      "eval_num_tokens": 163790848.0,
+      "eval_runtime": 1716.2002,
+      "eval_samples_per_second": 4.408,
+      "eval_steps_per_second": 0.551,
+      "step": 5000
+    },
+    {
+      "epoch": 2.669398545935228,
+      "grad_norm": 0.7289232015609741,
+      "learning_rate": 0.00024032275651510195,
+      "loss": 1.0012,
+      "mean_token_accuracy": 0.8063395051658153,
+      "num_tokens": 165429248.0,
+      "step": 5050
+    },
+    {
+      "epoch": 2.6958360872438862,
+      "grad_norm": 1.0250189304351807,
+      "learning_rate": 0.000237596772434849,
+      "loss": 0.976,
+      "mean_token_accuracy": 0.8098240447044373,
+      "num_tokens": 167067648.0,
+      "step": 5100
+    },
+    {
+      "epoch": 2.7222736285525446,
+      "grad_norm": 1.0034643411636353,
+      "learning_rate": 0.00023487078835459602,
+      "loss": 0.9848,
+      "mean_token_accuracy": 0.8076087480783463,
+      "num_tokens": 168706048.0,
+      "step": 5150
+    },
+    {
+      "epoch": 2.748711169861203,
+      "grad_norm": 0.9291382431983948,
+      "learning_rate": 0.00023214480427434303,
+      "loss": 0.9757,
+      "mean_token_accuracy": 0.8101533487439155,
+      "num_tokens": 170344448.0,
+      "step": 5200
+    },
+    {
+      "epoch": 2.7751487111698614,
+      "grad_norm": 0.6038099527359009,
+      "learning_rate": 0.00022941882019409009,
+      "loss": 0.989,
+      "step": 5250
+    },
+    {
+      "epoch": 2.7751487111698614,
+      "eval_loss": 1.0298680067062378,
+      "eval_mean_token_accuracy": 0.8057682283584966,
+      "eval_num_tokens": 171982848.0,
+      "eval_runtime": 1715.5734,
+      "eval_samples_per_second": 4.41,
+      "eval_steps_per_second": 0.551,
+      "step": 5250
+    },
+    {
+      "epoch": 2.8015862524785193,
+      "grad_norm": 0.8782141804695129,
+      "learning_rate": 0.0002266928361138371,
+      "loss": 1.0017,
+      "mean_token_accuracy": 0.8068728642165661,
+      "num_tokens": 173621248.0,
+      "step": 5300
+    },
+    {
+      "epoch": 2.8280237937871777,
+      "grad_norm": 0.5077300667762756,
+      "learning_rate": 0.00022396685203358413,
+      "loss": 0.9759,
+      "mean_token_accuracy": 0.8097360721230507,
+      "num_tokens": 175259648.0,
+      "step": 5350
+    },
+    {
+      "epoch": 2.854461335095836,
+      "grad_norm": 0.571225643157959,
+      "learning_rate": 0.00022124086795333116,
+      "loss": 0.9693,
+      "mean_token_accuracy": 0.8103903934359551,
+      "num_tokens": 176898048.0,
+      "step": 5400
+    },
+    {
+      "epoch": 2.8808988764044945,
+      "grad_norm": 0.9907204508781433,
+      "learning_rate": 0.0002185148838730782,
+      "loss": 0.9783,
+      "mean_token_accuracy": 0.8095271262526512,
+      "num_tokens": 178536448.0,
+      "step": 5450
+    },
+    {
+      "epoch": 2.907336417713153,
+      "grad_norm": 1.0461844205856323,
+      "learning_rate": 0.0002157888997928252,
+      "loss": 0.9796,
+      "step": 5500
+    },
+    {
+      "epoch": 2.907336417713153,
+      "eval_loss": 1.0164023637771606,
+      "eval_mean_token_accuracy": 0.8078667395462698,
+      "eval_num_tokens": 180174848.0,
+      "eval_runtime": 1713.163,
+      "eval_samples_per_second": 4.416,
+      "eval_steps_per_second": 0.552,
+      "step": 5500
+    },
+    {
+      "epoch": 2.933773959021811,
+      "grad_norm": 0.5164626240730286,
+      "learning_rate": 0.00021306291571257226,
+      "loss": 0.9813,
+      "mean_token_accuracy": 0.8092189015448094,
+      "num_tokens": 181813248.0,
+      "step": 5550
+    },
+    {
+      "epoch": 2.960211500330469,
+      "grad_norm": 0.9014139771461487,
+      "learning_rate": 0.00021033693163231926,
+      "loss": 0.9785,
+      "mean_token_accuracy": 0.808426809310913,
+      "num_tokens": 183451648.0,
+      "step": 5600
+    },
+    {
+      "epoch": 2.9866490416391276,
+      "grad_norm": 1.2656482458114624,
+      "learning_rate": 0.0002076109475520663,
+      "loss": 0.9546,
+      "mean_token_accuracy": 0.8128830647468567,
+      "num_tokens": 185090048.0,
+      "step": 5650
+    },
+    {
+      "epoch": 3.012690019828156,
+      "grad_norm": 0.6291442513465881,
+      "learning_rate": 0.0002049394831534184,
+      "loss": 0.9425,
+      "mean_token_accuracy": 0.8123012103405095,
+      "num_tokens": 186703872.0,
+      "step": 5700
+    },
+    {
+      "epoch": 3.0391275611368145,
+      "grad_norm": 0.9149487614631653,
+      "learning_rate": 0.0002022134990731654,
+      "loss": 0.9036,
+      "step": 5750
+    },
+    {
+      "epoch": 3.0391275611368145,
+      "eval_loss": 1.010271668434143,
+      "eval_mean_token_accuracy": 0.8088774525463959,
+      "eval_num_tokens": 188342272.0,
+      "eval_runtime": 1714.8688,
+      "eval_samples_per_second": 4.411,
+      "eval_steps_per_second": 0.552,
+      "step": 5750
+    },
+    {
+      "epoch": 3.0655651024454724,
+      "grad_norm": 0.7065662741661072,
+      "learning_rate": 0.00019948751499291245,
+      "loss": 0.9032,
+      "mean_token_accuracy": 0.816273825019598,
+      "num_tokens": 189980672.0,
+      "step": 5800
+    },
+    {
+      "epoch": 3.092002643754131,
+      "grad_norm": 0.8670871257781982,
+      "learning_rate": 0.00019676153091265948,
+      "loss": 0.9084,
+      "mean_token_accuracy": 0.8148881956934929,
+      "num_tokens": 191619072.0,
+      "step": 5850
+    },
+    {
+      "epoch": 3.118440185062789,
+      "grad_norm": 0.9667902588844299,
+      "learning_rate": 0.0001940355468324065,
+      "loss": 0.8968,
+      "mean_token_accuracy": 0.8168530049920082,
+      "num_tokens": 193257472.0,
+      "step": 5900
+    },
+    {
+      "epoch": 3.1448777263714476,
+      "grad_norm": 0.6061888933181763,
+      "learning_rate": 0.00019130956275215352,
+      "loss": 0.9082,
+      "mean_token_accuracy": 0.8162536644935607,
+      "num_tokens": 194895872.0,
+      "step": 5950
+    },
+    {
+      "epoch": 3.1713152676801055,
+      "grad_norm": 0.8645080924034119,
+      "learning_rate": 0.00018858357867190058,
+      "loss": 0.9014,
+      "step": 6000
+    },
+    {
+      "epoch": 3.1713152676801055,
+      "eval_loss": 1.0060479640960693,
+      "eval_mean_token_accuracy": 0.8095184696275134,
+      "eval_num_tokens": 196534272.0,
+      "eval_runtime": 1716.7924,
+      "eval_samples_per_second": 4.406,
+      "eval_steps_per_second": 0.551,
+      "step": 6000
+    },
+    {
+      "epoch": 3.197752808988764,
+      "grad_norm": 0.9978011250495911,
+      "learning_rate": 0.00018585759459164758,
+      "loss": 0.8941,
+      "mean_token_accuracy": 0.817662510573864,
+      "num_tokens": 198172672.0,
+      "step": 6050
+    },
+    {
+      "epoch": 3.2241903502974223,
+      "grad_norm": 0.610701322555542,
+      "learning_rate": 0.00018313161051139462,
+      "loss": 0.9088,
+      "mean_token_accuracy": 0.8161278122663498,
+      "num_tokens": 199811072.0,
+      "step": 6100
+    },
+    {
+      "epoch": 3.2506278916060807,
+      "grad_norm": 0.592491626739502,
+      "learning_rate": 0.00018040562643114165,
+      "loss": 0.9111,
+      "mean_token_accuracy": 0.8152193301916122,
+      "num_tokens": 201449472.0,
+      "step": 6150
+    },
+    {
+      "epoch": 3.277065432914739,
+      "grad_norm": 0.5505239367485046,
+      "learning_rate": 0.00017767964235088868,
+      "loss": 0.894,
+      "mean_token_accuracy": 0.8186956241726875,
+      "num_tokens": 203087872.0,
+      "step": 6200
+    },
+    {
+      "epoch": 3.303502974223397,
+      "grad_norm": 0.6099046468734741,
+      "learning_rate": 0.0001749536582706357,
+      "loss": 0.9061,
+      "step": 6250
+    },
+    {
+      "epoch": 3.303502974223397,
+      "eval_loss": 0.9953573942184448,
+      "eval_mean_token_accuracy": 0.8111508759585294,
+      "eval_num_tokens": 204726272.0,
+      "eval_runtime": 1714.1014,
+      "eval_samples_per_second": 4.413,
+      "eval_steps_per_second": 0.552,
+      "step": 6250
+    },
+    {
+      "epoch": 3.3299405155320554,
+      "grad_norm": 0.6866306066513062,
+      "learning_rate": 0.00017222767419038275,
+      "loss": 0.9023,
+      "mean_token_accuracy": 0.8162371690571308,
+      "num_tokens": 206364672.0,
+      "step": 6300
+    },
+    {
+      "epoch": 3.3563780568407138,
+      "grad_norm": 0.6457993984222412,
+      "learning_rate": 0.00016950169011012976,
+      "loss": 0.9083,
+      "mean_token_accuracy": 0.8154759269952774,
+      "num_tokens": 208003072.0,
+      "step": 6350
+    },
+    {
+      "epoch": 3.382815598149372,
+      "grad_norm": 0.5925601124763489,
+      "learning_rate": 0.0001667757060298768,
+      "loss": 0.9009,
+      "mean_token_accuracy": 0.8165108740329743,
+      "num_tokens": 209641472.0,
+      "step": 6400
+    },
+    {
+      "epoch": 3.4092531394580305,
+      "grad_norm": 0.8631545901298523,
+      "learning_rate": 0.00016404972194962382,
+      "loss": 0.8779,
+      "mean_token_accuracy": 0.8210025626420975,
+      "num_tokens": 211279872.0,
+      "step": 6450
+    },
+    {
+      "epoch": 3.4356906807666885,
+      "grad_norm": 0.6113960146903992,
+      "learning_rate": 0.00016132373786937086,
+      "loss": 0.8894,
+      "step": 6500
+    },
+    {
+      "epoch": 3.4356906807666885,
+      "eval_loss": 0.9821568131446838,
+      "eval_mean_token_accuracy": 0.8126549717613809,
+      "eval_num_tokens": 212918272.0,
+      "eval_runtime": 1714.991,
+      "eval_samples_per_second": 4.411,
+      "eval_steps_per_second": 0.552,
+      "step": 6500
+    },
+    {
+      "epoch": 3.462128222075347,
+      "grad_norm": 0.6569721698760986,
+      "learning_rate": 0.00015859775378911786,
+      "loss": 0.8828,
+      "mean_token_accuracy": 0.8195891354978084,
+      "num_tokens": 214556672.0,
+      "step": 6550
+    },
+    {
+      "epoch": 3.4885657633840053,
+      "grad_norm": 0.548383891582489,
+      "learning_rate": 0.0001558717697088649,
+      "loss": 0.8922,
+      "mean_token_accuracy": 0.8191379508376122,
+      "num_tokens": 216195072.0,
+      "step": 6600
+    },
+    {
+      "epoch": 3.5150033046926636,
+      "grad_norm": 0.4519716799259186,
+      "learning_rate": 0.00015314578562861193,
+      "loss": 0.9047,
+      "mean_token_accuracy": 0.8174547863006592,
+      "num_tokens": 217833472.0,
+      "step": 6650
+    },
+    {
+      "epoch": 3.541440846001322,
+      "grad_norm": 0.4486851692199707,
+      "learning_rate": 0.00015041980154835896,
+      "loss": 0.8812,
+      "mean_token_accuracy": 0.8206359946727753,
+      "num_tokens": 219471872.0,
+      "step": 6700
+    },
+    {
+      "epoch": 3.56787838730998,
+      "grad_norm": 0.511616587638855,
+      "learning_rate": 0.00014769381746810597,
+      "loss": 0.8754,
+      "step": 6750
+    },
+    {
+      "epoch": 3.56787838730998,
+      "eval_loss": 0.9736062288284302,
+      "eval_mean_token_accuracy": 0.8140331042997428,
+      "eval_num_tokens": 221110272.0,
+      "eval_runtime": 1716.1615,
+      "eval_samples_per_second": 4.408,
+      "eval_steps_per_second": 0.551,
+      "step": 6750
+    },
+    {
+      "epoch": 3.5943159286186384,
+      "grad_norm": 0.4776919186115265,
+      "learning_rate": 0.00014496783338785303,
+      "loss": 0.8959,
+      "mean_token_accuracy": 0.8200723953545094,
+      "num_tokens": 222748672.0,
+      "step": 6800
+    },
+    {
+      "epoch": 3.6207534699272967,
+      "grad_norm": 0.6696462035179138,
+      "learning_rate": 0.00014224184930760003,
+      "loss": 0.8818,
+      "mean_token_accuracy": 0.8205584043264389,
+      "num_tokens": 224387072.0,
+      "step": 6850
+    },
+    {
+      "epoch": 3.647191011235955,
+      "grad_norm": 0.6305286884307861,
+      "learning_rate": 0.00013951586522734707,
+      "loss": 0.8918,
+      "mean_token_accuracy": 0.8183388301730156,
+      "num_tokens": 226025472.0,
+      "step": 6900
+    },
+    {
+      "epoch": 3.6736285525446135,
+      "grad_norm": 0.4481205344200134,
+      "learning_rate": 0.0001367898811470941,
+      "loss": 0.8689,
+      "mean_token_accuracy": 0.822255617082119,
+      "num_tokens": 227663872.0,
+      "step": 6950
+    },
+    {
+      "epoch": 3.7000660938532715,
+      "grad_norm": 0.5297748446464539,
+      "learning_rate": 0.00013406389706684113,
+      "loss": 0.891,
+      "step": 7000
+    },
+    {
+      "epoch": 3.7000660938532715,
+      "eval_loss": 0.9645546078681946,
+      "eval_mean_token_accuracy": 0.8154595721725681,
+      "eval_num_tokens": 229302272.0,
+      "eval_runtime": 1714.7844,
+      "eval_samples_per_second": 4.412,
+      "eval_steps_per_second": 0.552,
+      "step": 7000
+    },
+    {
+      "epoch": 3.72650363516193,
+      "grad_norm": 0.5066333413124084,
+      "learning_rate": 0.00013133791298658814,
+      "loss": 0.8888,
+      "mean_token_accuracy": 0.8194779419898987,
+      "num_tokens": 230940672.0,
+      "step": 7050
+    },
+    {
+      "epoch": 3.7529411764705882,
+      "grad_norm": 0.5374875068664551,
+      "learning_rate": 0.0001286119289063352,
+      "loss": 0.8668,
+      "mean_token_accuracy": 0.8228415179252625,
+      "num_tokens": 232579072.0,
+      "step": 7100
+    },
+    {
+      "epoch": 3.7793787177792466,
+      "grad_norm": 0.45081761479377747,
+      "learning_rate": 0.0001258859448260822,
+      "loss": 0.8793,
+      "mean_token_accuracy": 0.8205449622869492,
+      "num_tokens": 234217472.0,
+      "step": 7150
+    },
+    {
+      "epoch": 3.805816259087905,
+      "grad_norm": 0.4918268620967865,
+      "learning_rate": 0.00012315996074582924,
+      "loss": 0.8733,
+      "mean_token_accuracy": 0.8207551288604736,
+      "num_tokens": 235855872.0,
+      "step": 7200
+    },
+    {
+      "epoch": 3.832253800396563,
+      "grad_norm": 0.5663712024688721,
+      "learning_rate": 0.00012043397666557627,
+      "loss": 0.8701,
+      "step": 7250
+    },
+    {
+      "epoch": 3.832253800396563,
+      "eval_loss": 0.9548874497413635,
+      "eval_mean_token_accuracy": 0.8167319189418446,
+      "eval_num_tokens": 237494272.0,
+      "eval_runtime": 1714.4512,
+      "eval_samples_per_second": 4.412,
+      "eval_steps_per_second": 0.552,
+      "step": 7250
+    },
+    {
+      "epoch": 3.8586913417052213,
+      "grad_norm": 1.051850438117981,
+      "learning_rate": 0.0001177079925853233,
+      "loss": 0.8694,
+      "mean_token_accuracy": 0.8223982758820056,
+      "num_tokens": 239132672.0,
+      "step": 7300
+    },
+    {
+      "epoch": 3.8851288830138797,
+      "grad_norm": 0.4363590478897095,
+      "learning_rate": 0.00011498200850507034,
+      "loss": 0.8864,
+      "mean_token_accuracy": 0.8197085753083229,
+      "num_tokens": 240771072.0,
+      "step": 7350
+    },
+    {
+      "epoch": 3.911566424322538,
+      "grad_norm": 1.5718705654144287,
+      "learning_rate": 0.00011225602442481736,
+      "loss": 0.8714,
+      "mean_token_accuracy": 0.8220063516497612,
+      "num_tokens": 242409472.0,
+      "step": 7400
+    },
+    {
+      "epoch": 3.9380039656311965,
+      "grad_norm": 2.0182573795318604,
+      "learning_rate": 0.00010953004034456439,
+      "loss": 0.8666,
+      "mean_token_accuracy": 0.8229606547951698,
+      "num_tokens": 244047872.0,
+      "step": 7450
+    },
+    {
+      "epoch": 3.9644415069398544,
+      "grad_norm": 0.5944796800613403,
+      "learning_rate": 0.00010680405626431142,
+      "loss": 0.8553,
+      "step": 7500
+    },
+    {
+      "epoch": 3.9644415069398544,
+      "eval_loss": 0.9463370442390442,
+      "eval_mean_token_accuracy": 0.8175775335026594,
+      "eval_num_tokens": 245686272.0,
+      "eval_runtime": 1716.9243,
+      "eval_samples_per_second": 4.406,
+      "eval_steps_per_second": 0.551,
+      "step": 7500
+    },
+    {
+      "epoch": 3.990879048248513,
+      "grad_norm": 0.39286720752716064,
+      "learning_rate": 0.00010407807218405844,
+      "loss": 0.8742,
+      "mean_token_accuracy": 0.8231118628382683,
+      "num_tokens": 247324672.0,
+      "step": 7550
+    },
+    {
+      "epoch": 4.016920026437541,
+      "grad_norm": 0.485441118478775,
+      "learning_rate": 0.00010135208810380548,
+      "loss": 0.8161,
+      "mean_token_accuracy": 0.8290703360199323,
+      "num_tokens": 248938496.0,
+      "step": 7600
+    },
+    {
+      "epoch": 4.0433575677462,
+      "grad_norm": 0.6562045216560364,
+      "learning_rate": 9.86261040235525e-05,
+      "loss": 0.7963,
+      "mean_token_accuracy": 0.829828929901123,
+      "num_tokens": 250576896.0,
+      "step": 7650
+    },
+    {
+      "epoch": 4.069795109054858,
+      "grad_norm": 0.4619589149951935,
+      "learning_rate": 9.590011994329953e-05,
+      "loss": 0.7968,
+      "mean_token_accuracy": 0.829875974059105,
+      "num_tokens": 252215296.0,
+      "step": 7700
+    },
+    {
+      "epoch": 4.0962326503635165,
+      "grad_norm": 0.5542292594909668,
+      "learning_rate": 9.317413586304656e-05,
+      "loss": 0.7897,
+      "step": 7750
+    },
+    {
+      "epoch": 4.0962326503635165,
+      "eval_loss": 0.9498882293701172,
+      "eval_mean_token_accuracy": 0.8178022539136778,
+      "eval_num_tokens": 253853696.0,
+      "eval_runtime": 1713.64,
+      "eval_samples_per_second": 4.415,
+      "eval_steps_per_second": 0.552,
+      "step": 7750
+    },
+    {
+      "epoch": 4.122670191672174,
+      "grad_norm": 0.40135377645492554,
+      "learning_rate": 9.044815178279358e-05,
+      "loss": 0.7963,
+      "mean_token_accuracy": 0.8303173841536045,
+      "num_tokens": 255492096.0,
+      "step": 7800
+    },
+    {
+      "epoch": 4.149107732980832,
+      "grad_norm": 0.39157313108444214,
+      "learning_rate": 8.772216770254061e-05,
+      "loss": 0.7846,
+      "mean_token_accuracy": 0.8317717489600182,
+      "num_tokens": 257130496.0,
+      "step": 7850
+    },
+    {
+      "epoch": 4.175545274289491,
+      "grad_norm": 0.4963982105255127,
+      "learning_rate": 8.499618362228765e-05,
+      "loss": 0.8069,
+      "mean_token_accuracy": 0.8283883157372475,
+      "num_tokens": 258768896.0,
+      "step": 7900
+    },
+    {
+      "epoch": 4.201982815598149,
+      "grad_norm": 0.3942487835884094,
+      "learning_rate": 8.227019954203467e-05,
+      "loss": 0.803,
+      "mean_token_accuracy": 0.8284738489985466,
+      "num_tokens": 260407296.0,
+      "step": 7950
+    },
+    {
+      "epoch": 4.228420356906808,
+      "grad_norm": 0.37145310640335083,
+      "learning_rate": 7.95442154617817e-05,
+      "loss": 0.805,
+      "step": 8000
+    },
+    {
+      "epoch": 4.228420356906808,
+      "eval_loss": 0.9421485066413879,
+      "eval_mean_token_accuracy": 0.8191204303540841,
+      "eval_num_tokens": 262045696.0,
+      "eval_runtime": 1716.291,
+      "eval_samples_per_second": 4.408,
+      "eval_steps_per_second": 0.551,
+      "step": 8000
+    },
+    {
+      "epoch": 4.254857898215466,
+      "grad_norm": 0.3017653524875641,
+      "learning_rate": 7.681823138152873e-05,
+      "loss": 0.796,
+      "mean_token_accuracy": 0.8288511091470718,
+      "num_tokens": 263684096.0,
+      "step": 8050
+    },
+    {
+      "epoch": 4.281295439524124,
+      "grad_norm": 0.4065409004688263,
+      "learning_rate": 7.409224730127575e-05,
+      "loss": 0.7812,
+      "mean_token_accuracy": 0.8326673975586891,
+      "num_tokens": 265322496.0,
+      "step": 8100
+    },
+    {
+      "epoch": 4.307732980832783,
+      "grad_norm": 0.33838245272636414,
+      "learning_rate": 7.136626322102279e-05,
+      "loss": 0.7868,
+      "mean_token_accuracy": 0.8319782489538192,
+      "num_tokens": 266960896.0,
+      "step": 8150
+    },
+    {
+      "epoch": 4.334170522141441,
+      "grad_norm": 0.39351001381874084,
+      "learning_rate": 6.864027914076983e-05,
+      "loss": 0.7891,
+      "mean_token_accuracy": 0.8313220903277397,
+      "num_tokens": 268599296.0,
+      "step": 8200
+    },
+    {
+      "epoch": 4.360608063450099,
+      "grad_norm": 0.3555977940559387,
+      "learning_rate": 6.591429506051685e-05,
+      "loss": 0.7858,
+      "step": 8250
+    },
+    {
+      "epoch": 4.360608063450099,
+      "eval_loss": 0.9359485507011414,
+      "eval_mean_token_accuracy": 0.8200258982483983,
+      "eval_num_tokens": 270237696.0,
+      "eval_runtime": 1713.1543,
+      "eval_samples_per_second": 4.416,
+      "eval_steps_per_second": 0.552,
+      "step": 8250
+    },
+    {
+      "epoch": 4.387045604758757,
+      "grad_norm": 0.34437137842178345,
+      "learning_rate": 6.318831098026388e-05,
+      "loss": 0.7825,
+      "mean_token_accuracy": 0.8322449275851249,
+      "num_tokens": 271876096.0,
+      "step": 8300
+    },
+    {
+      "epoch": 4.413483146067415,
+      "grad_norm": 0.37046581506729126,
+      "learning_rate": 6.0462326900010904e-05,
+      "loss": 0.7936,
+      "mean_token_accuracy": 0.8298429843783378,
+      "num_tokens": 273514496.0,
+      "step": 8350
+    },
+    {
+      "epoch": 4.439920687376074,
+      "grad_norm": 0.44303834438323975,
+      "learning_rate": 5.773634281975793e-05,
+      "loss": 0.7891,
+      "mean_token_accuracy": 0.8311491903662681,
+      "num_tokens": 275152896.0,
+      "step": 8400
+    },
+    {
+      "epoch": 4.466358228684732,
+      "grad_norm": 0.382201611995697,
+      "learning_rate": 5.5010358739504963e-05,
+      "loss": 0.7781,
+      "mean_token_accuracy": 0.8330895602703094,
+      "num_tokens": 276791296.0,
+      "step": 8450
+    },
+    {
+      "epoch": 4.492795769993391,
+      "grad_norm": 0.39989522099494934,
+      "learning_rate": 5.228437465925199e-05,
+      "loss": 0.7877,
+      "step": 8500
+    },
+    {
+      "epoch": 4.492795769993391,
+      "eval_loss": 0.9300816059112549,
+      "eval_mean_token_accuracy": 0.8209756191890789,
+      "eval_num_tokens": 278429696.0,
+      "eval_runtime": 1713.4373,
+      "eval_samples_per_second": 4.415,
+      "eval_steps_per_second": 0.552,
+      "step": 8500
+    },
+    {
+      "epoch": 4.519233311302049,
+      "grad_norm": 0.3832317590713501,
+      "learning_rate": 4.9558390578999016e-05,
+      "loss": 0.7782,
+      "mean_token_accuracy": 0.8327266594767571,
+      "num_tokens": 280068096.0,
+      "step": 8550
+    },
+    {
+      "epoch": 4.545670852610707,
+      "grad_norm": 0.4667583703994751,
+      "learning_rate": 4.683240649874604e-05,
+      "loss": 0.7849,
+      "mean_token_accuracy": 0.8322770014405251,
+      "num_tokens": 281706496.0,
+      "step": 8600
+    },
+    {
+      "epoch": 4.572108393919366,
+      "grad_norm": 0.3977579176425934,
+      "learning_rate": 4.4106422418493076e-05,
+      "loss": 0.786,
+      "mean_token_accuracy": 0.83141067892313,
+      "num_tokens": 283344896.0,
+      "step": 8650
+    },
+    {
+      "epoch": 4.598545935228024,
+      "grad_norm": 0.38620129227638245,
+      "learning_rate": 4.138043833824011e-05,
+      "loss": 0.7865,
+      "mean_token_accuracy": 0.8317729702591896,
+      "num_tokens": 284983296.0,
+      "step": 8700
+    },
+    {
+      "epoch": 4.624983476536682,
+      "grad_norm": 0.3608716130256653,
+      "learning_rate": 3.8654454257987135e-05,
+      "loss": 0.7905,
+      "step": 8750
+    },
+    {
+      "epoch": 4.624983476536682,
+      "eval_loss": 0.9239566922187805,
+      "eval_mean_token_accuracy": 0.8218199411607948,
+      "eval_num_tokens": 286621696.0,
+      "eval_runtime": 1715.401,
+      "eval_samples_per_second": 4.41,
+      "eval_steps_per_second": 0.551,
+      "step": 8750
+    },
+    {
+      "epoch": 4.65142101784534,
+      "grad_norm": 0.30198875069618225,
+      "learning_rate": 3.592847017773417e-05,
+      "loss": 0.7672,
+      "mean_token_accuracy": 0.8327672865986824,
+      "num_tokens": 288260096.0,
+      "step": 8800
+    },
+    {
+      "epoch": 4.677858559153998,
+      "grad_norm": 0.3867688477039337,
+      "learning_rate": 3.3202486097481194e-05,
+      "loss": 0.7728,
+      "mean_token_accuracy": 0.8339509972929955,
+      "num_tokens": 289898496.0,
+      "step": 8850
+    },
+    {
+      "epoch": 4.704296100462657,
+      "grad_norm": 0.38331055641174316,
+      "learning_rate": 3.0476502017228217e-05,
+      "loss": 0.7801,
+      "mean_token_accuracy": 0.8332563516497612,
+      "num_tokens": 291536896.0,
+      "step": 8900
+    },
+    {
+      "epoch": 4.730733641771315,
+      "grad_norm": 0.32032325863838196,
+      "learning_rate": 2.775051793697525e-05,
+      "loss": 0.7896,
+      "mean_token_accuracy": 0.8309176415205002,
+      "num_tokens": 293175296.0,
+      "step": 8950
+    },
+    {
+      "epoch": 4.757171183079974,
+      "grad_norm": 0.41111549735069275,
+      "learning_rate": 2.502453385672228e-05,
+      "loss": 0.7691,
+      "step": 9000
+    },
+    {
+      "epoch": 4.757171183079974,
+      "eval_loss": 0.9195617437362671,
+      "eval_mean_token_accuracy": 0.8225174557583025,
+      "eval_num_tokens": 294813696.0,
+      "eval_runtime": 1712.3817,
+      "eval_samples_per_second": 4.418,
+      "eval_steps_per_second": 0.552,
+      "step": 9000
+    },
+    {
+      "epoch": 4.783608724388632,
+      "grad_norm": 0.32703885436058044,
+      "learning_rate": 2.2298549776469306e-05,
+      "loss": 0.7527,
+      "mean_token_accuracy": 0.8362371681630612,
+      "num_tokens": 296452096.0,
+      "step": 9050
+    },
+    {
+      "epoch": 4.81004626569729,
+      "grad_norm": 0.915315568447113,
+      "learning_rate": 1.9572565696216336e-05,
+      "loss": 0.7746,
+      "mean_token_accuracy": 0.8344965758919716,
+      "num_tokens": 298090496.0,
+      "step": 9100
+    },
+    {
+      "epoch": 4.836483807005949,
+      "grad_norm": 0.3820320665836334,
+      "learning_rate": 1.6846581615963362e-05,
+      "loss": 0.7714,
+      "mean_token_accuracy": 0.8342699158191681,
+      "num_tokens": 299728896.0,
+      "step": 9150
+    },
+    {
+      "epoch": 4.8629213483146065,
+      "grad_norm": 0.36762210726737976,
+      "learning_rate": 1.4120597535710392e-05,
+      "loss": 0.7768,
+      "mean_token_accuracy": 0.8333681541681289,
+      "num_tokens": 301367296.0,
+      "step": 9200
+    },
+    {
+      "epoch": 4.889358889623265,
+      "grad_norm": 0.5305154919624329,
+      "learning_rate": 1.139461345545742e-05,
+      "loss": 0.7682,
+      "step": 9250
+    },
+    {
+      "epoch": 4.889358889623265,
+      "eval_loss": 0.9165179133415222,
+      "eval_mean_token_accuracy": 0.8231746450413105,
+      "eval_num_tokens": 303005696.0,
+      "eval_runtime": 1714.4129,
+      "eval_samples_per_second": 4.413,
+      "eval_steps_per_second": 0.552,
+      "step": 9250
+    },
+    {
+      "epoch": 4.915796430931923,
+      "grad_norm": 0.37008801102638245,
+      "learning_rate": 8.668629375204448e-06,
+      "loss": 0.7568,
+      "mean_token_accuracy": 0.8357875108718872,
+      "num_tokens": 304644096.0,
+      "step": 9300
+    },
+    {
+      "epoch": 4.942233972240581,
+      "grad_norm": 0.3372200131416321,
+      "learning_rate": 5.942645294951477e-06,
+      "loss": 0.7791,
+      "mean_token_accuracy": 0.8329618725180626,
+      "num_tokens": 306282496.0,
+      "step": 9350
+    },
+    {
+      "epoch": 4.96867151354924,
+      "grad_norm": 0.36545583605766296,
+      "learning_rate": 3.2166612146985063e-06,
+      "loss": 0.7812,
+      "mean_token_accuracy": 0.8330565708875656,
+      "num_tokens": 307920896.0,
+      "step": 9400
+    },
+    {
+      "epoch": 4.995109054857898,
+      "grad_norm": 0.2767314910888672,
+      "learning_rate": 4.906771344455349e-07,
+      "loss": 0.7773,
+      "mean_token_accuracy": 0.8339308369159698,
+      "num_tokens": 309559296.0,
+      "step": 9450
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 9455,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 494751040143360.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8527608b21d92bfcb521038a595e7b03ec2677df219c7daabc21faa1c4638f48
+size 8120