Pushing checkpoint-750 (best) to main

Browse files

Files changed (12) hide show

README.md +1 -1
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +6 -2501
last-checkpoint/training_args.bin +1 -1
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -37,7 +37,7 @@ This model was trained with SFT.
 - TRL: 0.27.0
 - Transformers: 4.57.6
 - Pytorch: 2.8.0+cu126
-- Datasets: 4.4.2
 - Tokenizers: 0.22.1
 ## Citations

 - TRL: 0.27.0
 - Transformers: 4.57.6
 - Pytorch: 2.8.0+cu126
+- Datasets: 4.4.1
 - Tokenizers: 0.22.1
 ## Citations

adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "k_proj",
-    "down_proj",
     "q_proj",
     "gate_proj",
-    "up_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "q_proj",
+    "down_proj",
+    "o_proj",
+    "v_proj",
     "gate_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31e65c9ff039c74d59b4607524385f75a8ae083b148b3a163cece010a9774af0
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd11b39803251198dcb7e030bb69c10b05cece6a9e45160afcc921794cb790cc
 size 228140600

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "k_proj",
-    "down_proj",
     "q_proj",
     "gate_proj",
-    "up_proj",
-    "o_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "q_proj",
+    "down_proj",
+    "o_proj",
+    "v_proj",
     "gate_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31e65c9ff039c74d59b4607524385f75a8ae083b148b3a163cece010a9774af0
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd11b39803251198dcb7e030bb69c10b05cece6a9e45160afcc921794cb790cc
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b96216027c02e20a6ee8541060ecd0085b74fd0ea5669cf82258347c31d3baf
-size 117931203

 version https://git-lfs.github.com/spec/v1
+oid sha256:2acc6b93233f66c6ddb8b195904fe7cd974047004ffcd02f1d993e85ebc0a677
+size 116484839

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e788bee1c067926ef11645e418ec428402ec185fb9258e04df56296e42d2286b
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:b7883d803ebcafeb5684e5f2bcceb39f2a54258143c0c4972785bf0a17a36dc8
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e230928162c4463d462e64ab14b3906988dfebe47926d517a84f2e81ec7582c
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e188a4cd7f588ff088ff68a7d9c18ed5ca570c5b11d6790654dcb4e3accb81e
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b0095603c7ffc8d3152c5de9d397fd1beca2e9651bdba9b9da9fbad8a37e19c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:08f9e08af1aa8eb785ad1df11d9714b6c859fed11b125506168e50ec9ce7af28
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
-  "epoch": 5.0,
-  "eval_steps": 300,
-  "global_step": 3125,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -813,2508 +813,13 @@
       "eval_samples_per_second": 2.106,
       "eval_steps_per_second": 0.526,
       "step": 750
-    },
-    {
-      "entropy": 0.4685165178030729,
-      "epoch": 1.216,
-      "grad_norm": 0.4797472059726715,
-      "learning_rate": 7.5744e-05,
-      "loss": 0.4371,
-      "mean_token_accuracy": 0.872249535471201,
-      "num_tokens": 20779.0,
-      "step": 760
-    },
-    {
-      "entropy": 0.5129861503839492,
-      "epoch": 1.232,
-      "grad_norm": 0.5743088126182556,
-      "learning_rate": 7.5424e-05,
-      "loss": 0.4703,
-      "mean_token_accuracy": 0.8656402382999658,
-      "num_tokens": 37039.0,
-      "step": 770
-    },
-    {
-      "entropy": 0.47918802928179505,
-      "epoch": 1.248,
-      "grad_norm": 0.41004160046577454,
-      "learning_rate": 7.5104e-05,
-      "loss": 0.4631,
-      "mean_token_accuracy": 0.8624460745602847,
-      "num_tokens": 66230.0,
-      "step": 780
-    },
-    {
-      "entropy": 0.423713362775743,
-      "epoch": 1.264,
-      "grad_norm": 0.39121007919311523,
-      "learning_rate": 7.4784e-05,
-      "loss": 0.4005,
-      "mean_token_accuracy": 0.8780338373035192,
-      "num_tokens": 98315.0,
-      "step": 790
-    },
-    {
-      "entropy": 0.46349438820034267,
-      "epoch": 1.28,
-      "grad_norm": 0.4372813403606415,
-      "learning_rate": 7.4464e-05,
-      "loss": 0.4236,
-      "mean_token_accuracy": 0.8776358034461736,
-      "num_tokens": 123538.0,
-      "step": 800
-    },
-    {
-      "entropy": 0.46192670799791813,
-      "epoch": 1.296,
-      "grad_norm": 0.5512360334396362,
-      "learning_rate": 7.4144e-05,
-      "loss": 0.4276,
-      "mean_token_accuracy": 0.8758893702179193,
-      "num_tokens": 143855.0,
-      "step": 810
-    },
-    {
-      "entropy": 0.5323605043813586,
-      "epoch": 1.312,
-      "grad_norm": 0.6361510753631592,
-      "learning_rate": 7.3824e-05,
-      "loss": 0.491,
-      "mean_token_accuracy": 0.856274176388979,
-      "num_tokens": 159314.0,
-      "step": 820
-    },
-    {
-      "entropy": 0.4423897641710937,
-      "epoch": 1.328,
-      "grad_norm": 0.4728486239910126,
-      "learning_rate": 7.3504e-05,
-      "loss": 0.4335,
-      "mean_token_accuracy": 0.8686480693519115,
-      "num_tokens": 187464.0,
-      "step": 830
-    },
-    {
-      "entropy": 0.41830341406166555,
-      "epoch": 1.3439999999999999,
-      "grad_norm": 0.49457916617393494,
-      "learning_rate": 7.318400000000001e-05,
-      "loss": 0.3985,
-      "mean_token_accuracy": 0.8779879175126553,
-      "num_tokens": 219657.0,
-      "step": 840
-    },
-    {
-      "entropy": 0.44871921837329865,
-      "epoch": 1.3599999999999999,
-      "grad_norm": 0.46471357345581055,
-      "learning_rate": 7.2864e-05,
-      "loss": 0.4009,
-      "mean_token_accuracy": 0.8793935433030129,
-      "num_tokens": 245396.0,
-      "step": 850
-    },
-    {
-      "entropy": 0.4491863099858165,
-      "epoch": 1.376,
-      "grad_norm": 0.4910559356212616,
-      "learning_rate": 7.2544e-05,
-      "loss": 0.432,
-      "mean_token_accuracy": 0.8772312045097351,
-      "num_tokens": 266432.0,
-      "step": 860
-    },
-    {
-      "entropy": 0.5239890940487385,
-      "epoch": 1.392,
-      "grad_norm": 0.7272471785545349,
-      "learning_rate": 7.2224e-05,
-      "loss": 0.4652,
-      "mean_token_accuracy": 0.8644176237285137,
-      "num_tokens": 282655.0,
-      "step": 870
-    },
-    {
-      "entropy": 0.45916353976354,
-      "epoch": 1.408,
-      "grad_norm": 0.4625614583492279,
-      "learning_rate": 7.190400000000001e-05,
-      "loss": 0.4543,
-      "mean_token_accuracy": 0.8663836497813463,
-      "num_tokens": 310801.0,
-      "step": 880
-    },
-    {
-      "entropy": 0.4246408801525831,
-      "epoch": 1.424,
-      "grad_norm": 0.48823705315589905,
-      "learning_rate": 7.158400000000001e-05,
-      "loss": 0.395,
-      "mean_token_accuracy": 0.879553859308362,
-      "num_tokens": 343555.0,
-      "step": 890
-    },
-    {
-      "entropy": 0.44206046797335147,
-      "epoch": 1.44,
-      "grad_norm": 0.48411789536476135,
-      "learning_rate": 7.126400000000001e-05,
-      "loss": 0.4127,
-      "mean_token_accuracy": 0.8790250942111015,
-      "num_tokens": 369134.0,
-      "step": 900
-    },
-    {
-      "epoch": 1.44,
-      "eval_entropy": 0.4753110625743866,
-      "eval_loss": 0.5131832361221313,
-      "eval_mean_token_accuracy": 0.8568402478694915,
-      "eval_num_tokens": 369134.0,
-      "eval_runtime": 895.8989,
-      "eval_samples_per_second": 2.232,
-      "eval_steps_per_second": 0.558,
-      "step": 900
-    },
-    {
-      "entropy": 0.4554462408646941,
-      "epoch": 1.456,
-      "grad_norm": 0.537635087966919,
-      "learning_rate": 7.0944e-05,
-      "loss": 0.4188,
-      "mean_token_accuracy": 0.8769065048545599,
-      "num_tokens": 390152.0,
-      "step": 910
-    },
-    {
-      "entropy": 0.5131621342152357,
-      "epoch": 1.472,
-      "grad_norm": 0.6558974385261536,
-      "learning_rate": 7.062400000000001e-05,
-      "loss": 0.4663,
-      "mean_token_accuracy": 0.8643736276775599,
-      "num_tokens": 406222.0,
-      "step": 920
-    },
-    {
-      "entropy": 0.46728117018938065,
-      "epoch": 1.488,
-      "grad_norm": 0.4205915927886963,
-      "learning_rate": 7.030400000000001e-05,
-      "loss": 0.4539,
-      "mean_token_accuracy": 0.8652867745608092,
-      "num_tokens": 434767.0,
-      "step": 930
-    },
-    {
-      "entropy": 0.3991527833044529,
-      "epoch": 1.504,
-      "grad_norm": 0.4031739830970764,
-      "learning_rate": 6.9984e-05,
-      "loss": 0.3805,
-      "mean_token_accuracy": 0.8837333973497152,
-      "num_tokens": 467498.0,
-      "step": 940
-    },
-    {
-      "entropy": 0.43914526589214803,
-      "epoch": 1.52,
-      "grad_norm": 0.42591777443885803,
-      "learning_rate": 6.9664e-05,
-      "loss": 0.3989,
-      "mean_token_accuracy": 0.8830435562878847,
-      "num_tokens": 493146.0,
-      "step": 950
-    },
-    {
-      "entropy": 0.4609672848135233,
-      "epoch": 1.536,
-      "grad_norm": 0.5175366997718811,
-      "learning_rate": 6.934399999999999e-05,
-      "loss": 0.4377,
-      "mean_token_accuracy": 0.8746946189552546,
-      "num_tokens": 513926.0,
-      "step": 960
-    },
-    {
-      "entropy": 0.5191182948648929,
-      "epoch": 1.552,
-      "grad_norm": 0.6527137160301208,
-      "learning_rate": 6.9024e-05,
-      "loss": 0.465,
-      "mean_token_accuracy": 0.86279138289392,
-      "num_tokens": 530263.0,
-      "step": 970
-    },
-    {
-      "entropy": 0.4549953695386648,
-      "epoch": 1.568,
-      "grad_norm": 0.4532809257507324,
-      "learning_rate": 6.8704e-05,
-      "loss": 0.4345,
-      "mean_token_accuracy": 0.8703642163425684,
-      "num_tokens": 559791.0,
-      "step": 980
-    },
-    {
-      "entropy": 0.39457473438233137,
-      "epoch": 1.584,
-      "grad_norm": 0.4516853094100952,
-      "learning_rate": 6.8384e-05,
-      "loss": 0.3833,
-      "mean_token_accuracy": 0.885482932254672,
-      "num_tokens": 592398.0,
-      "step": 990
-    },
-    {
-      "entropy": 0.44856451768428085,
-      "epoch": 1.6,
-      "grad_norm": 0.4582580029964447,
-      "learning_rate": 6.8064e-05,
-      "loss": 0.4081,
-      "mean_token_accuracy": 0.8799201253801584,
-      "num_tokens": 617982.0,
-      "step": 1000
-    },
-    {
-      "entropy": 0.46642222460359334,
-      "epoch": 1.616,
-      "grad_norm": 0.45997655391693115,
-      "learning_rate": 6.774400000000001e-05,
-      "loss": 0.4375,
-      "mean_token_accuracy": 0.8738056540489196,
-      "num_tokens": 639115.0,
-      "step": 1010
-    },
-    {
-      "entropy": 0.5127991208806634,
-      "epoch": 1.6320000000000001,
-      "grad_norm": 0.6186177730560303,
-      "learning_rate": 6.7424e-05,
-      "loss": 0.4503,
-      "mean_token_accuracy": 0.8713137298822403,
-      "num_tokens": 655709.0,
-      "step": 1020
-    },
-    {
-      "entropy": 0.45265620658174155,
-      "epoch": 1.6480000000000001,
-      "grad_norm": 0.4363885819911957,
-      "learning_rate": 6.7104e-05,
-      "loss": 0.4347,
-      "mean_token_accuracy": 0.866806122660637,
-      "num_tokens": 684500.0,
-      "step": 1030
-    },
-    {
-      "entropy": 0.39329283433035017,
-      "epoch": 1.6640000000000001,
-      "grad_norm": 0.39802274107933044,
-      "learning_rate": 6.6784e-05,
-      "loss": 0.3699,
-      "mean_token_accuracy": 0.8874391701072455,
-      "num_tokens": 717271.0,
-      "step": 1040
-    },
-    {
-      "entropy": 0.4426466390490532,
-      "epoch": 1.6800000000000002,
-      "grad_norm": 0.4594961404800415,
-      "learning_rate": 6.6464e-05,
-      "loss": 0.4061,
-      "mean_token_accuracy": 0.8797303918749094,
-      "num_tokens": 743068.0,
-      "step": 1050
-    },
-    {
-      "epoch": 1.6800000000000002,
-      "eval_entropy": 0.4718739038705826,
-      "eval_loss": 0.511114239692688,
-      "eval_mean_token_accuracy": 0.8577107313871384,
-      "eval_num_tokens": 743068.0,
-      "eval_runtime": 895.9979,
-      "eval_samples_per_second": 2.232,
-      "eval_steps_per_second": 0.558,
-      "step": 1050
-    },
-    {
-      "entropy": 0.45297340136021375,
-      "epoch": 1.696,
-      "grad_norm": 0.5545983910560608,
-      "learning_rate": 6.614400000000001e-05,
-      "loss": 0.4144,
-      "mean_token_accuracy": 0.8779479678720236,
-      "num_tokens": 763925.0,
-      "step": 1060
-    },
-    {
-      "entropy": 0.497313455119729,
-      "epoch": 1.712,
-      "grad_norm": 0.6375033259391785,
-      "learning_rate": 6.582400000000001e-05,
-      "loss": 0.4523,
-      "mean_token_accuracy": 0.8679382588714362,
-      "num_tokens": 780111.0,
-      "step": 1070
-    },
-    {
-      "entropy": 0.4517807062715292,
-      "epoch": 1.728,
-      "grad_norm": 0.42967426776885986,
-      "learning_rate": 6.5504e-05,
-      "loss": 0.4297,
-      "mean_token_accuracy": 0.8690480105578899,
-      "num_tokens": 808661.0,
-      "step": 1080
-    },
-    {
-      "entropy": 0.40057806484401226,
-      "epoch": 1.744,
-      "grad_norm": 0.4295614957809448,
-      "learning_rate": 6.5184e-05,
-      "loss": 0.3765,
-      "mean_token_accuracy": 0.8872563410550356,
-      "num_tokens": 840932.0,
-      "step": 1090
-    },
-    {
-      "entropy": 0.4463956480845809,
-      "epoch": 1.76,
-      "grad_norm": 0.49008527398109436,
-      "learning_rate": 6.486400000000001e-05,
-      "loss": 0.4064,
-      "mean_token_accuracy": 0.8804606605321169,
-      "num_tokens": 866564.0,
-      "step": 1100
-    },
-    {
-      "entropy": 0.45895243529230356,
-      "epoch": 1.776,
-      "grad_norm": 0.5231919288635254,
-      "learning_rate": 6.454400000000001e-05,
-      "loss": 0.4249,
-      "mean_token_accuracy": 0.8787468057125807,
-      "num_tokens": 887527.0,
-      "step": 1110
-    },
-    {
-      "entropy": 0.5028131037950516,
-      "epoch": 1.792,
-      "grad_norm": 0.6885866522789001,
-      "learning_rate": 6.4224e-05,
-      "loss": 0.4549,
-      "mean_token_accuracy": 0.8681917265057564,
-      "num_tokens": 903688.0,
-      "step": 1120
-    },
-    {
-      "entropy": 0.4443069422617555,
-      "epoch": 1.808,
-      "grad_norm": 0.4276801347732544,
-      "learning_rate": 6.3904e-05,
-      "loss": 0.419,
-      "mean_token_accuracy": 0.8721311956644058,
-      "num_tokens": 932975.0,
-      "step": 1130
-    },
-    {
-      "entropy": 0.38013150785118344,
-      "epoch": 1.8239999999999998,
-      "grad_norm": 0.4245995283126831,
-      "learning_rate": 6.358399999999999e-05,
-      "loss": 0.3752,
-      "mean_token_accuracy": 0.8849109452217817,
-      "num_tokens": 965221.0,
-      "step": 1140
-    },
-    {
-      "entropy": 0.44638209473341706,
-      "epoch": 1.8399999999999999,
-      "grad_norm": 0.47453537583351135,
-      "learning_rate": 6.3264e-05,
-      "loss": 0.4066,
-      "mean_token_accuracy": 0.8791540212929249,
-      "num_tokens": 990859.0,
-      "step": 1150
-    },
-    {
-      "entropy": 0.4516189154237509,
-      "epoch": 1.8559999999999999,
-      "grad_norm": 0.5056102871894836,
-      "learning_rate": 6.2944e-05,
-      "loss": 0.4127,
-      "mean_token_accuracy": 0.8801082350313664,
-      "num_tokens": 1011268.0,
-      "step": 1160
-    },
-    {
-      "entropy": 0.5173742642626167,
-      "epoch": 1.8719999999999999,
-      "grad_norm": 0.6503537893295288,
-      "learning_rate": 6.2624e-05,
-      "loss": 0.48,
-      "mean_token_accuracy": 0.8607568740844727,
-      "num_tokens": 1026942.0,
-      "step": 1170
-    },
-    {
-      "entropy": 0.4701320366002619,
-      "epoch": 1.888,
-      "grad_norm": 0.3796524405479431,
-      "learning_rate": 6.2304e-05,
-      "loss": 0.4387,
-      "mean_token_accuracy": 0.8685618557035923,
-      "num_tokens": 1053937.0,
-      "step": 1180
-    },
-    {
-      "entropy": 0.3984457287937403,
-      "epoch": 1.904,
-      "grad_norm": 0.4399532377719879,
-      "learning_rate": 6.1984e-05,
-      "loss": 0.3885,
-      "mean_token_accuracy": 0.8824849870055914,
-      "num_tokens": 1084820.0,
-      "step": 1190
-    },
-    {
-      "entropy": 0.44145693685859444,
-      "epoch": 1.92,
-      "grad_norm": 0.44594088196754456,
-      "learning_rate": 6.1664e-05,
-      "loss": 0.3917,
-      "mean_token_accuracy": 0.884940878674388,
-      "num_tokens": 1109943.0,
-      "step": 1200
-    },
-    {
-      "epoch": 1.92,
-      "eval_entropy": 0.47450968527793885,
-      "eval_loss": 0.5091220140457153,
-      "eval_mean_token_accuracy": 0.8581691147089004,
-      "eval_num_tokens": 1109943.0,
-      "eval_runtime": 897.2539,
-      "eval_samples_per_second": 2.229,
-      "eval_steps_per_second": 0.557,
-      "step": 1200
-    },
-    {
-      "entropy": 0.4571360006928444,
-      "epoch": 1.936,
-      "grad_norm": 0.5302743315696716,
-      "learning_rate": 6.1344e-05,
-      "loss": 0.4167,
-      "mean_token_accuracy": 0.8782664395868778,
-      "num_tokens": 1130543.0,
-      "step": 1210
-    },
-    {
-      "entropy": 0.49114823453128337,
-      "epoch": 1.952,
-      "grad_norm": 0.6523593664169312,
-      "learning_rate": 6.1024000000000004e-05,
-      "loss": 0.4495,
-      "mean_token_accuracy": 0.8662942215800286,
-      "num_tokens": 1146676.0,
-      "step": 1220
-    },
-    {
-      "entropy": 0.46395022002980113,
-      "epoch": 1.968,
-      "grad_norm": 0.42906099557876587,
-      "learning_rate": 6.070400000000001e-05,
-      "loss": 0.4392,
-      "mean_token_accuracy": 0.8659089788794517,
-      "num_tokens": 1172078.0,
-      "step": 1230
-    },
-    {
-      "entropy": 0.4239502627402544,
-      "epoch": 1.984,
-      "grad_norm": 0.5165457129478455,
-      "learning_rate": 6.038400000000001e-05,
-      "loss": 0.4067,
-      "mean_token_accuracy": 0.8755033057183027,
-      "num_tokens": 1197464.0,
-      "step": 1240
-    },
-    {
-      "entropy": 0.5474816044792533,
-      "epoch": 2.0,
-      "grad_norm": 0.7312328219413757,
-      "learning_rate": 6.0064e-05,
-      "loss": 0.4816,
-      "mean_token_accuracy": 0.8589978538453579,
-      "num_tokens": 1212204.0,
-      "step": 1250
-    },
-    {
-      "entropy": 0.3549959819763899,
-      "epoch": 2.016,
-      "grad_norm": 0.44957467913627625,
-      "learning_rate": 5.9744e-05,
-      "loss": 0.329,
-      "mean_token_accuracy": 0.8989395320415496,
-      "num_tokens": 1253503.0,
-      "step": 1260
-    },
-    {
-      "entropy": 0.3744832394644618,
-      "epoch": 2.032,
-      "grad_norm": 0.48583275079727173,
-      "learning_rate": 5.9424e-05,
-      "loss": 0.3574,
-      "mean_token_accuracy": 0.8903608873486519,
-      "num_tokens": 1282285.0,
-      "step": 1270
-    },
-    {
-      "entropy": 0.4087462780997157,
-      "epoch": 2.048,
-      "grad_norm": 0.5598016381263733,
-      "learning_rate": 5.9104e-05,
-      "loss": 0.3668,
-      "mean_token_accuracy": 0.8913519535213709,
-      "num_tokens": 1305738.0,
-      "step": 1280
-    },
-    {
-      "entropy": 0.4285904698073864,
-      "epoch": 2.064,
-      "grad_norm": 0.637881338596344,
-      "learning_rate": 5.8784000000000005e-05,
-      "loss": 0.3693,
-      "mean_token_accuracy": 0.8924054179340601,
-      "num_tokens": 1324499.0,
-      "step": 1290
-    },
-    {
-      "entropy": 0.46786304665729406,
-      "epoch": 2.08,
-      "grad_norm": 0.7997815012931824,
-      "learning_rate": 5.846400000000001e-05,
-      "loss": 0.3988,
-      "mean_token_accuracy": 0.8819302976131439,
-      "num_tokens": 1337343.0,
-      "step": 1300
-    },
-    {
-      "entropy": 0.30622370541095734,
-      "epoch": 2.096,
-      "grad_norm": 0.46214577555656433,
-      "learning_rate": 5.8144e-05,
-      "loss": 0.3356,
-      "mean_token_accuracy": 0.8964022137224674,
-      "num_tokens": 1378091.0,
-      "step": 1310
-    },
-    {
-      "entropy": 0.38422031346708535,
-      "epoch": 2.112,
-      "grad_norm": 0.5669556856155396,
-      "learning_rate": 5.7824e-05,
-      "loss": 0.3431,
-      "mean_token_accuracy": 0.8970716085284949,
-      "num_tokens": 1406636.0,
-      "step": 1320
-    },
-    {
-      "entropy": 0.4110618421807885,
-      "epoch": 2.128,
-      "grad_norm": 0.5469350218772888,
-      "learning_rate": 5.7504000000000004e-05,
-      "loss": 0.3556,
-      "mean_token_accuracy": 0.8946326076984406,
-      "num_tokens": 1429756.0,
-      "step": 1330
-    },
-    {
-      "entropy": 0.41729052886366846,
-      "epoch": 2.144,
-      "grad_norm": 0.5956342220306396,
-      "learning_rate": 5.718400000000001e-05,
-      "loss": 0.3707,
-      "mean_token_accuracy": 0.8897294741123914,
-      "num_tokens": 1448487.0,
-      "step": 1340
-    },
-    {
-      "entropy": 0.4881801651790738,
-      "epoch": 2.16,
-      "grad_norm": 1.0672754049301147,
-      "learning_rate": 5.6864e-05,
-      "loss": 0.4108,
-      "mean_token_accuracy": 0.8769895020872355,
-      "num_tokens": 1461450.0,
-      "step": 1350
-    },
-    {
-      "epoch": 2.16,
-      "eval_entropy": 0.3968213936388493,
-      "eval_loss": 0.5419190526008606,
-      "eval_mean_token_accuracy": 0.8568335684537888,
-      "eval_num_tokens": 1461450.0,
-      "eval_runtime": 896.689,
-      "eval_samples_per_second": 2.23,
-      "eval_steps_per_second": 0.558,
-      "step": 1350
-    },
-    {
-      "entropy": 0.3141488812863827,
-      "epoch": 2.176,
-      "grad_norm": 0.47934019565582275,
-      "learning_rate": 5.6544000000000006e-05,
-      "loss": 0.3396,
-      "mean_token_accuracy": 0.8963223662227392,
-      "num_tokens": 1501473.0,
-      "step": 1360
-    },
-    {
-      "entropy": 0.37752851136028764,
-      "epoch": 2.192,
-      "grad_norm": 0.580359160900116,
-      "learning_rate": 5.6223999999999996e-05,
-      "loss": 0.345,
-      "mean_token_accuracy": 0.8945828888565301,
-      "num_tokens": 1529468.0,
-      "step": 1370
-    },
-    {
-      "entropy": 0.4134438899345696,
-      "epoch": 2.208,
-      "grad_norm": 0.6379365921020508,
-      "learning_rate": 5.5904e-05,
-      "loss": 0.3692,
-      "mean_token_accuracy": 0.8921185087412595,
-      "num_tokens": 1552194.0,
-      "step": 1380
-    },
-    {
-      "entropy": 0.4285835810005665,
-      "epoch": 2.224,
-      "grad_norm": 0.7130568027496338,
-      "learning_rate": 5.5584e-05,
-      "loss": 0.3708,
-      "mean_token_accuracy": 0.8914431348443032,
-      "num_tokens": 1570340.0,
-      "step": 1390
-    },
-    {
-      "entropy": 0.4728871438652277,
-      "epoch": 2.24,
-      "grad_norm": 0.8636120557785034,
-      "learning_rate": 5.5264000000000005e-05,
-      "loss": 0.4016,
-      "mean_token_accuracy": 0.8787129417061805,
-      "num_tokens": 1583068.0,
-      "step": 1400
-    },
-    {
-      "entropy": 0.3159141786396503,
-      "epoch": 2.2560000000000002,
-      "grad_norm": 0.5734344720840454,
-      "learning_rate": 5.494400000000001e-05,
-      "loss": 0.3333,
-      "mean_token_accuracy": 0.8989784453064203,
-      "num_tokens": 1621780.0,
-      "step": 1410
-    },
-    {
-      "entropy": 0.3770693183876574,
-      "epoch": 2.2720000000000002,
-      "grad_norm": 0.5254765152931213,
-      "learning_rate": 5.4624e-05,
-      "loss": 0.3526,
-      "mean_token_accuracy": 0.8930392079055309,
-      "num_tokens": 1649762.0,
-      "step": 1420
-    },
-    {
-      "entropy": 0.42590463180094956,
-      "epoch": 2.288,
-      "grad_norm": 0.6342437267303467,
-      "learning_rate": 5.4304e-05,
-      "loss": 0.374,
-      "mean_token_accuracy": 0.8877194058150053,
-      "num_tokens": 1672433.0,
-      "step": 1430
-    },
-    {
-      "entropy": 0.4354470370337367,
-      "epoch": 2.304,
-      "grad_norm": 0.7154885530471802,
-      "learning_rate": 5.3984000000000004e-05,
-      "loss": 0.3778,
-      "mean_token_accuracy": 0.8892953939735889,
-      "num_tokens": 1690543.0,
-      "step": 1440
-    },
-    {
-      "entropy": 0.48633114621043205,
-      "epoch": 2.32,
-      "grad_norm": 1.0084096193313599,
-      "learning_rate": 5.3664e-05,
-      "loss": 0.4139,
-      "mean_token_accuracy": 0.8807312864810228,
-      "num_tokens": 1702841.0,
-      "step": 1450
-    },
-    {
-      "entropy": 0.3131198097020388,
-      "epoch": 2.336,
-      "grad_norm": 0.5311539769172668,
-      "learning_rate": 5.3344e-05,
-      "loss": 0.3289,
-      "mean_token_accuracy": 0.8994152408093214,
-      "num_tokens": 1742325.0,
-      "step": 1460
-    },
-    {
-      "entropy": 0.38374699037522075,
-      "epoch": 2.352,
-      "grad_norm": 0.4948159158229828,
-      "learning_rate": 5.3024000000000006e-05,
-      "loss": 0.3589,
-      "mean_token_accuracy": 0.8915071442723275,
-      "num_tokens": 1770764.0,
-      "step": 1470
-    },
-    {
-      "entropy": 0.42046497501432895,
-      "epoch": 2.368,
-      "grad_norm": 0.6284568309783936,
-      "learning_rate": 5.2703999999999995e-05,
-      "loss": 0.3595,
-      "mean_token_accuracy": 0.8936832427978516,
-      "num_tokens": 1793963.0,
-      "step": 1480
-    },
-    {
-      "entropy": 0.4265410235151649,
-      "epoch": 2.384,
-      "grad_norm": 0.6891266703605652,
-      "learning_rate": 5.2384e-05,
-      "loss": 0.39,
-      "mean_token_accuracy": 0.8861893687397242,
-      "num_tokens": 1812331.0,
-      "step": 1490
-    },
-    {
-      "entropy": 0.4833611447364092,
-      "epoch": 2.4,
-      "grad_norm": 0.91993248462677,
-      "learning_rate": 5.2064e-05,
-      "loss": 0.4097,
-      "mean_token_accuracy": 0.8784359741955996,
-      "num_tokens": 1824943.0,
-      "step": 1500
-    },
-    {
-      "epoch": 2.4,
-      "eval_entropy": 0.4156067478954792,
-      "eval_loss": 0.531775951385498,
-      "eval_mean_token_accuracy": 0.8573460700511932,
-      "eval_num_tokens": 1824943.0,
-      "eval_runtime": 896.7745,
-      "eval_samples_per_second": 2.23,
-      "eval_steps_per_second": 0.558,
-      "step": 1500
-    },
-    {
-      "entropy": 0.2992474908940494,
-      "epoch": 2.416,
-      "grad_norm": 0.43484658002853394,
-      "learning_rate": 5.1744000000000005e-05,
-      "loss": 0.293,
-      "mean_token_accuracy": 0.9087961092591286,
-      "num_tokens": 40453.0,
-      "step": 1510
-    },
-    {
-      "entropy": 0.3289525999687612,
-      "epoch": 2.432,
-      "grad_norm": 0.5937761664390564,
-      "learning_rate": 5.142400000000001e-05,
-      "loss": 0.303,
-      "mean_token_accuracy": 0.9087128143757581,
-      "num_tokens": 68853.0,
-      "step": 1520
-    },
-    {
-      "entropy": 0.3652105055749416,
-      "epoch": 2.448,
-      "grad_norm": 0.5499975681304932,
-      "learning_rate": 5.110400000000001e-05,
-      "loss": 0.3153,
-      "mean_token_accuracy": 0.9054864585399628,
-      "num_tokens": 92132.0,
-      "step": 1530
-    },
-    {
-      "entropy": 0.37480679620057344,
-      "epoch": 2.464,
-      "grad_norm": 0.8807706236839294,
-      "learning_rate": 5.0784e-05,
-      "loss": 0.3132,
-      "mean_token_accuracy": 0.9067570131272078,
-      "num_tokens": 110798.0,
-      "step": 1540
-    },
-    {
-      "entropy": 0.408511808142066,
-      "epoch": 2.48,
-      "grad_norm": 1.0242410898208618,
-      "learning_rate": 5.0464e-05,
-      "loss": 0.3242,
-      "mean_token_accuracy": 0.9066624633967877,
-      "num_tokens": 123425.0,
-      "step": 1550
-    },
-    {
-      "entropy": 0.27335043689236044,
-      "epoch": 2.496,
-      "grad_norm": 0.5802608728408813,
-      "learning_rate": 5.0144e-05,
-      "loss": 0.305,
-      "mean_token_accuracy": 0.9049082029610872,
-      "num_tokens": 164151.0,
-      "step": 1560
-    },
-    {
-      "entropy": 0.3443534100428224,
-      "epoch": 2.512,
-      "grad_norm": 0.5400863289833069,
-      "learning_rate": 4.9824e-05,
-      "loss": 0.3053,
-      "mean_token_accuracy": 0.9077682174742222,
-      "num_tokens": 192904.0,
-      "step": 1570
-    },
-    {
-      "entropy": 0.36752058789134023,
-      "epoch": 2.528,
-      "grad_norm": 0.6786855459213257,
-      "learning_rate": 4.9504e-05,
-      "loss": 0.3092,
-      "mean_token_accuracy": 0.9070601720362902,
-      "num_tokens": 215988.0,
-      "step": 1580
-    },
-    {
-      "entropy": 0.3739521996118128,
-      "epoch": 2.544,
-      "grad_norm": 0.821361243724823,
-      "learning_rate": 4.9184e-05,
-      "loss": 0.3238,
-      "mean_token_accuracy": 0.9040915958583355,
-      "num_tokens": 234633.0,
-      "step": 1590
-    },
-    {
-      "entropy": 0.4124453643336892,
-      "epoch": 2.56,
-      "grad_norm": 1.0654460191726685,
-      "learning_rate": 4.8864000000000005e-05,
-      "loss": 0.3293,
-      "mean_token_accuracy": 0.9035760186612606,
-      "num_tokens": 247750.0,
-      "step": 1600
-    },
-    {
-      "epoch": 2.56,
-      "eval_entropy": 0.3808738026022911,
-      "eval_loss": 0.5724619626998901,
-      "eval_mean_token_accuracy": 0.8541958237886429,
-      "eval_num_tokens": 247750.0,
-      "eval_runtime": 980.7136,
-      "eval_samples_per_second": 2.039,
-      "eval_steps_per_second": 0.51,
-      "step": 1600
-    },
-    {
-      "entropy": 0.27413347605615856,
-      "epoch": 2.576,
-      "grad_norm": 0.6262645125389099,
-      "learning_rate": 4.8544e-05,
-      "loss": 0.291,
-      "mean_token_accuracy": 0.909802608937025,
-      "num_tokens": 289137.0,
-      "step": 1610
-    },
-    {
-      "entropy": 0.3372902118600905,
-      "epoch": 2.592,
-      "grad_norm": 0.6019719243049622,
-      "learning_rate": 4.8224000000000004e-05,
-      "loss": 0.3089,
-      "mean_token_accuracy": 0.9065854378044605,
-      "num_tokens": 317789.0,
-      "step": 1620
-    },
-    {
-      "entropy": 0.37745234509930015,
-      "epoch": 2.608,
-      "grad_norm": 0.6852167248725891,
-      "learning_rate": 4.790400000000001e-05,
-      "loss": 0.3237,
-      "mean_token_accuracy": 0.9017773322761059,
-      "num_tokens": 340977.0,
-      "step": 1630
-    },
-    {
-      "entropy": 0.3725322958081961,
-      "epoch": 2.624,
-      "grad_norm": 0.7118895053863525,
-      "learning_rate": 4.7584000000000004e-05,
-      "loss": 0.3207,
-      "mean_token_accuracy": 0.9077424634248018,
-      "num_tokens": 360098.0,
-      "step": 1640
-    },
-    {
-      "entropy": 0.4033573804423213,
-      "epoch": 2.64,
-      "grad_norm": 1.0586738586425781,
-      "learning_rate": 4.7264e-05,
-      "loss": 0.3174,
-      "mean_token_accuracy": 0.9044062152504921,
-      "num_tokens": 373200.0,
-      "step": 1650
-    },
-    {
-      "entropy": 0.2776737127453089,
-      "epoch": 2.656,
-      "grad_norm": 0.6017902493476868,
-      "learning_rate": 4.6944e-05,
-      "loss": 0.2942,
-      "mean_token_accuracy": 0.9093959752470255,
-      "num_tokens": 413938.0,
-      "step": 1660
-    },
-    {
-      "entropy": 0.33967588590458037,
-      "epoch": 2.672,
-      "grad_norm": 0.6162438988685608,
-      "learning_rate": 4.6624e-05,
-      "loss": 0.3075,
-      "mean_token_accuracy": 0.905268831551075,
-      "num_tokens": 442794.0,
-      "step": 1670
-    },
-    {
-      "entropy": 0.37314077839255333,
-      "epoch": 2.6879999999999997,
-      "grad_norm": 0.6455461382865906,
-      "learning_rate": 4.6304e-05,
-      "loss": 0.312,
-      "mean_token_accuracy": 0.9044175367802382,
-      "num_tokens": 465992.0,
-      "step": 1680
-    },
-    {
-      "entropy": 0.3640971322543919,
-      "epoch": 2.7039999999999997,
-      "grad_norm": 0.7681553959846497,
-      "learning_rate": 4.5984000000000006e-05,
-      "loss": 0.3049,
-      "mean_token_accuracy": 0.9096171893179417,
-      "num_tokens": 484580.0,
-      "step": 1690
-    },
-    {
-      "entropy": 0.39063505809754134,
-      "epoch": 2.7199999999999998,
-      "grad_norm": 0.9511684775352478,
-      "learning_rate": 4.5664e-05,
-      "loss": 0.3225,
-      "mean_token_accuracy": 0.9034549340605735,
-      "num_tokens": 497612.0,
-      "step": 1700
-    },
-    {
-      "entropy": 0.2883146867156029,
-      "epoch": 2.7359999999999998,
-      "grad_norm": 0.6692296862602234,
-      "learning_rate": 4.5344000000000005e-05,
-      "loss": 0.2935,
-      "mean_token_accuracy": 0.9078109141439199,
-      "num_tokens": 537755.0,
-      "step": 1710
-    },
-    {
-      "entropy": 0.34244058514013886,
-      "epoch": 2.752,
-      "grad_norm": 0.5983220934867859,
-      "learning_rate": 4.5024e-05,
-      "loss": 0.3076,
-      "mean_token_accuracy": 0.9057810723781585,
-      "num_tokens": 566325.0,
-      "step": 1720
-    },
-    {
-      "entropy": 0.3659200777299702,
-      "epoch": 2.768,
-      "grad_norm": 0.7049655318260193,
-      "learning_rate": 4.4704000000000004e-05,
-      "loss": 0.3059,
-      "mean_token_accuracy": 0.9072589132934809,
-      "num_tokens": 589517.0,
-      "step": 1730
-    },
-    {
-      "entropy": 0.35552563723176717,
-      "epoch": 2.784,
-      "grad_norm": 0.7242270112037659,
-      "learning_rate": 4.4384e-05,
-      "loss": 0.3013,
-      "mean_token_accuracy": 0.912841784581542,
-      "num_tokens": 608224.0,
-      "step": 1740
-    },
-    {
-      "entropy": 0.4027377144433558,
-      "epoch": 2.8,
-      "grad_norm": 1.5430299043655396,
-      "learning_rate": 4.4064e-05,
-      "loss": 0.3223,
-      "mean_token_accuracy": 0.9028574671596289,
-      "num_tokens": 621051.0,
-      "step": 1750
-    },
-    {
-      "entropy": 0.2703737439122051,
-      "epoch": 2.816,
-      "grad_norm": 0.7151817083358765,
-      "learning_rate": 4.3744e-05,
-      "loss": 0.2894,
-      "mean_token_accuracy": 0.9102732315659523,
-      "num_tokens": 662133.0,
-      "step": 1760
-    },
-    {
-      "entropy": 0.32695954395458104,
-      "epoch": 2.832,
-      "grad_norm": 0.6097021698951721,
-      "learning_rate": 4.3424e-05,
-      "loss": 0.2967,
-      "mean_token_accuracy": 0.9080837737768889,
-      "num_tokens": 690682.0,
-      "step": 1770
-    },
-    {
-      "entropy": 0.36010922444984317,
-      "epoch": 2.848,
-      "grad_norm": 0.7698465585708618,
-      "learning_rate": 4.3104e-05,
-      "loss": 0.3064,
-      "mean_token_accuracy": 0.9076121047139167,
-      "num_tokens": 713519.0,
-      "step": 1780
-    },
-    {
-      "entropy": 0.369490017183125,
-      "epoch": 2.864,
-      "grad_norm": 0.997474730014801,
-      "learning_rate": 4.2784e-05,
-      "loss": 0.3153,
-      "mean_token_accuracy": 0.9070124924182892,
-      "num_tokens": 731712.0,
-      "step": 1790
-    },
-    {
-      "entropy": 0.41184745989739896,
-      "epoch": 2.88,
-      "grad_norm": 0.9906476736068726,
-      "learning_rate": 4.2464000000000005e-05,
-      "loss": 0.3325,
-      "mean_token_accuracy": 0.9020481187850237,
-      "num_tokens": 744149.0,
-      "step": 1800
-    },
-    {
-      "entropy": 0.28201086847111584,
-      "epoch": 2.896,
-      "grad_norm": 0.6134458184242249,
-      "learning_rate": 4.2144e-05,
-      "loss": 0.2988,
-      "mean_token_accuracy": 0.9069436389952898,
-      "num_tokens": 782193.0,
-      "step": 1810
-    },
-    {
-      "entropy": 0.33303718706592916,
-      "epoch": 2.912,
-      "grad_norm": 0.6062189936637878,
-      "learning_rate": 4.1824000000000005e-05,
-      "loss": 0.3086,
-      "mean_token_accuracy": 0.9056244477629661,
-      "num_tokens": 809927.0,
-      "step": 1820
-    },
-    {
-      "entropy": 0.3643056120723486,
-      "epoch": 2.928,
-      "grad_norm": 0.6338886618614197,
-      "learning_rate": 4.1504e-05,
-      "loss": 0.3035,
-      "mean_token_accuracy": 0.911867779865861,
-      "num_tokens": 832745.0,
-      "step": 1830
-    },
-    {
-      "entropy": 0.35973973935469983,
-      "epoch": 2.944,
-      "grad_norm": 0.8483228087425232,
-      "learning_rate": 4.1184e-05,
-      "loss": 0.3084,
-      "mean_token_accuracy": 0.9093430683016777,
-      "num_tokens": 851193.0,
-      "step": 1840
-    },
-    {
-      "entropy": 0.4053435407578945,
-      "epoch": 2.96,
-      "grad_norm": 0.9516308903694153,
-      "learning_rate": 4.0864e-05,
-      "loss": 0.332,
-      "mean_token_accuracy": 0.8999160658568144,
-      "num_tokens": 863867.0,
-      "step": 1850
-    },
-    {
-      "entropy": 0.2989065528847277,
-      "epoch": 2.976,
-      "grad_norm": 0.6929520964622498,
-      "learning_rate": 4.0544000000000003e-05,
-      "loss": 0.2943,
-      "mean_token_accuracy": 0.9087879080325365,
-      "num_tokens": 898118.0,
-      "step": 1860
-    },
-    {
-      "entropy": 0.3597102670930326,
-      "epoch": 2.992,
-      "grad_norm": 0.7972533106803894,
-      "learning_rate": 4.0224e-05,
-      "loss": 0.3215,
-      "mean_token_accuracy": 0.902438759058714,
-      "num_tokens": 918026.0,
-      "step": 1870
-    },
-    {
-      "entropy": 0.3693191984202713,
-      "epoch": 3.008,
-      "grad_norm": 0.4952141344547272,
-      "learning_rate": 3.9904e-05,
-      "loss": 0.3109,
-      "mean_token_accuracy": 0.9047053713351488,
-      "num_tokens": 946468.0,
-      "step": 1880
-    },
-    {
-      "entropy": 0.30884325662627815,
-      "epoch": 3.024,
-      "grad_norm": 0.6402750015258789,
-      "learning_rate": 3.9584000000000006e-05,
-      "loss": 0.287,
-      "mean_token_accuracy": 0.9127614002674818,
-      "num_tokens": 978498.0,
-      "step": 1890
-    },
-    {
-      "entropy": 0.3251019007526338,
-      "epoch": 3.04,
-      "grad_norm": 0.7701610326766968,
-      "learning_rate": 3.9264e-05,
-      "loss": 0.3012,
-      "mean_token_accuracy": 0.9117080509662628,
-      "num_tokens": 1004128.0,
-      "step": 1900
-    },
-    {
-      "entropy": 0.3512966329231858,
-      "epoch": 3.056,
-      "grad_norm": 0.934260368347168,
-      "learning_rate": 3.8944000000000005e-05,
-      "loss": 0.2996,
-      "mean_token_accuracy": 0.9139776781201363,
-      "num_tokens": 1025136.0,
-      "step": 1910
-    },
-    {
-      "entropy": 0.36649829614907503,
-      "epoch": 3.072,
-      "grad_norm": 1.147735357284546,
-      "learning_rate": 3.8624e-05,
-      "loss": 0.3172,
-      "mean_token_accuracy": 0.90965236723423,
-      "num_tokens": 1041157.0,
-      "step": 1920
-    },
-    {
-      "entropy": 0.33526935083791615,
-      "epoch": 3.088,
-      "grad_norm": 0.6278552412986755,
-      "learning_rate": 3.8304e-05,
-      "loss": 0.294,
-      "mean_token_accuracy": 0.914416927471757,
-      "num_tokens": 1069401.0,
-      "step": 1930
-    },
-    {
-      "entropy": 0.2916401638649404,
-      "epoch": 3.104,
-      "grad_norm": 0.7106419205665588,
-      "learning_rate": 3.7984e-05,
-      "loss": 0.2833,
-      "mean_token_accuracy": 0.9128728475421667,
-      "num_tokens": 1101705.0,
-      "step": 1940
-    },
-    {
-      "entropy": 0.31783650666475294,
-      "epoch": 3.12,
-      "grad_norm": 0.6372864246368408,
-      "learning_rate": 3.7664e-05,
-      "loss": 0.2808,
-      "mean_token_accuracy": 0.9190873377025127,
-      "num_tokens": 1127173.0,
-      "step": 1950
-    },
-    {
-      "entropy": 0.33883463945239783,
-      "epoch": 3.136,
-      "grad_norm": 0.7593994736671448,
-      "learning_rate": 3.7344e-05,
-      "loss": 0.2932,
-      "mean_token_accuracy": 0.9133320480585099,
-      "num_tokens": 1147878.0,
-      "step": 1960
-    },
-    {
-      "entropy": 0.36267717741429806,
-      "epoch": 3.152,
-      "grad_norm": 0.9578737616539001,
-      "learning_rate": 3.7024e-05,
-      "loss": 0.3018,
-      "mean_token_accuracy": 0.9135202784091234,
-      "num_tokens": 1164084.0,
-      "step": 1970
-    },
-    {
-      "entropy": 0.33903956757858394,
-      "epoch": 3.168,
-      "grad_norm": 0.5553727746009827,
-      "learning_rate": 3.6704e-05,
-      "loss": 0.2962,
-      "mean_token_accuracy": 0.9128197953104973,
-      "num_tokens": 1192486.0,
-      "step": 1980
-    },
-    {
-      "entropy": 0.2897605660371482,
-      "epoch": 3.184,
-      "grad_norm": 0.7067289352416992,
-      "learning_rate": 3.6384e-05,
-      "loss": 0.2867,
-      "mean_token_accuracy": 0.9137052699923516,
-      "num_tokens": 1224540.0,
-      "step": 1990
-    },
-    {
-      "entropy": 0.32448912151157855,
-      "epoch": 3.2,
-      "grad_norm": 0.7603920102119446,
-      "learning_rate": 3.6064000000000006e-05,
-      "loss": 0.2908,
-      "mean_token_accuracy": 0.9150090869516134,
-      "num_tokens": 1249827.0,
-      "step": 2000
-    },
-    {
-      "epoch": 3.2,
-      "eval_entropy": 0.4150727687478066,
-      "eval_loss": 0.5455561280250549,
-      "eval_mean_token_accuracy": 0.857409807562828,
-      "eval_num_tokens": 1249827.0,
-      "eval_runtime": 982.2461,
-      "eval_samples_per_second": 2.036,
-      "eval_steps_per_second": 0.509,
-      "step": 2000
-    },
-    {
-      "entropy": 0.3617474281229079,
-      "epoch": 3.216,
-      "grad_norm": 0.7705036997795105,
-      "learning_rate": 3.5744e-05,
-      "loss": 0.3175,
-      "mean_token_accuracy": 0.9062783475965261,
-      "num_tokens": 20779.0,
-      "step": 2010
-    },
-    {
-      "entropy": 0.3887558562681079,
-      "epoch": 3.232,
-      "grad_norm": 0.9926668405532837,
-      "learning_rate": 3.5424e-05,
-      "loss": 0.3243,
-      "mean_token_accuracy": 0.9048940639942884,
-      "num_tokens": 37039.0,
-      "step": 2020
-    },
-    {
-      "entropy": 0.36308987056836484,
-      "epoch": 3.248,
-      "grad_norm": 0.5336251258850098,
-      "learning_rate": 3.5104e-05,
-      "loss": 0.3286,
-      "mean_token_accuracy": 0.9028704173862934,
-      "num_tokens": 66230.0,
-      "step": 2030
-    },
-    {
-      "entropy": 0.3100855226628482,
-      "epoch": 3.2640000000000002,
-      "grad_norm": 0.6235008239746094,
-      "learning_rate": 3.4784e-05,
-      "loss": 0.3026,
-      "mean_token_accuracy": 0.9074051853269338,
-      "num_tokens": 98315.0,
-      "step": 2040
-    },
-    {
-      "entropy": 0.33463340234011413,
-      "epoch": 3.2800000000000002,
-      "grad_norm": 0.6380220651626587,
-      "learning_rate": 3.4464e-05,
-      "loss": 0.3058,
-      "mean_token_accuracy": 0.9115277793258428,
-      "num_tokens": 123538.0,
-      "step": 2050
-    },
-    {
-      "entropy": 0.3619419479742646,
-      "epoch": 3.296,
-      "grad_norm": 0.7604582905769348,
-      "learning_rate": 3.4144000000000004e-05,
-      "loss": 0.3112,
-      "mean_token_accuracy": 0.9084025923162699,
-      "num_tokens": 143855.0,
-      "step": 2060
-    },
-    {
-      "entropy": 0.3980453579686582,
-      "epoch": 3.312,
-      "grad_norm": 0.8576037883758545,
-      "learning_rate": 3.3824e-05,
-      "loss": 0.3267,
-      "mean_token_accuracy": 0.9037791218608617,
-      "num_tokens": 159314.0,
-      "step": 2070
-    },
-    {
-      "entropy": 0.35077386572957037,
-      "epoch": 3.328,
-      "grad_norm": 0.5504621863365173,
-      "learning_rate": 3.3504e-05,
-      "loss": 0.3004,
-      "mean_token_accuracy": 0.9084354028105736,
-      "num_tokens": 187464.0,
-      "step": 2080
-    },
-    {
-      "entropy": 0.28209723997861147,
-      "epoch": 3.344,
-      "grad_norm": 0.8361979126930237,
-      "learning_rate": 3.3184000000000006e-05,
-      "loss": 0.2903,
-      "mean_token_accuracy": 0.9112230580300092,
-      "num_tokens": 219657.0,
-      "step": 2090
-    },
-    {
-      "entropy": 0.3153431011363864,
-      "epoch": 3.36,
-      "grad_norm": 0.6275749802589417,
-      "learning_rate": 3.2864e-05,
-      "loss": 0.2894,
-      "mean_token_accuracy": 0.9114996068179607,
-      "num_tokens": 245396.0,
-      "step": 2100
-    },
-    {
-      "epoch": 3.36,
-      "eval_accuracy": 0.026501569905019107,
-      "eval_entropy": 0.4113759865760803,
-      "eval_loss": 0.541074275970459,
-      "eval_mean_token_accuracy": 0.8583663606643677,
-      "eval_num_tokens": 245396.0,
-      "eval_runtime": 869.6626,
-      "eval_samples_per_second": 2.3,
-      "eval_steps_per_second": 0.575,
-      "step": 2100
-    },
-    {
-      "entropy": 0.3517730229534209,
-      "epoch": 3.376,
-      "grad_norm": 0.6908054947853088,
-      "learning_rate": 3.2544000000000006e-05,
-      "loss": 0.3057,
-      "mean_token_accuracy": 0.9103573642671108,
-      "num_tokens": 266432.0,
-      "step": 2110
-    },
-    {
-      "entropy": 0.38618900515139104,
-      "epoch": 3.392,
-      "grad_norm": 0.9056383967399597,
-      "learning_rate": 3.2224e-05,
-      "loss": 0.3188,
-      "mean_token_accuracy": 0.9076898027211427,
-      "num_tokens": 282655.0,
-      "step": 2120
-    },
-    {
-      "entropy": 0.3537537831813097,
-      "epoch": 3.408,
-      "grad_norm": 0.48644715547561646,
-      "learning_rate": 3.1904e-05,
-      "loss": 0.2886,
-      "mean_token_accuracy": 0.9162093725055456,
-      "num_tokens": 310801.0,
-      "step": 2130
-    },
-    {
-      "entropy": 0.26729877749457953,
-      "epoch": 3.424,
-      "grad_norm": 0.6074755787849426,
-      "learning_rate": 3.1584e-05,
-      "loss": 0.2371,
-      "mean_token_accuracy": 0.9263024788349867,
-      "num_tokens": 343555.0,
-      "step": 2140
-    },
-    {
-      "entropy": 0.25955253606662154,
-      "epoch": 3.44,
-      "grad_norm": 0.8773949146270752,
-      "learning_rate": 3.1264e-05,
-      "loss": 0.2227,
-      "mean_token_accuracy": 0.9337353933602571,
-      "num_tokens": 369134.0,
-      "step": 2150
-    },
-    {
-      "entropy": 0.27338800597935914,
-      "epoch": 3.456,
-      "grad_norm": 0.7504522204399109,
-      "learning_rate": 3.0975999999999996e-05,
-      "loss": 0.2261,
-      "mean_token_accuracy": 0.9332862004637719,
-      "num_tokens": 390152.0,
-      "step": 2160
-    },
-    {
-      "entropy": 0.30181694105267526,
-      "epoch": 3.472,
-      "grad_norm": 0.8649200201034546,
-      "learning_rate": 3.0656e-05,
-      "loss": 0.2289,
-      "mean_token_accuracy": 0.9334215141832829,
-      "num_tokens": 406222.0,
-      "step": 2170
-    },
-    {
-      "entropy": 0.28406244921498003,
-      "epoch": 3.488,
-      "grad_norm": 1.9269925355911255,
-      "learning_rate": 3.0336000000000002e-05,
-      "loss": 0.2353,
-      "mean_token_accuracy": 0.9303826864808797,
-      "num_tokens": 434767.0,
-      "step": 2180
-    },
-    {
-      "entropy": 0.2358154426328838,
-      "epoch": 3.504,
-      "grad_norm": 0.7775760293006897,
-      "learning_rate": 3.0016e-05,
-      "loss": 0.2277,
-      "mean_token_accuracy": 0.9293628957122564,
-      "num_tokens": 467498.0,
-      "step": 2190
-    },
-    {
-      "entropy": 0.2596265008673072,
-      "epoch": 3.52,
-      "grad_norm": 0.7286163568496704,
-      "learning_rate": 2.9696e-05,
-      "loss": 0.2266,
-      "mean_token_accuracy": 0.9321592267602682,
-      "num_tokens": 493146.0,
-      "step": 2200
-    },
-    {
-      "entropy": 0.28550293026492,
-      "epoch": 3.536,
-      "grad_norm": 0.7693914175033569,
-      "learning_rate": 2.9376000000000005e-05,
-      "loss": 0.2291,
-      "mean_token_accuracy": 0.9351058643311262,
-      "num_tokens": 513926.0,
-      "step": 2210
-    },
-    {
-      "entropy": 0.2885140863247216,
-      "epoch": 3.552,
-      "grad_norm": 1.1927505731582642,
-      "learning_rate": 2.9056e-05,
-      "loss": 0.219,
-      "mean_token_accuracy": 0.9396381825208664,
-      "num_tokens": 530263.0,
-      "step": 2220
-    },
-    {
-      "entropy": 0.283741835039109,
-      "epoch": 3.568,
-      "grad_norm": 0.6537899971008301,
-      "learning_rate": 2.8736e-05,
-      "loss": 0.2324,
-      "mean_token_accuracy": 0.9302929677069187,
-      "num_tokens": 559791.0,
-      "step": 2230
-    },
-    {
-      "entropy": 0.2369093818590045,
-      "epoch": 3.584,
-      "grad_norm": 0.793480396270752,
-      "learning_rate": 2.8416000000000004e-05,
-      "loss": 0.2165,
-      "mean_token_accuracy": 0.9320364937186241,
-      "num_tokens": 592398.0,
-      "step": 2240
-    },
-    {
-      "entropy": 0.264733817987144,
-      "epoch": 3.6,
-      "grad_norm": 0.7945203185081482,
-      "learning_rate": 2.8096e-05,
-      "loss": 0.2337,
-      "mean_token_accuracy": 0.9294226188212633,
-      "num_tokens": 617982.0,
-      "step": 2250
-    },
-    {
-      "entropy": 0.2889886857941747,
-      "epoch": 3.616,
-      "grad_norm": 0.7558261752128601,
-      "learning_rate": 2.7776000000000003e-05,
-      "loss": 0.2305,
-      "mean_token_accuracy": 0.9317790925502777,
-      "num_tokens": 639115.0,
-      "step": 2260
-    },
-    {
-      "entropy": 0.28708559228107333,
-      "epoch": 3.632,
-      "grad_norm": 0.6877163648605347,
-      "learning_rate": 2.7456000000000003e-05,
-      "loss": 0.2215,
-      "mean_token_accuracy": 0.9357377961277962,
-      "num_tokens": 655709.0,
-      "step": 2270
-    },
-    {
-      "entropy": 0.28660596534609795,
-      "epoch": 3.648,
-      "grad_norm": 0.6599491238594055,
-      "learning_rate": 2.7136e-05,
-      "loss": 0.2363,
-      "mean_token_accuracy": 0.928611570596695,
-      "num_tokens": 684500.0,
-      "step": 2280
-    },
-    {
-      "entropy": 0.23836621949449183,
-      "epoch": 3.664,
-      "grad_norm": 0.7436323165893555,
-      "learning_rate": 2.6816000000000002e-05,
-      "loss": 0.2194,
-      "mean_token_accuracy": 0.9314162913709879,
-      "num_tokens": 717271.0,
-      "step": 2290
-    },
-    {
-      "entropy": 0.27099227644503115,
-      "epoch": 3.68,
-      "grad_norm": 0.7519745826721191,
-      "learning_rate": 2.6496e-05,
-      "loss": 0.2369,
-      "mean_token_accuracy": 0.9278060872107744,
-      "num_tokens": 743068.0,
-      "step": 2300
-    },
-    {
-      "entropy": 0.282380092702806,
-      "epoch": 3.6959999999999997,
-      "grad_norm": 0.7645207643508911,
-      "learning_rate": 2.6176e-05,
-      "loss": 0.2175,
-      "mean_token_accuracy": 0.9372334524989128,
-      "num_tokens": 763925.0,
-      "step": 2310
-    },
-    {
-      "entropy": 0.2850790939293802,
-      "epoch": 3.7119999999999997,
-      "grad_norm": 0.9016556143760681,
-      "learning_rate": 2.5856e-05,
-      "loss": 0.217,
-      "mean_token_accuracy": 0.9392455574125051,
-      "num_tokens": 780111.0,
-      "step": 2320
-    },
-    {
-      "entropy": 0.2691464308649302,
-      "epoch": 3.7279999999999998,
-      "grad_norm": 0.77091383934021,
-      "learning_rate": 2.5535999999999997e-05,
-      "loss": 0.2334,
-      "mean_token_accuracy": 0.929338139295578,
-      "num_tokens": 808661.0,
-      "step": 2330
-    },
-    {
-      "entropy": 0.2395469973795116,
-      "epoch": 3.7439999999999998,
-      "grad_norm": 0.7632396221160889,
-      "learning_rate": 2.5216e-05,
-      "loss": 0.2148,
-      "mean_token_accuracy": 0.9322273649275303,
-      "num_tokens": 840932.0,
-      "step": 2340
-    },
-    {
-      "entropy": 0.2645680231973529,
-      "epoch": 3.76,
-      "grad_norm": 0.819273054599762,
-      "learning_rate": 2.4896e-05,
-      "loss": 0.226,
-      "mean_token_accuracy": 0.930556321516633,
-      "num_tokens": 866564.0,
-      "step": 2350
-    },
-    {
-      "entropy": 0.2808503101579845,
-      "epoch": 3.776,
-      "grad_norm": 0.8598120808601379,
-      "learning_rate": 2.4576000000000003e-05,
-      "loss": 0.2215,
-      "mean_token_accuracy": 0.9356644533574581,
-      "num_tokens": 887527.0,
-      "step": 2360
-    },
-    {
-      "entropy": 0.28694011168554423,
-      "epoch": 3.792,
-      "grad_norm": 1.0404748916625977,
-      "learning_rate": 2.4256e-05,
-      "loss": 0.214,
-      "mean_token_accuracy": 0.9388030290603637,
-      "num_tokens": 903688.0,
-      "step": 2370
-    },
-    {
-      "entropy": 0.2774578414391726,
-      "epoch": 3.808,
-      "grad_norm": 1.2308194637298584,
-      "learning_rate": 2.3936e-05,
-      "loss": 0.2328,
-      "mean_token_accuracy": 0.929581755027175,
-      "num_tokens": 932975.0,
-      "step": 2380
-    },
-    {
-      "entropy": 0.2381771973334253,
-      "epoch": 3.824,
-      "grad_norm": 0.7983541488647461,
-      "learning_rate": 2.3616000000000002e-05,
-      "loss": 0.2177,
-      "mean_token_accuracy": 0.9316004611551761,
-      "num_tokens": 965221.0,
-      "step": 2390
-    },
-    {
-      "entropy": 0.2579630766995251,
-      "epoch": 3.84,
-      "grad_norm": 0.8867554068565369,
-      "learning_rate": 2.3296000000000002e-05,
-      "loss": 0.2221,
-      "mean_token_accuracy": 0.9320516049861908,
-      "num_tokens": 990859.0,
-      "step": 2400
-    },
-    {
-      "epoch": 3.84,
-      "eval_accuracy": 0.02676376698545462,
-      "eval_entropy": 0.3534155045747757,
-      "eval_loss": 0.6058897972106934,
-      "eval_mean_token_accuracy": 0.8553497910499572,
-      "eval_num_tokens": 990859.0,
-      "eval_runtime": 869.2088,
-      "eval_samples_per_second": 2.301,
-      "eval_steps_per_second": 0.575,
-      "step": 2400
-    },
-    {
-      "entropy": 0.2655953477136791,
-      "epoch": 3.856,
-      "grad_norm": 0.8277497291564941,
-      "learning_rate": 2.2976e-05,
-      "loss": 0.2109,
-      "mean_token_accuracy": 0.9393812574446201,
-      "num_tokens": 1011268.0,
-      "step": 2410
-    },
-    {
-      "entropy": 0.2920296056661755,
-      "epoch": 3.872,
-      "grad_norm": 1.015434980392456,
-      "learning_rate": 2.2656e-05,
-      "loss": 0.2243,
-      "mean_token_accuracy": 0.9357186656445264,
-      "num_tokens": 1026942.0,
-      "step": 2420
-    },
-    {
-      "entropy": 0.2859017666429281,
-      "epoch": 3.888,
-      "grad_norm": 0.6656726002693176,
-      "learning_rate": 2.2336e-05,
-      "loss": 0.2389,
-      "mean_token_accuracy": 0.9283736657351256,
-      "num_tokens": 1053937.0,
-      "step": 2430
-    },
-    {
-      "entropy": 0.24961302392184734,
-      "epoch": 3.904,
-      "grad_norm": 0.8390278816223145,
-      "learning_rate": 2.2016e-05,
-      "loss": 0.2211,
-      "mean_token_accuracy": 0.9312011521309614,
-      "num_tokens": 1084820.0,
-      "step": 2440
-    },
-    {
-      "entropy": 0.2519187033176422,
-      "epoch": 3.92,
-      "grad_norm": 0.8542287349700928,
-      "learning_rate": 2.1696e-05,
-      "loss": 0.2126,
-      "mean_token_accuracy": 0.9375488836318254,
-      "num_tokens": 1109943.0,
-      "step": 2450
-    },
-    {
-      "entropy": 0.27277124775573613,
-      "epoch": 3.936,
-      "grad_norm": 0.9245595335960388,
-      "learning_rate": 2.1376e-05,
-      "loss": 0.2161,
-      "mean_token_accuracy": 0.9364014331251382,
-      "num_tokens": 1130543.0,
-      "step": 2460
-    },
-    {
-      "entropy": 0.28273853762075307,
-      "epoch": 3.952,
-      "grad_norm": 0.9764724969863892,
-      "learning_rate": 2.1056e-05,
-      "loss": 0.2217,
-      "mean_token_accuracy": 0.9356040749698877,
-      "num_tokens": 1146676.0,
-      "step": 2470
-    },
-    {
-      "entropy": 0.2879827093333006,
-      "epoch": 3.968,
-      "grad_norm": 0.7532303929328918,
-      "learning_rate": 2.0736e-05,
-      "loss": 0.2413,
-      "mean_token_accuracy": 0.9290374431759119,
-      "num_tokens": 1172078.0,
-      "step": 2480
-    },
-    {
-      "entropy": 0.2530561724677682,
-      "epoch": 3.984,
-      "grad_norm": 0.8568546175956726,
-      "learning_rate": 2.0416000000000002e-05,
-      "loss": 0.2177,
-      "mean_token_accuracy": 0.9337470591068268,
-      "num_tokens": 1197464.0,
-      "step": 2490
-    },
-    {
-      "entropy": 0.3038310568779707,
-      "epoch": 4.0,
-      "grad_norm": 0.9622617959976196,
-      "learning_rate": 2.0096000000000002e-05,
-      "loss": 0.2368,
-      "mean_token_accuracy": 0.9296225290745497,
-      "num_tokens": 1212204.0,
-      "step": 2500
-    },
-    {
-      "entropy": 0.24809251818805933,
-      "epoch": 4.016,
-      "grad_norm": 0.8197008371353149,
-      "learning_rate": 1.9776000000000002e-05,
-      "loss": 0.2395,
-      "mean_token_accuracy": 0.928604032099247,
-      "num_tokens": 1253458.0,
-      "step": 2510
-    },
-    {
-      "entropy": 0.24905966678634286,
-      "epoch": 4.032,
-      "grad_norm": 0.8056384921073914,
-      "learning_rate": 1.9456e-05,
-      "loss": 0.2301,
-      "mean_token_accuracy": 0.9330911111086607,
-      "num_tokens": 1282365.0,
-      "step": 2520
-    },
-    {
-      "entropy": 0.26601817598566413,
-      "epoch": 4.048,
-      "grad_norm": 0.9766417145729065,
-      "learning_rate": 1.9136e-05,
-      "loss": 0.2237,
-      "mean_token_accuracy": 0.9384452097117901,
-      "num_tokens": 1305420.0,
-      "step": 2530
-    },
-    {
-      "entropy": 0.28673125999048354,
-      "epoch": 4.064,
-      "grad_norm": 1.2241604328155518,
-      "learning_rate": 1.8816e-05,
-      "loss": 0.2615,
-      "mean_token_accuracy": 0.9268214203417301,
-      "num_tokens": 1323367.0,
-      "step": 2540
-    },
-    {
-      "entropy": 0.3297149523161352,
-      "epoch": 4.08,
-      "grad_norm": 1.2444630861282349,
-      "learning_rate": 1.8496000000000004e-05,
-      "loss": 0.266,
-      "mean_token_accuracy": 0.9285014558583498,
-      "num_tokens": 1335370.0,
-      "step": 2550
-    },
-    {
-      "entropy": 0.25180468857288363,
-      "epoch": 4.096,
-      "grad_norm": 0.6901214718818665,
-      "learning_rate": 1.8176e-05,
-      "loss": 0.2242,
-      "mean_token_accuracy": 0.9317782554775477,
-      "num_tokens": 1374567.0,
-      "step": 2560
-    },
-    {
-      "entropy": 0.25819407450035214,
-      "epoch": 4.112,
-      "grad_norm": 0.8702373504638672,
-      "learning_rate": 1.7856e-05,
-      "loss": 0.2344,
-      "mean_token_accuracy": 0.9326971143484115,
-      "num_tokens": 1402608.0,
-      "step": 2570
-    },
-    {
-      "entropy": 0.26549670435488226,
-      "epoch": 4.128,
-      "grad_norm": 0.7631207704544067,
-      "learning_rate": 1.7536e-05,
-      "loss": 0.2297,
-      "mean_token_accuracy": 0.9365796335041523,
-      "num_tokens": 1425524.0,
-      "step": 2580
-    },
-    {
-      "entropy": 0.26975566176697613,
-      "epoch": 4.144,
-      "grad_norm": 1.1718668937683105,
-      "learning_rate": 1.7216000000000003e-05,
-      "loss": 0.221,
-      "mean_token_accuracy": 0.9397962510585784,
-      "num_tokens": 1444092.0,
-      "step": 2590
-    },
-    {
-      "entropy": 0.3168819394893944,
-      "epoch": 4.16,
-      "grad_norm": 1.0534077882766724,
-      "learning_rate": 1.6896000000000002e-05,
-      "loss": 0.2544,
-      "mean_token_accuracy": 0.9319371480494738,
-      "num_tokens": 1456844.0,
-      "step": 2600
-    },
-    {
-      "entropy": 0.25265237540006635,
-      "epoch": 4.176,
-      "grad_norm": 0.7592364549636841,
-      "learning_rate": 1.6576e-05,
-      "loss": 0.2395,
-      "mean_token_accuracy": 0.9289916418492794,
-      "num_tokens": 1496545.0,
-      "step": 2610
-    },
-    {
-      "entropy": 0.2543726827017963,
-      "epoch": 4.192,
-      "grad_norm": 0.9639586210250854,
-      "learning_rate": 1.6256e-05,
-      "loss": 0.2351,
-      "mean_token_accuracy": 0.9337568439543247,
-      "num_tokens": 1525103.0,
-      "step": 2620
-    },
-    {
-      "entropy": 0.26547051025554536,
-      "epoch": 4.208,
-      "grad_norm": 0.9620559215545654,
-      "learning_rate": 1.5936e-05,
-      "loss": 0.2382,
-      "mean_token_accuracy": 0.9348125293850899,
-      "num_tokens": 1548306.0,
-      "step": 2630
-    },
-    {
-      "entropy": 0.27369030360132457,
-      "epoch": 4.224,
-      "grad_norm": 0.8373218774795532,
-      "learning_rate": 1.5616e-05,
-      "loss": 0.2254,
-      "mean_token_accuracy": 0.9375662509351969,
-      "num_tokens": 1566990.0,
-      "step": 2640
-    },
-    {
-      "entropy": 0.3024815677665174,
-      "epoch": 4.24,
-      "grad_norm": 1.3148176670074463,
-      "learning_rate": 1.5296e-05,
-      "loss": 0.2391,
-      "mean_token_accuracy": 0.9351990919560194,
-      "num_tokens": 1580065.0,
-      "step": 2650
-    },
-    {
-      "entropy": 0.2600595161318779,
-      "epoch": 4.256,
-      "grad_norm": 0.6774656176567078,
-      "learning_rate": 1.4976000000000002e-05,
-      "loss": 0.2377,
-      "mean_token_accuracy": 0.9274554952979088,
-      "num_tokens": 1619083.0,
-      "step": 2660
-    },
-    {
-      "entropy": 0.26013899641111493,
-      "epoch": 4.272,
-      "grad_norm": 0.9727310538291931,
-      "learning_rate": 1.4656e-05,
-      "loss": 0.2294,
-      "mean_token_accuracy": 0.934112536534667,
-      "num_tokens": 1646970.0,
-      "step": 2670
-    },
-    {
-      "entropy": 0.25867203902453184,
-      "epoch": 4.288,
-      "grad_norm": 0.9198706150054932,
-      "learning_rate": 1.4336e-05,
-      "loss": 0.2184,
-      "mean_token_accuracy": 0.9373745564371347,
-      "num_tokens": 1669364.0,
-      "step": 2680
-    },
-    {
-      "entropy": 0.26432402124628424,
-      "epoch": 4.304,
-      "grad_norm": 0.9908862709999084,
-      "learning_rate": 1.4016000000000001e-05,
-      "loss": 0.2195,
-      "mean_token_accuracy": 0.9392576098442078,
-      "num_tokens": 1687812.0,
-      "step": 2690
-    },
-    {
-      "entropy": 0.30741472546942533,
-      "epoch": 4.32,
-      "grad_norm": 1.0388495922088623,
-      "learning_rate": 1.3696e-05,
-      "loss": 0.2503,
-      "mean_token_accuracy": 0.9325483400374651,
-      "num_tokens": 1700598.0,
-      "step": 2700
-    },
-    {
-      "epoch": 4.32,
-      "eval_accuracy": 0.02638358121882313,
-      "eval_entropy": 0.3719751555919647,
-      "eval_loss": 0.5846644043922424,
-      "eval_mean_token_accuracy": 0.8568292667865753,
-      "eval_num_tokens": 1700598.0,
-      "eval_runtime": 869.8497,
-      "eval_samples_per_second": 2.299,
-      "eval_steps_per_second": 0.575,
-      "step": 2700
-    },
-    {
-      "entropy": 0.24316317560151218,
-      "epoch": 4.336,
-      "grad_norm": 0.757876455783844,
-      "learning_rate": 1.3376e-05,
-      "loss": 0.2118,
-      "mean_token_accuracy": 0.9327260747551918,
-      "num_tokens": 39749.0,
-      "step": 2710
-    },
-    {
-      "entropy": 0.2465177897363901,
-      "epoch": 4.352,
-      "grad_norm": 0.73354172706604,
-      "learning_rate": 1.3056000000000002e-05,
-      "loss": 0.21,
-      "mean_token_accuracy": 0.9354286625981331,
-      "num_tokens": 68464.0,
-      "step": 2720
-    },
-    {
-      "entropy": 0.24799817334860563,
-      "epoch": 4.368,
-      "grad_norm": 0.9990701675415039,
-      "learning_rate": 1.2736000000000001e-05,
-      "loss": 0.2039,
-      "mean_token_accuracy": 0.940489636361599,
-      "num_tokens": 91656.0,
-      "step": 2730
-    },
-    {
-      "entropy": 0.26067384518682957,
-      "epoch": 4.384,
-      "grad_norm": 0.9379425644874573,
-      "learning_rate": 1.2416000000000001e-05,
-      "loss": 0.2182,
-      "mean_token_accuracy": 0.9411718167364598,
-      "num_tokens": 110505.0,
-      "step": 2740
-    },
-    {
-      "entropy": 0.3018894817214459,
-      "epoch": 4.4,
-      "grad_norm": 1.0026336908340454,
-      "learning_rate": 1.2096e-05,
-      "loss": 0.2267,
-      "mean_token_accuracy": 0.9386275008320808,
-      "num_tokens": 123324.0,
-      "step": 2750
-    },
-    {
-      "entropy": 0.21805389355868102,
-      "epoch": 4.416,
-      "grad_norm": 0.6372848153114319,
-      "learning_rate": 1.1776e-05,
-      "loss": 0.1861,
-      "mean_token_accuracy": 0.9427805945277214,
-      "num_tokens": 163777.0,
-      "step": 2760
-    },
-    {
-      "entropy": 0.21196621540002525,
-      "epoch": 4.432,
-      "grad_norm": 0.5572025179862976,
-      "learning_rate": 1.1456e-05,
-      "loss": 0.1581,
-      "mean_token_accuracy": 0.9551307797431946,
-      "num_tokens": 192177.0,
-      "step": 2770
-    },
-    {
-      "entropy": 0.20902398317120968,
-      "epoch": 4.448,
-      "grad_norm": 0.7340620756149292,
-      "learning_rate": 1.1136e-05,
-      "loss": 0.1582,
-      "mean_token_accuracy": 0.9570909071713686,
-      "num_tokens": 215456.0,
-      "step": 2780
-    },
-    {
-      "entropy": 0.2131565590389073,
-      "epoch": 4.464,
-      "grad_norm": 1.0014139413833618,
-      "learning_rate": 1.0816000000000001e-05,
-      "loss": 0.1583,
-      "mean_token_accuracy": 0.9551056247204542,
-      "num_tokens": 234122.0,
-      "step": 2790
-    },
-    {
-      "entropy": 0.25133530045859515,
-      "epoch": 4.48,
-      "grad_norm": 0.8922705054283142,
-      "learning_rate": 1.0496e-05,
-      "loss": 0.1818,
-      "mean_token_accuracy": 0.9524805508553982,
-      "num_tokens": 246749.0,
-      "step": 2800
-    },
-    {
-      "entropy": 0.19833970288746058,
-      "epoch": 4.496,
-      "grad_norm": 0.8713212609291077,
-      "learning_rate": 1.0176e-05,
-      "loss": 0.1667,
-      "mean_token_accuracy": 0.9479088947176934,
-      "num_tokens": 287475.0,
-      "step": 2810
-    },
-    {
-      "entropy": 0.18820378091186285,
-      "epoch": 4.5120000000000005,
-      "grad_norm": 0.782958984375,
-      "learning_rate": 9.856e-06,
-      "loss": 0.1507,
-      "mean_token_accuracy": 0.9564289052039385,
-      "num_tokens": 316228.0,
-      "step": 2820
-    },
-    {
-      "entropy": 0.1986434136983007,
-      "epoch": 4.5280000000000005,
-      "grad_norm": 0.9405664801597595,
-      "learning_rate": 9.536e-06,
-      "loss": 0.1652,
-      "mean_token_accuracy": 0.9527083396911621,
-      "num_tokens": 339312.0,
-      "step": 2830
-    },
-    {
-      "entropy": 0.20359546076506377,
-      "epoch": 4.5440000000000005,
-      "grad_norm": 1.8294662237167358,
-      "learning_rate": 9.216000000000001e-06,
-      "loss": 0.1605,
-      "mean_token_accuracy": 0.958249793574214,
-      "num_tokens": 357957.0,
-      "step": 2840
-    },
-    {
-      "entropy": 0.2478945675306022,
-      "epoch": 4.5600000000000005,
-      "grad_norm": 1.8756585121154785,
-      "learning_rate": 8.896000000000001e-06,
-      "loss": 0.1791,
-      "mean_token_accuracy": 0.9529225923120975,
-      "num_tokens": 371074.0,
-      "step": 2850
-    },
-    {
-      "entropy": 0.19137877360917627,
-      "epoch": 4.576,
-      "grad_norm": 0.7811349034309387,
-      "learning_rate": 8.576e-06,
-      "loss": 0.1603,
-      "mean_token_accuracy": 0.9505746208131314,
-      "num_tokens": 412461.0,
-      "step": 2860
-    },
-    {
-      "entropy": 0.19941019406542182,
-      "epoch": 4.592,
-      "grad_norm": 0.8849194645881653,
-      "learning_rate": 8.256e-06,
-      "loss": 0.1559,
-      "mean_token_accuracy": 0.9538026105612516,
-      "num_tokens": 441113.0,
-      "step": 2870
-    },
-    {
-      "entropy": 0.20037598102353513,
-      "epoch": 4.608,
-      "grad_norm": 1.007367730140686,
-      "learning_rate": 7.936e-06,
-      "loss": 0.1577,
-      "mean_token_accuracy": 0.9563030891120434,
-      "num_tokens": 464301.0,
-      "step": 2880
-    },
-    {
-      "entropy": 0.21458538975566627,
-      "epoch": 4.624,
-      "grad_norm": 1.0605765581130981,
-      "learning_rate": 7.616000000000001e-06,
-      "loss": 0.1636,
-      "mean_token_accuracy": 0.9558106277137994,
-      "num_tokens": 483422.0,
-      "step": 2890
-    },
-    {
-      "entropy": 0.2460995698813349,
-      "epoch": 4.64,
-      "grad_norm": 1.1102747917175293,
-      "learning_rate": 7.296e-06,
-      "loss": 0.178,
-      "mean_token_accuracy": 0.9527418158948422,
-      "num_tokens": 496524.0,
-      "step": 2900
-    },
-    {
-      "entropy": 0.1917059404309839,
-      "epoch": 4.656,
-      "grad_norm": 0.7104383111000061,
-      "learning_rate": 6.976000000000001e-06,
-      "loss": 0.1692,
-      "mean_token_accuracy": 0.9471572674810886,
-      "num_tokens": 537262.0,
-      "step": 2910
-    },
-    {
-      "entropy": 0.19903061082586646,
-      "epoch": 4.672,
-      "grad_norm": 0.8522951006889343,
-      "learning_rate": 6.688e-06,
-      "loss": 0.1668,
-      "mean_token_accuracy": 0.9495650254189968,
-      "num_tokens": 566118.0,
-      "step": 2920
-    },
-    {
-      "entropy": 0.20533090075477958,
-      "epoch": 4.688,
-      "grad_norm": 0.7692112326622009,
-      "learning_rate": 6.368000000000001e-06,
-      "loss": 0.1597,
-      "mean_token_accuracy": 0.9538190443068743,
-      "num_tokens": 589316.0,
-      "step": 2930
-    },
-    {
-      "entropy": 0.20868746675550937,
-      "epoch": 4.704,
-      "grad_norm": 0.8645059466362,
-      "learning_rate": 6.048e-06,
-      "loss": 0.1496,
-      "mean_token_accuracy": 0.9595503833144903,
-      "num_tokens": 607904.0,
-      "step": 2940
-    },
-    {
-      "entropy": 0.23888139198534192,
-      "epoch": 4.72,
-      "grad_norm": 1.08635413646698,
-      "learning_rate": 5.728e-06,
-      "loss": 0.1706,
-      "mean_token_accuracy": 0.9570875108242035,
-      "num_tokens": 620936.0,
-      "step": 2950
-    },
-    {
-      "entropy": 0.18963255980052054,
-      "epoch": 4.736,
-      "grad_norm": 0.7276900410652161,
-      "learning_rate": 5.4080000000000006e-06,
-      "loss": 0.1633,
-      "mean_token_accuracy": 0.9485368836671114,
-      "num_tokens": 661079.0,
-      "step": 2960
-    },
-    {
-      "entropy": 0.19404892213642597,
-      "epoch": 4.752,
-      "grad_norm": 0.8436645269393921,
-      "learning_rate": 5.088e-06,
-      "loss": 0.1523,
-      "mean_token_accuracy": 0.9547487128525972,
-      "num_tokens": 689649.0,
-      "step": 2970
-    },
-    {
-      "entropy": 0.20046764588914812,
-      "epoch": 4.768,
-      "grad_norm": 1.0704182386398315,
-      "learning_rate": 4.768e-06,
-      "loss": 0.1574,
-      "mean_token_accuracy": 0.9545170154422522,
-      "num_tokens": 712841.0,
-      "step": 2980
-    },
-    {
-      "entropy": 0.2065018493682146,
-      "epoch": 4.784,
-      "grad_norm": 0.9045215249061584,
-      "learning_rate": 4.4480000000000004e-06,
-      "loss": 0.155,
-      "mean_token_accuracy": 0.9589469760656357,
-      "num_tokens": 731548.0,
-      "step": 2990
-    },
-    {
-      "entropy": 0.2458665339741856,
-      "epoch": 4.8,
-      "grad_norm": 1.7165741920471191,
-      "learning_rate": 4.128e-06,
-      "loss": 0.173,
-      "mean_token_accuracy": 0.9542810652405024,
-      "num_tokens": 744375.0,
-      "step": 3000
-    },
-    {
-      "epoch": 4.8,
-      "eval_accuracy": 0.026236095361078154,
-      "eval_entropy": 0.3239293715655804,
-      "eval_loss": 0.6594926714897156,
-      "eval_mean_token_accuracy": 0.8544400478601456,
-      "eval_num_tokens": 744375.0,
-      "eval_runtime": 966.0583,
-      "eval_samples_per_second": 2.07,
-      "eval_steps_per_second": 0.518,
-      "step": 3000
-    },
-    {
-      "entropy": 0.19047842593863606,
-      "epoch": 4.816,
-      "grad_norm": 0.8224709033966064,
-      "learning_rate": 3.8080000000000006e-06,
-      "loss": 0.1691,
-      "mean_token_accuracy": 0.9483149264007806,
-      "num_tokens": 785457.0,
-      "step": 3010
-    },
-    {
-      "entropy": 0.1947814745362848,
-      "epoch": 4.832,
-      "grad_norm": 0.8581233024597168,
-      "learning_rate": 3.4880000000000003e-06,
-      "loss": 0.1535,
-      "mean_token_accuracy": 0.9543764512985945,
-      "num_tokens": 814006.0,
-      "step": 3020
-    },
-    {
-      "entropy": 0.20228669252246617,
-      "epoch": 4.848,
-      "grad_norm": 0.7815537452697754,
-      "learning_rate": 3.168e-06,
-      "loss": 0.1539,
-      "mean_token_accuracy": 0.9561178237199783,
-      "num_tokens": 836843.0,
-      "step": 3030
-    },
-    {
-      "entropy": 0.2111768877133727,
-      "epoch": 4.864,
-      "grad_norm": 2.0849273204803467,
-      "learning_rate": 2.848e-06,
-      "loss": 0.1553,
-      "mean_token_accuracy": 0.9579557087272406,
-      "num_tokens": 855036.0,
-      "step": 3040
-    },
-    {
-      "entropy": 0.2543737689033151,
-      "epoch": 4.88,
-      "grad_norm": 0.9005395770072937,
-      "learning_rate": 2.528e-06,
-      "loss": 0.18,
-      "mean_token_accuracy": 0.951928498968482,
-      "num_tokens": 867473.0,
-      "step": 3050
-    },
-    {
-      "entropy": 0.19695296385325492,
-      "epoch": 4.896,
-      "grad_norm": 0.8913720846176147,
-      "learning_rate": 2.208e-06,
-      "loss": 0.1731,
-      "mean_token_accuracy": 0.9454629000276327,
-      "num_tokens": 905517.0,
-      "step": 3060
-    },
-    {
-      "entropy": 0.2020930268801749,
-      "epoch": 4.912,
-      "grad_norm": 1.0501484870910645,
-      "learning_rate": 1.8880000000000002e-06,
-      "loss": 0.1583,
-      "mean_token_accuracy": 0.954399960488081,
-      "num_tokens": 933251.0,
-      "step": 3070
-    },
-    {
-      "entropy": 0.20252155787311493,
-      "epoch": 4.928,
-      "grad_norm": 1.03731369972229,
-      "learning_rate": 1.568e-06,
-      "loss": 0.1531,
-      "mean_token_accuracy": 0.9579384963959455,
-      "num_tokens": 956069.0,
-      "step": 3080
-    },
-    {
-      "entropy": 0.2126692888326943,
-      "epoch": 4.944,
-      "grad_norm": 1.107572317123413,
-      "learning_rate": 1.248e-06,
-      "loss": 0.1568,
-      "mean_token_accuracy": 0.9569063678383827,
-      "num_tokens": 974517.0,
-      "step": 3090
-    },
-    {
-      "entropy": 0.24990466320887209,
-      "epoch": 4.96,
-      "grad_norm": 1.2767953872680664,
-      "learning_rate": 9.28e-07,
-      "loss": 0.1851,
-      "mean_token_accuracy": 0.9518057998269797,
-      "num_tokens": 987191.0,
-      "step": 3100
-    },
-    {
-      "entropy": 0.19635155922733247,
-      "epoch": 4.976,
-      "grad_norm": 0.838716447353363,
-      "learning_rate": 6.08e-07,
-      "loss": 0.1689,
-      "mean_token_accuracy": 0.9492763552814723,
-      "num_tokens": 1021442.0,
-      "step": 3110
-    },
-    {
-      "entropy": 0.21572725460864603,
-      "epoch": 4.992,
-      "grad_norm": 0.9043759107589722,
-      "learning_rate": 2.8800000000000004e-07,
-      "loss": 0.161,
-      "mean_token_accuracy": 0.9549260966479778,
-      "num_tokens": 1041350.0,
-      "step": 3120
     }
   ],
   "logging_steps": 10,
   "max_steps": 3125,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
-  "save_steps": 300,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -3322,12 +827,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.37035906398464e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
+  "epoch": 1.2,
+  "eval_steps": 150,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.106,
       "eval_steps_per_second": 0.526,
       "step": 750
     }
   ],
   "logging_steps": 10,
   "max_steps": 3125,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
+  "save_steps": 150,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.3058997783257088e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab977af6525318ffc5b089ead4268f65e71f68e9d355f66185c43f4d771a6da2
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:d19add453be896fb8010267a01d849597b52aecb53969dce6ab3000e56f1b7d0
 size 6353

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab977af6525318ffc5b089ead4268f65e71f68e9d355f66185c43f4d771a6da2
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:d19add453be896fb8010267a01d849597b52aecb53969dce6ab3000e56f1b7d0
 size 6353