roonbug commited on May 5

Commit

9520a63

verified ·

1 Parent(s): f1120cd

Upload folder using huggingface_hub

Browse files

Files changed (20) hide show

.gitattributes +1 -0
checkpoint-2000/added_tokens.json +3 -0
checkpoint-2000/chat_template.jinja +47 -0
checkpoint-2000/config.json +110 -0
checkpoint-2000/generation_config.json +13 -0
checkpoint-2000/model-00001-of-00005.safetensors +3 -0
checkpoint-2000/model-00002-of-00005.safetensors +3 -0
checkpoint-2000/model-00003-of-00005.safetensors +3 -0
checkpoint-2000/model-00004-of-00005.safetensors +3 -0
checkpoint-2000/model-00005-of-00005.safetensors +3 -0
checkpoint-2000/model.safetensors.index.json +0 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/rng_state.pth +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/special_tokens_map.json +33 -0
checkpoint-2000/tokenizer.json +3 -0
checkpoint-2000/tokenizer.model +3 -0
checkpoint-2000/tokenizer_config.json +0 -0
checkpoint-2000/trainer_state.json +2474 -0
checkpoint-2000/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -36,3 +36,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-1000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-1500/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-1000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoint-1500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-2000/tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoint-2000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

checkpoint-2000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,110 @@

+{
+  "architectures": [
+    "Gemma3ForConditionalGeneration"
+  ],
+  "boi_token_index": 255999,
+  "bos_token_id": 2,
+  "dtype": "bfloat16",
+  "eoi_token_index": 256000,
+  "eos_token_id": 1,
+  "image_token_index": 262144,
+  "initializer_range": 0.02,
+  "mm_tokens_per_image": 256,
+  "model_type": "gemma3",
+  "pad_token_id": 0,
+  "text_config": {
+    "_sliding_window_pattern": 6,
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attn_logit_softcapping": null,
+    "dtype": "bfloat16",
+    "final_logit_softcapping": null,
+    "head_dim": 256,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 3840,
+    "initializer_range": 0.02,
+    "intermediate_size": 15360,
+    "layer_types": [
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 131072,
+    "model_type": "gemma3_text",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 48,
+    "num_key_value_heads": 8,
+    "query_pre_attn_scalar": 256,
+    "rms_norm_eps": 1e-06,
+    "rope_local_base_freq": 10000.0,
+    "rope_scaling": {
+      "factor": 8.0,
+      "rope_type": "linear"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 1024,
+    "use_cache": true,
+    "vocab_size": 262208
+  },
+  "transformers_version": "4.56.1",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 896,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 27,
+    "patch_size": 14,
+    "vision_use_head": false
+  }
+}

checkpoint-2000/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 2,
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.56.1"
+}

checkpoint-2000/model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4847447e92599833e8dbaa3067cd201c3bb5c052efa91f11ba891e43234f7832
+size 4979902192

checkpoint-2000/model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:891bd54eed03cba9ee1e705533a02a8217fcc29f356e4a1f53e5fd0d178883ad
+size 4931296592

checkpoint-2000/model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cee411d9d57324e50ce064a192cc5a858276d508611b12fc599e0c9767112e0
+size 4931296656

checkpoint-2000/model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e0b3a2e0e5ff7875142a4b6245a296e4a164166fe9183cbb8fa8d9ae8830ee7
+size 4931296656

checkpoint-2000/model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1405eba87aba8b21c302083293144292bf8afbab22043102b01ee634efe32d85
+size 4601000928

checkpoint-2000/model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df537e89b3c5f441e0dd7fc8d00dc0adcece2f744dae999bc8e659ef452922ab
+size 7286558019

checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6839153725e0ef373aee5916d51b3599fb6e0b69dfc1019957bfa474c6ebcaff
+size 14645

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e95ad2f3950cee1b83b106cf88750c8604566acab211d78973b3b5c4917b1a30
+size 1465

checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2000/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

checkpoint-2000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

checkpoint-2000/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2474 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.8,
+  "eval_steps": 100,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "entropy": 0.7787420120090246,
+      "epoch": 0.004,
+      "grad_norm": 72.0,
+      "learning_rate": 1.8e-07,
+      "loss": 15.7442,
+      "mean_token_accuracy": 0.7588483087718487,
+      "num_tokens": 89176.0,
+      "step": 10
+    },
+    {
+      "entropy": 0.8886257205158472,
+      "epoch": 0.008,
+      "grad_norm": 73.5,
+      "learning_rate": 3.8e-07,
+      "loss": 17.8319,
+      "mean_token_accuracy": 0.7328463714569807,
+      "num_tokens": 173886.0,
+      "step": 20
+    },
+    {
+      "entropy": 0.8274001179262995,
+      "epoch": 0.012,
+      "grad_norm": 97.5,
+      "learning_rate": 5.800000000000001e-07,
+      "loss": 16.992,
+      "mean_token_accuracy": 0.7489429574459792,
+      "num_tokens": 258970.0,
+      "step": 30
+    },
+    {
+      "entropy": 0.8739964630454778,
+      "epoch": 0.016,
+      "grad_norm": 122.5,
+      "learning_rate": 7.8e-07,
+      "loss": 17.5949,
+      "mean_token_accuracy": 0.7390060629695654,
+      "num_tokens": 338352.0,
+      "step": 40
+    },
+    {
+      "entropy": 0.822566282376647,
+      "epoch": 0.02,
+      "grad_norm": 79.0,
+      "learning_rate": 9.800000000000001e-07,
+      "loss": 16.3559,
+      "mean_token_accuracy": 0.7543706968426704,
+      "num_tokens": 424243.0,
+      "step": 50
+    },
+    {
+      "entropy": 0.8778181752189994,
+      "epoch": 0.024,
+      "grad_norm": 90.0,
+      "learning_rate": 1.1800000000000001e-06,
+      "loss": 17.4115,
+      "mean_token_accuracy": 0.7384452436119318,
+      "num_tokens": 505613.0,
+      "step": 60
+    },
+    {
+      "entropy": 0.8833056677132844,
+      "epoch": 0.028,
+      "grad_norm": 70.0,
+      "learning_rate": 1.3800000000000001e-06,
+      "loss": 17.0728,
+      "mean_token_accuracy": 0.7415951255708932,
+      "num_tokens": 584157.0,
+      "step": 70
+    },
+    {
+      "entropy": 0.8511845586821437,
+      "epoch": 0.032,
+      "grad_norm": 59.0,
+      "learning_rate": 1.5800000000000001e-06,
+      "loss": 16.0803,
+      "mean_token_accuracy": 0.755342447385192,
+      "num_tokens": 671193.0,
+      "step": 80
+    },
+    {
+      "entropy": 0.9350998625159264,
+      "epoch": 0.036,
+      "grad_norm": 84.0,
+      "learning_rate": 1.7800000000000001e-06,
+      "loss": 17.4767,
+      "mean_token_accuracy": 0.737629271298647,
+      "num_tokens": 753947.0,
+      "step": 90
+    },
+    {
+      "entropy": 0.8764035234227776,
+      "epoch": 0.04,
+      "grad_norm": 65.5,
+      "learning_rate": 1.98e-06,
+      "loss": 15.8079,
+      "mean_token_accuracy": 0.7533309157937765,
+      "num_tokens": 835868.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "eval_biology_entropy": 1.1230690423250198,
+      "eval_biology_loss": 1.2683643102645874,
+      "eval_biology_mean_token_accuracy": 0.6887624478340149,
+      "eval_biology_num_tokens": 835868.0,
+      "eval_biology_runtime": 40.1976,
+      "eval_biology_samples_per_second": 12.439,
+      "eval_biology_steps_per_second": 12.439,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "eval_physics_entropy": 0.9141198564767837,
+      "eval_physics_loss": 1.0196080207824707,
+      "eval_physics_mean_token_accuracy": 0.750413155734539,
+      "eval_physics_num_tokens": 835868.0,
+      "eval_physics_runtime": 53.5733,
+      "eval_physics_samples_per_second": 9.333,
+      "eval_physics_steps_per_second": 9.333,
+      "step": 100
+    },
+    {
+      "entropy": 0.8583992384374142,
+      "epoch": 0.044,
+      "grad_norm": 70.0,
+      "learning_rate": 2.1800000000000003e-06,
+      "loss": 15.0354,
+      "mean_token_accuracy": 0.7647321570664645,
+      "num_tokens": 917534.0,
+      "step": 110
+    },
+    {
+      "entropy": 0.8902238085865974,
+      "epoch": 0.048,
+      "grad_norm": 66.0,
+      "learning_rate": 2.38e-06,
+      "loss": 15.3774,
+      "mean_token_accuracy": 0.7589590523391962,
+      "num_tokens": 1001008.0,
+      "step": 120
+    },
+    {
+      "entropy": 0.9226205172017217,
+      "epoch": 0.052,
+      "grad_norm": 55.75,
+      "learning_rate": 2.5800000000000003e-06,
+      "loss": 15.5925,
+      "mean_token_accuracy": 0.7562482781708241,
+      "num_tokens": 1085098.0,
+      "step": 130
+    },
+    {
+      "entropy": 0.9374059302732348,
+      "epoch": 0.056,
+      "grad_norm": 60.0,
+      "learning_rate": 2.7800000000000005e-06,
+      "loss": 16.0069,
+      "mean_token_accuracy": 0.7525967676192522,
+      "num_tokens": 1166615.0,
+      "step": 140
+    },
+    {
+      "entropy": 0.9370595531538128,
+      "epoch": 0.06,
+      "grad_norm": 46.0,
+      "learning_rate": 2.9800000000000003e-06,
+      "loss": 15.4355,
+      "mean_token_accuracy": 0.7566674139350653,
+      "num_tokens": 1248387.0,
+      "step": 150
+    },
+    {
+      "entropy": 0.9721512474119663,
+      "epoch": 0.064,
+      "grad_norm": 47.75,
+      "learning_rate": 3.1800000000000005e-06,
+      "loss": 16.3572,
+      "mean_token_accuracy": 0.7466333545744419,
+      "num_tokens": 1331208.0,
+      "step": 160
+    },
+    {
+      "entropy": 0.9271958880126476,
+      "epoch": 0.068,
+      "grad_norm": 55.25,
+      "learning_rate": 3.3800000000000007e-06,
+      "loss": 15.062,
+      "mean_token_accuracy": 0.7615874823182821,
+      "num_tokens": 1416841.0,
+      "step": 170
+    },
+    {
+      "entropy": 0.9161595629528165,
+      "epoch": 0.072,
+      "grad_norm": 49.25,
+      "learning_rate": 3.58e-06,
+      "loss": 15.0671,
+      "mean_token_accuracy": 0.7618400476872921,
+      "num_tokens": 1499449.0,
+      "step": 180
+    },
+    {
+      "entropy": 0.9304505975916981,
+      "epoch": 0.076,
+      "grad_norm": 49.5,
+      "learning_rate": 3.7800000000000002e-06,
+      "loss": 15.1899,
+      "mean_token_accuracy": 0.756063225492835,
+      "num_tokens": 1585982.0,
+      "step": 190
+    },
+    {
+      "entropy": 0.9496602019295096,
+      "epoch": 0.08,
+      "grad_norm": 43.5,
+      "learning_rate": 3.980000000000001e-06,
+      "loss": 15.3895,
+      "mean_token_accuracy": 0.7551660794764757,
+      "num_tokens": 1667532.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "eval_biology_entropy": 1.1760825806856154,
+      "eval_biology_loss": 1.2611405849456787,
+      "eval_biology_mean_token_accuracy": 0.6883746695518493,
+      "eval_biology_num_tokens": 1667532.0,
+      "eval_biology_runtime": 39.9198,
+      "eval_biology_samples_per_second": 12.525,
+      "eval_biology_steps_per_second": 12.525,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "eval_physics_entropy": 0.9386761513948441,
+      "eval_physics_loss": 0.9588043093681335,
+      "eval_physics_mean_token_accuracy": 0.7587667318582535,
+      "eval_physics_num_tokens": 1667532.0,
+      "eval_physics_runtime": 53.7591,
+      "eval_physics_samples_per_second": 9.301,
+      "eval_physics_steps_per_second": 9.301,
+      "step": 200
+    },
+    {
+      "entropy": 0.8876599809154868,
+      "epoch": 0.084,
+      "grad_norm": 47.75,
+      "learning_rate": 4.18e-06,
+      "loss": 14.5591,
+      "mean_token_accuracy": 0.7688302487134934,
+      "num_tokens": 1750813.0,
+      "step": 210
+    },
+    {
+      "entropy": 0.9550920482724905,
+      "epoch": 0.088,
+      "grad_norm": 50.25,
+      "learning_rate": 4.38e-06,
+      "loss": 15.4401,
+      "mean_token_accuracy": 0.7583376962691546,
+      "num_tokens": 1835489.0,
+      "step": 220
+    },
+    {
+      "entropy": 0.9616718722507358,
+      "epoch": 0.092,
+      "grad_norm": 52.5,
+      "learning_rate": 4.58e-06,
+      "loss": 15.6379,
+      "mean_token_accuracy": 0.7517771814018488,
+      "num_tokens": 1915115.0,
+      "step": 230
+    },
+    {
+      "entropy": 0.8991832934319973,
+      "epoch": 0.096,
+      "grad_norm": 59.75,
+      "learning_rate": 4.78e-06,
+      "loss": 14.4737,
+      "mean_token_accuracy": 0.7692118056118489,
+      "num_tokens": 2007176.0,
+      "step": 240
+    },
+    {
+      "entropy": 0.9369921594858169,
+      "epoch": 0.1,
+      "grad_norm": 48.25,
+      "learning_rate": 4.980000000000001e-06,
+      "loss": 15.2105,
+      "mean_token_accuracy": 0.7562540877610445,
+      "num_tokens": 2088696.0,
+      "step": 250
+    },
+    {
+      "entropy": 0.9722234448418021,
+      "epoch": 0.104,
+      "grad_norm": 54.0,
+      "learning_rate": 5.18e-06,
+      "loss": 15.7667,
+      "mean_token_accuracy": 0.7513973277062178,
+      "num_tokens": 2171335.0,
+      "step": 260
+    },
+    {
+      "entropy": 0.929803448356688,
+      "epoch": 0.108,
+      "grad_norm": 59.25,
+      "learning_rate": 5.380000000000001e-06,
+      "loss": 14.9912,
+      "mean_token_accuracy": 0.7627206303179264,
+      "num_tokens": 2254168.0,
+      "step": 270
+    },
+    {
+      "entropy": 0.9004335077479482,
+      "epoch": 0.112,
+      "grad_norm": 61.25,
+      "learning_rate": 5.580000000000001e-06,
+      "loss": 14.405,
+      "mean_token_accuracy": 0.76763153411448,
+      "num_tokens": 2342259.0,
+      "step": 280
+    },
+    {
+      "entropy": 0.9265993487089872,
+      "epoch": 0.116,
+      "grad_norm": 58.25,
+      "learning_rate": 5.78e-06,
+      "loss": 14.9674,
+      "mean_token_accuracy": 0.7608603104948998,
+      "num_tokens": 2426289.0,
+      "step": 290
+    },
+    {
+      "entropy": 0.9675430860370398,
+      "epoch": 0.12,
+      "grad_norm": 44.5,
+      "learning_rate": 5.98e-06,
+      "loss": 15.4661,
+      "mean_token_accuracy": 0.7530908696353436,
+      "num_tokens": 2504279.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "eval_biology_entropy": 1.1881412832140923,
+      "eval_biology_loss": 1.2643039226531982,
+      "eval_biology_mean_token_accuracy": 0.6870381585955619,
+      "eval_biology_num_tokens": 2504279.0,
+      "eval_biology_runtime": 40.1357,
+      "eval_biology_samples_per_second": 12.458,
+      "eval_biology_steps_per_second": 12.458,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "eval_physics_entropy": 0.918557298719883,
+      "eval_physics_loss": 0.919302761554718,
+      "eval_physics_mean_token_accuracy": 0.7652055172920227,
+      "eval_physics_num_tokens": 2504279.0,
+      "eval_physics_runtime": 53.5764,
+      "eval_physics_samples_per_second": 9.332,
+      "eval_physics_steps_per_second": 9.332,
+      "step": 300
+    },
+    {
+      "entropy": 0.945288896933198,
+      "epoch": 0.124,
+      "grad_norm": 46.25,
+      "learning_rate": 6.18e-06,
+      "loss": 15.1972,
+      "mean_token_accuracy": 0.7569374658167363,
+      "num_tokens": 2583599.0,
+      "step": 310
+    },
+    {
+      "entropy": 0.8784681657329202,
+      "epoch": 0.128,
+      "grad_norm": 46.0,
+      "learning_rate": 6.380000000000001e-06,
+      "loss": 14.1084,
+      "mean_token_accuracy": 0.7712060511112213,
+      "num_tokens": 2663987.0,
+      "step": 320
+    },
+    {
+      "entropy": 0.9214498041197657,
+      "epoch": 0.132,
+      "grad_norm": 49.0,
+      "learning_rate": 6.5800000000000005e-06,
+      "loss": 15.0092,
+      "mean_token_accuracy": 0.7606228835880756,
+      "num_tokens": 2743933.0,
+      "step": 330
+    },
+    {
+      "entropy": 0.9181070065125823,
+      "epoch": 0.136,
+      "grad_norm": 36.75,
+      "learning_rate": 6.780000000000001e-06,
+      "loss": 14.8939,
+      "mean_token_accuracy": 0.7647624254226685,
+      "num_tokens": 2829720.0,
+      "step": 340
+    },
+    {
+      "entropy": 0.9362396266311407,
+      "epoch": 0.14,
+      "grad_norm": 42.75,
+      "learning_rate": 6.98e-06,
+      "loss": 14.8969,
+      "mean_token_accuracy": 0.7599288888275624,
+      "num_tokens": 2915814.0,
+      "step": 350
+    },
+    {
+      "entropy": 0.896806463971734,
+      "epoch": 0.144,
+      "grad_norm": 56.0,
+      "learning_rate": 7.180000000000001e-06,
+      "loss": 14.4447,
+      "mean_token_accuracy": 0.7707839358597994,
+      "num_tokens": 2997824.0,
+      "step": 360
+    },
+    {
+      "entropy": 0.9098270131275058,
+      "epoch": 0.148,
+      "grad_norm": 47.0,
+      "learning_rate": 7.3800000000000005e-06,
+      "loss": 14.7097,
+      "mean_token_accuracy": 0.763165109232068,
+      "num_tokens": 3076422.0,
+      "step": 370
+    },
+    {
+      "entropy": 0.8725583601742983,
+      "epoch": 0.152,
+      "grad_norm": 43.0,
+      "learning_rate": 7.58e-06,
+      "loss": 13.9897,
+      "mean_token_accuracy": 0.7742969345301389,
+      "num_tokens": 3159946.0,
+      "step": 380
+    },
+    {
+      "entropy": 0.8706006621941924,
+      "epoch": 0.156,
+      "grad_norm": 49.5,
+      "learning_rate": 7.78e-06,
+      "loss": 13.8559,
+      "mean_token_accuracy": 0.7760756332427263,
+      "num_tokens": 3247218.0,
+      "step": 390
+    },
+    {
+      "entropy": 0.8869594784453512,
+      "epoch": 0.16,
+      "grad_norm": 49.25,
+      "learning_rate": 7.980000000000002e-06,
+      "loss": 14.4662,
+      "mean_token_accuracy": 0.767155185341835,
+      "num_tokens": 3330597.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_biology_entropy": 1.197325525343418,
+      "eval_biology_loss": 1.2703520059585571,
+      "eval_biology_mean_token_accuracy": 0.6873815752267838,
+      "eval_biology_num_tokens": 3330597.0,
+      "eval_biology_runtime": 40.3991,
+      "eval_biology_samples_per_second": 12.377,
+      "eval_biology_steps_per_second": 12.377,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_physics_entropy": 0.888068499326706,
+      "eval_physics_loss": 0.8878387212753296,
+      "eval_physics_mean_token_accuracy": 0.7709487853050232,
+      "eval_physics_num_tokens": 3330597.0,
+      "eval_physics_runtime": 53.4439,
+      "eval_physics_samples_per_second": 9.356,
+      "eval_physics_steps_per_second": 9.356,
+      "step": 400
+    },
+    {
+      "entropy": 0.9179496448487043,
+      "epoch": 0.164,
+      "grad_norm": 49.0,
+      "learning_rate": 8.18e-06,
+      "loss": 14.5156,
+      "mean_token_accuracy": 0.7636631712317467,
+      "num_tokens": 3414445.0,
+      "step": 410
+    },
+    {
+      "entropy": 0.8822837853804231,
+      "epoch": 0.168,
+      "grad_norm": 53.0,
+      "learning_rate": 8.380000000000001e-06,
+      "loss": 14.148,
+      "mean_token_accuracy": 0.7693528279662132,
+      "num_tokens": 3496104.0,
+      "step": 420
+    },
+    {
+      "entropy": 0.8821934029459954,
+      "epoch": 0.172,
+      "grad_norm": 45.25,
+      "learning_rate": 8.580000000000001e-06,
+      "loss": 14.4071,
+      "mean_token_accuracy": 0.7662574470043182,
+      "num_tokens": 3576979.0,
+      "step": 430
+    },
+    {
+      "entropy": 0.8882661890238523,
+      "epoch": 0.176,
+      "grad_norm": 57.0,
+      "learning_rate": 8.78e-06,
+      "loss": 14.0855,
+      "mean_token_accuracy": 0.7684148631989955,
+      "num_tokens": 3658264.0,
+      "step": 440
+    },
+    {
+      "entropy": 0.8776636118069291,
+      "epoch": 0.18,
+      "grad_norm": 50.5,
+      "learning_rate": 8.98e-06,
+      "loss": 14.1633,
+      "mean_token_accuracy": 0.7680283546447754,
+      "num_tokens": 3739142.0,
+      "step": 450
+    },
+    {
+      "entropy": 0.8854248264804483,
+      "epoch": 0.184,
+      "grad_norm": 50.25,
+      "learning_rate": 9.180000000000002e-06,
+      "loss": 14.2742,
+      "mean_token_accuracy": 0.7675002634525299,
+      "num_tokens": 3821352.0,
+      "step": 460
+    },
+    {
+      "entropy": 0.8554168688133359,
+      "epoch": 0.188,
+      "grad_norm": 43.25,
+      "learning_rate": 9.38e-06,
+      "loss": 13.6807,
+      "mean_token_accuracy": 0.7745012179017067,
+      "num_tokens": 3905291.0,
+      "step": 470
+    },
+    {
+      "entropy": 0.8508397350087762,
+      "epoch": 0.192,
+      "grad_norm": 40.25,
+      "learning_rate": 9.58e-06,
+      "loss": 13.7828,
+      "mean_token_accuracy": 0.7750742956995964,
+      "num_tokens": 3995568.0,
+      "step": 480
+    },
+    {
+      "entropy": 0.8710859406739473,
+      "epoch": 0.196,
+      "grad_norm": 49.5,
+      "learning_rate": 9.780000000000001e-06,
+      "loss": 13.9918,
+      "mean_token_accuracy": 0.7735175251960754,
+      "num_tokens": 4075670.0,
+      "step": 490
+    },
+    {
+      "entropy": 0.8420973749831319,
+      "epoch": 0.2,
+      "grad_norm": 50.0,
+      "learning_rate": 9.980000000000001e-06,
+      "loss": 13.4998,
+      "mean_token_accuracy": 0.779565305262804,
+      "num_tokens": 4160918.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "eval_biology_entropy": 1.1644099119901656,
+      "eval_biology_loss": 1.2769672870635986,
+      "eval_biology_mean_token_accuracy": 0.6861101101040841,
+      "eval_biology_num_tokens": 4160918.0,
+      "eval_biology_runtime": 39.8379,
+      "eval_biology_samples_per_second": 12.551,
+      "eval_biology_steps_per_second": 12.551,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "eval_physics_entropy": 0.8531826239228248,
+      "eval_physics_loss": 0.8632206916809082,
+      "eval_physics_mean_token_accuracy": 0.7755071822404861,
+      "eval_physics_num_tokens": 4160918.0,
+      "eval_physics_runtime": 55.811,
+      "eval_physics_samples_per_second": 8.959,
+      "eval_physics_steps_per_second": 8.959,
+      "step": 500
+    },
+    {
+      "entropy": 0.8474665513262153,
+      "epoch": 0.204,
+      "grad_norm": 45.75,
+      "learning_rate": 1.018e-05,
+      "loss": 13.6166,
+      "mean_token_accuracy": 0.7770899929106235,
+      "num_tokens": 4238810.0,
+      "step": 510
+    },
+    {
+      "entropy": 0.8348175186663866,
+      "epoch": 0.208,
+      "grad_norm": 45.0,
+      "learning_rate": 1.038e-05,
+      "loss": 13.4432,
+      "mean_token_accuracy": 0.7791284300386906,
+      "num_tokens": 4321436.0,
+      "step": 520
+    },
+    {
+      "entropy": 0.8515958024188877,
+      "epoch": 0.212,
+      "grad_norm": 44.0,
+      "learning_rate": 1.0580000000000002e-05,
+      "loss": 13.5514,
+      "mean_token_accuracy": 0.7726950984448194,
+      "num_tokens": 4401710.0,
+      "step": 530
+    },
+    {
+      "entropy": 0.871463224478066,
+      "epoch": 0.216,
+      "grad_norm": 43.75,
+      "learning_rate": 1.0780000000000002e-05,
+      "loss": 14.1078,
+      "mean_token_accuracy": 0.7690339071676136,
+      "num_tokens": 4482225.0,
+      "step": 540
+    },
+    {
+      "entropy": 0.8288272012025117,
+      "epoch": 0.22,
+      "grad_norm": 46.5,
+      "learning_rate": 1.0980000000000002e-05,
+      "loss": 13.3444,
+      "mean_token_accuracy": 0.7793109815567731,
+      "num_tokens": 4564662.0,
+      "step": 550
+    },
+    {
+      "entropy": 0.8090431936085224,
+      "epoch": 0.224,
+      "grad_norm": 40.75,
+      "learning_rate": 1.1180000000000001e-05,
+      "loss": 13.0281,
+      "mean_token_accuracy": 0.7843161709606647,
+      "num_tokens": 4648491.0,
+      "step": 560
+    },
+    {
+      "entropy": 0.8062232775613666,
+      "epoch": 0.228,
+      "grad_norm": 38.5,
+      "learning_rate": 1.138e-05,
+      "loss": 12.9529,
+      "mean_token_accuracy": 0.7843800630420447,
+      "num_tokens": 4731596.0,
+      "step": 570
+    },
+    {
+      "entropy": 0.8517701115459204,
+      "epoch": 0.232,
+      "grad_norm": 42.25,
+      "learning_rate": 1.1580000000000001e-05,
+      "loss": 13.6746,
+      "mean_token_accuracy": 0.7757678255438805,
+      "num_tokens": 4813449.0,
+      "step": 580
+    },
+    {
+      "entropy": 0.8369667442515493,
+      "epoch": 0.236,
+      "grad_norm": 35.5,
+      "learning_rate": 1.178e-05,
+      "loss": 13.2971,
+      "mean_token_accuracy": 0.7806435581296682,
+      "num_tokens": 4899144.0,
+      "step": 590
+    },
+    {
+      "entropy": 0.8229177813977003,
+      "epoch": 0.24,
+      "grad_norm": 42.0,
+      "learning_rate": 1.198e-05,
+      "loss": 13.364,
+      "mean_token_accuracy": 0.778663220256567,
+      "num_tokens": 4986175.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.24,
+      "eval_biology_entropy": 1.180227564573288,
+      "eval_biology_loss": 1.280086636543274,
+      "eval_biology_mean_token_accuracy": 0.6851186206936837,
+      "eval_biology_num_tokens": 4986175.0,
+      "eval_biology_runtime": 40.1078,
+      "eval_biology_samples_per_second": 12.466,
+      "eval_biology_steps_per_second": 12.466,
+      "step": 600
+    },
+    {
+      "epoch": 0.24,
+      "eval_physics_entropy": 0.8273749435544014,
+      "eval_physics_loss": 0.8421014547348022,
+      "eval_physics_mean_token_accuracy": 0.7796914368867874,
+      "eval_physics_num_tokens": 4986175.0,
+      "eval_physics_runtime": 53.6333,
+      "eval_physics_samples_per_second": 9.323,
+      "eval_physics_steps_per_second": 9.323,
+      "step": 600
+    },
+    {
+      "entropy": 0.8442536953836679,
+      "epoch": 0.244,
+      "grad_norm": 42.0,
+      "learning_rate": 1.218e-05,
+      "loss": 13.4661,
+      "mean_token_accuracy": 0.7772998537868261,
+      "num_tokens": 5071994.0,
+      "step": 610
+    },
+    {
+      "entropy": 0.8010923132300377,
+      "epoch": 0.248,
+      "grad_norm": 41.75,
+      "learning_rate": 1.2380000000000002e-05,
+      "loss": 12.8979,
+      "mean_token_accuracy": 0.7863831762224436,
+      "num_tokens": 5164741.0,
+      "step": 620
+    },
+    {
+      "entropy": 0.8448842618614435,
+      "epoch": 0.252,
+      "grad_norm": 44.75,
+      "learning_rate": 1.2580000000000002e-05,
+      "loss": 13.612,
+      "mean_token_accuracy": 0.7776872050017118,
+      "num_tokens": 5245878.0,
+      "step": 630
+    },
+    {
+      "entropy": 0.8191616820171476,
+      "epoch": 0.256,
+      "grad_norm": 46.25,
+      "learning_rate": 1.2780000000000001e-05,
+      "loss": 13.3478,
+      "mean_token_accuracy": 0.7798578917980195,
+      "num_tokens": 5329320.0,
+      "step": 640
+    },
+    {
+      "entropy": 0.8373894428834319,
+      "epoch": 0.26,
+      "grad_norm": 43.75,
+      "learning_rate": 1.2980000000000001e-05,
+      "loss": 13.2408,
+      "mean_token_accuracy": 0.780717215128243,
+      "num_tokens": 5412557.0,
+      "step": 650
+    },
+    {
+      "entropy": 0.8047826003283263,
+      "epoch": 0.264,
+      "grad_norm": 47.0,
+      "learning_rate": 1.3180000000000001e-05,
+      "loss": 13.1602,
+      "mean_token_accuracy": 0.7808638617396355,
+      "num_tokens": 5497259.0,
+      "step": 660
+    },
+    {
+      "entropy": 0.8437582038342952,
+      "epoch": 0.268,
+      "grad_norm": 44.75,
+      "learning_rate": 1.3380000000000002e-05,
+      "loss": 13.3738,
+      "mean_token_accuracy": 0.7791281435638666,
+      "num_tokens": 5576721.0,
+      "step": 670
+    },
+    {
+      "entropy": 0.8402760226279498,
+      "epoch": 0.272,
+      "grad_norm": 43.25,
+      "learning_rate": 1.3580000000000002e-05,
+      "loss": 13.6995,
+      "mean_token_accuracy": 0.7730118347331881,
+      "num_tokens": 5658796.0,
+      "step": 680
+    },
+    {
+      "entropy": 0.8618346724659205,
+      "epoch": 0.276,
+      "grad_norm": 47.25,
+      "learning_rate": 1.378e-05,
+      "loss": 13.7742,
+      "mean_token_accuracy": 0.7733935236930847,
+      "num_tokens": 5737499.0,
+      "step": 690
+    },
+    {
+      "entropy": 0.8180074915289879,
+      "epoch": 0.28,
+      "grad_norm": 45.25,
+      "learning_rate": 1.398e-05,
+      "loss": 13.2461,
+      "mean_token_accuracy": 0.7852540168911218,
+      "num_tokens": 5819027.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "eval_biology_entropy": 1.2050418145656585,
+      "eval_biology_loss": 1.2829557657241821,
+      "eval_biology_mean_token_accuracy": 0.6858616912961006,
+      "eval_biology_num_tokens": 5819027.0,
+      "eval_biology_runtime": 40.1656,
+      "eval_biology_samples_per_second": 12.448,
+      "eval_biology_steps_per_second": 12.448,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "eval_physics_entropy": 0.8281588327288628,
+      "eval_physics_loss": 0.8266663551330566,
+      "eval_physics_mean_token_accuracy": 0.7826227464675903,
+      "eval_physics_num_tokens": 5819027.0,
+      "eval_physics_runtime": 53.654,
+      "eval_physics_samples_per_second": 9.319,
+      "eval_physics_steps_per_second": 9.319,
+      "step": 700
+    },
+    {
+      "entropy": 0.8689560383558274,
+      "epoch": 0.284,
+      "grad_norm": 49.0,
+      "learning_rate": 1.418e-05,
+      "loss": 13.8644,
+      "mean_token_accuracy": 0.7714414589107037,
+      "num_tokens": 5898693.0,
+      "step": 710
+    },
+    {
+      "entropy": 0.804288436844945,
+      "epoch": 0.288,
+      "grad_norm": 41.0,
+      "learning_rate": 1.4380000000000001e-05,
+      "loss": 13.0324,
+      "mean_token_accuracy": 0.7863233294337988,
+      "num_tokens": 5980201.0,
+      "step": 720
+    },
+    {
+      "entropy": 0.8008439680561423,
+      "epoch": 0.292,
+      "grad_norm": 39.75,
+      "learning_rate": 1.4580000000000001e-05,
+      "loss": 12.8478,
+      "mean_token_accuracy": 0.7870619356632232,
+      "num_tokens": 6059507.0,
+      "step": 730
+    },
+    {
+      "entropy": 0.8202026936225593,
+      "epoch": 0.296,
+      "grad_norm": 38.75,
+      "learning_rate": 1.478e-05,
+      "loss": 13.2546,
+      "mean_token_accuracy": 0.7811095919460058,
+      "num_tokens": 6139830.0,
+      "step": 740
+    },
+    {
+      "entropy": 0.8201492626219988,
+      "epoch": 0.3,
+      "grad_norm": 41.25,
+      "learning_rate": 1.498e-05,
+      "loss": 13.0217,
+      "mean_token_accuracy": 0.7822576854377985,
+      "num_tokens": 6218134.0,
+      "step": 750
+    },
+    {
+      "entropy": 0.818927645124495,
+      "epoch": 0.304,
+      "grad_norm": 42.75,
+      "learning_rate": 1.5180000000000002e-05,
+      "loss": 13.2804,
+      "mean_token_accuracy": 0.779948465898633,
+      "num_tokens": 6298858.0,
+      "step": 760
+    },
+    {
+      "entropy": 0.855727698840201,
+      "epoch": 0.308,
+      "grad_norm": 52.75,
+      "learning_rate": 1.5380000000000002e-05,
+      "loss": 13.8917,
+      "mean_token_accuracy": 0.7703924782574176,
+      "num_tokens": 6375761.0,
+      "step": 770
+    },
+    {
+      "entropy": 0.7976011021062732,
+      "epoch": 0.312,
+      "grad_norm": 36.0,
+      "learning_rate": 1.5580000000000003e-05,
+      "loss": 12.6345,
+      "mean_token_accuracy": 0.7890406355261803,
+      "num_tokens": 6456502.0,
+      "step": 780
+    },
+    {
+      "entropy": 0.8050644747912884,
+      "epoch": 0.316,
+      "grad_norm": 44.5,
+      "learning_rate": 1.578e-05,
+      "loss": 13.1921,
+      "mean_token_accuracy": 0.7834381762892008,
+      "num_tokens": 6537521.0,
+      "step": 790
+    },
+    {
+      "entropy": 0.8325098715722561,
+      "epoch": 0.32,
+      "grad_norm": 36.25,
+      "learning_rate": 1.5980000000000003e-05,
+      "loss": 13.3843,
+      "mean_token_accuracy": 0.7803130840882659,
+      "num_tokens": 6622798.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "eval_biology_entropy": 1.2224014229774476,
+      "eval_biology_loss": 1.2937734127044678,
+      "eval_biology_mean_token_accuracy": 0.6835832511186599,
+      "eval_biology_num_tokens": 6622798.0,
+      "eval_biology_runtime": 40.2146,
+      "eval_biology_samples_per_second": 12.433,
+      "eval_biology_steps_per_second": 12.433,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "eval_physics_entropy": 0.8050925194621086,
+      "eval_physics_loss": 0.8124625086784363,
+      "eval_physics_mean_token_accuracy": 0.7845232374668122,
+      "eval_physics_num_tokens": 6622798.0,
+      "eval_physics_runtime": 53.5823,
+      "eval_physics_samples_per_second": 9.331,
+      "eval_physics_steps_per_second": 9.331,
+      "step": 800
+    },
+    {
+      "entropy": 0.8160014390945435,
+      "epoch": 0.324,
+      "grad_norm": 44.5,
+      "learning_rate": 1.618e-05,
+      "loss": 13.1114,
+      "mean_token_accuracy": 0.7845251262187958,
+      "num_tokens": 6699373.0,
+      "step": 810
+    },
+    {
+      "entropy": 0.8096626095473767,
+      "epoch": 0.328,
+      "grad_norm": 43.25,
+      "learning_rate": 1.638e-05,
+      "loss": 13.2707,
+      "mean_token_accuracy": 0.7790007971227169,
+      "num_tokens": 6782985.0,
+      "step": 820
+    },
+    {
+      "entropy": 0.8155604779720307,
+      "epoch": 0.332,
+      "grad_norm": 42.75,
+      "learning_rate": 1.658e-05,
+      "loss": 12.8927,
+      "mean_token_accuracy": 0.7841650832444429,
+      "num_tokens": 6868578.0,
+      "step": 830
+    },
+    {
+      "entropy": 0.7713794196024537,
+      "epoch": 0.336,
+      "grad_norm": 35.75,
+      "learning_rate": 1.6780000000000002e-05,
+      "loss": 12.3469,
+      "mean_token_accuracy": 0.7945763759315014,
+      "num_tokens": 6953611.0,
+      "step": 840
+    },
+    {
+      "entropy": 0.805246700718999,
+      "epoch": 0.34,
+      "grad_norm": 45.25,
+      "learning_rate": 1.698e-05,
+      "loss": 13.264,
+      "mean_token_accuracy": 0.7829924900084734,
+      "num_tokens": 7037831.0,
+      "step": 850
+    },
+    {
+      "entropy": 0.7846146428957581,
+      "epoch": 0.344,
+      "grad_norm": 50.25,
+      "learning_rate": 1.718e-05,
+      "loss": 12.5468,
+      "mean_token_accuracy": 0.7915518656373024,
+      "num_tokens": 7121949.0,
+      "step": 860
+    },
+    {
+      "entropy": 0.7968592442572117,
+      "epoch": 0.348,
+      "grad_norm": 40.75,
+      "learning_rate": 1.7380000000000003e-05,
+      "loss": 12.8986,
+      "mean_token_accuracy": 0.7861088421195745,
+      "num_tokens": 7206056.0,
+      "step": 870
+    },
+    {
+      "entropy": 0.8040603714063763,
+      "epoch": 0.352,
+      "grad_norm": 49.5,
+      "learning_rate": 1.758e-05,
+      "loss": 12.9695,
+      "mean_token_accuracy": 0.7847281444817782,
+      "num_tokens": 7290378.0,
+      "step": 880
+    },
+    {
+      "entropy": 0.8249117810279131,
+      "epoch": 0.356,
+      "grad_norm": 35.25,
+      "learning_rate": 1.7780000000000003e-05,
+      "loss": 13.0379,
+      "mean_token_accuracy": 0.7836297146975995,
+      "num_tokens": 7367952.0,
+      "step": 890
+    },
+    {
+      "entropy": 0.7825405385345221,
+      "epoch": 0.36,
+      "grad_norm": 50.75,
+      "learning_rate": 1.798e-05,
+      "loss": 12.7677,
+      "mean_token_accuracy": 0.7906032208353281,
+      "num_tokens": 7452920.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.36,
+      "eval_biology_entropy": 1.260676340520382,
+      "eval_biology_loss": 1.2954092025756836,
+      "eval_biology_mean_token_accuracy": 0.6837160994410515,
+      "eval_biology_num_tokens": 7452920.0,
+      "eval_biology_runtime": 39.7587,
+      "eval_biology_samples_per_second": 12.576,
+      "eval_biology_steps_per_second": 12.576,
+      "step": 900
+    },
+    {
+      "epoch": 0.36,
+      "eval_physics_entropy": 0.8267089626193047,
+      "eval_physics_loss": 0.804395854473114,
+      "eval_physics_mean_token_accuracy": 0.7860386987924576,
+      "eval_physics_num_tokens": 7452920.0,
+      "eval_physics_runtime": 53.385,
+      "eval_physics_samples_per_second": 9.366,
+      "eval_physics_steps_per_second": 9.366,
+      "step": 900
+    },
+    {
+      "entropy": 0.7688560528680682,
+      "epoch": 0.364,
+      "grad_norm": 38.0,
+      "learning_rate": 1.8180000000000002e-05,
+      "loss": 12.4576,
+      "mean_token_accuracy": 0.7921908859163522,
+      "num_tokens": 7535961.0,
+      "step": 910
+    },
+    {
+      "entropy": 0.787941231764853,
+      "epoch": 0.368,
+      "grad_norm": 38.0,
+      "learning_rate": 1.8380000000000004e-05,
+      "loss": 12.5149,
+      "mean_token_accuracy": 0.7924131523817778,
+      "num_tokens": 7621082.0,
+      "step": 920
+    },
+    {
+      "entropy": 0.7637785948812962,
+      "epoch": 0.372,
+      "grad_norm": 39.5,
+      "learning_rate": 1.858e-05,
+      "loss": 12.4069,
+      "mean_token_accuracy": 0.7892315208911895,
+      "num_tokens": 7705651.0,
+      "step": 930
+    },
+    {
+      "entropy": 0.8655371183529497,
+      "epoch": 0.376,
+      "grad_norm": 37.5,
+      "learning_rate": 1.878e-05,
+      "loss": 13.9821,
+      "mean_token_accuracy": 0.767190694063902,
+      "num_tokens": 7787036.0,
+      "step": 940
+    },
+    {
+      "entropy": 0.8061225781217217,
+      "epoch": 0.38,
+      "grad_norm": 43.25,
+      "learning_rate": 1.898e-05,
+      "loss": 12.8783,
+      "mean_token_accuracy": 0.7815280705690384,
+      "num_tokens": 7869437.0,
+      "step": 950
+    },
+    {
+      "entropy": 0.7763598024845123,
+      "epoch": 0.384,
+      "grad_norm": 36.0,
+      "learning_rate": 1.918e-05,
+      "loss": 12.5365,
+      "mean_token_accuracy": 0.7898113425821066,
+      "num_tokens": 7955570.0,
+      "step": 960
+    },
+    {
+      "entropy": 0.7618165619671344,
+      "epoch": 0.388,
+      "grad_norm": 34.25,
+      "learning_rate": 1.938e-05,
+      "loss": 12.2278,
+      "mean_token_accuracy": 0.7936428274959326,
+      "num_tokens": 8038818.0,
+      "step": 970
+    },
+    {
+      "entropy": 0.7720302825793623,
+      "epoch": 0.392,
+      "grad_norm": 33.5,
+      "learning_rate": 1.9580000000000002e-05,
+      "loss": 12.4276,
+      "mean_token_accuracy": 0.7894316878169775,
+      "num_tokens": 8123527.0,
+      "step": 980
+    },
+    {
+      "entropy": 0.7889690216630697,
+      "epoch": 0.396,
+      "grad_norm": 35.75,
+      "learning_rate": 1.978e-05,
+      "loss": 12.6712,
+      "mean_token_accuracy": 0.7906296912580728,
+      "num_tokens": 8206501.0,
+      "step": 990
+    },
+    {
+      "entropy": 0.7546495482325554,
+      "epoch": 0.4,
+      "grad_norm": 30.375,
+      "learning_rate": 1.9980000000000002e-05,
+      "loss": 12.2605,
+      "mean_token_accuracy": 0.7954238150268793,
+      "num_tokens": 8291049.0,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4,
+      "eval_biology_entropy": 1.2203906371593476,
+      "eval_biology_loss": 1.3063849210739136,
+      "eval_biology_mean_token_accuracy": 0.6822154860496521,
+      "eval_biology_num_tokens": 8291049.0,
+      "eval_biology_runtime": 39.6187,
+      "eval_biology_samples_per_second": 12.62,
+      "eval_biology_steps_per_second": 12.62,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4,
+      "eval_physics_entropy": 0.7869865165352822,
+      "eval_physics_loss": 0.7939902544021606,
+      "eval_physics_mean_token_accuracy": 0.7892250344753265,
+      "eval_physics_num_tokens": 8291049.0,
+      "eval_physics_runtime": 53.3297,
+      "eval_physics_samples_per_second": 9.376,
+      "eval_physics_steps_per_second": 9.376,
+      "step": 1000
+    },
+    {
+      "entropy": 0.7745920962654054,
+      "epoch": 0.404,
+      "grad_norm": 37.5,
+      "learning_rate": 1.9980000000000002e-05,
+      "loss": 12.3359,
+      "mean_token_accuracy": 0.7937587026506663,
+      "num_tokens": 8373687.0,
+      "step": 1010
+    },
+    {
+      "entropy": 0.7814433991909027,
+      "epoch": 0.408,
+      "grad_norm": 37.25,
+      "learning_rate": 1.995777777777778e-05,
+      "loss": 12.7014,
+      "mean_token_accuracy": 0.7890282683074474,
+      "num_tokens": 8459795.0,
+      "step": 1020
+    },
+    {
+      "entropy": 0.7701821904629469,
+      "epoch": 0.412,
+      "grad_norm": 37.75,
+      "learning_rate": 1.9935555555555557e-05,
+      "loss": 12.3699,
+      "mean_token_accuracy": 0.7925237081944942,
+      "num_tokens": 8544948.0,
+      "step": 1030
+    },
+    {
+      "entropy": 0.7647503511980176,
+      "epoch": 0.416,
+      "grad_norm": 38.0,
+      "learning_rate": 1.9913333333333335e-05,
+      "loss": 12.3977,
+      "mean_token_accuracy": 0.7906193345785141,
+      "num_tokens": 8627310.0,
+      "step": 1040
+    },
+    {
+      "entropy": 0.8673122953623533,
+      "epoch": 0.42,
+      "grad_norm": 37.75,
+      "learning_rate": 1.9891111111111112e-05,
+      "loss": 14.0458,
+      "mean_token_accuracy": 0.7726566158235073,
+      "num_tokens": 8707798.0,
+      "step": 1050
+    },
+    {
+      "entropy": 0.7525206310674548,
+      "epoch": 0.424,
+      "grad_norm": 36.75,
+      "learning_rate": 1.986888888888889e-05,
+      "loss": 12.0665,
+      "mean_token_accuracy": 0.7967866588383913,
+      "num_tokens": 8792574.0,
+      "step": 1060
+    },
+    {
+      "entropy": 0.7467073641717434,
+      "epoch": 0.428,
+      "grad_norm": 45.5,
+      "learning_rate": 1.9846666666666668e-05,
+      "loss": 12.1549,
+      "mean_token_accuracy": 0.7931634142994881,
+      "num_tokens": 8878637.0,
+      "step": 1070
+    },
+    {
+      "entropy": 0.7839244937524199,
+      "epoch": 0.432,
+      "grad_norm": 45.0,
+      "learning_rate": 1.9824444444444445e-05,
+      "loss": 12.5007,
+      "mean_token_accuracy": 0.7881082151085138,
+      "num_tokens": 8958371.0,
+      "step": 1080
+    },
+    {
+      "entropy": 0.7413714839145541,
+      "epoch": 0.436,
+      "grad_norm": 46.75,
+      "learning_rate": 1.9802222222222226e-05,
+      "loss": 12.0585,
+      "mean_token_accuracy": 0.7957902185618877,
+      "num_tokens": 9040649.0,
+      "step": 1090
+    },
+    {
+      "entropy": 0.7342718128114939,
+      "epoch": 0.44,
+      "grad_norm": 35.0,
+      "learning_rate": 1.978e-05,
+      "loss": 11.7561,
+      "mean_token_accuracy": 0.8008737362921238,
+      "num_tokens": 9125564.0,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44,
+      "eval_biology_entropy": 1.2318417947292328,
+      "eval_biology_loss": 1.3115253448486328,
+      "eval_biology_mean_token_accuracy": 0.679122111260891,
+      "eval_biology_num_tokens": 9125564.0,
+      "eval_biology_runtime": 41.0846,
+      "eval_biology_samples_per_second": 12.17,
+      "eval_biology_steps_per_second": 12.17,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44,
+      "eval_physics_entropy": 0.7676994443535805,
+      "eval_physics_loss": 0.7829805016517639,
+      "eval_physics_mean_token_accuracy": 0.791229931652546,
+      "eval_physics_num_tokens": 9125564.0,
+      "eval_physics_runtime": 53.9506,
+      "eval_physics_samples_per_second": 9.268,
+      "eval_physics_steps_per_second": 9.268,
+      "step": 1100
+    },
+    {
+      "entropy": 0.7964015046134592,
+      "epoch": 0.444,
+      "grad_norm": 36.0,
+      "learning_rate": 1.975777777777778e-05,
+      "loss": 12.8349,
+      "mean_token_accuracy": 0.7906872555613518,
+      "num_tokens": 9210443.0,
+      "step": 1110
+    },
+    {
+      "entropy": 0.7625864529982209,
+      "epoch": 0.448,
+      "grad_norm": 35.25,
+      "learning_rate": 1.9735555555555556e-05,
+      "loss": 12.3726,
+      "mean_token_accuracy": 0.793677008152008,
+      "num_tokens": 9294388.0,
+      "step": 1120
+    },
+    {
+      "entropy": 0.7254764646291733,
+      "epoch": 0.452,
+      "grad_norm": 40.5,
+      "learning_rate": 1.9713333333333337e-05,
+      "loss": 11.5332,
+      "mean_token_accuracy": 0.8040223550051451,
+      "num_tokens": 9371203.0,
+      "step": 1130
+    },
+    {
+      "entropy": 0.7591763591393829,
+      "epoch": 0.456,
+      "grad_norm": 33.25,
+      "learning_rate": 1.969111111111111e-05,
+      "loss": 12.3074,
+      "mean_token_accuracy": 0.7907072994858027,
+      "num_tokens": 9455428.0,
+      "step": 1140
+    },
+    {
+      "entropy": 0.7252835785970092,
+      "epoch": 0.46,
+      "grad_norm": 31.625,
+      "learning_rate": 1.9668888888888892e-05,
+      "loss": 11.6391,
+      "mean_token_accuracy": 0.8016874447464943,
+      "num_tokens": 9539605.0,
+      "step": 1150
+    },
+    {
+      "entropy": 0.7591151360422372,
+      "epoch": 0.464,
+      "grad_norm": 36.25,
+      "learning_rate": 1.9646666666666666e-05,
+      "loss": 12.1869,
+      "mean_token_accuracy": 0.7929935570806265,
+      "num_tokens": 9620366.0,
+      "step": 1160
+    },
+    {
+      "entropy": 0.7403375675901771,
+      "epoch": 0.468,
+      "grad_norm": 42.75,
+      "learning_rate": 1.9624444444444447e-05,
+      "loss": 12.0176,
+      "mean_token_accuracy": 0.7973428856581449,
+      "num_tokens": 9706621.0,
+      "step": 1170
+    },
+    {
+      "entropy": 0.7481812624260783,
+      "epoch": 0.472,
+      "grad_norm": 32.5,
+      "learning_rate": 1.9602222222222225e-05,
+      "loss": 11.8915,
+      "mean_token_accuracy": 0.7976309046149254,
+      "num_tokens": 9788925.0,
+      "step": 1180
+    },
+    {
+      "entropy": 0.7251997567713261,
+      "epoch": 0.476,
+      "grad_norm": 35.75,
+      "learning_rate": 1.9580000000000002e-05,
+      "loss": 11.7048,
+      "mean_token_accuracy": 0.799485994875431,
+      "num_tokens": 9869908.0,
+      "step": 1190
+    },
+    {
+      "entropy": 0.7967872533947229,
+      "epoch": 0.48,
+      "grad_norm": 40.75,
+      "learning_rate": 1.955777777777778e-05,
+      "loss": 12.8908,
+      "mean_token_accuracy": 0.7844480633735657,
+      "num_tokens": 9955431.0,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48,
+      "eval_biology_entropy": 1.2587181720733642,
+      "eval_biology_loss": 1.312862753868103,
+      "eval_biology_mean_token_accuracy": 0.6808421213626862,
+      "eval_biology_num_tokens": 9955431.0,
+      "eval_biology_runtime": 40.4289,
+      "eval_biology_samples_per_second": 12.367,
+      "eval_biology_steps_per_second": 12.367,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48,
+      "eval_physics_entropy": 0.7861447895765304,
+      "eval_physics_loss": 0.7735267281532288,
+      "eval_physics_mean_token_accuracy": 0.7935924195647239,
+      "eval_physics_num_tokens": 9955431.0,
+      "eval_physics_runtime": 53.6502,
+      "eval_physics_samples_per_second": 9.32,
+      "eval_physics_steps_per_second": 9.32,
+      "step": 1200
+    },
+    {
+      "entropy": 0.7577250240370631,
+      "epoch": 0.484,
+      "grad_norm": 42.0,
+      "learning_rate": 1.9535555555555557e-05,
+      "loss": 12.1351,
+      "mean_token_accuracy": 0.7965791456401348,
+      "num_tokens": 10038293.0,
+      "step": 1210
+    },
+    {
+      "entropy": 0.7587154977023601,
+      "epoch": 0.488,
+      "grad_norm": 34.25,
+      "learning_rate": 1.9513333333333335e-05,
+      "loss": 12.2284,
+      "mean_token_accuracy": 0.7966883551329375,
+      "num_tokens": 10119599.0,
+      "step": 1220
+    },
+    {
+      "entropy": 0.7962395515292883,
+      "epoch": 0.492,
+      "grad_norm": 38.75,
+      "learning_rate": 1.9491111111111113e-05,
+      "loss": 12.7641,
+      "mean_token_accuracy": 0.7870226014405489,
+      "num_tokens": 10204514.0,
+      "step": 1230
+    },
+    {
+      "entropy": 0.7810838287696242,
+      "epoch": 0.496,
+      "grad_norm": 30.75,
+      "learning_rate": 1.946888888888889e-05,
+      "loss": 12.4952,
+      "mean_token_accuracy": 0.7889893803745508,
+      "num_tokens": 10289883.0,
+      "step": 1240
+    },
+    {
+      "entropy": 0.7394755832850933,
+      "epoch": 0.5,
+      "grad_norm": 40.0,
+      "learning_rate": 1.9446666666666668e-05,
+      "loss": 12.1657,
+      "mean_token_accuracy": 0.7972712989896535,
+      "num_tokens": 10368762.0,
+      "step": 1250
+    },
+    {
+      "entropy": 0.7681626852601766,
+      "epoch": 0.504,
+      "grad_norm": 49.25,
+      "learning_rate": 1.9424444444444446e-05,
+      "loss": 12.2335,
+      "mean_token_accuracy": 0.7946292255073786,
+      "num_tokens": 10454683.0,
+      "step": 1260
+    },
+    {
+      "entropy": 0.7679951885715127,
+      "epoch": 0.508,
+      "grad_norm": 36.0,
+      "learning_rate": 1.9402222222222223e-05,
+      "loss": 12.545,
+      "mean_token_accuracy": 0.7900569703429937,
+      "num_tokens": 10539515.0,
+      "step": 1270
+    },
+    {
+      "entropy": 0.8300368219614029,
+      "epoch": 0.512,
+      "grad_norm": 37.25,
+      "learning_rate": 1.938e-05,
+      "loss": 13.1001,
+      "mean_token_accuracy": 0.7843356642872095,
+      "num_tokens": 10619468.0,
+      "step": 1280
+    },
+    {
+      "entropy": 0.7671406144276262,
+      "epoch": 0.516,
+      "grad_norm": 32.5,
+      "learning_rate": 1.935777777777778e-05,
+      "loss": 12.5236,
+      "mean_token_accuracy": 0.7890865195542573,
+      "num_tokens": 10698439.0,
+      "step": 1290
+    },
+    {
+      "entropy": 0.7833563217893242,
+      "epoch": 0.52,
+      "grad_norm": 35.75,
+      "learning_rate": 1.9335555555555556e-05,
+      "loss": 12.6103,
+      "mean_token_accuracy": 0.786338459327817,
+      "num_tokens": 10781285.0,
+      "step": 1300
+    },
+    {
+      "epoch": 0.52,
+      "eval_biology_entropy": 1.2044504998922347,
+      "eval_biology_loss": 1.3158695697784424,
+      "eval_biology_mean_token_accuracy": 0.6806762992739678,
+      "eval_biology_num_tokens": 10781285.0,
+      "eval_biology_runtime": 40.4308,
+      "eval_biology_samples_per_second": 12.367,
+      "eval_biology_steps_per_second": 12.367,
+      "step": 1300
+    },
+    {
+      "epoch": 0.52,
+      "eval_physics_entropy": 0.7465821036696434,
+      "eval_physics_loss": 0.7646451592445374,
+      "eval_physics_mean_token_accuracy": 0.7941779438853264,
+      "eval_physics_num_tokens": 10781285.0,
+      "eval_physics_runtime": 53.7667,
+      "eval_physics_samples_per_second": 9.299,
+      "eval_physics_steps_per_second": 9.299,
+      "step": 1300
+    },
+    {
+      "entropy": 0.7614477764815092,
+      "epoch": 0.524,
+      "grad_norm": 32.0,
+      "learning_rate": 1.9313333333333334e-05,
+      "loss": 12.2595,
+      "mean_token_accuracy": 0.7952840104699135,
+      "num_tokens": 10864773.0,
+      "step": 1310
+    },
+    {
+      "entropy": 0.7309355149976909,
+      "epoch": 0.528,
+      "grad_norm": 34.25,
+      "learning_rate": 1.9291111111111115e-05,
+      "loss": 11.8183,
+      "mean_token_accuracy": 0.7995771955698728,
+      "num_tokens": 10944904.0,
+      "step": 1320
+    },
+    {
+      "entropy": 0.7751859476789832,
+      "epoch": 0.532,
+      "grad_norm": 35.75,
+      "learning_rate": 1.926888888888889e-05,
+      "loss": 12.4241,
+      "mean_token_accuracy": 0.7901984643191099,
+      "num_tokens": 11023958.0,
+      "step": 1330
+    },
+    {
+      "entropy": 0.7090835077688098,
+      "epoch": 0.536,
+      "grad_norm": 35.0,
+      "learning_rate": 1.924666666666667e-05,
+      "loss": 11.518,
+      "mean_token_accuracy": 0.803777121193707,
+      "num_tokens": 11106538.0,
+      "step": 1340
+    },
+    {
+      "entropy": 0.7684242798015475,
+      "epoch": 0.54,
+      "grad_norm": 44.5,
+      "learning_rate": 1.9224444444444444e-05,
+      "loss": 12.4366,
+      "mean_token_accuracy": 0.791620920971036,
+      "num_tokens": 11187142.0,
+      "step": 1350
+    },
+    {
+      "entropy": 0.8007461393252016,
+      "epoch": 0.544,
+      "grad_norm": 46.75,
+      "learning_rate": 1.9202222222222225e-05,
+      "loss": 12.9357,
+      "mean_token_accuracy": 0.7837180230766535,
+      "num_tokens": 11266409.0,
+      "step": 1360
+    },
+    {
+      "entropy": 0.7531267366372049,
+      "epoch": 0.548,
+      "grad_norm": 36.0,
+      "learning_rate": 1.918e-05,
+      "loss": 12.1441,
+      "mean_token_accuracy": 0.7961669012904167,
+      "num_tokens": 11350094.0,
+      "step": 1370
+    },
+    {
+      "entropy": 0.7548010913655162,
+      "epoch": 0.552,
+      "grad_norm": 35.25,
+      "learning_rate": 1.915777777777778e-05,
+      "loss": 12.2113,
+      "mean_token_accuracy": 0.796195563301444,
+      "num_tokens": 11438391.0,
+      "step": 1380
+    },
+    {
+      "entropy": 0.7597726350650191,
+      "epoch": 0.556,
+      "grad_norm": 43.0,
+      "learning_rate": 1.9135555555555555e-05,
+      "loss": 12.3136,
+      "mean_token_accuracy": 0.7937788970768451,
+      "num_tokens": 11521583.0,
+      "step": 1390
+    },
+    {
+      "entropy": 0.732722639106214,
+      "epoch": 0.56,
+      "grad_norm": 34.25,
+      "learning_rate": 1.9113333333333336e-05,
+      "loss": 11.6412,
+      "mean_token_accuracy": 0.7996594313532114,
+      "num_tokens": 11605544.0,
+      "step": 1400
+    },
+    {
+      "epoch": 0.56,
+      "eval_biology_entropy": 1.2153497359752654,
+      "eval_biology_loss": 1.314319372177124,
+      "eval_biology_mean_token_accuracy": 0.6798153138756752,
+      "eval_biology_num_tokens": 11605544.0,
+      "eval_biology_runtime": 40.5628,
+      "eval_biology_samples_per_second": 12.327,
+      "eval_biology_steps_per_second": 12.327,
+      "step": 1400
+    },
+    {
+      "epoch": 0.56,
+      "eval_physics_entropy": 0.7400738007426262,
+      "eval_physics_loss": 0.756240725517273,
+      "eval_physics_mean_token_accuracy": 0.7970115509033203,
+      "eval_physics_num_tokens": 11605544.0,
+      "eval_physics_runtime": 53.6226,
+      "eval_physics_samples_per_second": 9.324,
+      "eval_physics_steps_per_second": 9.324,
+      "step": 1400
+    },
+    {
+      "entropy": 0.7164659388363361,
+      "epoch": 0.564,
+      "grad_norm": 34.75,
+      "learning_rate": 1.9091111111111113e-05,
+      "loss": 11.7136,
+      "mean_token_accuracy": 0.8031070157885551,
+      "num_tokens": 11686173.0,
+      "step": 1410
+    },
+    {
+      "entropy": 0.7727570936083794,
+      "epoch": 0.568,
+      "grad_norm": 31.75,
+      "learning_rate": 1.906888888888889e-05,
+      "loss": 12.1496,
+      "mean_token_accuracy": 0.7954784445464611,
+      "num_tokens": 11765430.0,
+      "step": 1420
+    },
+    {
+      "entropy": 0.7269604418426752,
+      "epoch": 0.572,
+      "grad_norm": 30.625,
+      "learning_rate": 1.904666666666667e-05,
+      "loss": 11.8591,
+      "mean_token_accuracy": 0.8024054050445557,
+      "num_tokens": 11850973.0,
+      "step": 1430
+    },
+    {
+      "entropy": 0.731045980937779,
+      "epoch": 0.576,
+      "grad_norm": 43.25,
+      "learning_rate": 1.9024444444444446e-05,
+      "loss": 11.8673,
+      "mean_token_accuracy": 0.798742525652051,
+      "num_tokens": 11931715.0,
+      "step": 1440
+    },
+    {
+      "entropy": 0.7249948153272271,
+      "epoch": 0.58,
+      "grad_norm": 37.0,
+      "learning_rate": 1.9002222222222224e-05,
+      "loss": 11.4113,
+      "mean_token_accuracy": 0.8035755947232246,
+      "num_tokens": 12012155.0,
+      "step": 1450
+    },
+    {
+      "entropy": 0.7446539368480444,
+      "epoch": 0.584,
+      "grad_norm": 33.0,
+      "learning_rate": 1.898e-05,
+      "loss": 12.1247,
+      "mean_token_accuracy": 0.7963012382388115,
+      "num_tokens": 12093686.0,
+      "step": 1460
+    },
+    {
+      "entropy": 0.7328318220563232,
+      "epoch": 0.588,
+      "grad_norm": 31.875,
+      "learning_rate": 1.895777777777778e-05,
+      "loss": 11.7748,
+      "mean_token_accuracy": 0.7986819904297591,
+      "num_tokens": 12177581.0,
+      "step": 1470
+    },
+    {
+      "entropy": 0.754525188729167,
+      "epoch": 0.592,
+      "grad_norm": 32.5,
+      "learning_rate": 1.8935555555555556e-05,
+      "loss": 12.2213,
+      "mean_token_accuracy": 0.793247639760375,
+      "num_tokens": 12257243.0,
+      "step": 1480
+    },
+    {
+      "entropy": 0.7423442914150655,
+      "epoch": 0.596,
+      "grad_norm": 45.0,
+      "learning_rate": 1.8913333333333334e-05,
+      "loss": 11.9941,
+      "mean_token_accuracy": 0.7969301961362362,
+      "num_tokens": 12338544.0,
+      "step": 1490
+    },
+    {
+      "entropy": 0.7266817932948471,
+      "epoch": 0.6,
+      "grad_norm": 32.75,
+      "learning_rate": 1.8891111111111115e-05,
+      "loss": 11.562,
+      "mean_token_accuracy": 0.80104611068964,
+      "num_tokens": 12422008.0,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6,
+      "eval_biology_entropy": 1.2223432458639145,
+      "eval_biology_loss": 1.3156310319900513,
+      "eval_biology_mean_token_accuracy": 0.6793603267669678,
+      "eval_biology_num_tokens": 12422008.0,
+      "eval_biology_runtime": 39.9494,
+      "eval_biology_samples_per_second": 12.516,
+      "eval_biology_steps_per_second": 12.516,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6,
+      "eval_physics_entropy": 0.731495416790247,
+      "eval_physics_loss": 0.748830258846283,
+      "eval_physics_mean_token_accuracy": 0.7984791675806046,
+      "eval_physics_num_tokens": 12422008.0,
+      "eval_physics_runtime": 53.7445,
+      "eval_physics_samples_per_second": 9.303,
+      "eval_physics_steps_per_second": 9.303,
+      "step": 1500
+    },
+    {
+      "entropy": 0.7212891019880772,
+      "epoch": 0.604,
+      "grad_norm": 35.5,
+      "learning_rate": 1.886888888888889e-05,
+      "loss": 11.8076,
+      "mean_token_accuracy": 0.8012149222195148,
+      "num_tokens": 12505134.0,
+      "step": 1510
+    },
+    {
+      "entropy": 0.7108906304463745,
+      "epoch": 0.608,
+      "grad_norm": 38.25,
+      "learning_rate": 1.884666666666667e-05,
+      "loss": 11.3056,
+      "mean_token_accuracy": 0.8062662236392498,
+      "num_tokens": 12583154.0,
+      "step": 1520
+    },
+    {
+      "entropy": 0.7336781162768602,
+      "epoch": 0.612,
+      "grad_norm": 35.5,
+      "learning_rate": 1.8824444444444445e-05,
+      "loss": 11.9436,
+      "mean_token_accuracy": 0.8001568268984556,
+      "num_tokens": 12666601.0,
+      "step": 1530
+    },
+    {
+      "entropy": 0.753271808475256,
+      "epoch": 0.616,
+      "grad_norm": 32.25,
+      "learning_rate": 1.8802222222222226e-05,
+      "loss": 11.9093,
+      "mean_token_accuracy": 0.7957276176661253,
+      "num_tokens": 12746458.0,
+      "step": 1540
+    },
+    {
+      "entropy": 0.7350671490654349,
+      "epoch": 0.62,
+      "grad_norm": 30.0,
+      "learning_rate": 1.878e-05,
+      "loss": 12.0623,
+      "mean_token_accuracy": 0.7968636658042669,
+      "num_tokens": 12831572.0,
+      "step": 1550
+    },
+    {
+      "entropy": 0.7504327477887273,
+      "epoch": 0.624,
+      "grad_norm": 37.25,
+      "learning_rate": 1.875777777777778e-05,
+      "loss": 12.1029,
+      "mean_token_accuracy": 0.7940625753253698,
+      "num_tokens": 12905392.0,
+      "step": 1560
+    },
+    {
+      "entropy": 0.7380358010530472,
+      "epoch": 0.628,
+      "grad_norm": 33.5,
+      "learning_rate": 1.873555555555556e-05,
+      "loss": 11.8406,
+      "mean_token_accuracy": 0.7969223245978355,
+      "num_tokens": 12986513.0,
+      "step": 1570
+    },
+    {
+      "entropy": 0.720061742886901,
+      "epoch": 0.632,
+      "grad_norm": 29.125,
+      "learning_rate": 1.8713333333333336e-05,
+      "loss": 11.5239,
+      "mean_token_accuracy": 0.8011671256273984,
+      "num_tokens": 13071058.0,
+      "step": 1580
+    },
+    {
+      "entropy": 0.7403284689411521,
+      "epoch": 0.636,
+      "grad_norm": 33.5,
+      "learning_rate": 1.8691111111111114e-05,
+      "loss": 11.8876,
+      "mean_token_accuracy": 0.7992784149944783,
+      "num_tokens": 13151842.0,
+      "step": 1590
+    },
+    {
+      "entropy": 0.7984863491728902,
+      "epoch": 0.64,
+      "grad_norm": 35.75,
+      "learning_rate": 1.866888888888889e-05,
+      "loss": 13.0763,
+      "mean_token_accuracy": 0.7852460864931345,
+      "num_tokens": 13232198.0,
+      "step": 1600
+    },
+    {
+      "epoch": 0.64,
+      "eval_biology_entropy": 1.2620571073889733,
+      "eval_biology_loss": 1.315332055091858,
+      "eval_biology_mean_token_accuracy": 0.6795003921985626,
+      "eval_biology_num_tokens": 13232198.0,
+      "eval_biology_runtime": 41.4185,
+      "eval_biology_samples_per_second": 12.072,
+      "eval_biology_steps_per_second": 12.072,
+      "step": 1600
+    },
+    {
+      "epoch": 0.64,
+      "eval_physics_entropy": 0.755433821618557,
+      "eval_physics_loss": 0.7421015501022339,
+      "eval_physics_mean_token_accuracy": 0.7997392384409905,
+      "eval_physics_num_tokens": 13232198.0,
+      "eval_physics_runtime": 53.8938,
+      "eval_physics_samples_per_second": 9.278,
+      "eval_physics_steps_per_second": 9.278,
+      "step": 1600
+    },
+    {
+      "entropy": 0.7159573558717967,
+      "epoch": 0.644,
+      "grad_norm": 32.25,
+      "learning_rate": 1.864666666666667e-05,
+      "loss": 11.5791,
+      "mean_token_accuracy": 0.8016811080276967,
+      "num_tokens": 13318037.0,
+      "step": 1610
+    },
+    {
+      "entropy": 0.7650783527642488,
+      "epoch": 0.648,
+      "grad_norm": 37.25,
+      "learning_rate": 1.8624444444444446e-05,
+      "loss": 12.233,
+      "mean_token_accuracy": 0.7942857146263123,
+      "num_tokens": 13401064.0,
+      "step": 1620
+    },
+    {
+      "entropy": 0.7230193430557847,
+      "epoch": 0.652,
+      "grad_norm": 41.75,
+      "learning_rate": 1.8602222222222224e-05,
+      "loss": 11.8116,
+      "mean_token_accuracy": 0.8004104075953364,
+      "num_tokens": 13488222.0,
+      "step": 1630
+    },
+    {
+      "entropy": 0.7393482324667275,
+      "epoch": 0.656,
+      "grad_norm": 30.0,
+      "learning_rate": 1.858e-05,
+      "loss": 11.5974,
+      "mean_token_accuracy": 0.8030458897352218,
+      "num_tokens": 13575902.0,
+      "step": 1640
+    },
+    {
+      "entropy": 0.7257485408335924,
+      "epoch": 0.66,
+      "grad_norm": 30.25,
+      "learning_rate": 1.855777777777778e-05,
+      "loss": 12.052,
+      "mean_token_accuracy": 0.7951020393520594,
+      "num_tokens": 13655826.0,
+      "step": 1650
+    },
+    {
+      "entropy": 0.7588263785466551,
+      "epoch": 0.664,
+      "grad_norm": 43.0,
+      "learning_rate": 1.8535555555555557e-05,
+      "loss": 11.9852,
+      "mean_token_accuracy": 0.7983852945268154,
+      "num_tokens": 13733192.0,
+      "step": 1660
+    },
+    {
+      "entropy": 0.6939408488571643,
+      "epoch": 0.668,
+      "grad_norm": 27.75,
+      "learning_rate": 1.8513333333333335e-05,
+      "loss": 11.2838,
+      "mean_token_accuracy": 0.8097794249653816,
+      "num_tokens": 13816716.0,
+      "step": 1670
+    },
+    {
+      "entropy": 0.7710726903751493,
+      "epoch": 0.672,
+      "grad_norm": 34.0,
+      "learning_rate": 1.8491111111111112e-05,
+      "loss": 12.3905,
+      "mean_token_accuracy": 0.7911940567195416,
+      "num_tokens": 13895997.0,
+      "step": 1680
+    },
+    {
+      "entropy": 0.7057455684058368,
+      "epoch": 0.676,
+      "grad_norm": 30.375,
+      "learning_rate": 1.846888888888889e-05,
+      "loss": 11.3656,
+      "mean_token_accuracy": 0.8058415982872248,
+      "num_tokens": 13988168.0,
+      "step": 1690
+    },
+    {
+      "entropy": 0.7071378622204065,
+      "epoch": 0.68,
+      "grad_norm": 33.0,
+      "learning_rate": 1.8446666666666667e-05,
+      "loss": 11.3893,
+      "mean_token_accuracy": 0.808006676658988,
+      "num_tokens": 14074579.0,
+      "step": 1700
+    },
+    {
+      "epoch": 0.68,
+      "eval_biology_entropy": 1.2324066838026047,
+      "eval_biology_loss": 1.3164772987365723,
+      "eval_biology_mean_token_accuracy": 0.6789596267938613,
+      "eval_biology_num_tokens": 14074579.0,
+      "eval_biology_runtime": 41.1607,
+      "eval_biology_samples_per_second": 12.148,
+      "eval_biology_steps_per_second": 12.148,
+      "step": 1700
+    },
+    {
+      "epoch": 0.68,
+      "eval_physics_entropy": 0.7296830003261566,
+      "eval_physics_loss": 0.7370399236679077,
+      "eval_physics_mean_token_accuracy": 0.8002381989359856,
+      "eval_physics_num_tokens": 14074579.0,
+      "eval_physics_runtime": 53.809,
+      "eval_physics_samples_per_second": 9.292,
+      "eval_physics_steps_per_second": 9.292,
+      "step": 1700
+    },
+    {
+      "entropy": 0.7773696290329098,
+      "epoch": 0.684,
+      "grad_norm": 29.75,
+      "learning_rate": 1.842444444444445e-05,
+      "loss": 12.6353,
+      "mean_token_accuracy": 0.7889949589967727,
+      "num_tokens": 14153649.0,
+      "step": 1710
+    },
+    {
+      "entropy": 0.7231528573669493,
+      "epoch": 0.688,
+      "grad_norm": 34.5,
+      "learning_rate": 1.8402222222222223e-05,
+      "loss": 11.5132,
+      "mean_token_accuracy": 0.8039781812578439,
+      "num_tokens": 14234888.0,
+      "step": 1720
+    },
+    {
+      "entropy": 0.7169673504307866,
+      "epoch": 0.692,
+      "grad_norm": 36.5,
+      "learning_rate": 1.8380000000000004e-05,
+      "loss": 11.5031,
+      "mean_token_accuracy": 0.8048509642481804,
+      "num_tokens": 14323183.0,
+      "step": 1730
+    },
+    {
+      "entropy": 0.7181843230500817,
+      "epoch": 0.696,
+      "grad_norm": 32.75,
+      "learning_rate": 1.8357777777777778e-05,
+      "loss": 11.7152,
+      "mean_token_accuracy": 0.8003277853131294,
+      "num_tokens": 14411150.0,
+      "step": 1740
+    },
+    {
+      "entropy": 0.7542113825678826,
+      "epoch": 0.7,
+      "grad_norm": 30.0,
+      "learning_rate": 1.833555555555556e-05,
+      "loss": 11.9552,
+      "mean_token_accuracy": 0.7977948028594255,
+      "num_tokens": 14490628.0,
+      "step": 1750
+    },
+    {
+      "entropy": 0.7469514476135373,
+      "epoch": 0.704,
+      "grad_norm": 34.5,
+      "learning_rate": 1.8313333333333333e-05,
+      "loss": 12.2491,
+      "mean_token_accuracy": 0.7939945120364428,
+      "num_tokens": 14567908.0,
+      "step": 1760
+    },
+    {
+      "entropy": 0.744169975630939,
+      "epoch": 0.708,
+      "grad_norm": 29.375,
+      "learning_rate": 1.8291111111111114e-05,
+      "loss": 11.8113,
+      "mean_token_accuracy": 0.7984028819948434,
+      "num_tokens": 14647291.0,
+      "step": 1770
+    },
+    {
+      "entropy": 0.685566970705986,
+      "epoch": 0.712,
+      "grad_norm": 34.25,
+      "learning_rate": 1.8268888888888888e-05,
+      "loss": 11.1589,
+      "mean_token_accuracy": 0.8089728273451329,
+      "num_tokens": 14728975.0,
+      "step": 1780
+    },
+    {
+      "entropy": 0.7300411866046488,
+      "epoch": 0.716,
+      "grad_norm": 35.25,
+      "learning_rate": 1.824666666666667e-05,
+      "loss": 11.5885,
+      "mean_token_accuracy": 0.8049520529806614,
+      "num_tokens": 14804586.0,
+      "step": 1790
+    },
+    {
+      "entropy": 0.7262617560103536,
+      "epoch": 0.72,
+      "grad_norm": 31.375,
+      "learning_rate": 1.8224444444444447e-05,
+      "loss": 11.8559,
+      "mean_token_accuracy": 0.7971875809133053,
+      "num_tokens": 14882927.0,
+      "step": 1800
+    },
+    {
+      "epoch": 0.72,
+      "eval_biology_entropy": 1.2186398038864135,
+      "eval_biology_loss": 1.3220012187957764,
+      "eval_biology_mean_token_accuracy": 0.679231210052967,
+      "eval_biology_num_tokens": 14882927.0,
+      "eval_biology_runtime": 40.4117,
+      "eval_biology_samples_per_second": 12.373,
+      "eval_biology_steps_per_second": 12.373,
+      "step": 1800
+    },
+    {
+      "epoch": 0.72,
+      "eval_physics_entropy": 0.7287980119585991,
+      "eval_physics_loss": 0.7323647141456604,
+      "eval_physics_mean_token_accuracy": 0.8022992228269576,
+      "eval_physics_num_tokens": 14882927.0,
+      "eval_physics_runtime": 53.6147,
+      "eval_physics_samples_per_second": 9.326,
+      "eval_physics_steps_per_second": 9.326,
+      "step": 1800
+    },
+    {
+      "entropy": 0.750327872671187,
+      "epoch": 0.724,
+      "grad_norm": 36.0,
+      "learning_rate": 1.8202222222222225e-05,
+      "loss": 11.9817,
+      "mean_token_accuracy": 0.7961702741682529,
+      "num_tokens": 14966717.0,
+      "step": 1810
+    },
+    {
+      "entropy": 0.678212942648679,
+      "epoch": 0.728,
+      "grad_norm": 37.75,
+      "learning_rate": 1.8180000000000002e-05,
+      "loss": 10.9659,
+      "mean_token_accuracy": 0.8089893966913223,
+      "num_tokens": 15052770.0,
+      "step": 1820
+    },
+    {
+      "entropy": 0.7441823070868849,
+      "epoch": 0.732,
+      "grad_norm": 29.0,
+      "learning_rate": 1.815777777777778e-05,
+      "loss": 12.2133,
+      "mean_token_accuracy": 0.7940311070531607,
+      "num_tokens": 15135882.0,
+      "step": 1830
+    },
+    {
+      "entropy": 0.7135631827637553,
+      "epoch": 0.736,
+      "grad_norm": 37.75,
+      "learning_rate": 1.8135555555555557e-05,
+      "loss": 11.406,
+      "mean_token_accuracy": 0.8068557616323233,
+      "num_tokens": 15217342.0,
+      "step": 1840
+    },
+    {
+      "entropy": 0.7120489353314042,
+      "epoch": 0.74,
+      "grad_norm": 37.5,
+      "learning_rate": 1.8113333333333335e-05,
+      "loss": 11.5651,
+      "mean_token_accuracy": 0.8025292001664639,
+      "num_tokens": 15303623.0,
+      "step": 1850
+    },
+    {
+      "entropy": 0.6724263632670044,
+      "epoch": 0.744,
+      "grad_norm": 35.0,
+      "learning_rate": 1.8091111111111113e-05,
+      "loss": 10.8509,
+      "mean_token_accuracy": 0.8124119147658349,
+      "num_tokens": 15385161.0,
+      "step": 1860
+    },
+    {
+      "entropy": 0.757239804789424,
+      "epoch": 0.748,
+      "grad_norm": 33.75,
+      "learning_rate": 1.806888888888889e-05,
+      "loss": 12.1175,
+      "mean_token_accuracy": 0.7950419746339321,
+      "num_tokens": 15466126.0,
+      "step": 1870
+    },
+    {
+      "entropy": 0.6571267617866396,
+      "epoch": 0.752,
+      "grad_norm": 33.5,
+      "learning_rate": 1.8046666666666668e-05,
+      "loss": 10.7675,
+      "mean_token_accuracy": 0.8113535210490227,
+      "num_tokens": 15547710.0,
+      "step": 1880
+    },
+    {
+      "entropy": 0.7340046657249332,
+      "epoch": 0.756,
+      "grad_norm": 36.25,
+      "learning_rate": 1.8024444444444445e-05,
+      "loss": 11.659,
+      "mean_token_accuracy": 0.7996543932706117,
+      "num_tokens": 15625904.0,
+      "step": 1890
+    },
+    {
+      "entropy": 0.7415183538571,
+      "epoch": 0.76,
+      "grad_norm": 40.0,
+      "learning_rate": 1.8002222222222223e-05,
+      "loss": 12.1083,
+      "mean_token_accuracy": 0.7938443802297115,
+      "num_tokens": 15704494.0,
+      "step": 1900
+    },
+    {
+      "epoch": 0.76,
+      "eval_biology_entropy": 1.2399117629528045,
+      "eval_biology_loss": 1.3230537176132202,
+      "eval_biology_mean_token_accuracy": 0.6791844579577446,
+      "eval_biology_num_tokens": 15704494.0,
+      "eval_biology_runtime": 39.6601,
+      "eval_biology_samples_per_second": 12.607,
+      "eval_biology_steps_per_second": 12.607,
+      "step": 1900
+    },
+    {
+      "epoch": 0.76,
+      "eval_physics_entropy": 0.7366025412082672,
+      "eval_physics_loss": 0.7267568111419678,
+      "eval_physics_mean_token_accuracy": 0.8024476623535156,
+      "eval_physics_num_tokens": 15704494.0,
+      "eval_physics_runtime": 54.9188,
+      "eval_physics_samples_per_second": 9.104,
+      "eval_physics_steps_per_second": 9.104,
+      "step": 1900
+    },
+    {
+      "entropy": 0.7171154148876667,
+      "epoch": 0.764,
+      "grad_norm": 31.375,
+      "learning_rate": 1.798e-05,
+      "loss": 11.4644,
+      "mean_token_accuracy": 0.8027933813631535,
+      "num_tokens": 15792219.0,
+      "step": 1910
+    },
+    {
+      "entropy": 0.7113784331828356,
+      "epoch": 0.768,
+      "grad_norm": 32.5,
+      "learning_rate": 1.7957777777777778e-05,
+      "loss": 11.4472,
+      "mean_token_accuracy": 0.8022663928568363,
+      "num_tokens": 15877177.0,
+      "step": 1920
+    },
+    {
+      "entropy": 0.692813946865499,
+      "epoch": 0.772,
+      "grad_norm": 28.125,
+      "learning_rate": 1.7935555555555556e-05,
+      "loss": 11.2302,
+      "mean_token_accuracy": 0.8091658484190702,
+      "num_tokens": 15965749.0,
+      "step": 1930
+    },
+    {
+      "entropy": 0.7233618691563606,
+      "epoch": 0.776,
+      "grad_norm": 32.75,
+      "learning_rate": 1.7913333333333337e-05,
+      "loss": 11.5963,
+      "mean_token_accuracy": 0.803089714422822,
+      "num_tokens": 16050530.0,
+      "step": 1940
+    },
+    {
+      "entropy": 0.7354470330290497,
+      "epoch": 0.78,
+      "grad_norm": 30.0,
+      "learning_rate": 1.789111111111111e-05,
+      "loss": 11.7474,
+      "mean_token_accuracy": 0.8015763558447361,
+      "num_tokens": 16136804.0,
+      "step": 1950
+    },
+    {
+      "entropy": 0.7013684755191207,
+      "epoch": 0.784,
+      "grad_norm": 33.25,
+      "learning_rate": 1.7868888888888892e-05,
+      "loss": 11.41,
+      "mean_token_accuracy": 0.8060044649988413,
+      "num_tokens": 16219640.0,
+      "step": 1960
+    },
+    {
+      "entropy": 0.7116058616898954,
+      "epoch": 0.788,
+      "grad_norm": 32.0,
+      "learning_rate": 1.7846666666666666e-05,
+      "loss": 11.4948,
+      "mean_token_accuracy": 0.8036092057824135,
+      "num_tokens": 16299595.0,
+      "step": 1970
+    },
+    {
+      "entropy": 0.7349818990565836,
+      "epoch": 0.792,
+      "grad_norm": 38.25,
+      "learning_rate": 1.7824444444444447e-05,
+      "loss": 11.7191,
+      "mean_token_accuracy": 0.7982821103185416,
+      "num_tokens": 16378820.0,
+      "step": 1980
+    },
+    {
+      "entropy": 0.7197433486580849,
+      "epoch": 0.796,
+      "grad_norm": 36.25,
+      "learning_rate": 1.780222222222222e-05,
+      "loss": 11.8429,
+      "mean_token_accuracy": 0.8015712618827819,
+      "num_tokens": 16464611.0,
+      "step": 1990
+    },
+    {
+      "entropy": 0.7322828972712159,
+      "epoch": 0.8,
+      "grad_norm": 26.75,
+      "learning_rate": 1.7780000000000003e-05,
+      "loss": 11.7829,
+      "mean_token_accuracy": 0.7994767341762781,
+      "num_tokens": 16548261.0,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8,
+      "eval_biology_entropy": 1.2466665361523628,
+      "eval_biology_loss": 1.3167204856872559,
+      "eval_biology_mean_token_accuracy": 0.6786823595762252,
+      "eval_biology_num_tokens": 16548261.0,
+      "eval_biology_runtime": 40.9891,
+      "eval_biology_samples_per_second": 12.198,
+      "eval_biology_steps_per_second": 12.198,
+      "step": 2000
+    },
+    {
+      "epoch": 0.8,
+      "eval_physics_entropy": 0.7142817919850349,
+      "eval_physics_loss": 0.7211601734161377,
+      "eval_physics_mean_token_accuracy": 0.8041821780204773,
+      "eval_physics_num_tokens": 16548261.0,
+      "eval_physics_runtime": 53.804,
+      "eval_physics_samples_per_second": 9.293,
+      "eval_physics_steps_per_second": 9.293,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 10000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1096331558472863e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b85b206341a2c78fa165a1c6c756efacf9fc2b262c7e937aec9e94d86112ba55
+size 6481