roonbug commited on May 4

Commit

afa7ef9

verified ·

1 Parent(s): 69a6f08

Upload folder using huggingface_hub

Browse files

Files changed (20) hide show

.gitattributes +1 -0
checkpoint-1000/added_tokens.json +3 -0
checkpoint-1000/chat_template.jinja +47 -0
checkpoint-1000/config.json +110 -0
checkpoint-1000/generation_config.json +13 -0
checkpoint-1000/model-00001-of-00005.safetensors +3 -0
checkpoint-1000/model-00002-of-00005.safetensors +3 -0
checkpoint-1000/model-00003-of-00005.safetensors +3 -0
checkpoint-1000/model-00004-of-00005.safetensors +3 -0
checkpoint-1000/model-00005-of-00005.safetensors +3 -0
checkpoint-1000/model.safetensors.index.json +0 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +33 -0
checkpoint-1000/tokenizer.json +3 -0
checkpoint-1000/tokenizer.model +3 -0
checkpoint-1000/tokenizer_config.json +0 -0
checkpoint-1000/trainer_state.json +1474 -0
checkpoint-1000/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 checkpoint-500/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-1000/tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoint-1000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

checkpoint-1000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,110 @@

+{
+  "architectures": [
+    "Gemma3ForConditionalGeneration"
+  ],
+  "boi_token_index": 255999,
+  "bos_token_id": 2,
+  "dtype": "bfloat16",
+  "eoi_token_index": 256000,
+  "eos_token_id": 1,
+  "image_token_index": 262144,
+  "initializer_range": 0.02,
+  "mm_tokens_per_image": 256,
+  "model_type": "gemma3",
+  "pad_token_id": 0,
+  "text_config": {
+    "_sliding_window_pattern": 6,
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attn_logit_softcapping": null,
+    "dtype": "bfloat16",
+    "final_logit_softcapping": null,
+    "head_dim": 256,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 3840,
+    "initializer_range": 0.02,
+    "intermediate_size": 15360,
+    "layer_types": [
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 131072,
+    "model_type": "gemma3_text",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 48,
+    "num_key_value_heads": 8,
+    "query_pre_attn_scalar": 256,
+    "rms_norm_eps": 1e-06,
+    "rope_local_base_freq": 10000.0,
+    "rope_scaling": {
+      "factor": 8.0,
+      "rope_type": "linear"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 1024,
+    "use_cache": true,
+    "vocab_size": 262208
+  },
+  "transformers_version": "4.56.1",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 896,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 27,
+    "patch_size": 14,
+    "vision_use_head": false
+  }
+}

checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 2,
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.56.1"
+}

checkpoint-1000/model-00001-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4847447e92599833e8dbaa3067cd201c3bb5c052efa91f11ba891e43234f7832
+size 4979902192

checkpoint-1000/model-00002-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:891bd54eed03cba9ee1e705533a02a8217fcc29f356e4a1f53e5fd0d178883ad
+size 4931296592

checkpoint-1000/model-00003-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cee411d9d57324e50ce064a192cc5a858276d508611b12fc599e0c9767112e0
+size 4931296656

checkpoint-1000/model-00004-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bc75a29a730c9e743cad013feda3b0991a913fafe787c58a1c6e20afad97723
+size 4931296656

checkpoint-1000/model-00005-of-00005.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49153ec5495fd0788ee87b3f87aa8d607e56b6e7b978aaf17aff59d0985a6ffb
+size 4601000928

checkpoint-1000/model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f43e4abd7a982ad8ce3750e536a27dad1b5df423d9303413f3231d7adc7f9bf3
+size 3643278603

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6839153725e0ef373aee5916d51b3599fb6e0b69dfc1019957bfa474c6ebcaff
+size 14645

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1047a716c066f9f4e78c42060834e4ca319f06029bfedda77528f4fcc6970b7e
+size 1465

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1000/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

checkpoint-1000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

checkpoint-1000/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1474 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4,
+  "eval_steps": 100,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "entropy": 0.8839326679706574,
+      "epoch": 0.004,
+      "grad_norm": 1312.0,
+      "learning_rate": 4.5000000000000003e-07,
+      "loss": 62.0743,
+      "mean_token_accuracy": 0.501955559849739,
+      "num_tokens": 51831.0,
+      "step": 10
+    },
+    {
+      "entropy": 0.9008006965741515,
+      "epoch": 0.008,
+      "grad_norm": 1304.0,
+      "learning_rate": 9.500000000000001e-07,
+      "loss": 62.2143,
+      "mean_token_accuracy": 0.4949474561959505,
+      "num_tokens": 103172.0,
+      "step": 20
+    },
+    {
+      "entropy": 1.0253256265074016,
+      "epoch": 0.012,
+      "grad_norm": 1024.0,
+      "learning_rate": 1.45e-06,
+      "loss": 59.54,
+      "mean_token_accuracy": 0.4916029818356037,
+      "num_tokens": 147915.0,
+      "step": 30
+    },
+    {
+      "entropy": 1.1394393384456634,
+      "epoch": 0.016,
+      "grad_norm": 480.0,
+      "learning_rate": 1.9500000000000004e-06,
+      "loss": 53.5,
+      "mean_token_accuracy": 0.5029474480077625,
+      "num_tokens": 195524.0,
+      "step": 40
+    },
+    {
+      "entropy": 1.4098424911499023,
+      "epoch": 0.02,
+      "grad_norm": 210.0,
+      "learning_rate": 2.4500000000000003e-06,
+      "loss": 45.9974,
+      "mean_token_accuracy": 0.5211129426956177,
+      "num_tokens": 243747.0,
+      "step": 50
+    },
+    {
+      "entropy": 1.9254061240702867,
+      "epoch": 0.024,
+      "grad_norm": 115.0,
+      "learning_rate": 2.95e-06,
+      "loss": 42.274,
+      "mean_token_accuracy": 0.5261368529871107,
+      "num_tokens": 296999.0,
+      "step": 60
+    },
+    {
+      "entropy": 2.4110619977116583,
+      "epoch": 0.028,
+      "grad_norm": 98.0,
+      "learning_rate": 3.45e-06,
+      "loss": 40.0546,
+      "mean_token_accuracy": 0.5326165046542883,
+      "num_tokens": 342114.0,
+      "step": 70
+    },
+    {
+      "entropy": 2.179915499314666,
+      "epoch": 0.032,
+      "grad_norm": 84.0,
+      "learning_rate": 3.95e-06,
+      "loss": 35.2015,
+      "mean_token_accuracy": 0.5648044316098094,
+      "num_tokens": 390903.0,
+      "step": 80
+    },
+    {
+      "entropy": 2.016700956225395,
+      "epoch": 0.036,
+      "grad_norm": 76.0,
+      "learning_rate": 4.450000000000001e-06,
+      "loss": 33.5383,
+      "mean_token_accuracy": 0.5738874508067966,
+      "num_tokens": 440359.0,
+      "step": 90
+    },
+    {
+      "entropy": 2.017691622674465,
+      "epoch": 0.04,
+      "grad_norm": 70.5,
+      "learning_rate": 4.95e-06,
+      "loss": 32.5671,
+      "mean_token_accuracy": 0.5853316407650709,
+      "num_tokens": 488481.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "eval_biology_entropy": 1.9829271322488784,
+      "eval_biology_loss": 1.9226267337799072,
+      "eval_biology_mean_token_accuracy": 0.5983601321578026,
+      "eval_biology_num_tokens": 488481.0,
+      "eval_biology_runtime": 48.7684,
+      "eval_biology_samples_per_second": 10.253,
+      "eval_biology_steps_per_second": 10.253,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "eval_chemistry_entropy": 1.4066607907414437,
+      "eval_chemistry_loss": 1.3990291357040405,
+      "eval_chemistry_mean_token_accuracy": 0.6932575578689575,
+      "eval_chemistry_num_tokens": 488481.0,
+      "eval_chemistry_runtime": 56.2604,
+      "eval_chemistry_samples_per_second": 8.887,
+      "eval_chemistry_steps_per_second": 8.887,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "eval_math_entropy": 1.0215888382792473,
+      "eval_math_loss": 1.2960768938064575,
+      "eval_math_mean_token_accuracy": 0.7188282798528671,
+      "eval_math_num_tokens": 488481.0,
+      "eval_math_runtime": 60.4104,
+      "eval_math_samples_per_second": 8.277,
+      "eval_math_steps_per_second": 8.277,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "eval_physics_entropy": 1.2605198118686676,
+      "eval_physics_loss": 1.3288249969482422,
+      "eval_physics_mean_token_accuracy": 0.7086242160797119,
+      "eval_physics_num_tokens": 488481.0,
+      "eval_physics_runtime": 64.6678,
+      "eval_physics_samples_per_second": 7.732,
+      "eval_physics_steps_per_second": 7.732,
+      "step": 100
+    },
+    {
+      "entropy": 1.9778225660324096,
+      "epoch": 0.044,
+      "grad_norm": 63.0,
+      "learning_rate": 5.450000000000001e-06,
+      "loss": 30.8512,
+      "mean_token_accuracy": 0.5971941664814949,
+      "num_tokens": 537471.0,
+      "step": 110
+    },
+    {
+      "entropy": 1.8523553270846604,
+      "epoch": 0.048,
+      "grad_norm": 61.0,
+      "learning_rate": 5.950000000000001e-06,
+      "loss": 29.5146,
+      "mean_token_accuracy": 0.6044289888814092,
+      "num_tokens": 589868.0,
+      "step": 120
+    },
+    {
+      "entropy": 1.9029788821935654,
+      "epoch": 0.052,
+      "grad_norm": 60.75,
+      "learning_rate": 6.450000000000001e-06,
+      "loss": 29.5234,
+      "mean_token_accuracy": 0.6029617737978696,
+      "num_tokens": 639512.0,
+      "step": 130
+    },
+    {
+      "entropy": 1.8046179365366697,
+      "epoch": 0.056,
+      "grad_norm": 58.0,
+      "learning_rate": 6.95e-06,
+      "loss": 27.9151,
+      "mean_token_accuracy": 0.6184237884357572,
+      "num_tokens": 690754.0,
+      "step": 140
+    },
+    {
+      "entropy": 1.757765456289053,
+      "epoch": 0.06,
+      "grad_norm": 60.0,
+      "learning_rate": 7.450000000000001e-06,
+      "loss": 27.9707,
+      "mean_token_accuracy": 0.6147179694846272,
+      "num_tokens": 737075.0,
+      "step": 150
+    },
+    {
+      "entropy": 1.6650845151394607,
+      "epoch": 0.064,
+      "grad_norm": 56.5,
+      "learning_rate": 7.950000000000002e-06,
+      "loss": 26.4519,
+      "mean_token_accuracy": 0.6242706684395671,
+      "num_tokens": 791190.0,
+      "step": 160
+    },
+    {
+      "entropy": 1.6960168480873108,
+      "epoch": 0.068,
+      "grad_norm": 58.0,
+      "learning_rate": 8.45e-06,
+      "loss": 27.3757,
+      "mean_token_accuracy": 0.6216507468372583,
+      "num_tokens": 841344.0,
+      "step": 170
+    },
+    {
+      "entropy": 1.6937061734497547,
+      "epoch": 0.072,
+      "grad_norm": 56.75,
+      "learning_rate": 8.95e-06,
+      "loss": 27.2176,
+      "mean_token_accuracy": 0.6197895903140307,
+      "num_tokens": 890075.0,
+      "step": 180
+    },
+    {
+      "entropy": 1.6111037533730268,
+      "epoch": 0.076,
+      "grad_norm": 54.0,
+      "learning_rate": 9.450000000000001e-06,
+      "loss": 25.6739,
+      "mean_token_accuracy": 0.6365846041589975,
+      "num_tokens": 940599.0,
+      "step": 190
+    },
+    {
+      "entropy": 1.5951560869812966,
+      "epoch": 0.08,
+      "grad_norm": 59.5,
+      "learning_rate": 9.950000000000001e-06,
+      "loss": 25.9919,
+      "mean_token_accuracy": 0.6377695228904485,
+      "num_tokens": 989860.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "eval_biology_entropy": 1.5966026850938797,
+      "eval_biology_loss": 1.6000874042510986,
+      "eval_biology_mean_token_accuracy": 0.6389070873260498,
+      "eval_biology_num_tokens": 989860.0,
+      "eval_biology_runtime": 49.0141,
+      "eval_biology_samples_per_second": 10.201,
+      "eval_biology_steps_per_second": 10.201,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "eval_chemistry_entropy": 1.1679962225556373,
+      "eval_chemistry_loss": 1.1516532897949219,
+      "eval_chemistry_mean_token_accuracy": 0.7243751650452613,
+      "eval_chemistry_num_tokens": 989860.0,
+      "eval_chemistry_runtime": 56.2166,
+      "eval_chemistry_samples_per_second": 8.894,
+      "eval_chemistry_steps_per_second": 8.894,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "eval_math_entropy": 0.8919650472998619,
+      "eval_math_loss": 1.1023179292678833,
+      "eval_math_mean_token_accuracy": 0.742928339600563,
+      "eval_math_num_tokens": 989860.0,
+      "eval_math_runtime": 57.8672,
+      "eval_math_samples_per_second": 8.64,
+      "eval_math_steps_per_second": 8.64,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "eval_physics_entropy": 1.0691025341749192,
+      "eval_physics_loss": 1.101883888244629,
+      "eval_physics_mean_token_accuracy": 0.740790363073349,
+      "eval_physics_num_tokens": 989860.0,
+      "eval_physics_runtime": 64.8886,
+      "eval_physics_samples_per_second": 7.706,
+      "eval_physics_steps_per_second": 7.706,
+      "step": 200
+    },
+    {
+      "entropy": 1.5743534132838248,
+      "epoch": 0.084,
+      "grad_norm": 58.0,
+      "learning_rate": 1.045e-05,
+      "loss": 25.1989,
+      "mean_token_accuracy": 0.639858372323215,
+      "num_tokens": 1041199.0,
+      "step": 210
+    },
+    {
+      "entropy": 1.7016947157680988,
+      "epoch": 0.088,
+      "grad_norm": 61.0,
+      "learning_rate": 1.095e-05,
+      "loss": 27.1763,
+      "mean_token_accuracy": 0.6213466323912143,
+      "num_tokens": 1087099.0,
+      "step": 220
+    },
+    {
+      "entropy": 1.5750356163829564,
+      "epoch": 0.092,
+      "grad_norm": 54.25,
+      "learning_rate": 1.145e-05,
+      "loss": 25.6523,
+      "mean_token_accuracy": 0.6347338335588575,
+      "num_tokens": 1135090.0,
+      "step": 230
+    },
+    {
+      "entropy": 1.616741643473506,
+      "epoch": 0.096,
+      "grad_norm": 61.75,
+      "learning_rate": 1.195e-05,
+      "loss": 26.0902,
+      "mean_token_accuracy": 0.6296613601967692,
+      "num_tokens": 1181777.0,
+      "step": 240
+    },
+    {
+      "entropy": 1.5834291957318782,
+      "epoch": 0.1,
+      "grad_norm": 57.75,
+      "learning_rate": 1.2450000000000003e-05,
+      "loss": 25.5346,
+      "mean_token_accuracy": 0.636902061291039,
+      "num_tokens": 1229242.0,
+      "step": 250
+    },
+    {
+      "entropy": 1.5806551307439805,
+      "epoch": 0.104,
+      "grad_norm": 51.0,
+      "learning_rate": 1.295e-05,
+      "loss": 25.4876,
+      "mean_token_accuracy": 0.6371098335832357,
+      "num_tokens": 1283881.0,
+      "step": 260
+    },
+    {
+      "entropy": 1.5482000581920148,
+      "epoch": 0.108,
+      "grad_norm": 54.75,
+      "learning_rate": 1.3450000000000002e-05,
+      "loss": 24.9879,
+      "mean_token_accuracy": 0.6427959805354476,
+      "num_tokens": 1332507.0,
+      "step": 270
+    },
+    {
+      "entropy": 1.4955736376345157,
+      "epoch": 0.112,
+      "grad_norm": 47.25,
+      "learning_rate": 1.3950000000000002e-05,
+      "loss": 24.3535,
+      "mean_token_accuracy": 0.6494839109480381,
+      "num_tokens": 1385513.0,
+      "step": 280
+    },
+    {
+      "entropy": 1.585788345709443,
+      "epoch": 0.116,
+      "grad_norm": 55.0,
+      "learning_rate": 1.4450000000000002e-05,
+      "loss": 25.6047,
+      "mean_token_accuracy": 0.6335254821926355,
+      "num_tokens": 1432251.0,
+      "step": 290
+    },
+    {
+      "entropy": 1.4942802522331475,
+      "epoch": 0.12,
+      "grad_norm": 53.25,
+      "learning_rate": 1.4950000000000003e-05,
+      "loss": 23.8796,
+      "mean_token_accuracy": 0.6505829736590385,
+      "num_tokens": 1483667.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "eval_biology_entropy": 1.5278286596536637,
+      "eval_biology_loss": 1.5206036567687988,
+      "eval_biology_mean_token_accuracy": 0.6507429304122925,
+      "eval_biology_num_tokens": 1483667.0,
+      "eval_biology_runtime": 48.7887,
+      "eval_biology_samples_per_second": 10.248,
+      "eval_biology_steps_per_second": 10.248,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "eval_chemistry_entropy": 1.1177591310739516,
+      "eval_chemistry_loss": 1.092423677444458,
+      "eval_chemistry_mean_token_accuracy": 0.7334695355892181,
+      "eval_chemistry_num_tokens": 1483667.0,
+      "eval_chemistry_runtime": 56.2344,
+      "eval_chemistry_samples_per_second": 8.891,
+      "eval_chemistry_steps_per_second": 8.891,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "eval_math_entropy": 0.8748624550104142,
+      "eval_math_loss": 1.0690035820007324,
+      "eval_math_mean_token_accuracy": 0.7478210436105728,
+      "eval_math_num_tokens": 1483667.0,
+      "eval_math_runtime": 57.9846,
+      "eval_math_samples_per_second": 8.623,
+      "eval_math_steps_per_second": 8.623,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "eval_physics_entropy": 1.0364689626097678,
+      "eval_physics_loss": 1.0411994457244873,
+      "eval_physics_mean_token_accuracy": 0.7504333697557449,
+      "eval_physics_num_tokens": 1483667.0,
+      "eval_physics_runtime": 64.8677,
+      "eval_physics_samples_per_second": 7.708,
+      "eval_physics_steps_per_second": 7.708,
+      "step": 300
+    },
+    {
+      "entropy": 1.5230422887951136,
+      "epoch": 0.124,
+      "grad_norm": 46.0,
+      "learning_rate": 1.545e-05,
+      "loss": 24.9963,
+      "mean_token_accuracy": 0.6401191424578428,
+      "num_tokens": 1534286.0,
+      "step": 310
+    },
+    {
+      "entropy": 1.5620095640420915,
+      "epoch": 0.128,
+      "grad_norm": 48.75,
+      "learning_rate": 1.595e-05,
+      "loss": 24.9707,
+      "mean_token_accuracy": 0.6434399029240012,
+      "num_tokens": 1582368.0,
+      "step": 320
+    },
+    {
+      "entropy": 1.5268741115927695,
+      "epoch": 0.132,
+      "grad_norm": 53.75,
+      "learning_rate": 1.645e-05,
+      "loss": 24.6543,
+      "mean_token_accuracy": 0.6455080669373274,
+      "num_tokens": 1630878.0,
+      "step": 330
+    },
+    {
+      "entropy": 1.5756058074533938,
+      "epoch": 0.136,
+      "grad_norm": 55.25,
+      "learning_rate": 1.6950000000000002e-05,
+      "loss": 25.1865,
+      "mean_token_accuracy": 0.6419553246349097,
+      "num_tokens": 1677060.0,
+      "step": 340
+    },
+    {
+      "entropy": 1.4673658799380065,
+      "epoch": 0.14,
+      "grad_norm": 45.25,
+      "learning_rate": 1.7450000000000004e-05,
+      "loss": 24.2051,
+      "mean_token_accuracy": 0.650670082308352,
+      "num_tokens": 1725186.0,
+      "step": 350
+    },
+    {
+      "entropy": 1.5301035284996032,
+      "epoch": 0.144,
+      "grad_norm": 63.5,
+      "learning_rate": 1.795e-05,
+      "loss": 24.6432,
+      "mean_token_accuracy": 0.6437291771173477,
+      "num_tokens": 1773764.0,
+      "step": 360
+    },
+    {
+      "entropy": 1.4943597927689551,
+      "epoch": 0.148,
+      "grad_norm": 49.75,
+      "learning_rate": 1.845e-05,
+      "loss": 24.1058,
+      "mean_token_accuracy": 0.6495298765599727,
+      "num_tokens": 1823706.0,
+      "step": 370
+    },
+    {
+      "entropy": 1.534142181277275,
+      "epoch": 0.152,
+      "grad_norm": 61.75,
+      "learning_rate": 1.8950000000000003e-05,
+      "loss": 24.7723,
+      "mean_token_accuracy": 0.6464893363416195,
+      "num_tokens": 1873167.0,
+      "step": 380
+    },
+    {
+      "entropy": 1.524210822209716,
+      "epoch": 0.156,
+      "grad_norm": 52.0,
+      "learning_rate": 1.9450000000000002e-05,
+      "loss": 24.4617,
+      "mean_token_accuracy": 0.6497795518487692,
+      "num_tokens": 1921484.0,
+      "step": 390
+    },
+    {
+      "entropy": 1.479876821860671,
+      "epoch": 0.16,
+      "grad_norm": 56.75,
+      "learning_rate": 1.9950000000000004e-05,
+      "loss": 24.2586,
+      "mean_token_accuracy": 0.6476251525804401,
+      "num_tokens": 1970077.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_biology_entropy": 1.4946268691420554,
+      "eval_biology_loss": 1.4757590293884277,
+      "eval_biology_mean_token_accuracy": 0.6582760804891586,
+      "eval_biology_num_tokens": 1970077.0,
+      "eval_biology_runtime": 48.864,
+      "eval_biology_samples_per_second": 10.232,
+      "eval_biology_steps_per_second": 10.232,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_chemistry_entropy": 1.0978138650655747,
+      "eval_chemistry_loss": 1.0629022121429443,
+      "eval_chemistry_mean_token_accuracy": 0.7388500568270683,
+      "eval_chemistry_num_tokens": 1970077.0,
+      "eval_chemistry_runtime": 56.2753,
+      "eval_chemistry_samples_per_second": 8.885,
+      "eval_chemistry_steps_per_second": 8.885,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_math_entropy": 0.8591428139805793,
+      "eval_math_loss": 1.05092191696167,
+      "eval_math_mean_token_accuracy": 0.7511963348388672,
+      "eval_math_num_tokens": 1970077.0,
+      "eval_math_runtime": 58.021,
+      "eval_math_samples_per_second": 8.618,
+      "eval_math_steps_per_second": 8.618,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_physics_entropy": 1.0165277478098869,
+      "eval_physics_loss": 1.0104260444641113,
+      "eval_physics_mean_token_accuracy": 0.7560842056274414,
+      "eval_physics_num_tokens": 1970077.0,
+      "eval_physics_runtime": 64.8626,
+      "eval_physics_samples_per_second": 7.709,
+      "eval_physics_steps_per_second": 7.709,
+      "step": 400
+    },
+    {
+      "entropy": 1.5483303785324096,
+      "epoch": 0.164,
+      "grad_norm": 48.25,
+      "learning_rate": 1.9950000000000004e-05,
+      "loss": 25.1551,
+      "mean_token_accuracy": 0.6388038458302617,
+      "num_tokens": 2019053.0,
+      "step": 410
+    },
+    {
+      "entropy": 1.454981879517436,
+      "epoch": 0.168,
+      "grad_norm": 39.25,
+      "learning_rate": 1.9894444444444446e-05,
+      "loss": 23.3291,
+      "mean_token_accuracy": 0.6591469643637538,
+      "num_tokens": 2066815.0,
+      "step": 420
+    },
+    {
+      "entropy": 1.5025325208902358,
+      "epoch": 0.172,
+      "grad_norm": 42.75,
+      "learning_rate": 1.983888888888889e-05,
+      "loss": 24.4368,
+      "mean_token_accuracy": 0.6499477269127965,
+      "num_tokens": 2116402.0,
+      "step": 430
+    },
+    {
+      "entropy": 1.4382389456033706,
+      "epoch": 0.176,
+      "grad_norm": 43.75,
+      "learning_rate": 1.9783333333333334e-05,
+      "loss": 23.1478,
+      "mean_token_accuracy": 0.6576124299317598,
+      "num_tokens": 2168354.0,
+      "step": 440
+    },
+    {
+      "entropy": 1.4807231716811657,
+      "epoch": 0.18,
+      "grad_norm": 44.0,
+      "learning_rate": 1.972777777777778e-05,
+      "loss": 23.9247,
+      "mean_token_accuracy": 0.6508983993902803,
+      "num_tokens": 2219158.0,
+      "step": 450
+    },
+    {
+      "entropy": 1.4961057174950838,
+      "epoch": 0.184,
+      "grad_norm": 53.25,
+      "learning_rate": 1.9672222222222222e-05,
+      "loss": 24.1044,
+      "mean_token_accuracy": 0.6528054753318429,
+      "num_tokens": 2270617.0,
+      "step": 460
+    },
+    {
+      "entropy": 1.405641496926546,
+      "epoch": 0.188,
+      "grad_norm": 49.0,
+      "learning_rate": 1.9616666666666668e-05,
+      "loss": 22.6821,
+      "mean_token_accuracy": 0.6653487289324402,
+      "num_tokens": 2322034.0,
+      "step": 470
+    },
+    {
+      "entropy": 1.5283996649086475,
+      "epoch": 0.192,
+      "grad_norm": 56.5,
+      "learning_rate": 1.9561111111111114e-05,
+      "loss": 24.8943,
+      "mean_token_accuracy": 0.6409956673160195,
+      "num_tokens": 2365822.0,
+      "step": 480
+    },
+    {
+      "entropy": 1.4112088453024625,
+      "epoch": 0.196,
+      "grad_norm": 56.5,
+      "learning_rate": 1.9505555555555556e-05,
+      "loss": 22.9679,
+      "mean_token_accuracy": 0.6614947421476245,
+      "num_tokens": 2413853.0,
+      "step": 490
+    },
+    {
+      "entropy": 1.528968420997262,
+      "epoch": 0.2,
+      "grad_norm": 52.25,
+      "learning_rate": 1.9450000000000002e-05,
+      "loss": 24.7093,
+      "mean_token_accuracy": 0.6438989890739322,
+      "num_tokens": 2459876.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "eval_biology_entropy": 1.4363987457752228,
+      "eval_biology_loss": 1.4445728063583374,
+      "eval_biology_mean_token_accuracy": 0.6621700811982155,
+      "eval_biology_num_tokens": 2459876.0,
+      "eval_biology_runtime": 48.7652,
+      "eval_biology_samples_per_second": 10.253,
+      "eval_biology_steps_per_second": 10.253,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "eval_chemistry_entropy": 1.0501885437369347,
+      "eval_chemistry_loss": 1.0399649143218994,
+      "eval_chemistry_mean_token_accuracy": 0.7431609622240066,
+      "eval_chemistry_num_tokens": 2459876.0,
+      "eval_chemistry_runtime": 56.6012,
+      "eval_chemistry_samples_per_second": 8.834,
+      "eval_chemistry_steps_per_second": 8.834,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "eval_math_entropy": 0.829749099612236,
+      "eval_math_loss": 1.0390610694885254,
+      "eval_math_mean_token_accuracy": 0.7532211091518403,
+      "eval_math_num_tokens": 2459876.0,
+      "eval_math_runtime": 57.9592,
+      "eval_math_samples_per_second": 8.627,
+      "eval_math_steps_per_second": 8.627,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "eval_physics_entropy": 0.9729321378469468,
+      "eval_physics_loss": 0.9892891049385071,
+      "eval_physics_mean_token_accuracy": 0.7594477337598801,
+      "eval_physics_num_tokens": 2459876.0,
+      "eval_physics_runtime": 64.8275,
+      "eval_physics_samples_per_second": 7.713,
+      "eval_physics_steps_per_second": 7.713,
+      "step": 500
+    },
+    {
+      "entropy": 1.454107392206788,
+      "epoch": 0.204,
+      "grad_norm": 44.5,
+      "learning_rate": 1.9394444444444448e-05,
+      "loss": 23.3348,
+      "mean_token_accuracy": 0.6589183287695051,
+      "num_tokens": 2509187.0,
+      "step": 510
+    },
+    {
+      "entropy": 1.4750641040503978,
+      "epoch": 0.208,
+      "grad_norm": 50.75,
+      "learning_rate": 1.933888888888889e-05,
+      "loss": 23.9095,
+      "mean_token_accuracy": 0.6498184770345687,
+      "num_tokens": 2558762.0,
+      "step": 520
+    },
+    {
+      "entropy": 1.4242557927966117,
+      "epoch": 0.212,
+      "grad_norm": 45.75,
+      "learning_rate": 1.9283333333333332e-05,
+      "loss": 23.3345,
+      "mean_token_accuracy": 0.660492136143148,
+      "num_tokens": 2608616.0,
+      "step": 530
+    },
+    {
+      "entropy": 1.4807924892753364,
+      "epoch": 0.216,
+      "grad_norm": 45.75,
+      "learning_rate": 1.9227777777777778e-05,
+      "loss": 23.5843,
+      "mean_token_accuracy": 0.6566273784264922,
+      "num_tokens": 2654953.0,
+      "step": 540
+    },
+    {
+      "entropy": 1.4450799100100995,
+      "epoch": 0.22,
+      "grad_norm": 43.75,
+      "learning_rate": 1.9172222222222224e-05,
+      "loss": 23.4185,
+      "mean_token_accuracy": 0.6577624851837754,
+      "num_tokens": 2704686.0,
+      "step": 550
+    },
+    {
+      "entropy": 1.4568904381245376,
+      "epoch": 0.224,
+      "grad_norm": 43.75,
+      "learning_rate": 1.911666666666667e-05,
+      "loss": 23.6667,
+      "mean_token_accuracy": 0.6560516567900777,
+      "num_tokens": 2755347.0,
+      "step": 560
+    },
+    {
+      "entropy": 1.4337828256189824,
+      "epoch": 0.228,
+      "grad_norm": 41.5,
+      "learning_rate": 1.9061111111111112e-05,
+      "loss": 22.9651,
+      "mean_token_accuracy": 0.6626851694658399,
+      "num_tokens": 2804340.0,
+      "step": 570
+    },
+    {
+      "entropy": 1.420975561439991,
+      "epoch": 0.232,
+      "grad_norm": 42.0,
+      "learning_rate": 1.9005555555555557e-05,
+      "loss": 23.1634,
+      "mean_token_accuracy": 0.6576923074200749,
+      "num_tokens": 2852298.0,
+      "step": 580
+    },
+    {
+      "entropy": 1.4190348222851754,
+      "epoch": 0.236,
+      "grad_norm": 51.0,
+      "learning_rate": 1.8950000000000003e-05,
+      "loss": 22.8248,
+      "mean_token_accuracy": 0.6662792712450027,
+      "num_tokens": 2901227.0,
+      "step": 590
+    },
+    {
+      "entropy": 1.460960115492344,
+      "epoch": 0.24,
+      "grad_norm": 50.0,
+      "learning_rate": 1.8894444444444446e-05,
+      "loss": 23.6843,
+      "mean_token_accuracy": 0.6580705074593425,
+      "num_tokens": 2947346.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.24,
+      "eval_biology_entropy": 1.3783106073141098,
+      "eval_biology_loss": 1.4261852502822876,
+      "eval_biology_mean_token_accuracy": 0.6656758678555489,
+      "eval_biology_num_tokens": 2947346.0,
+      "eval_biology_runtime": 48.582,
+      "eval_biology_samples_per_second": 10.292,
+      "eval_biology_steps_per_second": 10.292,
+      "step": 600
+    },
+    {
+      "epoch": 0.24,
+      "eval_chemistry_entropy": 1.0091136819124222,
+      "eval_chemistry_loss": 1.0272349119186401,
+      "eval_chemistry_mean_token_accuracy": 0.7455875177383423,
+      "eval_chemistry_num_tokens": 2947346.0,
+      "eval_chemistry_runtime": 56.154,
+      "eval_chemistry_samples_per_second": 8.904,
+      "eval_chemistry_steps_per_second": 8.904,
+      "step": 600
+    },
+    {
+      "epoch": 0.24,
+      "eval_math_entropy": 0.8054847376346588,
+      "eval_math_loss": 1.035906195640564,
+      "eval_math_mean_token_accuracy": 0.7551211569309234,
+      "eval_math_num_tokens": 2947346.0,
+      "eval_math_runtime": 57.8264,
+      "eval_math_samples_per_second": 8.647,
+      "eval_math_steps_per_second": 8.647,
+      "step": 600
+    },
+    {
+      "epoch": 0.24,
+      "eval_physics_entropy": 0.9419542922973633,
+      "eval_physics_loss": 0.9735694527626038,
+      "eval_physics_mean_token_accuracy": 0.7620592492818833,
+      "eval_physics_num_tokens": 2947346.0,
+      "eval_physics_runtime": 64.7503,
+      "eval_physics_samples_per_second": 7.722,
+      "eval_physics_steps_per_second": 7.722,
+      "step": 600
+    },
+    {
+      "entropy": 1.4665087036788464,
+      "epoch": 0.244,
+      "grad_norm": 48.25,
+      "learning_rate": 1.883888888888889e-05,
+      "loss": 23.7145,
+      "mean_token_accuracy": 0.6519139897078275,
+      "num_tokens": 2996175.0,
+      "step": 610
+    },
+    {
+      "entropy": 1.474304298311472,
+      "epoch": 0.248,
+      "grad_norm": 43.5,
+      "learning_rate": 1.8783333333333337e-05,
+      "loss": 24.0101,
+      "mean_token_accuracy": 0.6545385546982289,
+      "num_tokens": 3043128.0,
+      "step": 620
+    },
+    {
+      "entropy": 1.4359863974153995,
+      "epoch": 0.252,
+      "grad_norm": 48.0,
+      "learning_rate": 1.872777777777778e-05,
+      "loss": 23.1418,
+      "mean_token_accuracy": 0.658623912371695,
+      "num_tokens": 3090827.0,
+      "step": 630
+    },
+    {
+      "entropy": 1.3753734774887563,
+      "epoch": 0.256,
+      "grad_norm": 45.5,
+      "learning_rate": 1.8672222222222222e-05,
+      "loss": 22.5106,
+      "mean_token_accuracy": 0.668263440579176,
+      "num_tokens": 3139957.0,
+      "step": 640
+    },
+    {
+      "entropy": 1.4551277089864016,
+      "epoch": 0.26,
+      "grad_norm": 48.5,
+      "learning_rate": 1.8616666666666667e-05,
+      "loss": 23.4763,
+      "mean_token_accuracy": 0.6564172597602009,
+      "num_tokens": 3183188.0,
+      "step": 650
+    },
+    {
+      "entropy": 1.4548598907887935,
+      "epoch": 0.264,
+      "grad_norm": 49.75,
+      "learning_rate": 1.8561111111111113e-05,
+      "loss": 23.4802,
+      "mean_token_accuracy": 0.659644197113812,
+      "num_tokens": 3232159.0,
+      "step": 660
+    },
+    {
+      "entropy": 1.4130937982350589,
+      "epoch": 0.268,
+      "grad_norm": 45.0,
+      "learning_rate": 1.8505555555555556e-05,
+      "loss": 22.738,
+      "mean_token_accuracy": 0.6623035183176398,
+      "num_tokens": 3283908.0,
+      "step": 670
+    },
+    {
+      "entropy": 1.389145464077592,
+      "epoch": 0.272,
+      "grad_norm": 53.5,
+      "learning_rate": 1.845e-05,
+      "loss": 22.7338,
+      "mean_token_accuracy": 0.664409993775189,
+      "num_tokens": 3335951.0,
+      "step": 680
+    },
+    {
+      "entropy": 1.4257318537682295,
+      "epoch": 0.276,
+      "grad_norm": 50.0,
+      "learning_rate": 1.8394444444444447e-05,
+      "loss": 23.0298,
+      "mean_token_accuracy": 0.6590598113834858,
+      "num_tokens": 3387755.0,
+      "step": 690
+    },
+    {
+      "entropy": 1.414656887575984,
+      "epoch": 0.28,
+      "grad_norm": 54.25,
+      "learning_rate": 1.833888888888889e-05,
+      "loss": 22.8344,
+      "mean_token_accuracy": 0.6620526265352964,
+      "num_tokens": 3437213.0,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "eval_biology_entropy": 1.4020620829463004,
+      "eval_biology_loss": 1.4081073999404907,
+      "eval_biology_mean_token_accuracy": 0.6694456328749656,
+      "eval_biology_num_tokens": 3437213.0,
+      "eval_biology_runtime": 48.5754,
+      "eval_biology_samples_per_second": 10.293,
+      "eval_biology_steps_per_second": 10.293,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "eval_chemistry_entropy": 1.040973679125309,
+      "eval_chemistry_loss": 1.0141925811767578,
+      "eval_chemistry_mean_token_accuracy": 0.7476384826302528,
+      "eval_chemistry_num_tokens": 3437213.0,
+      "eval_chemistry_runtime": 56.1787,
+      "eval_chemistry_samples_per_second": 8.9,
+      "eval_chemistry_steps_per_second": 8.9,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "eval_math_entropy": 0.8242663496732712,
+      "eval_math_loss": 1.0219008922576904,
+      "eval_math_mean_token_accuracy": 0.7559223830103874,
+      "eval_math_num_tokens": 3437213.0,
+      "eval_math_runtime": 57.8767,
+      "eval_math_samples_per_second": 8.639,
+      "eval_math_steps_per_second": 8.639,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "eval_physics_entropy": 0.9719093123674393,
+      "eval_physics_loss": 0.9615101218223572,
+      "eval_physics_mean_token_accuracy": 0.7637101773023606,
+      "eval_physics_num_tokens": 3437213.0,
+      "eval_physics_runtime": 64.8419,
+      "eval_physics_samples_per_second": 7.711,
+      "eval_physics_steps_per_second": 7.711,
+      "step": 700
+    },
+    {
+      "entropy": 1.368546247854829,
+      "epoch": 0.284,
+      "grad_norm": 37.25,
+      "learning_rate": 1.8283333333333335e-05,
+      "loss": 21.8042,
+      "mean_token_accuracy": 0.6742603346705437,
+      "num_tokens": 3489088.0,
+      "step": 710
+    },
+    {
+      "entropy": 1.3972204247489572,
+      "epoch": 0.288,
+      "grad_norm": 42.75,
+      "learning_rate": 1.822777777777778e-05,
+      "loss": 23.1509,
+      "mean_token_accuracy": 0.6594159681349993,
+      "num_tokens": 3539731.0,
+      "step": 720
+    },
+    {
+      "entropy": 1.4230724427849055,
+      "epoch": 0.292,
+      "grad_norm": 49.5,
+      "learning_rate": 1.8172222222222223e-05,
+      "loss": 22.696,
+      "mean_token_accuracy": 0.6633614806458354,
+      "num_tokens": 3586433.0,
+      "step": 730
+    },
+    {
+      "entropy": 1.4538289617747069,
+      "epoch": 0.296,
+      "grad_norm": 47.75,
+      "learning_rate": 1.811666666666667e-05,
+      "loss": 23.4747,
+      "mean_token_accuracy": 0.6588025886565447,
+      "num_tokens": 3633448.0,
+      "step": 740
+    },
+    {
+      "entropy": 1.349214567989111,
+      "epoch": 0.3,
+      "grad_norm": 45.75,
+      "learning_rate": 1.806111111111111e-05,
+      "loss": 21.967,
+      "mean_token_accuracy": 0.6792342875152826,
+      "num_tokens": 3685080.0,
+      "step": 750
+    },
+    {
+      "entropy": 1.3578782331198453,
+      "epoch": 0.304,
+      "grad_norm": 44.25,
+      "learning_rate": 1.8005555555555557e-05,
+      "loss": 22.2315,
+      "mean_token_accuracy": 0.668846612982452,
+      "num_tokens": 3733488.0,
+      "step": 760
+    },
+    {
+      "entropy": 1.459796354547143,
+      "epoch": 0.308,
+      "grad_norm": 44.25,
+      "learning_rate": 1.795e-05,
+      "loss": 23.1602,
+      "mean_token_accuracy": 0.6614330835640431,
+      "num_tokens": 3779708.0,
+      "step": 770
+    },
+    {
+      "entropy": 1.4126090794801711,
+      "epoch": 0.312,
+      "grad_norm": 48.0,
+      "learning_rate": 1.7894444444444445e-05,
+      "loss": 23.0122,
+      "mean_token_accuracy": 0.6606836277991534,
+      "num_tokens": 3825212.0,
+      "step": 780
+    },
+    {
+      "entropy": 1.4439950220286846,
+      "epoch": 0.316,
+      "grad_norm": 60.5,
+      "learning_rate": 1.783888888888889e-05,
+      "loss": 23.4831,
+      "mean_token_accuracy": 0.6551693486049771,
+      "num_tokens": 3870912.0,
+      "step": 790
+    },
+    {
+      "entropy": 1.4275024197995663,
+      "epoch": 0.32,
+      "grad_norm": 54.25,
+      "learning_rate": 1.7783333333333333e-05,
+      "loss": 22.8627,
+      "mean_token_accuracy": 0.6635510809719563,
+      "num_tokens": 3920545.0,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "eval_biology_entropy": 1.391498780965805,
+      "eval_biology_loss": 1.3933708667755127,
+      "eval_biology_mean_token_accuracy": 0.6710453909635544,
+      "eval_biology_num_tokens": 3920545.0,
+      "eval_biology_runtime": 48.5173,
+      "eval_biology_samples_per_second": 10.306,
+      "eval_biology_steps_per_second": 10.306,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "eval_chemistry_entropy": 1.033769123196602,
+      "eval_chemistry_loss": 1.00752592086792,
+      "eval_chemistry_mean_token_accuracy": 0.7497823033332824,
+      "eval_chemistry_num_tokens": 3920545.0,
+      "eval_chemistry_runtime": 56.1437,
+      "eval_chemistry_samples_per_second": 8.906,
+      "eval_chemistry_steps_per_second": 8.906,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "eval_math_entropy": 0.8434388428926468,
+      "eval_math_loss": 1.0179753303527832,
+      "eval_math_mean_token_accuracy": 0.7559520703554153,
+      "eval_math_num_tokens": 3920545.0,
+      "eval_math_runtime": 57.8344,
+      "eval_math_samples_per_second": 8.645,
+      "eval_math_steps_per_second": 8.645,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "eval_physics_entropy": 0.9763550131320954,
+      "eval_physics_loss": 0.9549967050552368,
+      "eval_physics_mean_token_accuracy": 0.765521013379097,
+      "eval_physics_num_tokens": 3920545.0,
+      "eval_physics_runtime": 64.8184,
+      "eval_physics_samples_per_second": 7.714,
+      "eval_physics_steps_per_second": 7.714,
+      "step": 800
+    },
+    {
+      "entropy": 1.418811386078596,
+      "epoch": 0.324,
+      "grad_norm": 43.0,
+      "learning_rate": 1.772777777777778e-05,
+      "loss": 22.9286,
+      "mean_token_accuracy": 0.6607653006911278,
+      "num_tokens": 3967499.0,
+      "step": 810
+    },
+    {
+      "entropy": 1.3724840827286244,
+      "epoch": 0.328,
+      "grad_norm": 44.25,
+      "learning_rate": 1.7672222222222224e-05,
+      "loss": 22.2047,
+      "mean_token_accuracy": 0.6701890625059604,
+      "num_tokens": 4016673.0,
+      "step": 820
+    },
+    {
+      "entropy": 1.4031333830207586,
+      "epoch": 0.332,
+      "grad_norm": 47.25,
+      "learning_rate": 1.761666666666667e-05,
+      "loss": 23.0022,
+      "mean_token_accuracy": 0.660862791724503,
+      "num_tokens": 4063859.0,
+      "step": 830
+    },
+    {
+      "entropy": 1.4056745786219835,
+      "epoch": 0.336,
+      "grad_norm": 44.0,
+      "learning_rate": 1.7561111111111113e-05,
+      "loss": 22.5703,
+      "mean_token_accuracy": 0.6621862905099988,
+      "num_tokens": 4114077.0,
+      "step": 840
+    },
+    {
+      "entropy": 1.4290663667023182,
+      "epoch": 0.34,
+      "grad_norm": 42.0,
+      "learning_rate": 1.7505555555555558e-05,
+      "loss": 22.956,
+      "mean_token_accuracy": 0.6598267763853073,
+      "num_tokens": 4160168.0,
+      "step": 850
+    },
+    {
+      "entropy": 1.3684453016147018,
+      "epoch": 0.344,
+      "grad_norm": 50.25,
+      "learning_rate": 1.7450000000000004e-05,
+      "loss": 22.5233,
+      "mean_token_accuracy": 0.670460031926632,
+      "num_tokens": 4210403.0,
+      "step": 860
+    },
+    {
+      "entropy": 1.3586817767471076,
+      "epoch": 0.348,
+      "grad_norm": 42.5,
+      "learning_rate": 1.7394444444444446e-05,
+      "loss": 21.8543,
+      "mean_token_accuracy": 0.672089285030961,
+      "num_tokens": 4256944.0,
+      "step": 870
+    },
+    {
+      "entropy": 1.4272807750850915,
+      "epoch": 0.352,
+      "grad_norm": 42.5,
+      "learning_rate": 1.733888888888889e-05,
+      "loss": 23.0583,
+      "mean_token_accuracy": 0.6652814907953143,
+      "num_tokens": 4306949.0,
+      "step": 880
+    },
+    {
+      "entropy": 1.3964965641498566,
+      "epoch": 0.356,
+      "grad_norm": 42.25,
+      "learning_rate": 1.7283333333333334e-05,
+      "loss": 22.6552,
+      "mean_token_accuracy": 0.6640587879344821,
+      "num_tokens": 4355070.0,
+      "step": 890
+    },
+    {
+      "entropy": 1.4213988482952118,
+      "epoch": 0.36,
+      "grad_norm": 34.0,
+      "learning_rate": 1.722777777777778e-05,
+      "loss": 22.4917,
+      "mean_token_accuracy": 0.6680676110088826,
+      "num_tokens": 4406104.0,
+      "step": 900
+    },
+    {
+      "epoch": 0.36,
+      "eval_biology_entropy": 1.3215562723875045,
+      "eval_biology_loss": 1.3810561895370483,
+      "eval_biology_mean_token_accuracy": 0.6744087367653847,
+      "eval_biology_num_tokens": 4406104.0,
+      "eval_biology_runtime": 48.5466,
+      "eval_biology_samples_per_second": 10.299,
+      "eval_biology_steps_per_second": 10.299,
+      "step": 900
+    },
+    {
+      "epoch": 0.36,
+      "eval_chemistry_entropy": 0.989146444439888,
+      "eval_chemistry_loss": 0.9984143972396851,
+      "eval_chemistry_mean_token_accuracy": 0.7511961939930916,
+      "eval_chemistry_num_tokens": 4406104.0,
+      "eval_chemistry_runtime": 56.171,
+      "eval_chemistry_samples_per_second": 8.901,
+      "eval_chemistry_steps_per_second": 8.901,
+      "step": 900
+    },
+    {
+      "epoch": 0.36,
+      "eval_math_entropy": 0.799599610209465,
+      "eval_math_loss": 1.0206644535064697,
+      "eval_math_mean_token_accuracy": 0.7562864592075348,
+      "eval_math_num_tokens": 4406104.0,
+      "eval_math_runtime": 57.8568,
+      "eval_math_samples_per_second": 8.642,
+      "eval_math_steps_per_second": 8.642,
+      "step": 900
+    },
+    {
+      "epoch": 0.36,
+      "eval_physics_entropy": 0.9270223636031151,
+      "eval_physics_loss": 0.9444345831871033,
+      "eval_physics_mean_token_accuracy": 0.7675528969168663,
+      "eval_physics_num_tokens": 4406104.0,
+      "eval_physics_runtime": 64.7993,
+      "eval_physics_samples_per_second": 7.716,
+      "eval_physics_steps_per_second": 7.716,
+      "step": 900
+    },
+    {
+      "entropy": 1.3845266662538052,
+      "epoch": 0.364,
+      "grad_norm": 44.5,
+      "learning_rate": 1.7172222222222223e-05,
+      "loss": 22.7876,
+      "mean_token_accuracy": 0.6699303101748229,
+      "num_tokens": 4455015.0,
+      "step": 910
+    },
+    {
+      "entropy": 1.3507468841969967,
+      "epoch": 0.368,
+      "grad_norm": 54.25,
+      "learning_rate": 1.7116666666666668e-05,
+      "loss": 22.1191,
+      "mean_token_accuracy": 0.6698823075741529,
+      "num_tokens": 4504001.0,
+      "step": 920
+    },
+    {
+      "entropy": 1.4101964194327592,
+      "epoch": 0.372,
+      "grad_norm": 46.0,
+      "learning_rate": 1.7061111111111114e-05,
+      "loss": 22.5848,
+      "mean_token_accuracy": 0.6687647785991431,
+      "num_tokens": 4550269.0,
+      "step": 930
+    },
+    {
+      "entropy": 1.357139458693564,
+      "epoch": 0.376,
+      "grad_norm": 47.5,
+      "learning_rate": 1.7005555555555556e-05,
+      "loss": 22.1243,
+      "mean_token_accuracy": 0.6716644866392016,
+      "num_tokens": 4597559.0,
+      "step": 940
+    },
+    {
+      "entropy": 1.3879809100180864,
+      "epoch": 0.38,
+      "grad_norm": 47.5,
+      "learning_rate": 1.6950000000000002e-05,
+      "loss": 22.0727,
+      "mean_token_accuracy": 0.6727892020717263,
+      "num_tokens": 4646903.0,
+      "step": 950
+    },
+    {
+      "entropy": 1.3612046051770448,
+      "epoch": 0.384,
+      "grad_norm": 42.75,
+      "learning_rate": 1.6894444444444448e-05,
+      "loss": 22.3926,
+      "mean_token_accuracy": 0.6669768806546926,
+      "num_tokens": 4693812.0,
+      "step": 960
+    },
+    {
+      "entropy": 1.4104670461267232,
+      "epoch": 0.388,
+      "grad_norm": 48.25,
+      "learning_rate": 1.683888888888889e-05,
+      "loss": 22.6604,
+      "mean_token_accuracy": 0.6653323493897915,
+      "num_tokens": 4740309.0,
+      "step": 970
+    },
+    {
+      "entropy": 1.4341064432635904,
+      "epoch": 0.392,
+      "grad_norm": 42.5,
+      "learning_rate": 1.6783333333333332e-05,
+      "loss": 22.8327,
+      "mean_token_accuracy": 0.6646358489990234,
+      "num_tokens": 4790965.0,
+      "step": 980
+    },
+    {
+      "entropy": 1.3664294127374887,
+      "epoch": 0.396,
+      "grad_norm": 43.0,
+      "learning_rate": 1.6727777777777778e-05,
+      "loss": 22.4088,
+      "mean_token_accuracy": 0.6667625535279512,
+      "num_tokens": 4839186.0,
+      "step": 990
+    },
+    {
+      "entropy": 1.4091253302991391,
+      "epoch": 0.4,
+      "grad_norm": 53.25,
+      "learning_rate": 1.6672222222222224e-05,
+      "loss": 22.6754,
+      "mean_token_accuracy": 0.6634825209155679,
+      "num_tokens": 4887094.0,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4,
+      "eval_biology_entropy": 1.3544746099114418,
+      "eval_biology_loss": 1.3718540668487549,
+      "eval_biology_mean_token_accuracy": 0.6754276250600815,
+      "eval_biology_num_tokens": 4887094.0,
+      "eval_biology_runtime": 48.4485,
+      "eval_biology_samples_per_second": 10.32,
+      "eval_biology_steps_per_second": 10.32,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4,
+      "eval_chemistry_entropy": 0.9990591505169868,
+      "eval_chemistry_loss": 0.9907504916191101,
+      "eval_chemistry_mean_token_accuracy": 0.7525870882868767,
+      "eval_chemistry_num_tokens": 4887094.0,
+      "eval_chemistry_runtime": 62.8637,
+      "eval_chemistry_samples_per_second": 7.954,
+      "eval_chemistry_steps_per_second": 7.954,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4,
+      "eval_math_entropy": 0.8055654801130295,
+      "eval_math_loss": 1.0127589702606201,
+      "eval_math_mean_token_accuracy": 0.7569557039737701,
+      "eval_math_num_tokens": 4887094.0,
+      "eval_math_runtime": 57.8462,
+      "eval_math_samples_per_second": 8.644,
+      "eval_math_steps_per_second": 8.644,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4,
+      "eval_physics_entropy": 0.9393544716238975,
+      "eval_physics_loss": 0.9393035769462585,
+      "eval_physics_mean_token_accuracy": 0.7682145276069641,
+      "eval_physics_num_tokens": 4887094.0,
+      "eval_physics_runtime": 65.1801,
+      "eval_physics_samples_per_second": 7.671,
+      "eval_physics_steps_per_second": 7.671,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 4000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.277009915508544e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e85f444fc413f87330ed2f5d5a2733a198022ec5f4ab5972e71dda08fb42186
+size 6481