Instructions to use arunasank/124xpcap with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use arunasank/124xpcap with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("image-text-to-text", model="arunasank/124xpcap")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
pipe(text=messages)

# Load model directly
from transformers import AutoProcessor, AutoModelForImageTextToText

processor = AutoProcessor.from_pretrained("arunasank/124xpcap")
model = AutoModelForImageTextToText.from_pretrained("arunasank/124xpcap")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
inputs = processor.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use arunasank/124xpcap with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "arunasank/124xpcap"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "arunasank/124xpcap",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Use Docker

docker model run hf.co/arunasank/124xpcap

SGLang

How to use arunasank/124xpcap with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "arunasank/124xpcap" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "arunasank/124xpcap",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "arunasank/124xpcap" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "arunasank/124xpcap",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Docker Model Runner
How to use arunasank/124xpcap with Docker Model Runner:
```
docker model run hf.co/arunasank/124xpcap
```

arunasank commited on Apr 16

Commit

3d9f822

verified ·

1 Parent(s): a75864e

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
llm_judge_csvs/baseline_pre_recover.csv +0 -0
llm_judge_csvs/baseline_pre_recover.scores.json +18 -0
llm_judge_csvs/llm_judge_step_1000_avg.csv +0 -0
llm_judge_csvs/llm_judge_step_1000_run1.csv +0 -0
llm_judge_csvs/llm_judge_step_1000_run2.csv +0 -0
llm_judge_csvs/llm_judge_step_1500_avg.csv +0 -0
llm_judge_csvs/llm_judge_step_1500_run1.csv +0 -0
llm_judge_csvs/llm_judge_step_1500_run2.csv +0 -0
llm_judge_csvs/llm_judge_step_2000_run1.csv +0 -0
llm_judge_csvs/llm_judge_step_2000_run2.csv +0 -0
llm_judge_csvs/llm_judge_step_2500_avg.csv +0 -0
llm_judge_csvs/llm_judge_step_2500_run1.csv +0 -0
llm_judge_csvs/llm_judge_step_2500_run2.csv +0 -0
llm_judge_csvs/llm_judge_step_3000_avg.csv +0 -0
llm_judge_csvs/llm_judge_step_3000_run1.csv +0 -0
llm_judge_csvs/llm_judge_step_500_avg.csv +0 -0
llm_judge_csvs/llm_judge_step_500_run1.csv +0 -0
llm_judge_csvs/llm_judge_step_500_run2.csv +0 -0
recover-backup/checkpoint-1000/added_tokens.json +3 -0
recover-backup/checkpoint-1000/chat_template.jinja +47 -0
recover-backup/checkpoint-1000/config.json +110 -0
recover-backup/checkpoint-1000/generation_config.json +13 -0
recover-backup/checkpoint-1000/model.safetensors.index.json +0 -0
recover-backup/checkpoint-1000/special_tokens_map.json +33 -0
recover-backup/checkpoint-1000/tokenizer_config.json +0 -0
recover-backup/checkpoint-1000/trainer_state.json +1474 -0
recover-backup/checkpoint-2000/added_tokens.json +3 -0
recover-backup/checkpoint-2000/chat_template.jinja +47 -0
recover-backup/checkpoint-2000/config.json +110 -0
recover-backup/checkpoint-2000/generation_config.json +13 -0
recover-backup/checkpoint-2000/model.safetensors.index.json +0 -0
recover-backup/checkpoint-2000/scheduler.pt +3 -0
recover-backup/checkpoint-2000/special_tokens_map.json +33 -0
recover-backup/checkpoint-2000/tokenizer.json +3 -0
recover-backup/checkpoint-2000/tokenizer_config.json +0 -0
recover-backup/checkpoint-2000/trainer_state.json +2914 -0
recover/README.md +58 -0
recover/checkpoint-3000/added_tokens.json +3 -0
recover/checkpoint-3000/chat_template.jinja +47 -0
recover/checkpoint-3000/generation_config.json +13 -0
recover/checkpoint-3000/model.safetensors.index.json +0 -0
recover/checkpoint-3000/special_tokens_map.json +33 -0
recover/checkpoint-3000/tokenizer_config.json +0 -0
recover/checkpoint-3000/trainer_state.json +0 -0
recover/final/added_tokens.json +3 -0
recover/final/chat_template.jinja +47 -0
recover/final/config.json +110 -0
recover/final/generation_config.json +13 -0
recover/final/model.safetensors.index.json +0 -0

.gitattributes CHANGED Viewed

@@ -34,3 +34,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
+recover-backup/checkpoint-2000/tokenizer.json filter=lfs diff=lfs merge=lfs -text

llm_judge_csvs/baseline_pre_recover.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/baseline_pre_recover.scores.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "llm_judge/biology/in_scope/utility": 0.5333333333333333,
+  "llm_judge/biology/in_scope/answering": 1.0,
+  "llm_judge/biology/in_scope/factual_helpful": 0.6,
+  "llm_judge/biology/in_scope/precise": 0.0,
+  "llm_judge/chemistry/out_of_scope/utility": 0.26666666666666666,
+  "llm_judge/chemistry/out_of_scope/answering": 0.4,
+  "llm_judge/chemistry/out_of_scope/factual_helpful": 0.3,
+  "llm_judge/chemistry/out_of_scope/precise": 0.1,
+  "llm_judge/math/out_of_scope/utility": 0.03333333333333333,
+  "llm_judge/math/out_of_scope/answering": 0.1,
+  "llm_judge/math/out_of_scope/factual_helpful": 0.0,
+  "llm_judge/math/out_of_scope/precise": 0.0,
+  "llm_judge/cyber/out_of_scope/utility": 0.16666666666666666,
+  "llm_judge/cyber/out_of_scope/answering": 0.3,
+  "llm_judge/cyber/out_of_scope/factual_helpful": 0.2,
+  "llm_judge/cyber/out_of_scope/precise": 0.0
+}

llm_judge_csvs/llm_judge_step_1000_avg.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_1000_run1.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_1000_run2.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_1500_avg.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_1500_run1.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_1500_run2.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_2000_run1.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_2000_run2.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_2500_avg.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_2500_run1.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_2500_run2.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_3000_avg.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_3000_run1.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_500_avg.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_500_run1.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

llm_judge_csvs/llm_judge_step_500_run2.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

recover-backup/checkpoint-1000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

recover-backup/checkpoint-1000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

recover-backup/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,110 @@

+{
+  "architectures": [
+    "Gemma3ForConditionalGeneration"
+  ],
+  "boi_token_index": 255999,
+  "bos_token_id": 2,
+  "dtype": "bfloat16",
+  "eoi_token_index": 256000,
+  "eos_token_id": 1,
+  "image_token_index": 262144,
+  "initializer_range": 0.02,
+  "mm_tokens_per_image": 256,
+  "model_type": "gemma3",
+  "pad_token_id": 0,
+  "text_config": {
+    "_sliding_window_pattern": 6,
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attn_logit_softcapping": null,
+    "dtype": "bfloat16",
+    "final_logit_softcapping": null,
+    "head_dim": 256,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 3840,
+    "initializer_range": 0.02,
+    "intermediate_size": 15360,
+    "layer_types": [
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 131072,
+    "model_type": "gemma3_text",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 48,
+    "num_key_value_heads": 8,
+    "query_pre_attn_scalar": 256,
+    "rms_norm_eps": 1e-06,
+    "rope_local_base_freq": 10000.0,
+    "rope_scaling": {
+      "factor": 8.0,
+      "rope_type": "linear"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 1024,
+    "use_cache": true,
+    "vocab_size": 262208
+  },
+  "transformers_version": "4.56.1",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 896,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 27,
+    "patch_size": 14,
+    "vision_use_head": false
+  }
+}

recover-backup/checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 2,
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.56.1"
+}

recover-backup/checkpoint-1000/model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

recover-backup/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

recover-backup/checkpoint-1000/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

recover-backup/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1474 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.6,
+  "eval_steps": 100,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "entropy": 0.6808024171739817,
+      "epoch": 0.016,
+      "grad_norm": 2096.0,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 81.3949,
+      "mean_token_accuracy": 0.469288082793355,
+      "num_tokens": 195524.0,
+      "step": 10
+    },
+    {
+      "entropy": 0.6932845771312713,
+      "epoch": 0.032,
+      "grad_norm": 1840.0,
+      "learning_rate": 1.2666666666666669e-06,
+      "loss": 79.1276,
+      "mean_token_accuracy": 0.4702936248853803,
+      "num_tokens": 390903.0,
+      "step": 20
+    },
+    {
+      "entropy": 0.7348822019994259,
+      "epoch": 0.048,
+      "grad_norm": 1896.0,
+      "learning_rate": 1.9333333333333336e-06,
+      "loss": 75.5796,
+      "mean_token_accuracy": 0.47059151269495486,
+      "num_tokens": 589868.0,
+      "step": 30
+    },
+    {
+      "entropy": 0.8692382726818323,
+      "epoch": 0.064,
+      "grad_norm": 868.0,
+      "learning_rate": 2.6e-06,
+      "loss": 66.3894,
+      "mean_token_accuracy": 0.4747353194281459,
+      "num_tokens": 791190.0,
+      "step": 40
+    },
+    {
+      "entropy": 1.1099284883588552,
+      "epoch": 0.08,
+      "grad_norm": 520.0,
+      "learning_rate": 3.266666666666667e-06,
+      "loss": 57.5001,
+      "mean_token_accuracy": 0.47747670076787474,
+      "num_tokens": 989860.0,
+      "step": 50
+    },
+    {
+      "entropy": 1.4874154418706893,
+      "epoch": 0.096,
+      "grad_norm": 144.0,
+      "learning_rate": 3.9333333333333335e-06,
+      "loss": 48.6006,
+      "mean_token_accuracy": 0.4924122652038932,
+      "num_tokens": 1181777.0,
+      "step": 60
+    },
+    {
+      "entropy": 2.022240047156811,
+      "epoch": 0.112,
+      "grad_norm": 52.0,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 41.7489,
+      "mean_token_accuracy": 0.5201752169057727,
+      "num_tokens": 1385513.0,
+      "step": 70
+    },
+    {
+      "entropy": 2.395130204409361,
+      "epoch": 0.128,
+      "grad_norm": 44.0,
+      "learning_rate": 5.2666666666666665e-06,
+      "loss": 37.2886,
+      "mean_token_accuracy": 0.5428294729441404,
+      "num_tokens": 1582368.0,
+      "step": 80
+    },
+    {
+      "entropy": 2.1368538811802864,
+      "epoch": 0.144,
+      "grad_norm": 29.5,
+      "learning_rate": 5.933333333333335e-06,
+      "loss": 33.907,
+      "mean_token_accuracy": 0.5704466678202152,
+      "num_tokens": 1773764.0,
+      "step": 90
+    },
+    {
+      "entropy": 1.9877845980226994,
+      "epoch": 0.16,
+      "grad_norm": 25.375,
+      "learning_rate": 6.600000000000001e-06,
+      "loss": 31.7141,
+      "mean_token_accuracy": 0.58747753277421,
+      "num_tokens": 1970077.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_biology_entropy": 1.911924614906311,
+      "eval_biology_loss": 1.831228256225586,
+      "eval_biology_mean_token_accuracy": 0.6091388630867004,
+      "eval_biology_num_tokens": 1970077.0,
+      "eval_biology_runtime": 48.4202,
+      "eval_biology_samples_per_second": 10.326,
+      "eval_biology_steps_per_second": 2.582,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_chemistry_entropy": 1.5279665517807006,
+      "eval_chemistry_loss": 1.507634162902832,
+      "eval_chemistry_mean_token_accuracy": 0.6661558594703675,
+      "eval_chemistry_num_tokens": 1970077.0,
+      "eval_chemistry_runtime": 60.0771,
+      "eval_chemistry_samples_per_second": 8.323,
+      "eval_chemistry_steps_per_second": 2.081,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_math_entropy": 1.3111717319488525,
+      "eval_math_loss": 1.5638481378555298,
+      "eval_math_mean_token_accuracy": 0.6615601582527161,
+      "eval_math_num_tokens": 1970077.0,
+      "eval_math_runtime": 61.5942,
+      "eval_math_samples_per_second": 8.118,
+      "eval_math_steps_per_second": 2.029,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_cyber_entropy": 2.3538206100463865,
+      "eval_cyber_loss": 3.4596033096313477,
+      "eval_cyber_mean_token_accuracy": 0.4573894315958023,
+      "eval_cyber_num_tokens": 1970077.0,
+      "eval_cyber_runtime": 58.7811,
+      "eval_cyber_samples_per_second": 6.754,
+      "eval_cyber_steps_per_second": 1.701,
+      "step": 100
+    },
+    {
+      "entropy": 1.8946144469082355,
+      "epoch": 0.176,
+      "grad_norm": 22.0,
+      "learning_rate": 7.266666666666668e-06,
+      "loss": 29.5004,
+      "mean_token_accuracy": 0.6055971266701817,
+      "num_tokens": 2168354.0,
+      "step": 110
+    },
+    {
+      "entropy": 1.7916729532182216,
+      "epoch": 0.192,
+      "grad_norm": 22.375,
+      "learning_rate": 7.933333333333334e-06,
+      "loss": 28.5473,
+      "mean_token_accuracy": 0.6124886509031058,
+      "num_tokens": 2365822.0,
+      "step": 120
+    },
+    {
+      "entropy": 1.7780573107302189,
+      "epoch": 0.208,
+      "grad_norm": 20.625,
+      "learning_rate": 8.6e-06,
+      "loss": 28.0106,
+      "mean_token_accuracy": 0.617958590388298,
+      "num_tokens": 2558762.0,
+      "step": 130
+    },
+    {
+      "entropy": 1.6913408383727073,
+      "epoch": 0.224,
+      "grad_norm": 19.875,
+      "learning_rate": 9.266666666666667e-06,
+      "loss": 27.182,
+      "mean_token_accuracy": 0.6272589169442654,
+      "num_tokens": 2755347.0,
+      "step": 140
+    },
+    {
+      "entropy": 1.6812096990644931,
+      "epoch": 0.24,
+      "grad_norm": 19.5,
+      "learning_rate": 9.933333333333334e-06,
+      "loss": 26.6205,
+      "mean_token_accuracy": 0.6303446084260941,
+      "num_tokens": 2947346.0,
+      "step": 150
+    },
+    {
+      "entropy": 1.6677771665155887,
+      "epoch": 0.256,
+      "grad_norm": 20.25,
+      "learning_rate": 1.0600000000000002e-05,
+      "loss": 26.6086,
+      "mean_token_accuracy": 0.6319835562258959,
+      "num_tokens": 3139957.0,
+      "step": 160
+    },
+    {
+      "entropy": 1.6161759495735168,
+      "epoch": 0.272,
+      "grad_norm": 20.375,
+      "learning_rate": 1.1266666666666668e-05,
+      "loss": 26.0026,
+      "mean_token_accuracy": 0.6365392006933689,
+      "num_tokens": 3335951.0,
+      "step": 170
+    },
+    {
+      "entropy": 1.6003736153244972,
+      "epoch": 0.288,
+      "grad_norm": 21.0,
+      "learning_rate": 1.1933333333333335e-05,
+      "loss": 25.4302,
+      "mean_token_accuracy": 0.6393310058861971,
+      "num_tokens": 3539731.0,
+      "step": 180
+    },
+    {
+      "entropy": 1.5776585705578328,
+      "epoch": 0.304,
+      "grad_norm": 18.875,
+      "learning_rate": 1.2600000000000001e-05,
+      "loss": 25.2177,
+      "mean_token_accuracy": 0.646138820424676,
+      "num_tokens": 3733488.0,
+      "step": 190
+    },
+    {
+      "entropy": 1.5823919720947743,
+      "epoch": 0.32,
+      "grad_norm": 21.75,
+      "learning_rate": 1.3266666666666668e-05,
+      "loss": 25.46,
+      "mean_token_accuracy": 0.6409369662404061,
+      "num_tokens": 3920545.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_biology_entropy": 1.5241963243484498,
+      "eval_biology_loss": 1.512497067451477,
+      "eval_biology_mean_token_accuracy": 0.656851170539856,
+      "eval_biology_num_tokens": 3920545.0,
+      "eval_biology_runtime": 48.4372,
+      "eval_biology_samples_per_second": 10.323,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_chemistry_entropy": 1.1822538471221924,
+      "eval_chemistry_loss": 1.178497552871704,
+      "eval_chemistry_mean_token_accuracy": 0.7221880826950073,
+      "eval_chemistry_num_tokens": 3920545.0,
+      "eval_chemistry_runtime": 60.0879,
+      "eval_chemistry_samples_per_second": 8.321,
+      "eval_chemistry_steps_per_second": 2.08,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_math_entropy": 0.9796018509864807,
+      "eval_math_loss": 1.2802495956420898,
+      "eval_math_mean_token_accuracy": 0.713343710899353,
+      "eval_math_num_tokens": 3920545.0,
+      "eval_math_runtime": 61.6189,
+      "eval_math_samples_per_second": 8.114,
+      "eval_math_steps_per_second": 2.029,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_cyber_entropy": 2.516505275964737,
+      "eval_cyber_loss": 3.1510307788848877,
+      "eval_cyber_mean_token_accuracy": 0.47284564673900603,
+      "eval_cyber_num_tokens": 3920545.0,
+      "eval_cyber_runtime": 58.8071,
+      "eval_cyber_samples_per_second": 6.751,
+      "eval_cyber_steps_per_second": 1.7,
+      "step": 200
+    },
+    {
+      "entropy": 1.5317105814814567,
+      "epoch": 0.336,
+      "grad_norm": 18.375,
+      "learning_rate": 1.3933333333333334e-05,
+      "loss": 24.5282,
+      "mean_token_accuracy": 0.6502130385488272,
+      "num_tokens": 4114077.0,
+      "step": 210
+    },
+    {
+      "entropy": 1.5466628648340701,
+      "epoch": 0.352,
+      "grad_norm": 18.875,
+      "learning_rate": 1.46e-05,
+      "loss": 24.8233,
+      "mean_token_accuracy": 0.6490028414875268,
+      "num_tokens": 4306949.0,
+      "step": 220
+    },
+    {
+      "entropy": 1.5188672259449958,
+      "epoch": 0.368,
+      "grad_norm": 19.25,
+      "learning_rate": 1.5266666666666667e-05,
+      "loss": 24.4549,
+      "mean_token_accuracy": 0.6544424753636122,
+      "num_tokens": 4504001.0,
+      "step": 230
+    },
+    {
+      "entropy": 1.5070753492414952,
+      "epoch": 0.384,
+      "grad_norm": 21.75,
+      "learning_rate": 1.5933333333333336e-05,
+      "loss": 24.3379,
+      "mean_token_accuracy": 0.6532186731696129,
+      "num_tokens": 4693812.0,
+      "step": 240
+    },
+    {
+      "entropy": 1.5358249843120575,
+      "epoch": 0.4,
+      "grad_norm": 17.25,
+      "learning_rate": 1.66e-05,
+      "loss": 24.4225,
+      "mean_token_accuracy": 0.6525934401899576,
+      "num_tokens": 4887094.0,
+      "step": 250
+    },
+    {
+      "entropy": 1.5161145091056825,
+      "epoch": 0.416,
+      "grad_norm": 19.75,
+      "learning_rate": 1.726666666666667e-05,
+      "loss": 24.4554,
+      "mean_token_accuracy": 0.6528204523026944,
+      "num_tokens": 5085369.0,
+      "step": 260
+    },
+    {
+      "entropy": 1.5000567641109228,
+      "epoch": 0.432,
+      "grad_norm": 20.625,
+      "learning_rate": 1.7933333333333333e-05,
+      "loss": 24.2948,
+      "mean_token_accuracy": 0.6535403318703175,
+      "num_tokens": 5271275.0,
+      "step": 270
+    },
+    {
+      "entropy": 1.5077810816466808,
+      "epoch": 0.448,
+      "grad_norm": 22.375,
+      "learning_rate": 1.86e-05,
+      "loss": 24.2712,
+      "mean_token_accuracy": 0.6533999439328909,
+      "num_tokens": 5460559.0,
+      "step": 280
+    },
+    {
+      "entropy": 1.4563340097665787,
+      "epoch": 0.464,
+      "grad_norm": 22.0,
+      "learning_rate": 1.926666666666667e-05,
+      "loss": 23.2755,
+      "mean_token_accuracy": 0.6638390984386205,
+      "num_tokens": 5653809.0,
+      "step": 290
+    },
+    {
+      "entropy": 1.468742286041379,
+      "epoch": 0.48,
+      "grad_norm": 18.0,
+      "learning_rate": 1.9933333333333334e-05,
+      "loss": 23.7149,
+      "mean_token_accuracy": 0.6593498229980469,
+      "num_tokens": 5850176.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_biology_entropy": 1.4316115617752074,
+      "eval_biology_loss": 1.4177387952804565,
+      "eval_biology_mean_token_accuracy": 0.6717347936630249,
+      "eval_biology_num_tokens": 5850176.0,
+      "eval_biology_runtime": 48.4847,
+      "eval_biology_samples_per_second": 10.313,
+      "eval_biology_steps_per_second": 2.578,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_chemistry_entropy": 1.1160053358078004,
+      "eval_chemistry_loss": 1.0916916131973267,
+      "eval_chemistry_mean_token_accuracy": 0.7381541066169739,
+      "eval_chemistry_num_tokens": 5850176.0,
+      "eval_chemistry_runtime": 60.1537,
+      "eval_chemistry_samples_per_second": 8.312,
+      "eval_chemistry_steps_per_second": 2.078,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_math_entropy": 0.9393695564270019,
+      "eval_math_loss": 1.2016712427139282,
+      "eval_math_mean_token_accuracy": 0.7277262687683106,
+      "eval_math_num_tokens": 5850176.0,
+      "eval_math_runtime": 61.6699,
+      "eval_math_samples_per_second": 8.108,
+      "eval_math_steps_per_second": 2.027,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_cyber_entropy": 2.514738072156906,
+      "eval_cyber_loss": 2.9828875064849854,
+      "eval_cyber_mean_token_accuracy": 0.47654601037502287,
+      "eval_cyber_num_tokens": 5850176.0,
+      "eval_cyber_runtime": 58.8231,
+      "eval_cyber_samples_per_second": 6.749,
+      "eval_cyber_steps_per_second": 1.7,
+      "step": 300
+    },
+    {
+      "entropy": 1.3836464550346137,
+      "epoch": 0.496,
+      "grad_norm": 17.875,
+      "learning_rate": 1.9933333333333334e-05,
+      "loss": 22.405,
+      "mean_token_accuracy": 0.6713070213794708,
+      "num_tokens": 6046503.0,
+      "step": 310
+    },
+    {
+      "entropy": 1.4630893386900425,
+      "epoch": 0.512,
+      "grad_norm": 19.25,
+      "learning_rate": 1.985925925925926e-05,
+      "loss": 23.4697,
+      "mean_token_accuracy": 0.6617988537997007,
+      "num_tokens": 6240456.0,
+      "step": 320
+    },
+    {
+      "entropy": 1.448515933379531,
+      "epoch": 0.528,
+      "grad_norm": 18.75,
+      "learning_rate": 1.9785185185185187e-05,
+      "loss": 23.3355,
+      "mean_token_accuracy": 0.6626260321587324,
+      "num_tokens": 6430555.0,
+      "step": 330
+    },
+    {
+      "entropy": 1.44985730946064,
+      "epoch": 0.544,
+      "grad_norm": 18.625,
+      "learning_rate": 1.971111111111111e-05,
+      "loss": 23.3133,
+      "mean_token_accuracy": 0.665154778957367,
+      "num_tokens": 6626006.0,
+      "step": 340
+    },
+    {
+      "entropy": 1.4254157304763795,
+      "epoch": 0.56,
+      "grad_norm": 19.125,
+      "learning_rate": 1.963703703703704e-05,
+      "loss": 23.1032,
+      "mean_token_accuracy": 0.6651736661791802,
+      "num_tokens": 6820754.0,
+      "step": 350
+    },
+    {
+      "entropy": 1.4192099779844285,
+      "epoch": 0.576,
+      "grad_norm": 18.875,
+      "learning_rate": 1.9562962962962964e-05,
+      "loss": 22.7221,
+      "mean_token_accuracy": 0.6693361282348633,
+      "num_tokens": 7021844.0,
+      "step": 360
+    },
+    {
+      "entropy": 1.4211084496229887,
+      "epoch": 0.592,
+      "grad_norm": 19.0,
+      "learning_rate": 1.948888888888889e-05,
+      "loss": 23.0159,
+      "mean_token_accuracy": 0.6660285223275423,
+      "num_tokens": 7213951.0,
+      "step": 370
+    },
+    {
+      "entropy": 1.4022404573857785,
+      "epoch": 0.608,
+      "grad_norm": 18.625,
+      "learning_rate": 1.9414814814814817e-05,
+      "loss": 22.5685,
+      "mean_token_accuracy": 0.6711618881672621,
+      "num_tokens": 7416773.0,
+      "step": 380
+    },
+    {
+      "entropy": 1.4124153569340705,
+      "epoch": 0.624,
+      "grad_norm": 18.625,
+      "learning_rate": 1.9340740740740743e-05,
+      "loss": 22.8021,
+      "mean_token_accuracy": 0.6678782407194376,
+      "num_tokens": 7612843.0,
+      "step": 390
+    },
+    {
+      "entropy": 1.4238922595977783,
+      "epoch": 0.64,
+      "grad_norm": 20.375,
+      "learning_rate": 1.926666666666667e-05,
+      "loss": 22.9558,
+      "mean_token_accuracy": 0.6680531721562147,
+      "num_tokens": 7801633.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_biology_entropy": 1.3578908562660217,
+      "eval_biology_loss": 1.3675978183746338,
+      "eval_biology_mean_token_accuracy": 0.6797989273071289,
+      "eval_biology_num_tokens": 7801633.0,
+      "eval_biology_runtime": 48.4218,
+      "eval_biology_samples_per_second": 10.326,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_chemistry_entropy": 1.0446269502639771,
+      "eval_chemistry_loss": 1.0433638095855713,
+      "eval_chemistry_mean_token_accuracy": 0.7473979935646057,
+      "eval_chemistry_num_tokens": 7801633.0,
+      "eval_chemistry_runtime": 60.1024,
+      "eval_chemistry_samples_per_second": 8.319,
+      "eval_chemistry_steps_per_second": 2.08,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_math_entropy": 0.8829994263648987,
+      "eval_math_loss": 1.168383002281189,
+      "eval_math_mean_token_accuracy": 0.7337917404174805,
+      "eval_math_num_tokens": 7801633.0,
+      "eval_math_runtime": 61.66,
+      "eval_math_samples_per_second": 8.109,
+      "eval_math_steps_per_second": 2.027,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_cyber_entropy": 2.3425097274780273,
+      "eval_cyber_loss": 2.8961009979248047,
+      "eval_cyber_mean_token_accuracy": 0.48323330402374265,
+      "eval_cyber_num_tokens": 7801633.0,
+      "eval_cyber_runtime": 58.7869,
+      "eval_cyber_samples_per_second": 6.753,
+      "eval_cyber_steps_per_second": 1.701,
+      "step": 400
+    },
+    {
+      "entropy": 1.4169765036553144,
+      "epoch": 0.656,
+      "grad_norm": 21.125,
+      "learning_rate": 1.9192592592592593e-05,
+      "loss": 22.9523,
+      "mean_token_accuracy": 0.6662464819848537,
+      "num_tokens": 7995843.0,
+      "step": 410
+    },
+    {
+      "entropy": 1.43333672657609,
+      "epoch": 0.672,
+      "grad_norm": 18.625,
+      "learning_rate": 1.911851851851852e-05,
+      "loss": 22.9483,
+      "mean_token_accuracy": 0.667000836879015,
+      "num_tokens": 8183103.0,
+      "step": 420
+    },
+    {
+      "entropy": 1.4049694981426,
+      "epoch": 0.688,
+      "grad_norm": 17.75,
+      "learning_rate": 1.9044444444444446e-05,
+      "loss": 22.7023,
+      "mean_token_accuracy": 0.670426407828927,
+      "num_tokens": 8385976.0,
+      "step": 430
+    },
+    {
+      "entropy": 1.4090089831501245,
+      "epoch": 0.704,
+      "grad_norm": 17.875,
+      "learning_rate": 1.8970370370370372e-05,
+      "loss": 22.6381,
+      "mean_token_accuracy": 0.6711054440587759,
+      "num_tokens": 8578431.0,
+      "step": 440
+    },
+    {
+      "entropy": 1.3353864025324582,
+      "epoch": 0.72,
+      "grad_norm": 17.75,
+      "learning_rate": 1.8896296296296295e-05,
+      "loss": 21.6293,
+      "mean_token_accuracy": 0.681050893291831,
+      "num_tokens": 8781342.0,
+      "step": 450
+    },
+    {
+      "entropy": 1.3734276317059995,
+      "epoch": 0.736,
+      "grad_norm": 17.25,
+      "learning_rate": 1.8822222222222225e-05,
+      "loss": 22.0542,
+      "mean_token_accuracy": 0.6750697229057551,
+      "num_tokens": 8977918.0,
+      "step": 460
+    },
+    {
+      "entropy": 1.3878948390483856,
+      "epoch": 0.752,
+      "grad_norm": 17.875,
+      "learning_rate": 1.874814814814815e-05,
+      "loss": 22.4846,
+      "mean_token_accuracy": 0.6717681255191564,
+      "num_tokens": 9169322.0,
+      "step": 470
+    },
+    {
+      "entropy": 1.3424169197678566,
+      "epoch": 0.768,
+      "grad_norm": 20.125,
+      "learning_rate": 1.8674074074074075e-05,
+      "loss": 21.6359,
+      "mean_token_accuracy": 0.6805981863290071,
+      "num_tokens": 9368141.0,
+      "step": 480
+    },
+    {
+      "entropy": 1.3768138941377401,
+      "epoch": 0.784,
+      "grad_norm": 19.75,
+      "learning_rate": 1.86e-05,
+      "loss": 22.1917,
+      "mean_token_accuracy": 0.6750959828495979,
+      "num_tokens": 9565236.0,
+      "step": 490
+    },
+    {
+      "entropy": 1.3996582824736834,
+      "epoch": 0.8,
+      "grad_norm": 19.25,
+      "learning_rate": 1.8525925925925928e-05,
+      "loss": 22.6339,
+      "mean_token_accuracy": 0.6715325634926558,
+      "num_tokens": 9761227.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_biology_entropy": 1.3487377295494078,
+      "eval_biology_loss": 1.3396238088607788,
+      "eval_biology_mean_token_accuracy": 0.6843163523674011,
+      "eval_biology_num_tokens": 9761227.0,
+      "eval_biology_runtime": 48.4345,
+      "eval_biology_samples_per_second": 10.323,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_chemistry_entropy": 1.0342083148956298,
+      "eval_chemistry_loss": 1.015425682067871,
+      "eval_chemistry_mean_token_accuracy": 0.7529125623703002,
+      "eval_chemistry_num_tokens": 9761227.0,
+      "eval_chemistry_runtime": 59.7072,
+      "eval_chemistry_samples_per_second": 8.374,
+      "eval_chemistry_steps_per_second": 2.094,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_math_entropy": 0.9004156064987182,
+      "eval_math_loss": 1.1309455633163452,
+      "eval_math_mean_token_accuracy": 0.7394839000701904,
+      "eval_math_num_tokens": 9761227.0,
+      "eval_math_runtime": 61.1899,
+      "eval_math_samples_per_second": 8.171,
+      "eval_math_steps_per_second": 2.043,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_cyber_entropy": 2.320133538246155,
+      "eval_cyber_loss": 2.8678040504455566,
+      "eval_cyber_mean_token_accuracy": 0.4835522577166557,
+      "eval_cyber_num_tokens": 9761227.0,
+      "eval_cyber_runtime": 58.9104,
+      "eval_cyber_samples_per_second": 6.739,
+      "eval_cyber_steps_per_second": 1.697,
+      "step": 500
+    },
+    {
+      "entropy": 1.35246634632349,
+      "epoch": 0.816,
+      "grad_norm": 20.75,
+      "learning_rate": 1.8451851851851855e-05,
+      "loss": 21.7978,
+      "mean_token_accuracy": 0.6768883503973484,
+      "num_tokens": 9958727.0,
+      "step": 510
+    },
+    {
+      "entropy": 1.3554580289870501,
+      "epoch": 0.832,
+      "grad_norm": 17.5,
+      "learning_rate": 1.8377777777777778e-05,
+      "loss": 21.7881,
+      "mean_token_accuracy": 0.6783689457923174,
+      "num_tokens": 10155771.0,
+      "step": 520
+    },
+    {
+      "entropy": 1.342598542943597,
+      "epoch": 0.848,
+      "grad_norm": 19.5,
+      "learning_rate": 1.8303703703703704e-05,
+      "loss": 21.6264,
+      "mean_token_accuracy": 0.679912555962801,
+      "num_tokens": 10357721.0,
+      "step": 530
+    },
+    {
+      "entropy": 1.3717901095747949,
+      "epoch": 0.864,
+      "grad_norm": 18.375,
+      "learning_rate": 1.822962962962963e-05,
+      "loss": 22.2423,
+      "mean_token_accuracy": 0.6749696064740419,
+      "num_tokens": 10552495.0,
+      "step": 540
+    },
+    {
+      "entropy": 1.3606136079877615,
+      "epoch": 0.88,
+      "grad_norm": 21.0,
+      "learning_rate": 1.8155555555555557e-05,
+      "loss": 21.921,
+      "mean_token_accuracy": 0.6776851717382669,
+      "num_tokens": 10748749.0,
+      "step": 550
+    },
+    {
+      "entropy": 1.3807077493518591,
+      "epoch": 0.896,
+      "grad_norm": 19.0,
+      "learning_rate": 1.8081481481481484e-05,
+      "loss": 22.306,
+      "mean_token_accuracy": 0.6740046124905348,
+      "num_tokens": 10943319.0,
+      "step": 560
+    },
+    {
+      "entropy": 1.3541915334761143,
+      "epoch": 0.912,
+      "grad_norm": 20.5,
+      "learning_rate": 1.800740740740741e-05,
+      "loss": 21.989,
+      "mean_token_accuracy": 0.6777493793517351,
+      "num_tokens": 11136935.0,
+      "step": 570
+    },
+    {
+      "entropy": 1.3871366024017333,
+      "epoch": 0.928,
+      "grad_norm": 19.75,
+      "learning_rate": 1.7933333333333333e-05,
+      "loss": 22.1135,
+      "mean_token_accuracy": 0.6744728099554778,
+      "num_tokens": 11331098.0,
+      "step": 580
+    },
+    {
+      "entropy": 1.3096800699830056,
+      "epoch": 0.944,
+      "grad_norm": 17.5,
+      "learning_rate": 1.785925925925926e-05,
+      "loss": 21.2939,
+      "mean_token_accuracy": 0.6831198997795582,
+      "num_tokens": 11530550.0,
+      "step": 590
+    },
+    {
+      "entropy": 1.3506321482360364,
+      "epoch": 0.96,
+      "grad_norm": 20.875,
+      "learning_rate": 1.7785185185185186e-05,
+      "loss": 21.8226,
+      "mean_token_accuracy": 0.6785171415656805,
+      "num_tokens": 11729645.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_biology_entropy": 1.3259480624198914,
+      "eval_biology_loss": 1.3215161561965942,
+      "eval_biology_mean_token_accuracy": 0.6879564213752747,
+      "eval_biology_num_tokens": 11729645.0,
+      "eval_biology_runtime": 48.4324,
+      "eval_biology_samples_per_second": 10.324,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_chemistry_entropy": 1.02067849111557,
+      "eval_chemistry_loss": 0.9999639987945557,
+      "eval_chemistry_mean_token_accuracy": 0.7563390741348267,
+      "eval_chemistry_num_tokens": 11729645.0,
+      "eval_chemistry_runtime": 60.1019,
+      "eval_chemistry_samples_per_second": 8.319,
+      "eval_chemistry_steps_per_second": 2.08,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_math_entropy": 0.895684769153595,
+      "eval_math_loss": 1.1203279495239258,
+      "eval_math_mean_token_accuracy": 0.7420237326622009,
+      "eval_math_num_tokens": 11729645.0,
+      "eval_math_runtime": 61.6071,
+      "eval_math_samples_per_second": 8.116,
+      "eval_math_steps_per_second": 2.029,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_cyber_entropy": 2.2757809734344483,
+      "eval_cyber_loss": 2.8872666358947754,
+      "eval_cyber_mean_token_accuracy": 0.4848860424757004,
+      "eval_cyber_num_tokens": 11729645.0,
+      "eval_cyber_runtime": 58.7914,
+      "eval_cyber_samples_per_second": 6.753,
+      "eval_cyber_steps_per_second": 1.701,
+      "step": 600
+    },
+    {
+      "entropy": 1.3319925643503665,
+      "epoch": 0.976,
+      "grad_norm": 18.875,
+      "learning_rate": 1.7711111111111113e-05,
+      "loss": 21.4623,
+      "mean_token_accuracy": 0.6810844399034977,
+      "num_tokens": 11924644.0,
+      "step": 610
+    },
+    {
+      "entropy": 1.354709730297327,
+      "epoch": 0.992,
+      "grad_norm": 17.875,
+      "learning_rate": 1.763703703703704e-05,
+      "loss": 22.0021,
+      "mean_token_accuracy": 0.6767893016338349,
+      "num_tokens": 12123059.0,
+      "step": 620
+    },
+    {
+      "entropy": 1.358278013765812,
+      "epoch": 1.008,
+      "grad_norm": 17.625,
+      "learning_rate": 1.7562962962962962e-05,
+      "loss": 21.6771,
+      "mean_token_accuracy": 0.6793475031852723,
+      "num_tokens": 12319366.0,
+      "step": 630
+    },
+    {
+      "entropy": 1.2945445731282235,
+      "epoch": 1.024,
+      "grad_norm": 19.875,
+      "learning_rate": 1.7488888888888892e-05,
+      "loss": 20.9621,
+      "mean_token_accuracy": 0.6880514930933714,
+      "num_tokens": 12524183.0,
+      "step": 640
+    },
+    {
+      "entropy": 1.3366071730852127,
+      "epoch": 1.04,
+      "grad_norm": 19.375,
+      "learning_rate": 1.7414814814814815e-05,
+      "loss": 21.6169,
+      "mean_token_accuracy": 0.6800738513469696,
+      "num_tokens": 12718593.0,
+      "step": 650
+    },
+    {
+      "entropy": 1.3035322044044733,
+      "epoch": 1.056,
+      "grad_norm": 18.875,
+      "learning_rate": 1.7340740740740742e-05,
+      "loss": 21.0086,
+      "mean_token_accuracy": 0.6872079599648714,
+      "num_tokens": 12917803.0,
+      "step": 660
+    },
+    {
+      "entropy": 1.3336386241018772,
+      "epoch": 1.072,
+      "grad_norm": 20.125,
+      "learning_rate": 1.726666666666667e-05,
+      "loss": 21.3783,
+      "mean_token_accuracy": 0.6830162953585386,
+      "num_tokens": 13105826.0,
+      "step": 670
+    },
+    {
+      "entropy": 1.3145085237920284,
+      "epoch": 1.088,
+      "grad_norm": 19.875,
+      "learning_rate": 1.7192592592592595e-05,
+      "loss": 21.2325,
+      "mean_token_accuracy": 0.6849405582994222,
+      "num_tokens": 13298619.0,
+      "step": 680
+    },
+    {
+      "entropy": 1.3143333733081817,
+      "epoch": 1.104,
+      "grad_norm": 19.625,
+      "learning_rate": 1.711851851851852e-05,
+      "loss": 21.2224,
+      "mean_token_accuracy": 0.6856034275144338,
+      "num_tokens": 13491486.0,
+      "step": 690
+    },
+    {
+      "entropy": 1.3378163430839778,
+      "epoch": 1.12,
+      "grad_norm": 21.125,
+      "learning_rate": 1.7044444444444445e-05,
+      "loss": 21.5282,
+      "mean_token_accuracy": 0.6820732779800892,
+      "num_tokens": 13674663.0,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_biology_entropy": 1.2879770975112914,
+      "eval_biology_loss": 1.3086122274398804,
+      "eval_biology_mean_token_accuracy": 0.6899549188613892,
+      "eval_biology_num_tokens": 13674663.0,
+      "eval_biology_runtime": 48.4315,
+      "eval_biology_samples_per_second": 10.324,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_chemistry_entropy": 0.9838369536399841,
+      "eval_chemistry_loss": 0.9902806878089905,
+      "eval_chemistry_mean_token_accuracy": 0.757919919013977,
+      "eval_chemistry_num_tokens": 13674663.0,
+      "eval_chemistry_runtime": 60.0982,
+      "eval_chemistry_samples_per_second": 8.32,
+      "eval_chemistry_steps_per_second": 2.08,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_math_entropy": 0.8821793942451477,
+      "eval_math_loss": 1.108689308166504,
+      "eval_math_mean_token_accuracy": 0.7436572351455688,
+      "eval_math_num_tokens": 13674663.0,
+      "eval_math_runtime": 61.6134,
+      "eval_math_samples_per_second": 8.115,
+      "eval_math_steps_per_second": 2.029,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_cyber_entropy": 2.3264354813098906,
+      "eval_cyber_loss": 2.8054211139678955,
+      "eval_cyber_mean_token_accuracy": 0.49246201038360593,
+      "eval_cyber_num_tokens": 13674663.0,
+      "eval_cyber_runtime": 58.7919,
+      "eval_cyber_samples_per_second": 6.753,
+      "eval_cyber_steps_per_second": 1.701,
+      "step": 700
+    },
+    {
+      "entropy": 1.3018307507038116,
+      "epoch": 1.1360000000000001,
+      "grad_norm": 20.625,
+      "learning_rate": 1.697037037037037e-05,
+      "loss": 21.2057,
+      "mean_token_accuracy": 0.685313081741333,
+      "num_tokens": 13869134.0,
+      "step": 710
+    },
+    {
+      "entropy": 1.2973876625299454,
+      "epoch": 1.152,
+      "grad_norm": 18.0,
+      "learning_rate": 1.6896296296296298e-05,
+      "loss": 20.8346,
+      "mean_token_accuracy": 0.6878448143601418,
+      "num_tokens": 14078365.0,
+      "step": 720
+    },
+    {
+      "entropy": 1.3114512529224158,
+      "epoch": 1.168,
+      "grad_norm": 17.75,
+      "learning_rate": 1.6822222222222224e-05,
+      "loss": 21.086,
+      "mean_token_accuracy": 0.684901175647974,
+      "num_tokens": 14266831.0,
+      "step": 730
+    },
+    {
+      "entropy": 1.2921015951782464,
+      "epoch": 1.184,
+      "grad_norm": 19.875,
+      "learning_rate": 1.6748148148148147e-05,
+      "loss": 21.1084,
+      "mean_token_accuracy": 0.6854452688246966,
+      "num_tokens": 14465660.0,
+      "step": 740
+    },
+    {
+      "entropy": 1.3100581634789705,
+      "epoch": 1.2,
+      "grad_norm": 20.625,
+      "learning_rate": 1.6674074074074077e-05,
+      "loss": 20.9256,
+      "mean_token_accuracy": 0.6867778114974499,
+      "num_tokens": 14653228.0,
+      "step": 750
+    },
+    {
+      "entropy": 1.2675646111369132,
+      "epoch": 1.216,
+      "grad_norm": 19.5,
+      "learning_rate": 1.66e-05,
+      "loss": 20.4105,
+      "mean_token_accuracy": 0.6919024847447872,
+      "num_tokens": 14857782.0,
+      "step": 760
+    },
+    {
+      "entropy": 1.291072677075863,
+      "epoch": 1.232,
+      "grad_norm": 17.875,
+      "learning_rate": 1.6525925925925927e-05,
+      "loss": 20.8356,
+      "mean_token_accuracy": 0.689462835341692,
+      "num_tokens": 15047356.0,
+      "step": 770
+    },
+    {
+      "entropy": 1.296948005259037,
+      "epoch": 1.248,
+      "grad_norm": 19.0,
+      "learning_rate": 1.6451851851851853e-05,
+      "loss": 21.0571,
+      "mean_token_accuracy": 0.6855845946818591,
+      "num_tokens": 15241098.0,
+      "step": 780
+    },
+    {
+      "entropy": 1.3225075900554657,
+      "epoch": 1.264,
+      "grad_norm": 18.25,
+      "learning_rate": 1.637777777777778e-05,
+      "loss": 21.1821,
+      "mean_token_accuracy": 0.6856160722672939,
+      "num_tokens": 15437657.0,
+      "step": 790
+    },
+    {
+      "entropy": 1.3229579757899046,
+      "epoch": 1.28,
+      "grad_norm": 19.75,
+      "learning_rate": 1.6303703703703706e-05,
+      "loss": 21.3985,
+      "mean_token_accuracy": 0.681986927613616,
+      "num_tokens": 15630795.0,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_biology_entropy": 1.2697611575126648,
+      "eval_biology_loss": 1.299078106880188,
+      "eval_biology_mean_token_accuracy": 0.6915725932121277,
+      "eval_biology_num_tokens": 15630795.0,
+      "eval_biology_runtime": 48.5582,
+      "eval_biology_samples_per_second": 10.297,
+      "eval_biology_steps_per_second": 2.574,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_chemistry_entropy": 0.9691643033027649,
+      "eval_chemistry_loss": 0.9838607311248779,
+      "eval_chemistry_mean_token_accuracy": 0.7591533994674683,
+      "eval_chemistry_num_tokens": 15630795.0,
+      "eval_chemistry_runtime": 60.2581,
+      "eval_chemistry_samples_per_second": 8.298,
+      "eval_chemistry_steps_per_second": 2.074,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_math_entropy": 0.863752941608429,
+      "eval_math_loss": 1.1061811447143555,
+      "eval_math_mean_token_accuracy": 0.7452329030036926,
+      "eval_math_num_tokens": 15630795.0,
+      "eval_math_runtime": 61.8563,
+      "eval_math_samples_per_second": 8.083,
+      "eval_math_steps_per_second": 2.021,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_cyber_entropy": 2.3142928409576418,
+      "eval_cyber_loss": 2.8583574295043945,
+      "eval_cyber_mean_token_accuracy": 0.4875562259554863,
+      "eval_cyber_num_tokens": 15630795.0,
+      "eval_cyber_runtime": 58.9374,
+      "eval_cyber_samples_per_second": 6.736,
+      "eval_cyber_steps_per_second": 1.697,
+      "step": 800
+    },
+    {
+      "entropy": 1.322736281901598,
+      "epoch": 1.296,
+      "grad_norm": 18.375,
+      "learning_rate": 1.622962962962963e-05,
+      "loss": 21.2994,
+      "mean_token_accuracy": 0.6834880676120519,
+      "num_tokens": 15827105.0,
+      "step": 810
+    },
+    {
+      "entropy": 1.3064148597419263,
+      "epoch": 1.312,
+      "grad_norm": 20.375,
+      "learning_rate": 1.6155555555555556e-05,
+      "loss": 21.2908,
+      "mean_token_accuracy": 0.6831366084516048,
+      "num_tokens": 16019645.0,
+      "step": 820
+    },
+    {
+      "entropy": 1.3229932710528374,
+      "epoch": 1.328,
+      "grad_norm": 19.0,
+      "learning_rate": 1.6081481481481482e-05,
+      "loss": 21.2517,
+      "mean_token_accuracy": 0.6835683796554803,
+      "num_tokens": 16221726.0,
+      "step": 830
+    },
+    {
+      "entropy": 1.2925970274955034,
+      "epoch": 1.3439999999999999,
+      "grad_norm": 17.5,
+      "learning_rate": 1.600740740740741e-05,
+      "loss": 20.7376,
+      "mean_token_accuracy": 0.6901313602924347,
+      "num_tokens": 16427594.0,
+      "step": 840
+    },
+    {
+      "entropy": 1.2990364480763674,
+      "epoch": 1.3599999999999999,
+      "grad_norm": 19.875,
+      "learning_rate": 1.5933333333333336e-05,
+      "loss": 21.0638,
+      "mean_token_accuracy": 0.6867326147854328,
+      "num_tokens": 16621605.0,
+      "step": 850
+    },
+    {
+      "entropy": 1.3395817268639802,
+      "epoch": 1.376,
+      "grad_norm": 21.5,
+      "learning_rate": 1.5859259259259262e-05,
+      "loss": 21.6332,
+      "mean_token_accuracy": 0.6804220989346504,
+      "num_tokens": 16813444.0,
+      "step": 860
+    },
+    {
+      "entropy": 1.3104124892503024,
+      "epoch": 1.392,
+      "grad_norm": 18.625,
+      "learning_rate": 1.5785185185185185e-05,
+      "loss": 21.1663,
+      "mean_token_accuracy": 0.6856168929487467,
+      "num_tokens": 17006509.0,
+      "step": 870
+    },
+    {
+      "entropy": 1.3050751704722643,
+      "epoch": 1.408,
+      "grad_norm": 16.625,
+      "learning_rate": 1.571111111111111e-05,
+      "loss": 20.8645,
+      "mean_token_accuracy": 0.6886320147663355,
+      "num_tokens": 17197870.0,
+      "step": 880
+    },
+    {
+      "entropy": 1.2993885681033135,
+      "epoch": 1.424,
+      "grad_norm": 19.625,
+      "learning_rate": 1.5637037037037038e-05,
+      "loss": 21.0292,
+      "mean_token_accuracy": 0.6871409460902214,
+      "num_tokens": 17394390.0,
+      "step": 890
+    },
+    {
+      "entropy": 1.2986160211265088,
+      "epoch": 1.44,
+      "grad_norm": 22.75,
+      "learning_rate": 1.5562962962962965e-05,
+      "loss": 21.064,
+      "mean_token_accuracy": 0.6858013048768044,
+      "num_tokens": 17587777.0,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_biology_entropy": 1.2633282842636109,
+      "eval_biology_loss": 1.2911479473114014,
+      "eval_biology_mean_token_accuracy": 0.6930723128318786,
+      "eval_biology_num_tokens": 17587777.0,
+      "eval_biology_runtime": 48.5747,
+      "eval_biology_samples_per_second": 10.293,
+      "eval_biology_steps_per_second": 2.573,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_chemistry_entropy": 0.9724984226226807,
+      "eval_chemistry_loss": 0.9782924056053162,
+      "eval_chemistry_mean_token_accuracy": 0.7604495301246643,
+      "eval_chemistry_num_tokens": 17587777.0,
+      "eval_chemistry_runtime": 60.2279,
+      "eval_chemistry_samples_per_second": 8.302,
+      "eval_chemistry_steps_per_second": 2.075,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_math_entropy": 0.878196352481842,
+      "eval_math_loss": 1.0984141826629639,
+      "eval_math_mean_token_accuracy": 0.7456621165275574,
+      "eval_math_num_tokens": 17587777.0,
+      "eval_math_runtime": 61.7802,
+      "eval_math_samples_per_second": 8.093,
+      "eval_math_steps_per_second": 2.023,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_cyber_entropy": 2.317098902463913,
+      "eval_cyber_loss": 2.8237366676330566,
+      "eval_cyber_mean_token_accuracy": 0.49122542947530745,
+      "eval_cyber_num_tokens": 17587777.0,
+      "eval_cyber_runtime": 58.9196,
+      "eval_cyber_samples_per_second": 6.738,
+      "eval_cyber_steps_per_second": 1.697,
+      "step": 900
+    },
+    {
+      "entropy": 1.2987288374453783,
+      "epoch": 1.456,
+      "grad_norm": 18.375,
+      "learning_rate": 1.548888888888889e-05,
+      "loss": 20.8783,
+      "mean_token_accuracy": 0.6883518882095814,
+      "num_tokens": 17788456.0,
+      "step": 910
+    },
+    {
+      "entropy": 1.292324574291706,
+      "epoch": 1.472,
+      "grad_norm": 17.375,
+      "learning_rate": 1.5414814814814814e-05,
+      "loss": 20.8447,
+      "mean_token_accuracy": 0.6893134098500013,
+      "num_tokens": 17984063.0,
+      "step": 920
+    },
+    {
+      "entropy": 1.2839893605560064,
+      "epoch": 1.488,
+      "grad_norm": 19.125,
+      "learning_rate": 1.5340740740740744e-05,
+      "loss": 20.8773,
+      "mean_token_accuracy": 0.6899567134678364,
+      "num_tokens": 18175640.0,
+      "step": 930
+    },
+    {
+      "entropy": 1.3172472290694714,
+      "epoch": 1.504,
+      "grad_norm": 19.25,
+      "learning_rate": 1.5266666666666667e-05,
+      "loss": 21.141,
+      "mean_token_accuracy": 0.687034023180604,
+      "num_tokens": 18367857.0,
+      "step": 940
+    },
+    {
+      "entropy": 1.288551079109311,
+      "epoch": 1.52,
+      "grad_norm": 18.375,
+      "learning_rate": 1.5192592592592594e-05,
+      "loss": 21.025,
+      "mean_token_accuracy": 0.6869576655328273,
+      "num_tokens": 18569146.0,
+      "step": 950
+    },
+    {
+      "entropy": 1.3221289869397879,
+      "epoch": 1.536,
+      "grad_norm": 19.75,
+      "learning_rate": 1.5118518518518519e-05,
+      "loss": 21.2,
+      "mean_token_accuracy": 0.6844527788460255,
+      "num_tokens": 18755079.0,
+      "step": 960
+    },
+    {
+      "entropy": 1.2898046210408212,
+      "epoch": 1.552,
+      "grad_norm": 20.375,
+      "learning_rate": 1.5044444444444445e-05,
+      "loss": 20.8166,
+      "mean_token_accuracy": 0.690209424123168,
+      "num_tokens": 18956248.0,
+      "step": 970
+    },
+    {
+      "entropy": 1.280243619531393,
+      "epoch": 1.568,
+      "grad_norm": 19.875,
+      "learning_rate": 1.497037037037037e-05,
+      "loss": 20.6218,
+      "mean_token_accuracy": 0.6917802631855011,
+      "num_tokens": 19150315.0,
+      "step": 980
+    },
+    {
+      "entropy": 1.2912988126277924,
+      "epoch": 1.584,
+      "grad_norm": 18.875,
+      "learning_rate": 1.4896296296296298e-05,
+      "loss": 20.7886,
+      "mean_token_accuracy": 0.6892261151224375,
+      "num_tokens": 19344260.0,
+      "step": 990
+    },
+    {
+      "entropy": 1.3189360287040472,
+      "epoch": 1.6,
+      "grad_norm": 19.0,
+      "learning_rate": 1.4822222222222225e-05,
+      "loss": 21.2912,
+      "mean_token_accuracy": 0.6828928265720606,
+      "num_tokens": 19532552.0,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_biology_entropy": 1.263430886745453,
+      "eval_biology_loss": 1.2847552299499512,
+      "eval_biology_mean_token_accuracy": 0.6937462825775147,
+      "eval_biology_num_tokens": 19532552.0,
+      "eval_biology_runtime": 48.616,
+      "eval_biology_samples_per_second": 10.285,
+      "eval_biology_steps_per_second": 2.571,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_chemistry_entropy": 0.9613517146110535,
+      "eval_chemistry_loss": 0.9752106070518494,
+      "eval_chemistry_mean_token_accuracy": 0.7608753662109375,
+      "eval_chemistry_num_tokens": 19532552.0,
+      "eval_chemistry_runtime": 60.0131,
+      "eval_chemistry_samples_per_second": 8.332,
+      "eval_chemistry_steps_per_second": 2.083,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_math_entropy": 0.8507145104408265,
+      "eval_math_loss": 1.0975427627563477,
+      "eval_math_mean_token_accuracy": 0.7471181530952453,
+      "eval_math_num_tokens": 19532552.0,
+      "eval_math_runtime": 61.5437,
+      "eval_math_samples_per_second": 8.124,
+      "eval_math_steps_per_second": 2.031,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_cyber_entropy": 2.262136605978012,
+      "eval_cyber_loss": 2.8179190158843994,
+      "eval_cyber_mean_token_accuracy": 0.4946762239933014,
+      "eval_cyber_num_tokens": 19532552.0,
+      "eval_cyber_runtime": 58.9033,
+      "eval_cyber_samples_per_second": 6.74,
+      "eval_cyber_steps_per_second": 1.698,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 3000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.2020838985302374e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

recover-backup/checkpoint-2000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

recover-backup/checkpoint-2000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

recover-backup/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,110 @@

+{
+  "architectures": [
+    "Gemma3ForConditionalGeneration"
+  ],
+  "boi_token_index": 255999,
+  "bos_token_id": 2,
+  "dtype": "bfloat16",
+  "eoi_token_index": 256000,
+  "eos_token_id": 1,
+  "image_token_index": 262144,
+  "initializer_range": 0.02,
+  "mm_tokens_per_image": 256,
+  "model_type": "gemma3",
+  "pad_token_id": 0,
+  "text_config": {
+    "_sliding_window_pattern": 6,
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attn_logit_softcapping": null,
+    "dtype": "bfloat16",
+    "final_logit_softcapping": null,
+    "head_dim": 256,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 3840,
+    "initializer_range": 0.02,
+    "intermediate_size": 15360,
+    "layer_types": [
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 131072,
+    "model_type": "gemma3_text",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 48,
+    "num_key_value_heads": 8,
+    "query_pre_attn_scalar": 256,
+    "rms_norm_eps": 1e-06,
+    "rope_local_base_freq": 10000.0,
+    "rope_scaling": {
+      "factor": 8.0,
+      "rope_type": "linear"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 1024,
+    "use_cache": true,
+    "vocab_size": 262208
+  },
+  "transformers_version": "4.56.1",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 896,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 27,
+    "patch_size": 14,
+    "vision_use_head": false
+  }
+}

recover-backup/checkpoint-2000/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 2,
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.56.1"
+}

recover-backup/checkpoint-2000/model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

recover-backup/checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c56cc7d2ab3dfe9edf7a28cb038a85004572c59f841d9bdfd8a137d5d874b19
+size 1465

recover-backup/checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

recover-backup/checkpoint-2000/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
+size 33384568

recover-backup/checkpoint-2000/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

recover-backup/checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2914 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.2,
+  "eval_steps": 100,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "entropy": 0.6808024171739817,
+      "epoch": 0.016,
+      "grad_norm": 2096.0,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 81.3949,
+      "mean_token_accuracy": 0.469288082793355,
+      "num_tokens": 195524.0,
+      "step": 10
+    },
+    {
+      "entropy": 0.6932845771312713,
+      "epoch": 0.032,
+      "grad_norm": 1840.0,
+      "learning_rate": 1.2666666666666669e-06,
+      "loss": 79.1276,
+      "mean_token_accuracy": 0.4702936248853803,
+      "num_tokens": 390903.0,
+      "step": 20
+    },
+    {
+      "entropy": 0.7348822019994259,
+      "epoch": 0.048,
+      "grad_norm": 1896.0,
+      "learning_rate": 1.9333333333333336e-06,
+      "loss": 75.5796,
+      "mean_token_accuracy": 0.47059151269495486,
+      "num_tokens": 589868.0,
+      "step": 30
+    },
+    {
+      "entropy": 0.8692382726818323,
+      "epoch": 0.064,
+      "grad_norm": 868.0,
+      "learning_rate": 2.6e-06,
+      "loss": 66.3894,
+      "mean_token_accuracy": 0.4747353194281459,
+      "num_tokens": 791190.0,
+      "step": 40
+    },
+    {
+      "entropy": 1.1099284883588552,
+      "epoch": 0.08,
+      "grad_norm": 520.0,
+      "learning_rate": 3.266666666666667e-06,
+      "loss": 57.5001,
+      "mean_token_accuracy": 0.47747670076787474,
+      "num_tokens": 989860.0,
+      "step": 50
+    },
+    {
+      "entropy": 1.4874154418706893,
+      "epoch": 0.096,
+      "grad_norm": 144.0,
+      "learning_rate": 3.9333333333333335e-06,
+      "loss": 48.6006,
+      "mean_token_accuracy": 0.4924122652038932,
+      "num_tokens": 1181777.0,
+      "step": 60
+    },
+    {
+      "entropy": 2.022240047156811,
+      "epoch": 0.112,
+      "grad_norm": 52.0,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 41.7489,
+      "mean_token_accuracy": 0.5201752169057727,
+      "num_tokens": 1385513.0,
+      "step": 70
+    },
+    {
+      "entropy": 2.395130204409361,
+      "epoch": 0.128,
+      "grad_norm": 44.0,
+      "learning_rate": 5.2666666666666665e-06,
+      "loss": 37.2886,
+      "mean_token_accuracy": 0.5428294729441404,
+      "num_tokens": 1582368.0,
+      "step": 80
+    },
+    {
+      "entropy": 2.1368538811802864,
+      "epoch": 0.144,
+      "grad_norm": 29.5,
+      "learning_rate": 5.933333333333335e-06,
+      "loss": 33.907,
+      "mean_token_accuracy": 0.5704466678202152,
+      "num_tokens": 1773764.0,
+      "step": 90
+    },
+    {
+      "entropy": 1.9877845980226994,
+      "epoch": 0.16,
+      "grad_norm": 25.375,
+      "learning_rate": 6.600000000000001e-06,
+      "loss": 31.7141,
+      "mean_token_accuracy": 0.58747753277421,
+      "num_tokens": 1970077.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_biology_entropy": 1.911924614906311,
+      "eval_biology_loss": 1.831228256225586,
+      "eval_biology_mean_token_accuracy": 0.6091388630867004,
+      "eval_biology_num_tokens": 1970077.0,
+      "eval_biology_runtime": 48.4202,
+      "eval_biology_samples_per_second": 10.326,
+      "eval_biology_steps_per_second": 2.582,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_chemistry_entropy": 1.5279665517807006,
+      "eval_chemistry_loss": 1.507634162902832,
+      "eval_chemistry_mean_token_accuracy": 0.6661558594703675,
+      "eval_chemistry_num_tokens": 1970077.0,
+      "eval_chemistry_runtime": 60.0771,
+      "eval_chemistry_samples_per_second": 8.323,
+      "eval_chemistry_steps_per_second": 2.081,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_math_entropy": 1.3111717319488525,
+      "eval_math_loss": 1.5638481378555298,
+      "eval_math_mean_token_accuracy": 0.6615601582527161,
+      "eval_math_num_tokens": 1970077.0,
+      "eval_math_runtime": 61.5942,
+      "eval_math_samples_per_second": 8.118,
+      "eval_math_steps_per_second": 2.029,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_cyber_entropy": 2.3538206100463865,
+      "eval_cyber_loss": 3.4596033096313477,
+      "eval_cyber_mean_token_accuracy": 0.4573894315958023,
+      "eval_cyber_num_tokens": 1970077.0,
+      "eval_cyber_runtime": 58.7811,
+      "eval_cyber_samples_per_second": 6.754,
+      "eval_cyber_steps_per_second": 1.701,
+      "step": 100
+    },
+    {
+      "entropy": 1.8946144469082355,
+      "epoch": 0.176,
+      "grad_norm": 22.0,
+      "learning_rate": 7.266666666666668e-06,
+      "loss": 29.5004,
+      "mean_token_accuracy": 0.6055971266701817,
+      "num_tokens": 2168354.0,
+      "step": 110
+    },
+    {
+      "entropy": 1.7916729532182216,
+      "epoch": 0.192,
+      "grad_norm": 22.375,
+      "learning_rate": 7.933333333333334e-06,
+      "loss": 28.5473,
+      "mean_token_accuracy": 0.6124886509031058,
+      "num_tokens": 2365822.0,
+      "step": 120
+    },
+    {
+      "entropy": 1.7780573107302189,
+      "epoch": 0.208,
+      "grad_norm": 20.625,
+      "learning_rate": 8.6e-06,
+      "loss": 28.0106,
+      "mean_token_accuracy": 0.617958590388298,
+      "num_tokens": 2558762.0,
+      "step": 130
+    },
+    {
+      "entropy": 1.6913408383727073,
+      "epoch": 0.224,
+      "grad_norm": 19.875,
+      "learning_rate": 9.266666666666667e-06,
+      "loss": 27.182,
+      "mean_token_accuracy": 0.6272589169442654,
+      "num_tokens": 2755347.0,
+      "step": 140
+    },
+    {
+      "entropy": 1.6812096990644931,
+      "epoch": 0.24,
+      "grad_norm": 19.5,
+      "learning_rate": 9.933333333333334e-06,
+      "loss": 26.6205,
+      "mean_token_accuracy": 0.6303446084260941,
+      "num_tokens": 2947346.0,
+      "step": 150
+    },
+    {
+      "entropy": 1.6677771665155887,
+      "epoch": 0.256,
+      "grad_norm": 20.25,
+      "learning_rate": 1.0600000000000002e-05,
+      "loss": 26.6086,
+      "mean_token_accuracy": 0.6319835562258959,
+      "num_tokens": 3139957.0,
+      "step": 160
+    },
+    {
+      "entropy": 1.6161759495735168,
+      "epoch": 0.272,
+      "grad_norm": 20.375,
+      "learning_rate": 1.1266666666666668e-05,
+      "loss": 26.0026,
+      "mean_token_accuracy": 0.6365392006933689,
+      "num_tokens": 3335951.0,
+      "step": 170
+    },
+    {
+      "entropy": 1.6003736153244972,
+      "epoch": 0.288,
+      "grad_norm": 21.0,
+      "learning_rate": 1.1933333333333335e-05,
+      "loss": 25.4302,
+      "mean_token_accuracy": 0.6393310058861971,
+      "num_tokens": 3539731.0,
+      "step": 180
+    },
+    {
+      "entropy": 1.5776585705578328,
+      "epoch": 0.304,
+      "grad_norm": 18.875,
+      "learning_rate": 1.2600000000000001e-05,
+      "loss": 25.2177,
+      "mean_token_accuracy": 0.646138820424676,
+      "num_tokens": 3733488.0,
+      "step": 190
+    },
+    {
+      "entropy": 1.5823919720947743,
+      "epoch": 0.32,
+      "grad_norm": 21.75,
+      "learning_rate": 1.3266666666666668e-05,
+      "loss": 25.46,
+      "mean_token_accuracy": 0.6409369662404061,
+      "num_tokens": 3920545.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_biology_entropy": 1.5241963243484498,
+      "eval_biology_loss": 1.512497067451477,
+      "eval_biology_mean_token_accuracy": 0.656851170539856,
+      "eval_biology_num_tokens": 3920545.0,
+      "eval_biology_runtime": 48.4372,
+      "eval_biology_samples_per_second": 10.323,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_chemistry_entropy": 1.1822538471221924,
+      "eval_chemistry_loss": 1.178497552871704,
+      "eval_chemistry_mean_token_accuracy": 0.7221880826950073,
+      "eval_chemistry_num_tokens": 3920545.0,
+      "eval_chemistry_runtime": 60.0879,
+      "eval_chemistry_samples_per_second": 8.321,
+      "eval_chemistry_steps_per_second": 2.08,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_math_entropy": 0.9796018509864807,
+      "eval_math_loss": 1.2802495956420898,
+      "eval_math_mean_token_accuracy": 0.713343710899353,
+      "eval_math_num_tokens": 3920545.0,
+      "eval_math_runtime": 61.6189,
+      "eval_math_samples_per_second": 8.114,
+      "eval_math_steps_per_second": 2.029,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_cyber_entropy": 2.516505275964737,
+      "eval_cyber_loss": 3.1510307788848877,
+      "eval_cyber_mean_token_accuracy": 0.47284564673900603,
+      "eval_cyber_num_tokens": 3920545.0,
+      "eval_cyber_runtime": 58.8071,
+      "eval_cyber_samples_per_second": 6.751,
+      "eval_cyber_steps_per_second": 1.7,
+      "step": 200
+    },
+    {
+      "entropy": 1.5317105814814567,
+      "epoch": 0.336,
+      "grad_norm": 18.375,
+      "learning_rate": 1.3933333333333334e-05,
+      "loss": 24.5282,
+      "mean_token_accuracy": 0.6502130385488272,
+      "num_tokens": 4114077.0,
+      "step": 210
+    },
+    {
+      "entropy": 1.5466628648340701,
+      "epoch": 0.352,
+      "grad_norm": 18.875,
+      "learning_rate": 1.46e-05,
+      "loss": 24.8233,
+      "mean_token_accuracy": 0.6490028414875268,
+      "num_tokens": 4306949.0,
+      "step": 220
+    },
+    {
+      "entropy": 1.5188672259449958,
+      "epoch": 0.368,
+      "grad_norm": 19.25,
+      "learning_rate": 1.5266666666666667e-05,
+      "loss": 24.4549,
+      "mean_token_accuracy": 0.6544424753636122,
+      "num_tokens": 4504001.0,
+      "step": 230
+    },
+    {
+      "entropy": 1.5070753492414952,
+      "epoch": 0.384,
+      "grad_norm": 21.75,
+      "learning_rate": 1.5933333333333336e-05,
+      "loss": 24.3379,
+      "mean_token_accuracy": 0.6532186731696129,
+      "num_tokens": 4693812.0,
+      "step": 240
+    },
+    {
+      "entropy": 1.5358249843120575,
+      "epoch": 0.4,
+      "grad_norm": 17.25,
+      "learning_rate": 1.66e-05,
+      "loss": 24.4225,
+      "mean_token_accuracy": 0.6525934401899576,
+      "num_tokens": 4887094.0,
+      "step": 250
+    },
+    {
+      "entropy": 1.5161145091056825,
+      "epoch": 0.416,
+      "grad_norm": 19.75,
+      "learning_rate": 1.726666666666667e-05,
+      "loss": 24.4554,
+      "mean_token_accuracy": 0.6528204523026944,
+      "num_tokens": 5085369.0,
+      "step": 260
+    },
+    {
+      "entropy": 1.5000567641109228,
+      "epoch": 0.432,
+      "grad_norm": 20.625,
+      "learning_rate": 1.7933333333333333e-05,
+      "loss": 24.2948,
+      "mean_token_accuracy": 0.6535403318703175,
+      "num_tokens": 5271275.0,
+      "step": 270
+    },
+    {
+      "entropy": 1.5077810816466808,
+      "epoch": 0.448,
+      "grad_norm": 22.375,
+      "learning_rate": 1.86e-05,
+      "loss": 24.2712,
+      "mean_token_accuracy": 0.6533999439328909,
+      "num_tokens": 5460559.0,
+      "step": 280
+    },
+    {
+      "entropy": 1.4563340097665787,
+      "epoch": 0.464,
+      "grad_norm": 22.0,
+      "learning_rate": 1.926666666666667e-05,
+      "loss": 23.2755,
+      "mean_token_accuracy": 0.6638390984386205,
+      "num_tokens": 5653809.0,
+      "step": 290
+    },
+    {
+      "entropy": 1.468742286041379,
+      "epoch": 0.48,
+      "grad_norm": 18.0,
+      "learning_rate": 1.9933333333333334e-05,
+      "loss": 23.7149,
+      "mean_token_accuracy": 0.6593498229980469,
+      "num_tokens": 5850176.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_biology_entropy": 1.4316115617752074,
+      "eval_biology_loss": 1.4177387952804565,
+      "eval_biology_mean_token_accuracy": 0.6717347936630249,
+      "eval_biology_num_tokens": 5850176.0,
+      "eval_biology_runtime": 48.4847,
+      "eval_biology_samples_per_second": 10.313,
+      "eval_biology_steps_per_second": 2.578,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_chemistry_entropy": 1.1160053358078004,
+      "eval_chemistry_loss": 1.0916916131973267,
+      "eval_chemistry_mean_token_accuracy": 0.7381541066169739,
+      "eval_chemistry_num_tokens": 5850176.0,
+      "eval_chemistry_runtime": 60.1537,
+      "eval_chemistry_samples_per_second": 8.312,
+      "eval_chemistry_steps_per_second": 2.078,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_math_entropy": 0.9393695564270019,
+      "eval_math_loss": 1.2016712427139282,
+      "eval_math_mean_token_accuracy": 0.7277262687683106,
+      "eval_math_num_tokens": 5850176.0,
+      "eval_math_runtime": 61.6699,
+      "eval_math_samples_per_second": 8.108,
+      "eval_math_steps_per_second": 2.027,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_cyber_entropy": 2.514738072156906,
+      "eval_cyber_loss": 2.9828875064849854,
+      "eval_cyber_mean_token_accuracy": 0.47654601037502287,
+      "eval_cyber_num_tokens": 5850176.0,
+      "eval_cyber_runtime": 58.8231,
+      "eval_cyber_samples_per_second": 6.749,
+      "eval_cyber_steps_per_second": 1.7,
+      "step": 300
+    },
+    {
+      "entropy": 1.3836464550346137,
+      "epoch": 0.496,
+      "grad_norm": 17.875,
+      "learning_rate": 1.9933333333333334e-05,
+      "loss": 22.405,
+      "mean_token_accuracy": 0.6713070213794708,
+      "num_tokens": 6046503.0,
+      "step": 310
+    },
+    {
+      "entropy": 1.4630893386900425,
+      "epoch": 0.512,
+      "grad_norm": 19.25,
+      "learning_rate": 1.985925925925926e-05,
+      "loss": 23.4697,
+      "mean_token_accuracy": 0.6617988537997007,
+      "num_tokens": 6240456.0,
+      "step": 320
+    },
+    {
+      "entropy": 1.448515933379531,
+      "epoch": 0.528,
+      "grad_norm": 18.75,
+      "learning_rate": 1.9785185185185187e-05,
+      "loss": 23.3355,
+      "mean_token_accuracy": 0.6626260321587324,
+      "num_tokens": 6430555.0,
+      "step": 330
+    },
+    {
+      "entropy": 1.44985730946064,
+      "epoch": 0.544,
+      "grad_norm": 18.625,
+      "learning_rate": 1.971111111111111e-05,
+      "loss": 23.3133,
+      "mean_token_accuracy": 0.665154778957367,
+      "num_tokens": 6626006.0,
+      "step": 340
+    },
+    {
+      "entropy": 1.4254157304763795,
+      "epoch": 0.56,
+      "grad_norm": 19.125,
+      "learning_rate": 1.963703703703704e-05,
+      "loss": 23.1032,
+      "mean_token_accuracy": 0.6651736661791802,
+      "num_tokens": 6820754.0,
+      "step": 350
+    },
+    {
+      "entropy": 1.4192099779844285,
+      "epoch": 0.576,
+      "grad_norm": 18.875,
+      "learning_rate": 1.9562962962962964e-05,
+      "loss": 22.7221,
+      "mean_token_accuracy": 0.6693361282348633,
+      "num_tokens": 7021844.0,
+      "step": 360
+    },
+    {
+      "entropy": 1.4211084496229887,
+      "epoch": 0.592,
+      "grad_norm": 19.0,
+      "learning_rate": 1.948888888888889e-05,
+      "loss": 23.0159,
+      "mean_token_accuracy": 0.6660285223275423,
+      "num_tokens": 7213951.0,
+      "step": 370
+    },
+    {
+      "entropy": 1.4022404573857785,
+      "epoch": 0.608,
+      "grad_norm": 18.625,
+      "learning_rate": 1.9414814814814817e-05,
+      "loss": 22.5685,
+      "mean_token_accuracy": 0.6711618881672621,
+      "num_tokens": 7416773.0,
+      "step": 380
+    },
+    {
+      "entropy": 1.4124153569340705,
+      "epoch": 0.624,
+      "grad_norm": 18.625,
+      "learning_rate": 1.9340740740740743e-05,
+      "loss": 22.8021,
+      "mean_token_accuracy": 0.6678782407194376,
+      "num_tokens": 7612843.0,
+      "step": 390
+    },
+    {
+      "entropy": 1.4238922595977783,
+      "epoch": 0.64,
+      "grad_norm": 20.375,
+      "learning_rate": 1.926666666666667e-05,
+      "loss": 22.9558,
+      "mean_token_accuracy": 0.6680531721562147,
+      "num_tokens": 7801633.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_biology_entropy": 1.3578908562660217,
+      "eval_biology_loss": 1.3675978183746338,
+      "eval_biology_mean_token_accuracy": 0.6797989273071289,
+      "eval_biology_num_tokens": 7801633.0,
+      "eval_biology_runtime": 48.4218,
+      "eval_biology_samples_per_second": 10.326,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_chemistry_entropy": 1.0446269502639771,
+      "eval_chemistry_loss": 1.0433638095855713,
+      "eval_chemistry_mean_token_accuracy": 0.7473979935646057,
+      "eval_chemistry_num_tokens": 7801633.0,
+      "eval_chemistry_runtime": 60.1024,
+      "eval_chemistry_samples_per_second": 8.319,
+      "eval_chemistry_steps_per_second": 2.08,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_math_entropy": 0.8829994263648987,
+      "eval_math_loss": 1.168383002281189,
+      "eval_math_mean_token_accuracy": 0.7337917404174805,
+      "eval_math_num_tokens": 7801633.0,
+      "eval_math_runtime": 61.66,
+      "eval_math_samples_per_second": 8.109,
+      "eval_math_steps_per_second": 2.027,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_cyber_entropy": 2.3425097274780273,
+      "eval_cyber_loss": 2.8961009979248047,
+      "eval_cyber_mean_token_accuracy": 0.48323330402374265,
+      "eval_cyber_num_tokens": 7801633.0,
+      "eval_cyber_runtime": 58.7869,
+      "eval_cyber_samples_per_second": 6.753,
+      "eval_cyber_steps_per_second": 1.701,
+      "step": 400
+    },
+    {
+      "entropy": 1.4169765036553144,
+      "epoch": 0.656,
+      "grad_norm": 21.125,
+      "learning_rate": 1.9192592592592593e-05,
+      "loss": 22.9523,
+      "mean_token_accuracy": 0.6662464819848537,
+      "num_tokens": 7995843.0,
+      "step": 410
+    },
+    {
+      "entropy": 1.43333672657609,
+      "epoch": 0.672,
+      "grad_norm": 18.625,
+      "learning_rate": 1.911851851851852e-05,
+      "loss": 22.9483,
+      "mean_token_accuracy": 0.667000836879015,
+      "num_tokens": 8183103.0,
+      "step": 420
+    },
+    {
+      "entropy": 1.4049694981426,
+      "epoch": 0.688,
+      "grad_norm": 17.75,
+      "learning_rate": 1.9044444444444446e-05,
+      "loss": 22.7023,
+      "mean_token_accuracy": 0.670426407828927,
+      "num_tokens": 8385976.0,
+      "step": 430
+    },
+    {
+      "entropy": 1.4090089831501245,
+      "epoch": 0.704,
+      "grad_norm": 17.875,
+      "learning_rate": 1.8970370370370372e-05,
+      "loss": 22.6381,
+      "mean_token_accuracy": 0.6711054440587759,
+      "num_tokens": 8578431.0,
+      "step": 440
+    },
+    {
+      "entropy": 1.3353864025324582,
+      "epoch": 0.72,
+      "grad_norm": 17.75,
+      "learning_rate": 1.8896296296296295e-05,
+      "loss": 21.6293,
+      "mean_token_accuracy": 0.681050893291831,
+      "num_tokens": 8781342.0,
+      "step": 450
+    },
+    {
+      "entropy": 1.3734276317059995,
+      "epoch": 0.736,
+      "grad_norm": 17.25,
+      "learning_rate": 1.8822222222222225e-05,
+      "loss": 22.0542,
+      "mean_token_accuracy": 0.6750697229057551,
+      "num_tokens": 8977918.0,
+      "step": 460
+    },
+    {
+      "entropy": 1.3878948390483856,
+      "epoch": 0.752,
+      "grad_norm": 17.875,
+      "learning_rate": 1.874814814814815e-05,
+      "loss": 22.4846,
+      "mean_token_accuracy": 0.6717681255191564,
+      "num_tokens": 9169322.0,
+      "step": 470
+    },
+    {
+      "entropy": 1.3424169197678566,
+      "epoch": 0.768,
+      "grad_norm": 20.125,
+      "learning_rate": 1.8674074074074075e-05,
+      "loss": 21.6359,
+      "mean_token_accuracy": 0.6805981863290071,
+      "num_tokens": 9368141.0,
+      "step": 480
+    },
+    {
+      "entropy": 1.3768138941377401,
+      "epoch": 0.784,
+      "grad_norm": 19.75,
+      "learning_rate": 1.86e-05,
+      "loss": 22.1917,
+      "mean_token_accuracy": 0.6750959828495979,
+      "num_tokens": 9565236.0,
+      "step": 490
+    },
+    {
+      "entropy": 1.3996582824736834,
+      "epoch": 0.8,
+      "grad_norm": 19.25,
+      "learning_rate": 1.8525925925925928e-05,
+      "loss": 22.6339,
+      "mean_token_accuracy": 0.6715325634926558,
+      "num_tokens": 9761227.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_biology_entropy": 1.3487377295494078,
+      "eval_biology_loss": 1.3396238088607788,
+      "eval_biology_mean_token_accuracy": 0.6843163523674011,
+      "eval_biology_num_tokens": 9761227.0,
+      "eval_biology_runtime": 48.4345,
+      "eval_biology_samples_per_second": 10.323,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_chemistry_entropy": 1.0342083148956298,
+      "eval_chemistry_loss": 1.015425682067871,
+      "eval_chemistry_mean_token_accuracy": 0.7529125623703002,
+      "eval_chemistry_num_tokens": 9761227.0,
+      "eval_chemistry_runtime": 59.7072,
+      "eval_chemistry_samples_per_second": 8.374,
+      "eval_chemistry_steps_per_second": 2.094,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_math_entropy": 0.9004156064987182,
+      "eval_math_loss": 1.1309455633163452,
+      "eval_math_mean_token_accuracy": 0.7394839000701904,
+      "eval_math_num_tokens": 9761227.0,
+      "eval_math_runtime": 61.1899,
+      "eval_math_samples_per_second": 8.171,
+      "eval_math_steps_per_second": 2.043,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_cyber_entropy": 2.320133538246155,
+      "eval_cyber_loss": 2.8678040504455566,
+      "eval_cyber_mean_token_accuracy": 0.4835522577166557,
+      "eval_cyber_num_tokens": 9761227.0,
+      "eval_cyber_runtime": 58.9104,
+      "eval_cyber_samples_per_second": 6.739,
+      "eval_cyber_steps_per_second": 1.697,
+      "step": 500
+    },
+    {
+      "entropy": 1.35246634632349,
+      "epoch": 0.816,
+      "grad_norm": 20.75,
+      "learning_rate": 1.8451851851851855e-05,
+      "loss": 21.7978,
+      "mean_token_accuracy": 0.6768883503973484,
+      "num_tokens": 9958727.0,
+      "step": 510
+    },
+    {
+      "entropy": 1.3554580289870501,
+      "epoch": 0.832,
+      "grad_norm": 17.5,
+      "learning_rate": 1.8377777777777778e-05,
+      "loss": 21.7881,
+      "mean_token_accuracy": 0.6783689457923174,
+      "num_tokens": 10155771.0,
+      "step": 520
+    },
+    {
+      "entropy": 1.342598542943597,
+      "epoch": 0.848,
+      "grad_norm": 19.5,
+      "learning_rate": 1.8303703703703704e-05,
+      "loss": 21.6264,
+      "mean_token_accuracy": 0.679912555962801,
+      "num_tokens": 10357721.0,
+      "step": 530
+    },
+    {
+      "entropy": 1.3717901095747949,
+      "epoch": 0.864,
+      "grad_norm": 18.375,
+      "learning_rate": 1.822962962962963e-05,
+      "loss": 22.2423,
+      "mean_token_accuracy": 0.6749696064740419,
+      "num_tokens": 10552495.0,
+      "step": 540
+    },
+    {
+      "entropy": 1.3606136079877615,
+      "epoch": 0.88,
+      "grad_norm": 21.0,
+      "learning_rate": 1.8155555555555557e-05,
+      "loss": 21.921,
+      "mean_token_accuracy": 0.6776851717382669,
+      "num_tokens": 10748749.0,
+      "step": 550
+    },
+    {
+      "entropy": 1.3807077493518591,
+      "epoch": 0.896,
+      "grad_norm": 19.0,
+      "learning_rate": 1.8081481481481484e-05,
+      "loss": 22.306,
+      "mean_token_accuracy": 0.6740046124905348,
+      "num_tokens": 10943319.0,
+      "step": 560
+    },
+    {
+      "entropy": 1.3541915334761143,
+      "epoch": 0.912,
+      "grad_norm": 20.5,
+      "learning_rate": 1.800740740740741e-05,
+      "loss": 21.989,
+      "mean_token_accuracy": 0.6777493793517351,
+      "num_tokens": 11136935.0,
+      "step": 570
+    },
+    {
+      "entropy": 1.3871366024017333,
+      "epoch": 0.928,
+      "grad_norm": 19.75,
+      "learning_rate": 1.7933333333333333e-05,
+      "loss": 22.1135,
+      "mean_token_accuracy": 0.6744728099554778,
+      "num_tokens": 11331098.0,
+      "step": 580
+    },
+    {
+      "entropy": 1.3096800699830056,
+      "epoch": 0.944,
+      "grad_norm": 17.5,
+      "learning_rate": 1.785925925925926e-05,
+      "loss": 21.2939,
+      "mean_token_accuracy": 0.6831198997795582,
+      "num_tokens": 11530550.0,
+      "step": 590
+    },
+    {
+      "entropy": 1.3506321482360364,
+      "epoch": 0.96,
+      "grad_norm": 20.875,
+      "learning_rate": 1.7785185185185186e-05,
+      "loss": 21.8226,
+      "mean_token_accuracy": 0.6785171415656805,
+      "num_tokens": 11729645.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_biology_entropy": 1.3259480624198914,
+      "eval_biology_loss": 1.3215161561965942,
+      "eval_biology_mean_token_accuracy": 0.6879564213752747,
+      "eval_biology_num_tokens": 11729645.0,
+      "eval_biology_runtime": 48.4324,
+      "eval_biology_samples_per_second": 10.324,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_chemistry_entropy": 1.02067849111557,
+      "eval_chemistry_loss": 0.9999639987945557,
+      "eval_chemistry_mean_token_accuracy": 0.7563390741348267,
+      "eval_chemistry_num_tokens": 11729645.0,
+      "eval_chemistry_runtime": 60.1019,
+      "eval_chemistry_samples_per_second": 8.319,
+      "eval_chemistry_steps_per_second": 2.08,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_math_entropy": 0.895684769153595,
+      "eval_math_loss": 1.1203279495239258,
+      "eval_math_mean_token_accuracy": 0.7420237326622009,
+      "eval_math_num_tokens": 11729645.0,
+      "eval_math_runtime": 61.6071,
+      "eval_math_samples_per_second": 8.116,
+      "eval_math_steps_per_second": 2.029,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_cyber_entropy": 2.2757809734344483,
+      "eval_cyber_loss": 2.8872666358947754,
+      "eval_cyber_mean_token_accuracy": 0.4848860424757004,
+      "eval_cyber_num_tokens": 11729645.0,
+      "eval_cyber_runtime": 58.7914,
+      "eval_cyber_samples_per_second": 6.753,
+      "eval_cyber_steps_per_second": 1.701,
+      "step": 600
+    },
+    {
+      "entropy": 1.3319925643503665,
+      "epoch": 0.976,
+      "grad_norm": 18.875,
+      "learning_rate": 1.7711111111111113e-05,
+      "loss": 21.4623,
+      "mean_token_accuracy": 0.6810844399034977,
+      "num_tokens": 11924644.0,
+      "step": 610
+    },
+    {
+      "entropy": 1.354709730297327,
+      "epoch": 0.992,
+      "grad_norm": 17.875,
+      "learning_rate": 1.763703703703704e-05,
+      "loss": 22.0021,
+      "mean_token_accuracy": 0.6767893016338349,
+      "num_tokens": 12123059.0,
+      "step": 620
+    },
+    {
+      "entropy": 1.358278013765812,
+      "epoch": 1.008,
+      "grad_norm": 17.625,
+      "learning_rate": 1.7562962962962962e-05,
+      "loss": 21.6771,
+      "mean_token_accuracy": 0.6793475031852723,
+      "num_tokens": 12319366.0,
+      "step": 630
+    },
+    {
+      "entropy": 1.2945445731282235,
+      "epoch": 1.024,
+      "grad_norm": 19.875,
+      "learning_rate": 1.7488888888888892e-05,
+      "loss": 20.9621,
+      "mean_token_accuracy": 0.6880514930933714,
+      "num_tokens": 12524183.0,
+      "step": 640
+    },
+    {
+      "entropy": 1.3366071730852127,
+      "epoch": 1.04,
+      "grad_norm": 19.375,
+      "learning_rate": 1.7414814814814815e-05,
+      "loss": 21.6169,
+      "mean_token_accuracy": 0.6800738513469696,
+      "num_tokens": 12718593.0,
+      "step": 650
+    },
+    {
+      "entropy": 1.3035322044044733,
+      "epoch": 1.056,
+      "grad_norm": 18.875,
+      "learning_rate": 1.7340740740740742e-05,
+      "loss": 21.0086,
+      "mean_token_accuracy": 0.6872079599648714,
+      "num_tokens": 12917803.0,
+      "step": 660
+    },
+    {
+      "entropy": 1.3336386241018772,
+      "epoch": 1.072,
+      "grad_norm": 20.125,
+      "learning_rate": 1.726666666666667e-05,
+      "loss": 21.3783,
+      "mean_token_accuracy": 0.6830162953585386,
+      "num_tokens": 13105826.0,
+      "step": 670
+    },
+    {
+      "entropy": 1.3145085237920284,
+      "epoch": 1.088,
+      "grad_norm": 19.875,
+      "learning_rate": 1.7192592592592595e-05,
+      "loss": 21.2325,
+      "mean_token_accuracy": 0.6849405582994222,
+      "num_tokens": 13298619.0,
+      "step": 680
+    },
+    {
+      "entropy": 1.3143333733081817,
+      "epoch": 1.104,
+      "grad_norm": 19.625,
+      "learning_rate": 1.711851851851852e-05,
+      "loss": 21.2224,
+      "mean_token_accuracy": 0.6856034275144338,
+      "num_tokens": 13491486.0,
+      "step": 690
+    },
+    {
+      "entropy": 1.3378163430839778,
+      "epoch": 1.12,
+      "grad_norm": 21.125,
+      "learning_rate": 1.7044444444444445e-05,
+      "loss": 21.5282,
+      "mean_token_accuracy": 0.6820732779800892,
+      "num_tokens": 13674663.0,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_biology_entropy": 1.2879770975112914,
+      "eval_biology_loss": 1.3086122274398804,
+      "eval_biology_mean_token_accuracy": 0.6899549188613892,
+      "eval_biology_num_tokens": 13674663.0,
+      "eval_biology_runtime": 48.4315,
+      "eval_biology_samples_per_second": 10.324,
+      "eval_biology_steps_per_second": 2.581,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_chemistry_entropy": 0.9838369536399841,
+      "eval_chemistry_loss": 0.9902806878089905,
+      "eval_chemistry_mean_token_accuracy": 0.757919919013977,
+      "eval_chemistry_num_tokens": 13674663.0,
+      "eval_chemistry_runtime": 60.0982,
+      "eval_chemistry_samples_per_second": 8.32,
+      "eval_chemistry_steps_per_second": 2.08,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_math_entropy": 0.8821793942451477,
+      "eval_math_loss": 1.108689308166504,
+      "eval_math_mean_token_accuracy": 0.7436572351455688,
+      "eval_math_num_tokens": 13674663.0,
+      "eval_math_runtime": 61.6134,
+      "eval_math_samples_per_second": 8.115,
+      "eval_math_steps_per_second": 2.029,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_cyber_entropy": 2.3264354813098906,
+      "eval_cyber_loss": 2.8054211139678955,
+      "eval_cyber_mean_token_accuracy": 0.49246201038360593,
+      "eval_cyber_num_tokens": 13674663.0,
+      "eval_cyber_runtime": 58.7919,
+      "eval_cyber_samples_per_second": 6.753,
+      "eval_cyber_steps_per_second": 1.701,
+      "step": 700
+    },
+    {
+      "entropy": 1.3018307507038116,
+      "epoch": 1.1360000000000001,
+      "grad_norm": 20.625,
+      "learning_rate": 1.697037037037037e-05,
+      "loss": 21.2057,
+      "mean_token_accuracy": 0.685313081741333,
+      "num_tokens": 13869134.0,
+      "step": 710
+    },
+    {
+      "entropy": 1.2973876625299454,
+      "epoch": 1.152,
+      "grad_norm": 18.0,
+      "learning_rate": 1.6896296296296298e-05,
+      "loss": 20.8346,
+      "mean_token_accuracy": 0.6878448143601418,
+      "num_tokens": 14078365.0,
+      "step": 720
+    },
+    {
+      "entropy": 1.3114512529224158,
+      "epoch": 1.168,
+      "grad_norm": 17.75,
+      "learning_rate": 1.6822222222222224e-05,
+      "loss": 21.086,
+      "mean_token_accuracy": 0.684901175647974,
+      "num_tokens": 14266831.0,
+      "step": 730
+    },
+    {
+      "entropy": 1.2921015951782464,
+      "epoch": 1.184,
+      "grad_norm": 19.875,
+      "learning_rate": 1.6748148148148147e-05,
+      "loss": 21.1084,
+      "mean_token_accuracy": 0.6854452688246966,
+      "num_tokens": 14465660.0,
+      "step": 740
+    },
+    {
+      "entropy": 1.3100581634789705,
+      "epoch": 1.2,
+      "grad_norm": 20.625,
+      "learning_rate": 1.6674074074074077e-05,
+      "loss": 20.9256,
+      "mean_token_accuracy": 0.6867778114974499,
+      "num_tokens": 14653228.0,
+      "step": 750
+    },
+    {
+      "entropy": 1.2675646111369132,
+      "epoch": 1.216,
+      "grad_norm": 19.5,
+      "learning_rate": 1.66e-05,
+      "loss": 20.4105,
+      "mean_token_accuracy": 0.6919024847447872,
+      "num_tokens": 14857782.0,
+      "step": 760
+    },
+    {
+      "entropy": 1.291072677075863,
+      "epoch": 1.232,
+      "grad_norm": 17.875,
+      "learning_rate": 1.6525925925925927e-05,
+      "loss": 20.8356,
+      "mean_token_accuracy": 0.689462835341692,
+      "num_tokens": 15047356.0,
+      "step": 770
+    },
+    {
+      "entropy": 1.296948005259037,
+      "epoch": 1.248,
+      "grad_norm": 19.0,
+      "learning_rate": 1.6451851851851853e-05,
+      "loss": 21.0571,
+      "mean_token_accuracy": 0.6855845946818591,
+      "num_tokens": 15241098.0,
+      "step": 780
+    },
+    {
+      "entropy": 1.3225075900554657,
+      "epoch": 1.264,
+      "grad_norm": 18.25,
+      "learning_rate": 1.637777777777778e-05,
+      "loss": 21.1821,
+      "mean_token_accuracy": 0.6856160722672939,
+      "num_tokens": 15437657.0,
+      "step": 790
+    },
+    {
+      "entropy": 1.3229579757899046,
+      "epoch": 1.28,
+      "grad_norm": 19.75,
+      "learning_rate": 1.6303703703703706e-05,
+      "loss": 21.3985,
+      "mean_token_accuracy": 0.681986927613616,
+      "num_tokens": 15630795.0,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_biology_entropy": 1.2697611575126648,
+      "eval_biology_loss": 1.299078106880188,
+      "eval_biology_mean_token_accuracy": 0.6915725932121277,
+      "eval_biology_num_tokens": 15630795.0,
+      "eval_biology_runtime": 48.5582,
+      "eval_biology_samples_per_second": 10.297,
+      "eval_biology_steps_per_second": 2.574,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_chemistry_entropy": 0.9691643033027649,
+      "eval_chemistry_loss": 0.9838607311248779,
+      "eval_chemistry_mean_token_accuracy": 0.7591533994674683,
+      "eval_chemistry_num_tokens": 15630795.0,
+      "eval_chemistry_runtime": 60.2581,
+      "eval_chemistry_samples_per_second": 8.298,
+      "eval_chemistry_steps_per_second": 2.074,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_math_entropy": 0.863752941608429,
+      "eval_math_loss": 1.1061811447143555,
+      "eval_math_mean_token_accuracy": 0.7452329030036926,
+      "eval_math_num_tokens": 15630795.0,
+      "eval_math_runtime": 61.8563,
+      "eval_math_samples_per_second": 8.083,
+      "eval_math_steps_per_second": 2.021,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_cyber_entropy": 2.3142928409576418,
+      "eval_cyber_loss": 2.8583574295043945,
+      "eval_cyber_mean_token_accuracy": 0.4875562259554863,
+      "eval_cyber_num_tokens": 15630795.0,
+      "eval_cyber_runtime": 58.9374,
+      "eval_cyber_samples_per_second": 6.736,
+      "eval_cyber_steps_per_second": 1.697,
+      "step": 800
+    },
+    {
+      "entropy": 1.322736281901598,
+      "epoch": 1.296,
+      "grad_norm": 18.375,
+      "learning_rate": 1.622962962962963e-05,
+      "loss": 21.2994,
+      "mean_token_accuracy": 0.6834880676120519,
+      "num_tokens": 15827105.0,
+      "step": 810
+    },
+    {
+      "entropy": 1.3064148597419263,
+      "epoch": 1.312,
+      "grad_norm": 20.375,
+      "learning_rate": 1.6155555555555556e-05,
+      "loss": 21.2908,
+      "mean_token_accuracy": 0.6831366084516048,
+      "num_tokens": 16019645.0,
+      "step": 820
+    },
+    {
+      "entropy": 1.3229932710528374,
+      "epoch": 1.328,
+      "grad_norm": 19.0,
+      "learning_rate": 1.6081481481481482e-05,
+      "loss": 21.2517,
+      "mean_token_accuracy": 0.6835683796554803,
+      "num_tokens": 16221726.0,
+      "step": 830
+    },
+    {
+      "entropy": 1.2925970274955034,
+      "epoch": 1.3439999999999999,
+      "grad_norm": 17.5,
+      "learning_rate": 1.600740740740741e-05,
+      "loss": 20.7376,
+      "mean_token_accuracy": 0.6901313602924347,
+      "num_tokens": 16427594.0,
+      "step": 840
+    },
+    {
+      "entropy": 1.2990364480763674,
+      "epoch": 1.3599999999999999,
+      "grad_norm": 19.875,
+      "learning_rate": 1.5933333333333336e-05,
+      "loss": 21.0638,
+      "mean_token_accuracy": 0.6867326147854328,
+      "num_tokens": 16621605.0,
+      "step": 850
+    },
+    {
+      "entropy": 1.3395817268639802,
+      "epoch": 1.376,
+      "grad_norm": 21.5,
+      "learning_rate": 1.5859259259259262e-05,
+      "loss": 21.6332,
+      "mean_token_accuracy": 0.6804220989346504,
+      "num_tokens": 16813444.0,
+      "step": 860
+    },
+    {
+      "entropy": 1.3104124892503024,
+      "epoch": 1.392,
+      "grad_norm": 18.625,
+      "learning_rate": 1.5785185185185185e-05,
+      "loss": 21.1663,
+      "mean_token_accuracy": 0.6856168929487467,
+      "num_tokens": 17006509.0,
+      "step": 870
+    },
+    {
+      "entropy": 1.3050751704722643,
+      "epoch": 1.408,
+      "grad_norm": 16.625,
+      "learning_rate": 1.571111111111111e-05,
+      "loss": 20.8645,
+      "mean_token_accuracy": 0.6886320147663355,
+      "num_tokens": 17197870.0,
+      "step": 880
+    },
+    {
+      "entropy": 1.2993885681033135,
+      "epoch": 1.424,
+      "grad_norm": 19.625,
+      "learning_rate": 1.5637037037037038e-05,
+      "loss": 21.0292,
+      "mean_token_accuracy": 0.6871409460902214,
+      "num_tokens": 17394390.0,
+      "step": 890
+    },
+    {
+      "entropy": 1.2986160211265088,
+      "epoch": 1.44,
+      "grad_norm": 22.75,
+      "learning_rate": 1.5562962962962965e-05,
+      "loss": 21.064,
+      "mean_token_accuracy": 0.6858013048768044,
+      "num_tokens": 17587777.0,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_biology_entropy": 1.2633282842636109,
+      "eval_biology_loss": 1.2911479473114014,
+      "eval_biology_mean_token_accuracy": 0.6930723128318786,
+      "eval_biology_num_tokens": 17587777.0,
+      "eval_biology_runtime": 48.5747,
+      "eval_biology_samples_per_second": 10.293,
+      "eval_biology_steps_per_second": 2.573,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_chemistry_entropy": 0.9724984226226807,
+      "eval_chemistry_loss": 0.9782924056053162,
+      "eval_chemistry_mean_token_accuracy": 0.7604495301246643,
+      "eval_chemistry_num_tokens": 17587777.0,
+      "eval_chemistry_runtime": 60.2279,
+      "eval_chemistry_samples_per_second": 8.302,
+      "eval_chemistry_steps_per_second": 2.075,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_math_entropy": 0.878196352481842,
+      "eval_math_loss": 1.0984141826629639,
+      "eval_math_mean_token_accuracy": 0.7456621165275574,
+      "eval_math_num_tokens": 17587777.0,
+      "eval_math_runtime": 61.7802,
+      "eval_math_samples_per_second": 8.093,
+      "eval_math_steps_per_second": 2.023,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_cyber_entropy": 2.317098902463913,
+      "eval_cyber_loss": 2.8237366676330566,
+      "eval_cyber_mean_token_accuracy": 0.49122542947530745,
+      "eval_cyber_num_tokens": 17587777.0,
+      "eval_cyber_runtime": 58.9196,
+      "eval_cyber_samples_per_second": 6.738,
+      "eval_cyber_steps_per_second": 1.697,
+      "step": 900
+    },
+    {
+      "entropy": 1.2987288374453783,
+      "epoch": 1.456,
+      "grad_norm": 18.375,
+      "learning_rate": 1.548888888888889e-05,
+      "loss": 20.8783,
+      "mean_token_accuracy": 0.6883518882095814,
+      "num_tokens": 17788456.0,
+      "step": 910
+    },
+    {
+      "entropy": 1.292324574291706,
+      "epoch": 1.472,
+      "grad_norm": 17.375,
+      "learning_rate": 1.5414814814814814e-05,
+      "loss": 20.8447,
+      "mean_token_accuracy": 0.6893134098500013,
+      "num_tokens": 17984063.0,
+      "step": 920
+    },
+    {
+      "entropy": 1.2839893605560064,
+      "epoch": 1.488,
+      "grad_norm": 19.125,
+      "learning_rate": 1.5340740740740744e-05,
+      "loss": 20.8773,
+      "mean_token_accuracy": 0.6899567134678364,
+      "num_tokens": 18175640.0,
+      "step": 930
+    },
+    {
+      "entropy": 1.3172472290694714,
+      "epoch": 1.504,
+      "grad_norm": 19.25,
+      "learning_rate": 1.5266666666666667e-05,
+      "loss": 21.141,
+      "mean_token_accuracy": 0.687034023180604,
+      "num_tokens": 18367857.0,
+      "step": 940
+    },
+    {
+      "entropy": 1.288551079109311,
+      "epoch": 1.52,
+      "grad_norm": 18.375,
+      "learning_rate": 1.5192592592592594e-05,
+      "loss": 21.025,
+      "mean_token_accuracy": 0.6869576655328273,
+      "num_tokens": 18569146.0,
+      "step": 950
+    },
+    {
+      "entropy": 1.3221289869397879,
+      "epoch": 1.536,
+      "grad_norm": 19.75,
+      "learning_rate": 1.5118518518518519e-05,
+      "loss": 21.2,
+      "mean_token_accuracy": 0.6844527788460255,
+      "num_tokens": 18755079.0,
+      "step": 960
+    },
+    {
+      "entropy": 1.2898046210408212,
+      "epoch": 1.552,
+      "grad_norm": 20.375,
+      "learning_rate": 1.5044444444444445e-05,
+      "loss": 20.8166,
+      "mean_token_accuracy": 0.690209424123168,
+      "num_tokens": 18956248.0,
+      "step": 970
+    },
+    {
+      "entropy": 1.280243619531393,
+      "epoch": 1.568,
+      "grad_norm": 19.875,
+      "learning_rate": 1.497037037037037e-05,
+      "loss": 20.6218,
+      "mean_token_accuracy": 0.6917802631855011,
+      "num_tokens": 19150315.0,
+      "step": 980
+    },
+    {
+      "entropy": 1.2912988126277924,
+      "epoch": 1.584,
+      "grad_norm": 18.875,
+      "learning_rate": 1.4896296296296298e-05,
+      "loss": 20.7886,
+      "mean_token_accuracy": 0.6892261151224375,
+      "num_tokens": 19344260.0,
+      "step": 990
+    },
+    {
+      "entropy": 1.3189360287040472,
+      "epoch": 1.6,
+      "grad_norm": 19.0,
+      "learning_rate": 1.4822222222222225e-05,
+      "loss": 21.2912,
+      "mean_token_accuracy": 0.6828928265720606,
+      "num_tokens": 19532552.0,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_biology_entropy": 1.263430886745453,
+      "eval_biology_loss": 1.2847552299499512,
+      "eval_biology_mean_token_accuracy": 0.6937462825775147,
+      "eval_biology_num_tokens": 19532552.0,
+      "eval_biology_runtime": 48.616,
+      "eval_biology_samples_per_second": 10.285,
+      "eval_biology_steps_per_second": 2.571,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_chemistry_entropy": 0.9613517146110535,
+      "eval_chemistry_loss": 0.9752106070518494,
+      "eval_chemistry_mean_token_accuracy": 0.7608753662109375,
+      "eval_chemistry_num_tokens": 19532552.0,
+      "eval_chemistry_runtime": 60.0131,
+      "eval_chemistry_samples_per_second": 8.332,
+      "eval_chemistry_steps_per_second": 2.083,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_math_entropy": 0.8507145104408265,
+      "eval_math_loss": 1.0975427627563477,
+      "eval_math_mean_token_accuracy": 0.7471181530952453,
+      "eval_math_num_tokens": 19532552.0,
+      "eval_math_runtime": 61.5437,
+      "eval_math_samples_per_second": 8.124,
+      "eval_math_steps_per_second": 2.031,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_cyber_entropy": 2.262136605978012,
+      "eval_cyber_loss": 2.8179190158843994,
+      "eval_cyber_mean_token_accuracy": 0.4946762239933014,
+      "eval_cyber_num_tokens": 19532552.0,
+      "eval_cyber_runtime": 58.9033,
+      "eval_cyber_samples_per_second": 6.74,
+      "eval_cyber_steps_per_second": 1.698,
+      "step": 1000
+    },
+    {
+      "entropy": 1.2780998092144729,
+      "epoch": 1.616,
+      "grad_norm": 18.25,
+      "learning_rate": 1.474814814814815e-05,
+      "loss": 20.7217,
+      "mean_token_accuracy": 0.690490011498332,
+      "num_tokens": 19732719.0,
+      "step": 1010
+    },
+    {
+      "entropy": 1.322769870609045,
+      "epoch": 1.6320000000000001,
+      "grad_norm": 21.375,
+      "learning_rate": 1.4674074074074076e-05,
+      "loss": 21.3196,
+      "mean_token_accuracy": 0.6848675295710563,
+      "num_tokens": 19926830.0,
+      "step": 1020
+    },
+    {
+      "entropy": 1.299769001826644,
+      "epoch": 1.6480000000000001,
+      "grad_norm": 17.0,
+      "learning_rate": 1.46e-05,
+      "loss": 21.0578,
+      "mean_token_accuracy": 0.685557559132576,
+      "num_tokens": 20118800.0,
+      "step": 1030
+    },
+    {
+      "entropy": 1.2741328407078982,
+      "epoch": 1.6640000000000001,
+      "grad_norm": 18.0,
+      "learning_rate": 1.4525925925925927e-05,
+      "loss": 20.5087,
+      "mean_token_accuracy": 0.6927142184227705,
+      "num_tokens": 20320511.0,
+      "step": 1040
+    },
+    {
+      "entropy": 1.2958957750350237,
+      "epoch": 1.6800000000000002,
+      "grad_norm": 20.875,
+      "learning_rate": 1.4451851851851852e-05,
+      "loss": 20.8825,
+      "mean_token_accuracy": 0.688383724913001,
+      "num_tokens": 20513393.0,
+      "step": 1050
+    },
+    {
+      "entropy": 1.2880746740847826,
+      "epoch": 1.696,
+      "grad_norm": 19.875,
+      "learning_rate": 1.4377777777777779e-05,
+      "loss": 20.8343,
+      "mean_token_accuracy": 0.6903862621635198,
+      "num_tokens": 20707237.0,
+      "step": 1060
+    },
+    {
+      "entropy": 1.2862251173704862,
+      "epoch": 1.712,
+      "grad_norm": 20.0,
+      "learning_rate": 1.4303703703703703e-05,
+      "loss": 20.8599,
+      "mean_token_accuracy": 0.6900554195046424,
+      "num_tokens": 20910419.0,
+      "step": 1070
+    },
+    {
+      "entropy": 1.3037602450698613,
+      "epoch": 1.728,
+      "grad_norm": 18.75,
+      "learning_rate": 1.4229629629629632e-05,
+      "loss": 21.0116,
+      "mean_token_accuracy": 0.6866883236914874,
+      "num_tokens": 21107498.0,
+      "step": 1080
+    },
+    {
+      "entropy": 1.268125656619668,
+      "epoch": 1.744,
+      "grad_norm": 19.5,
+      "learning_rate": 1.4155555555555556e-05,
+      "loss": 20.3869,
+      "mean_token_accuracy": 0.6919578000903129,
+      "num_tokens": 21303955.0,
+      "step": 1090
+    },
+    {
+      "entropy": 1.277770683541894,
+      "epoch": 1.76,
+      "grad_norm": 20.5,
+      "learning_rate": 1.4081481481481483e-05,
+      "loss": 20.7842,
+      "mean_token_accuracy": 0.6904734123498202,
+      "num_tokens": 21499572.0,
+      "step": 1100
+    },
+    {
+      "epoch": 1.76,
+      "eval_biology_entropy": 1.2706038541793823,
+      "eval_biology_loss": 1.2793399095535278,
+      "eval_biology_mean_token_accuracy": 0.6948989968299866,
+      "eval_biology_num_tokens": 21499572.0,
+      "eval_biology_runtime": 48.5261,
+      "eval_biology_samples_per_second": 10.304,
+      "eval_biology_steps_per_second": 2.576,
+      "step": 1100
+    },
+    {
+      "epoch": 1.76,
+      "eval_chemistry_entropy": 0.9732482833862305,
+      "eval_chemistry_loss": 0.9693844318389893,
+      "eval_chemistry_mean_token_accuracy": 0.7617205648422242,
+      "eval_chemistry_num_tokens": 21499572.0,
+      "eval_chemistry_runtime": 60.2906,
+      "eval_chemistry_samples_per_second": 8.293,
+      "eval_chemistry_steps_per_second": 2.073,
+      "step": 1100
+    },
+    {
+      "epoch": 1.76,
+      "eval_math_entropy": 0.8668387780189514,
+      "eval_math_loss": 1.0918337106704712,
+      "eval_math_mean_token_accuracy": 0.7475174107551574,
+      "eval_math_num_tokens": 21499572.0,
+      "eval_math_runtime": 61.8179,
+      "eval_math_samples_per_second": 8.088,
+      "eval_math_steps_per_second": 2.022,
+      "step": 1100
+    },
+    {
+      "epoch": 1.76,
+      "eval_cyber_entropy": 2.2727494060993196,
+      "eval_cyber_loss": 2.8152451515197754,
+      "eval_cyber_mean_token_accuracy": 0.496353834271431,
+      "eval_cyber_num_tokens": 21499572.0,
+      "eval_cyber_runtime": 58.9408,
+      "eval_cyber_samples_per_second": 6.736,
+      "eval_cyber_steps_per_second": 1.697,
+      "step": 1100
+    },
+    {
+      "entropy": 1.2966676279902458,
+      "epoch": 1.776,
+      "grad_norm": 20.125,
+      "learning_rate": 1.400740740740741e-05,
+      "loss": 20.8811,
+      "mean_token_accuracy": 0.6886047091335058,
+      "num_tokens": 21692804.0,
+      "step": 1110
+    },
+    {
+      "entropy": 1.2577556148171425,
+      "epoch": 1.792,
+      "grad_norm": 20.375,
+      "learning_rate": 1.3933333333333334e-05,
+      "loss": 20.3406,
+      "mean_token_accuracy": 0.6924801960587501,
+      "num_tokens": 21894218.0,
+      "step": 1120
+    },
+    {
+      "entropy": 1.2880206000059844,
+      "epoch": 1.808,
+      "grad_norm": 21.5,
+      "learning_rate": 1.385925925925926e-05,
+      "loss": 20.7402,
+      "mean_token_accuracy": 0.6916475351899862,
+      "num_tokens": 22082522.0,
+      "step": 1130
+    },
+    {
+      "entropy": 1.31001619361341,
+      "epoch": 1.8239999999999998,
+      "grad_norm": 19.875,
+      "learning_rate": 1.3785185185185186e-05,
+      "loss": 21.1628,
+      "mean_token_accuracy": 0.6851416889578104,
+      "num_tokens": 22278933.0,
+      "step": 1140
+    },
+    {
+      "entropy": 1.3205205973237752,
+      "epoch": 1.8399999999999999,
+      "grad_norm": 21.0,
+      "learning_rate": 1.3711111111111112e-05,
+      "loss": 21.3264,
+      "mean_token_accuracy": 0.6827714014798403,
+      "num_tokens": 22473801.0,
+      "step": 1150
+    },
+    {
+      "entropy": 1.2739585246890783,
+      "epoch": 1.8559999999999999,
+      "grad_norm": 20.0,
+      "learning_rate": 1.3637037037037037e-05,
+      "loss": 20.5874,
+      "mean_token_accuracy": 0.6894957963377237,
+      "num_tokens": 22677853.0,
+      "step": 1160
+    },
+    {
+      "entropy": 1.2596167303621768,
+      "epoch": 1.8719999999999999,
+      "grad_norm": 18.5,
+      "learning_rate": 1.3562962962962965e-05,
+      "loss": 20.2631,
+      "mean_token_accuracy": 0.69476717710495,
+      "num_tokens": 22874965.0,
+      "step": 1170
+    },
+    {
+      "entropy": 1.3122890371829272,
+      "epoch": 1.888,
+      "grad_norm": 21.875,
+      "learning_rate": 1.3488888888888888e-05,
+      "loss": 21.2153,
+      "mean_token_accuracy": 0.6857765819877386,
+      "num_tokens": 23068892.0,
+      "step": 1180
+    },
+    {
+      "entropy": 1.3009861066937447,
+      "epoch": 1.904,
+      "grad_norm": 19.75,
+      "learning_rate": 1.3414814814814817e-05,
+      "loss": 21.0824,
+      "mean_token_accuracy": 0.6862182442098856,
+      "num_tokens": 23263827.0,
+      "step": 1190
+    },
+    {
+      "entropy": 1.3086694907397032,
+      "epoch": 1.92,
+      "grad_norm": 19.5,
+      "learning_rate": 1.3340740740740741e-05,
+      "loss": 21.0366,
+      "mean_token_accuracy": 0.6864289414137602,
+      "num_tokens": 23463627.0,
+      "step": 1200
+    },
+    {
+      "epoch": 1.92,
+      "eval_biology_entropy": 1.2436800727844237,
+      "eval_biology_loss": 1.2742465734481812,
+      "eval_biology_mean_token_accuracy": 0.6959740309715271,
+      "eval_biology_num_tokens": 23463627.0,
+      "eval_biology_runtime": 48.7215,
+      "eval_biology_samples_per_second": 10.262,
+      "eval_biology_steps_per_second": 2.566,
+      "step": 1200
+    },
+    {
+      "epoch": 1.92,
+      "eval_chemistry_entropy": 0.9520102243423462,
+      "eval_chemistry_loss": 0.9654216170310974,
+      "eval_chemistry_mean_token_accuracy": 0.7620544514656067,
+      "eval_chemistry_num_tokens": 23463627.0,
+      "eval_chemistry_runtime": 60.3322,
+      "eval_chemistry_samples_per_second": 8.287,
+      "eval_chemistry_steps_per_second": 2.072,
+      "step": 1200
+    },
+    {
+      "epoch": 1.92,
+      "eval_math_entropy": 0.8506893858909607,
+      "eval_math_loss": 1.089040756225586,
+      "eval_math_mean_token_accuracy": 0.7481771049499512,
+      "eval_math_num_tokens": 23463627.0,
+      "eval_math_runtime": 62.2172,
+      "eval_math_samples_per_second": 8.036,
+      "eval_math_steps_per_second": 2.009,
+      "step": 1200
+    },
+    {
+      "epoch": 1.92,
+      "eval_cyber_entropy": 2.270911729335785,
+      "eval_cyber_loss": 2.815645933151245,
+      "eval_cyber_mean_token_accuracy": 0.49721296519041064,
+      "eval_cyber_num_tokens": 23463627.0,
+      "eval_cyber_runtime": 59.0925,
+      "eval_cyber_samples_per_second": 6.718,
+      "eval_cyber_steps_per_second": 1.692,
+      "step": 1200
+    },
+    {
+      "entropy": 1.258543035387993,
+      "epoch": 1.936,
+      "grad_norm": 20.0,
+      "learning_rate": 1.3266666666666668e-05,
+      "loss": 20.3282,
+      "mean_token_accuracy": 0.6942144498229027,
+      "num_tokens": 23660418.0,
+      "step": 1210
+    },
+    {
+      "entropy": 1.2887091431766748,
+      "epoch": 1.952,
+      "grad_norm": 20.125,
+      "learning_rate": 1.3192592592592594e-05,
+      "loss": 20.7017,
+      "mean_token_accuracy": 0.6914095990359783,
+      "num_tokens": 23858145.0,
+      "step": 1220
+    },
+    {
+      "entropy": 1.2908520311117173,
+      "epoch": 1.968,
+      "grad_norm": 20.375,
+      "learning_rate": 1.311851851851852e-05,
+      "loss": 20.993,
+      "mean_token_accuracy": 0.6882839858531952,
+      "num_tokens": 24053364.0,
+      "step": 1230
+    },
+    {
+      "entropy": 1.2901352025568484,
+      "epoch": 1.984,
+      "grad_norm": 18.5,
+      "learning_rate": 1.3044444444444446e-05,
+      "loss": 20.7839,
+      "mean_token_accuracy": 0.6889098271727562,
+      "num_tokens": 24249465.0,
+      "step": 1240
+    },
+    {
+      "entropy": 1.2941514786332846,
+      "epoch": 2.0,
+      "grad_norm": 20.875,
+      "learning_rate": 1.297037037037037e-05,
+      "loss": 20.8924,
+      "mean_token_accuracy": 0.690009992942214,
+      "num_tokens": 24442582.0,
+      "step": 1250
+    },
+    {
+      "entropy": 1.2745149232447148,
+      "epoch": 2.016,
+      "grad_norm": 21.0,
+      "learning_rate": 1.2896296296296299e-05,
+      "loss": 20.4904,
+      "mean_token_accuracy": 0.6926420453935862,
+      "num_tokens": 24632353.0,
+      "step": 1260
+    },
+    {
+      "entropy": 1.2860474549233913,
+      "epoch": 2.032,
+      "grad_norm": 20.375,
+      "learning_rate": 1.2822222222222222e-05,
+      "loss": 20.7466,
+      "mean_token_accuracy": 0.6908769007772207,
+      "num_tokens": 24822715.0,
+      "step": 1270
+    },
+    {
+      "entropy": 1.260865818709135,
+      "epoch": 2.048,
+      "grad_norm": 22.5,
+      "learning_rate": 1.274814814814815e-05,
+      "loss": 20.2952,
+      "mean_token_accuracy": 0.6937311202287674,
+      "num_tokens": 25023118.0,
+      "step": 1280
+    },
+    {
+      "entropy": 1.2737747061997653,
+      "epoch": 2.064,
+      "grad_norm": 20.875,
+      "learning_rate": 1.2674074074074075e-05,
+      "loss": 20.6082,
+      "mean_token_accuracy": 0.6917234756052494,
+      "num_tokens": 25217414.0,
+      "step": 1290
+    },
+    {
+      "entropy": 1.2580339554697275,
+      "epoch": 2.08,
+      "grad_norm": 21.375,
+      "learning_rate": 1.2600000000000001e-05,
+      "loss": 20.3045,
+      "mean_token_accuracy": 0.6938596669584512,
+      "num_tokens": 25408961.0,
+      "step": 1300
+    },
+    {
+      "epoch": 2.08,
+      "eval_biology_entropy": 1.2317639932632447,
+      "eval_biology_loss": 1.272905707359314,
+      "eval_biology_mean_token_accuracy": 0.6965393185615539,
+      "eval_biology_num_tokens": 25408961.0,
+      "eval_biology_runtime": 48.5992,
+      "eval_biology_samples_per_second": 10.288,
+      "eval_biology_steps_per_second": 2.572,
+      "step": 1300
+    },
+    {
+      "epoch": 2.08,
+      "eval_chemistry_entropy": 0.9386696972846985,
+      "eval_chemistry_loss": 0.9654728770256042,
+      "eval_chemistry_mean_token_accuracy": 0.7624025421142578,
+      "eval_chemistry_num_tokens": 25408961.0,
+      "eval_chemistry_runtime": 60.2391,
+      "eval_chemistry_samples_per_second": 8.3,
+      "eval_chemistry_steps_per_second": 2.075,
+      "step": 1300
+    },
+    {
+      "epoch": 2.08,
+      "eval_math_entropy": 0.8434405541419983,
+      "eval_math_loss": 1.0893279314041138,
+      "eval_math_mean_token_accuracy": 0.7487460594177247,
+      "eval_math_num_tokens": 25408961.0,
+      "eval_math_runtime": 61.7496,
+      "eval_math_samples_per_second": 8.097,
+      "eval_math_steps_per_second": 2.024,
+      "step": 1300
+    },
+    {
+      "epoch": 2.08,
+      "eval_cyber_entropy": 2.222271492481232,
+      "eval_cyber_loss": 2.839128017425537,
+      "eval_cyber_mean_token_accuracy": 0.49531962275505065,
+      "eval_cyber_num_tokens": 25408961.0,
+      "eval_cyber_runtime": 58.8697,
+      "eval_cyber_samples_per_second": 6.744,
+      "eval_cyber_steps_per_second": 1.699,
+      "step": 1300
+    },
+    {
+      "entropy": 1.2651004053652286,
+      "epoch": 2.096,
+      "grad_norm": 21.75,
+      "learning_rate": 1.2525925925925928e-05,
+      "loss": 20.4274,
+      "mean_token_accuracy": 0.6951500400900841,
+      "num_tokens": 25600511.0,
+      "step": 1310
+    },
+    {
+      "entropy": 1.244707338884473,
+      "epoch": 2.112,
+      "grad_norm": 19.75,
+      "learning_rate": 1.2451851851851853e-05,
+      "loss": 19.9294,
+      "mean_token_accuracy": 0.6981283750385046,
+      "num_tokens": 25796565.0,
+      "step": 1320
+    },
+    {
+      "entropy": 1.2410834614187478,
+      "epoch": 2.128,
+      "grad_norm": 20.875,
+      "learning_rate": 1.237777777777778e-05,
+      "loss": 20.0032,
+      "mean_token_accuracy": 0.6971660844981671,
+      "num_tokens": 25991156.0,
+      "step": 1330
+    },
+    {
+      "entropy": 1.24519634693861,
+      "epoch": 2.144,
+      "grad_norm": 23.0,
+      "learning_rate": 1.2303703703703704e-05,
+      "loss": 20.1622,
+      "mean_token_accuracy": 0.6968274012207984,
+      "num_tokens": 26193237.0,
+      "step": 1340
+    },
+    {
+      "entropy": 1.2762737173587084,
+      "epoch": 2.16,
+      "grad_norm": 20.875,
+      "learning_rate": 1.222962962962963e-05,
+      "loss": 20.5746,
+      "mean_token_accuracy": 0.6938918314874172,
+      "num_tokens": 26387993.0,
+      "step": 1350
+    },
+    {
+      "entropy": 1.2816904935985804,
+      "epoch": 2.176,
+      "grad_norm": 20.625,
+      "learning_rate": 1.2155555555555555e-05,
+      "loss": 20.694,
+      "mean_token_accuracy": 0.6903725199401378,
+      "num_tokens": 26585269.0,
+      "step": 1360
+    },
+    {
+      "entropy": 1.23365030400455,
+      "epoch": 2.192,
+      "grad_norm": 18.25,
+      "learning_rate": 1.2081481481481484e-05,
+      "loss": 19.9231,
+      "mean_token_accuracy": 0.7000154417008162,
+      "num_tokens": 26776318.0,
+      "step": 1370
+    },
+    {
+      "entropy": 1.270122117176652,
+      "epoch": 2.208,
+      "grad_norm": 19.875,
+      "learning_rate": 1.2007407407407408e-05,
+      "loss": 20.347,
+      "mean_token_accuracy": 0.6952163562178612,
+      "num_tokens": 26974420.0,
+      "step": 1380
+    },
+    {
+      "entropy": 1.277249312400818,
+      "epoch": 2.224,
+      "grad_norm": 20.0,
+      "learning_rate": 1.1933333333333335e-05,
+      "loss": 20.8068,
+      "mean_token_accuracy": 0.6900401685386897,
+      "num_tokens": 27167577.0,
+      "step": 1390
+    },
+    {
+      "entropy": 1.2444671079516412,
+      "epoch": 2.24,
+      "grad_norm": 19.625,
+      "learning_rate": 1.185925925925926e-05,
+      "loss": 19.8147,
+      "mean_token_accuracy": 0.699263571202755,
+      "num_tokens": 27364189.0,
+      "step": 1400
+    },
+    {
+      "epoch": 2.24,
+      "eval_biology_entropy": 1.2131686201095582,
+      "eval_biology_loss": 1.2700260877609253,
+      "eval_biology_mean_token_accuracy": 0.696834128856659,
+      "eval_biology_num_tokens": 27364189.0,
+      "eval_biology_runtime": 48.5544,
+      "eval_biology_samples_per_second": 10.298,
+      "eval_biology_steps_per_second": 2.574,
+      "step": 1400
+    },
+    {
+      "epoch": 2.24,
+      "eval_chemistry_entropy": 0.9270022196769714,
+      "eval_chemistry_loss": 0.9647746682167053,
+      "eval_chemistry_mean_token_accuracy": 0.7625881099700927,
+      "eval_chemistry_num_tokens": 27364189.0,
+      "eval_chemistry_runtime": 60.2368,
+      "eval_chemistry_samples_per_second": 8.301,
+      "eval_chemistry_steps_per_second": 2.075,
+      "step": 1400
+    },
+    {
+      "epoch": 2.24,
+      "eval_math_entropy": 0.8296263842582703,
+      "eval_math_loss": 1.0910688638687134,
+      "eval_math_mean_token_accuracy": 0.7489140472412109,
+      "eval_math_num_tokens": 27364189.0,
+      "eval_math_runtime": 61.7781,
+      "eval_math_samples_per_second": 8.093,
+      "eval_math_steps_per_second": 2.023,
+      "step": 1400
+    },
+    {
+      "epoch": 2.24,
+      "eval_cyber_entropy": 2.2271901178359985,
+      "eval_cyber_loss": 2.8551981449127197,
+      "eval_cyber_mean_token_accuracy": 0.4925511845946312,
+      "eval_cyber_num_tokens": 27364189.0,
+      "eval_cyber_runtime": 58.9077,
+      "eval_cyber_samples_per_second": 6.739,
+      "eval_cyber_steps_per_second": 1.698,
+      "step": 1400
+    },
+    {
+      "entropy": 1.224042547494173,
+      "epoch": 2.2560000000000002,
+      "grad_norm": 20.375,
+      "learning_rate": 1.1785185185185186e-05,
+      "loss": 19.8235,
+      "mean_token_accuracy": 0.7005104530602694,
+      "num_tokens": 27557387.0,
+      "step": 1410
+    },
+    {
+      "entropy": 1.2278712920844554,
+      "epoch": 2.2720000000000002,
+      "grad_norm": 20.375,
+      "learning_rate": 1.1711111111111113e-05,
+      "loss": 19.8862,
+      "mean_token_accuracy": 0.6978729262948036,
+      "num_tokens": 27755725.0,
+      "step": 1420
+    },
+    {
+      "entropy": 1.2763480294495821,
+      "epoch": 2.288,
+      "grad_norm": 20.25,
+      "learning_rate": 1.1637037037037037e-05,
+      "loss": 20.5831,
+      "mean_token_accuracy": 0.6889720026403665,
+      "num_tokens": 27950694.0,
+      "step": 1430
+    },
+    {
+      "entropy": 1.2638509940356015,
+      "epoch": 2.304,
+      "grad_norm": 18.75,
+      "learning_rate": 1.1562962962962964e-05,
+      "loss": 20.5489,
+      "mean_token_accuracy": 0.6938521608710289,
+      "num_tokens": 28150719.0,
+      "step": 1440
+    },
+    {
+      "entropy": 1.2345790199935436,
+      "epoch": 2.32,
+      "grad_norm": 18.5,
+      "learning_rate": 1.1488888888888889e-05,
+      "loss": 19.71,
+      "mean_token_accuracy": 0.7009611383080483,
+      "num_tokens": 28348652.0,
+      "step": 1450
+    },
+    {
+      "entropy": 1.2490899875760078,
+      "epoch": 2.336,
+      "grad_norm": 20.25,
+      "learning_rate": 1.1414814814814817e-05,
+      "loss": 20.2585,
+      "mean_token_accuracy": 0.6959190309047699,
+      "num_tokens": 28542945.0,
+      "step": 1460
+    },
+    {
+      "entropy": 1.2702395316213368,
+      "epoch": 2.352,
+      "grad_norm": 20.375,
+      "learning_rate": 1.1340740740740742e-05,
+      "loss": 20.5325,
+      "mean_token_accuracy": 0.6922014791518449,
+      "num_tokens": 28731927.0,
+      "step": 1470
+    },
+    {
+      "entropy": 1.257371624931693,
+      "epoch": 2.368,
+      "grad_norm": 20.375,
+      "learning_rate": 1.1266666666666668e-05,
+      "loss": 20.2317,
+      "mean_token_accuracy": 0.6950671311467886,
+      "num_tokens": 28929298.0,
+      "step": 1480
+    },
+    {
+      "entropy": 1.2586353100836276,
+      "epoch": 2.384,
+      "grad_norm": 22.0,
+      "learning_rate": 1.1192592592592593e-05,
+      "loss": 20.4017,
+      "mean_token_accuracy": 0.6933799501508474,
+      "num_tokens": 29121142.0,
+      "step": 1490
+    },
+    {
+      "entropy": 1.2538471952080728,
+      "epoch": 2.4,
+      "grad_norm": 19.0,
+      "learning_rate": 1.111851851851852e-05,
+      "loss": 20.1414,
+      "mean_token_accuracy": 0.6949946410953999,
+      "num_tokens": 29317919.0,
+      "step": 1500
+    },
+    {
+      "epoch": 2.4,
+      "eval_biology_entropy": 1.2187503614425659,
+      "eval_biology_loss": 1.2677440643310547,
+      "eval_biology_mean_token_accuracy": 0.6970518484115601,
+      "eval_biology_num_tokens": 29317919.0,
+      "eval_biology_runtime": 48.5785,
+      "eval_biology_samples_per_second": 10.293,
+      "eval_biology_steps_per_second": 2.573,
+      "step": 1500
+    },
+    {
+      "epoch": 2.4,
+      "eval_chemistry_entropy": 0.9279513311386108,
+      "eval_chemistry_loss": 0.9621784090995789,
+      "eval_chemistry_mean_token_accuracy": 0.7627601904869079,
+      "eval_chemistry_num_tokens": 29317919.0,
+      "eval_chemistry_runtime": 59.9609,
+      "eval_chemistry_samples_per_second": 8.339,
+      "eval_chemistry_steps_per_second": 2.085,
+      "step": 1500
+    },
+    {
+      "epoch": 2.4,
+      "eval_math_entropy": 0.829472065448761,
+      "eval_math_loss": 1.0883209705352783,
+      "eval_math_mean_token_accuracy": 0.7494171533584595,
+      "eval_math_num_tokens": 29317919.0,
+      "eval_math_runtime": 61.4914,
+      "eval_math_samples_per_second": 8.131,
+      "eval_math_steps_per_second": 2.033,
+      "step": 1500
+    },
+    {
+      "epoch": 2.4,
+      "eval_cyber_entropy": 2.212998685836792,
+      "eval_cyber_loss": 2.869270086288452,
+      "eval_cyber_mean_token_accuracy": 0.49230658441782,
+      "eval_cyber_num_tokens": 29317919.0,
+      "eval_cyber_runtime": 58.8902,
+      "eval_cyber_samples_per_second": 6.741,
+      "eval_cyber_steps_per_second": 1.698,
+      "step": 1500
+    },
+    {
+      "entropy": 1.2400090254843235,
+      "epoch": 2.416,
+      "grad_norm": 21.25,
+      "learning_rate": 1.1044444444444444e-05,
+      "loss": 20.0928,
+      "mean_token_accuracy": 0.6977616097778082,
+      "num_tokens": 29518541.0,
+      "step": 1510
+    },
+    {
+      "entropy": 1.240101160109043,
+      "epoch": 2.432,
+      "grad_norm": 20.5,
+      "learning_rate": 1.0970370370370371e-05,
+      "loss": 20.0068,
+      "mean_token_accuracy": 0.697515693679452,
+      "num_tokens": 29720768.0,
+      "step": 1520
+    },
+    {
+      "entropy": 1.2756904646754266,
+      "epoch": 2.448,
+      "grad_norm": 21.5,
+      "learning_rate": 1.0896296296296298e-05,
+      "loss": 20.6782,
+      "mean_token_accuracy": 0.6915484260767698,
+      "num_tokens": 29916619.0,
+      "step": 1530
+    },
+    {
+      "entropy": 1.224426954984665,
+      "epoch": 2.464,
+      "grad_norm": 22.125,
+      "learning_rate": 1.0822222222222222e-05,
+      "loss": 19.6834,
+      "mean_token_accuracy": 0.6991619531065225,
+      "num_tokens": 30121198.0,
+      "step": 1540
+    },
+    {
+      "entropy": 1.2454459190368652,
+      "epoch": 2.48,
+      "grad_norm": 19.5,
+      "learning_rate": 1.074814814814815e-05,
+      "loss": 20.0401,
+      "mean_token_accuracy": 0.6991795245558023,
+      "num_tokens": 30325508.0,
+      "step": 1550
+    },
+    {
+      "entropy": 1.242332585528493,
+      "epoch": 2.496,
+      "grad_norm": 19.625,
+      "learning_rate": 1.0674074074074074e-05,
+      "loss": 20.0988,
+      "mean_token_accuracy": 0.6955976873636246,
+      "num_tokens": 30517445.0,
+      "step": 1560
+    },
+    {
+      "entropy": 1.2685849387198687,
+      "epoch": 2.512,
+      "grad_norm": 22.125,
+      "learning_rate": 1.0600000000000002e-05,
+      "loss": 20.372,
+      "mean_token_accuracy": 0.6936233077198267,
+      "num_tokens": 30714049.0,
+      "step": 1570
+    },
+    {
+      "entropy": 1.2411126971244812,
+      "epoch": 2.528,
+      "grad_norm": 21.25,
+      "learning_rate": 1.0525925925925927e-05,
+      "loss": 20.1713,
+      "mean_token_accuracy": 0.6966881100088358,
+      "num_tokens": 30911317.0,
+      "step": 1580
+    },
+    {
+      "entropy": 1.2535224214196206,
+      "epoch": 2.544,
+      "grad_norm": 18.625,
+      "learning_rate": 1.0451851851851853e-05,
+      "loss": 20.2186,
+      "mean_token_accuracy": 0.6961116347461939,
+      "num_tokens": 31108983.0,
+      "step": 1590
+    },
+    {
+      "entropy": 1.2615187034010886,
+      "epoch": 2.56,
+      "grad_norm": 21.125,
+      "learning_rate": 1.0377777777777778e-05,
+      "loss": 20.379,
+      "mean_token_accuracy": 0.6933579590171576,
+      "num_tokens": 31298994.0,
+      "step": 1600
+    },
+    {
+      "epoch": 2.56,
+      "eval_biology_entropy": 1.2317106494903565,
+      "eval_biology_loss": 1.2648837566375732,
+      "eval_biology_mean_token_accuracy": 0.6972949070930481,
+      "eval_biology_num_tokens": 31298994.0,
+      "eval_biology_runtime": 48.5625,
+      "eval_biology_samples_per_second": 10.296,
+      "eval_biology_steps_per_second": 2.574,
+      "step": 1600
+    },
+    {
+      "epoch": 2.56,
+      "eval_chemistry_entropy": 0.9419839086532593,
+      "eval_chemistry_loss": 0.9602895379066467,
+      "eval_chemistry_mean_token_accuracy": 0.7632233667373657,
+      "eval_chemistry_num_tokens": 31298994.0,
+      "eval_chemistry_runtime": 60.2567,
+      "eval_chemistry_samples_per_second": 8.298,
+      "eval_chemistry_steps_per_second": 2.074,
+      "step": 1600
+    },
+    {
+      "epoch": 2.56,
+      "eval_math_entropy": 0.8460503368377685,
+      "eval_math_loss": 1.0832732915878296,
+      "eval_math_mean_token_accuracy": 0.749913236618042,
+      "eval_math_num_tokens": 31298994.0,
+      "eval_math_runtime": 61.768,
+      "eval_math_samples_per_second": 8.095,
+      "eval_math_steps_per_second": 2.024,
+      "step": 1600
+    },
+    {
+      "epoch": 2.56,
+      "eval_cyber_entropy": 2.238676429986954,
+      "eval_cyber_loss": 2.8418731689453125,
+      "eval_cyber_mean_token_accuracy": 0.4932973644137382,
+      "eval_cyber_num_tokens": 31298994.0,
+      "eval_cyber_runtime": 58.9355,
+      "eval_cyber_samples_per_second": 6.736,
+      "eval_cyber_steps_per_second": 1.697,
+      "step": 1600
+    },
+    {
+      "entropy": 1.2670236613601447,
+      "epoch": 2.576,
+      "grad_norm": 19.125,
+      "learning_rate": 1.0303703703703705e-05,
+      "loss": 20.4162,
+      "mean_token_accuracy": 0.6929084740579128,
+      "num_tokens": 31488512.0,
+      "step": 1610
+    },
+    {
+      "entropy": 1.2848519578576088,
+      "epoch": 2.592,
+      "grad_norm": 20.125,
+      "learning_rate": 1.0229629629629631e-05,
+      "loss": 20.8122,
+      "mean_token_accuracy": 0.6882869061082602,
+      "num_tokens": 31684651.0,
+      "step": 1620
+    },
+    {
+      "entropy": 1.2756942443549633,
+      "epoch": 2.608,
+      "grad_norm": 21.625,
+      "learning_rate": 1.0155555555555556e-05,
+      "loss": 20.5742,
+      "mean_token_accuracy": 0.6907225508242846,
+      "num_tokens": 31876008.0,
+      "step": 1630
+    },
+    {
+      "entropy": 1.2478659953922033,
+      "epoch": 2.624,
+      "grad_norm": 21.375,
+      "learning_rate": 1.0081481481481484e-05,
+      "loss": 20.006,
+      "mean_token_accuracy": 0.6965215235948563,
+      "num_tokens": 32069617.0,
+      "step": 1640
+    },
+    {
+      "entropy": 1.2640259351581336,
+      "epoch": 2.64,
+      "grad_norm": 20.0,
+      "learning_rate": 1.0007407407407407e-05,
+      "loss": 20.6387,
+      "mean_token_accuracy": 0.6902830567210912,
+      "num_tokens": 32262932.0,
+      "step": 1650
+    },
+    {
+      "entropy": 1.2446098852902652,
+      "epoch": 2.656,
+      "grad_norm": 19.625,
+      "learning_rate": 9.933333333333334e-06,
+      "loss": 19.859,
+      "mean_token_accuracy": 0.6993511699140071,
+      "num_tokens": 32465495.0,
+      "step": 1660
+    },
+    {
+      "entropy": 1.2263234194368124,
+      "epoch": 2.672,
+      "grad_norm": 20.5,
+      "learning_rate": 9.85925925925926e-06,
+      "loss": 19.9066,
+      "mean_token_accuracy": 0.6994441974908113,
+      "num_tokens": 32665458.0,
+      "step": 1670
+    },
+    {
+      "entropy": 1.2391818948090076,
+      "epoch": 2.6879999999999997,
+      "grad_norm": 19.125,
+      "learning_rate": 9.785185185185187e-06,
+      "loss": 20.0315,
+      "mean_token_accuracy": 0.6982862666249275,
+      "num_tokens": 32867135.0,
+      "step": 1680
+    },
+    {
+      "entropy": 1.2510778598487378,
+      "epoch": 2.7039999999999997,
+      "grad_norm": 19.625,
+      "learning_rate": 9.711111111111111e-06,
+      "loss": 20.1242,
+      "mean_token_accuracy": 0.6958760701119899,
+      "num_tokens": 33070366.0,
+      "step": 1690
+    },
+    {
+      "entropy": 1.2359105788171292,
+      "epoch": 2.7199999999999998,
+      "grad_norm": 22.5,
+      "learning_rate": 9.637037037037038e-06,
+      "loss": 19.9727,
+      "mean_token_accuracy": 0.6961525905877352,
+      "num_tokens": 33269122.0,
+      "step": 1700
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "eval_biology_entropy": 1.220011395931244,
+      "eval_biology_loss": 1.2638740539550781,
+      "eval_biology_mean_token_accuracy": 0.6976135740280152,
+      "eval_biology_num_tokens": 33269122.0,
+      "eval_biology_runtime": 48.5623,
+      "eval_biology_samples_per_second": 10.296,
+      "eval_biology_steps_per_second": 2.574,
+      "step": 1700
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "eval_chemistry_entropy": 0.9310768895149231,
+      "eval_chemistry_loss": 0.9585283398628235,
+      "eval_chemistry_mean_token_accuracy": 0.7632611804008483,
+      "eval_chemistry_num_tokens": 33269122.0,
+      "eval_chemistry_runtime": 60.2482,
+      "eval_chemistry_samples_per_second": 8.299,
+      "eval_chemistry_steps_per_second": 2.075,
+      "step": 1700
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "eval_math_entropy": 0.8383772811889648,
+      "eval_math_loss": 1.0849062204360962,
+      "eval_math_mean_token_accuracy": 0.7499314618110656,
+      "eval_math_num_tokens": 33269122.0,
+      "eval_math_runtime": 61.8032,
+      "eval_math_samples_per_second": 8.09,
+      "eval_math_steps_per_second": 2.023,
+      "step": 1700
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "eval_cyber_entropy": 2.2346273112297057,
+      "eval_cyber_loss": 2.8241565227508545,
+      "eval_cyber_mean_token_accuracy": 0.4965496668219566,
+      "eval_cyber_num_tokens": 33269122.0,
+      "eval_cyber_runtime": 58.9306,
+      "eval_cyber_samples_per_second": 6.737,
+      "eval_cyber_steps_per_second": 1.697,
+      "step": 1700
+    },
+    {
+      "entropy": 1.275526064261794,
+      "epoch": 2.7359999999999998,
+      "grad_norm": 19.75,
+      "learning_rate": 9.562962962962965e-06,
+      "loss": 20.5536,
+      "mean_token_accuracy": 0.6915018800646067,
+      "num_tokens": 33456592.0,
+      "step": 1710
+    },
+    {
+      "entropy": 1.258423050120473,
+      "epoch": 2.752,
+      "grad_norm": 20.875,
+      "learning_rate": 9.48888888888889e-06,
+      "loss": 20.2345,
+      "mean_token_accuracy": 0.6949015587568284,
+      "num_tokens": 33645862.0,
+      "step": 1720
+    },
+    {
+      "entropy": 1.2810617201030254,
+      "epoch": 2.768,
+      "grad_norm": 20.625,
+      "learning_rate": 9.414814814814816e-06,
+      "loss": 20.7419,
+      "mean_token_accuracy": 0.6883704375475646,
+      "num_tokens": 33835740.0,
+      "step": 1730
+    },
+    {
+      "entropy": 1.235444600507617,
+      "epoch": 2.784,
+      "grad_norm": 18.25,
+      "learning_rate": 9.34074074074074e-06,
+      "loss": 19.9614,
+      "mean_token_accuracy": 0.698374417796731,
+      "num_tokens": 34034702.0,
+      "step": 1740
+    },
+    {
+      "entropy": 1.240835690125823,
+      "epoch": 2.8,
+      "grad_norm": 18.875,
+      "learning_rate": 9.266666666666667e-06,
+      "loss": 20.0363,
+      "mean_token_accuracy": 0.6977193936705589,
+      "num_tokens": 34235603.0,
+      "step": 1750
+    },
+    {
+      "entropy": 1.2478354915976524,
+      "epoch": 2.816,
+      "grad_norm": 20.125,
+      "learning_rate": 9.192592592592594e-06,
+      "loss": 20.1876,
+      "mean_token_accuracy": 0.6962190333753824,
+      "num_tokens": 34434833.0,
+      "step": 1760
+    },
+    {
+      "entropy": 1.2712427478283643,
+      "epoch": 2.832,
+      "grad_norm": 21.5,
+      "learning_rate": 9.118518518518518e-06,
+      "loss": 20.6114,
+      "mean_token_accuracy": 0.6929421681910753,
+      "num_tokens": 34625581.0,
+      "step": 1770
+    },
+    {
+      "entropy": 1.2750334855169059,
+      "epoch": 2.848,
+      "grad_norm": 21.75,
+      "learning_rate": 9.044444444444445e-06,
+      "loss": 20.4708,
+      "mean_token_accuracy": 0.6927024837583303,
+      "num_tokens": 34816521.0,
+      "step": 1780
+    },
+    {
+      "entropy": 1.240677573531866,
+      "epoch": 2.864,
+      "grad_norm": 20.375,
+      "learning_rate": 8.970370370370372e-06,
+      "loss": 20.0913,
+      "mean_token_accuracy": 0.6966684833168983,
+      "num_tokens": 35013631.0,
+      "step": 1790
+    },
+    {
+      "entropy": 1.2785068407654763,
+      "epoch": 2.88,
+      "grad_norm": 21.625,
+      "learning_rate": 8.896296296296298e-06,
+      "loss": 20.5855,
+      "mean_token_accuracy": 0.6912990726530552,
+      "num_tokens": 35207800.0,
+      "step": 1800
+    },
+    {
+      "epoch": 2.88,
+      "eval_biology_entropy": 1.2326566462516784,
+      "eval_biology_loss": 1.2624694108963013,
+      "eval_biology_mean_token_accuracy": 0.6982610473632812,
+      "eval_biology_num_tokens": 35207800.0,
+      "eval_biology_runtime": 48.6584,
+      "eval_biology_samples_per_second": 10.276,
+      "eval_biology_steps_per_second": 2.569,
+      "step": 1800
+    },
+    {
+      "epoch": 2.88,
+      "eval_chemistry_entropy": 0.9439322190284729,
+      "eval_chemistry_loss": 0.958177387714386,
+      "eval_chemistry_mean_token_accuracy": 0.7634941415786743,
+      "eval_chemistry_num_tokens": 35207800.0,
+      "eval_chemistry_runtime": 60.3744,
+      "eval_chemistry_samples_per_second": 8.282,
+      "eval_chemistry_steps_per_second": 2.07,
+      "step": 1800
+    },
+    {
+      "epoch": 2.88,
+      "eval_math_entropy": 0.8483011198043823,
+      "eval_math_loss": 1.084191918373108,
+      "eval_math_mean_token_accuracy": 0.749516860961914,
+      "eval_math_num_tokens": 35207800.0,
+      "eval_math_runtime": 61.9233,
+      "eval_math_samples_per_second": 8.075,
+      "eval_math_steps_per_second": 2.019,
+      "step": 1800
+    },
+    {
+      "epoch": 2.88,
+      "eval_cyber_entropy": 2.233942435979843,
+      "eval_cyber_loss": 2.8212552070617676,
+      "eval_cyber_mean_token_accuracy": 0.49529594123363496,
+      "eval_cyber_num_tokens": 35207800.0,
+      "eval_cyber_runtime": 59.0321,
+      "eval_cyber_samples_per_second": 6.725,
+      "eval_cyber_steps_per_second": 1.694,
+      "step": 1800
+    },
+    {
+      "entropy": 1.2758983630686997,
+      "epoch": 2.896,
+      "grad_norm": 21.5,
+      "learning_rate": 8.822222222222223e-06,
+      "loss": 20.4145,
+      "mean_token_accuracy": 0.6935398448258638,
+      "num_tokens": 35402995.0,
+      "step": 1810
+    },
+    {
+      "entropy": 1.2687516041100024,
+      "epoch": 2.912,
+      "grad_norm": 21.125,
+      "learning_rate": 8.74814814814815e-06,
+      "loss": 20.5748,
+      "mean_token_accuracy": 0.6925326142460108,
+      "num_tokens": 35595456.0,
+      "step": 1820
+    },
+    {
+      "entropy": 1.2766919579356908,
+      "epoch": 2.928,
+      "grad_norm": 20.75,
+      "learning_rate": 8.674074074074074e-06,
+      "loss": 20.6155,
+      "mean_token_accuracy": 0.6923059385269881,
+      "num_tokens": 35787309.0,
+      "step": 1830
+    },
+    {
+      "entropy": 1.252352038025856,
+      "epoch": 2.944,
+      "grad_norm": 21.125,
+      "learning_rate": 8.6e-06,
+      "loss": 20.2043,
+      "mean_token_accuracy": 0.6947959426790475,
+      "num_tokens": 35982686.0,
+      "step": 1840
+    },
+    {
+      "entropy": 1.2456642746925355,
+      "epoch": 2.96,
+      "grad_norm": 21.375,
+      "learning_rate": 8.525925925925927e-06,
+      "loss": 20.1306,
+      "mean_token_accuracy": 0.6962343286722898,
+      "num_tokens": 36179520.0,
+      "step": 1850
+    },
+    {
+      "entropy": 1.2474573370069266,
+      "epoch": 2.976,
+      "grad_norm": 19.875,
+      "learning_rate": 8.451851851851852e-06,
+      "loss": 20.1127,
+      "mean_token_accuracy": 0.6960530079901218,
+      "num_tokens": 36373689.0,
+      "step": 1860
+    },
+    {
+      "entropy": 1.251881342381239,
+      "epoch": 2.992,
+      "grad_norm": 23.25,
+      "learning_rate": 8.377777777777779e-06,
+      "loss": 20.2869,
+      "mean_token_accuracy": 0.6959608975797892,
+      "num_tokens": 36569612.0,
+      "step": 1870
+    },
+    {
+      "entropy": 1.2793707679957151,
+      "epoch": 3.008,
+      "grad_norm": 21.375,
+      "learning_rate": 8.303703703703705e-06,
+      "loss": 20.4974,
+      "mean_token_accuracy": 0.6918497812002897,
+      "num_tokens": 36759194.0,
+      "step": 1880
+    },
+    {
+      "entropy": 1.270806109532714,
+      "epoch": 3.024,
+      "grad_norm": 20.125,
+      "learning_rate": 8.229629629629632e-06,
+      "loss": 20.5499,
+      "mean_token_accuracy": 0.6906452853232622,
+      "num_tokens": 36947293.0,
+      "step": 1890
+    },
+    {
+      "entropy": 1.2329706739634276,
+      "epoch": 3.04,
+      "grad_norm": 21.0,
+      "learning_rate": 8.155555555555556e-06,
+      "loss": 19.8645,
+      "mean_token_accuracy": 0.7000770628452301,
+      "num_tokens": 37136901.0,
+      "step": 1900
+    },
+    {
+      "epoch": 3.04,
+      "eval_biology_entropy": 1.2161930742263793,
+      "eval_biology_loss": 1.2619609832763672,
+      "eval_biology_mean_token_accuracy": 0.6983966584205628,
+      "eval_biology_num_tokens": 37136901.0,
+      "eval_biology_runtime": 48.5676,
+      "eval_biology_samples_per_second": 10.295,
+      "eval_biology_steps_per_second": 2.574,
+      "step": 1900
+    },
+    {
+      "epoch": 3.04,
+      "eval_chemistry_entropy": 0.9266538290977478,
+      "eval_chemistry_loss": 0.9588263034820557,
+      "eval_chemistry_mean_token_accuracy": 0.763595272064209,
+      "eval_chemistry_num_tokens": 37136901.0,
+      "eval_chemistry_runtime": 60.2182,
+      "eval_chemistry_samples_per_second": 8.303,
+      "eval_chemistry_steps_per_second": 2.076,
+      "step": 1900
+    },
+    {
+      "epoch": 3.04,
+      "eval_math_entropy": 0.8339179096221924,
+      "eval_math_loss": 1.0852128267288208,
+      "eval_math_mean_token_accuracy": 0.7496648592948914,
+      "eval_math_num_tokens": 37136901.0,
+      "eval_math_runtime": 61.793,
+      "eval_math_samples_per_second": 8.092,
+      "eval_math_steps_per_second": 2.023,
+      "step": 1900
+    },
+    {
+      "epoch": 3.04,
+      "eval_cyber_entropy": 2.1908029651641847,
+      "eval_cyber_loss": 2.824298143386841,
+      "eval_cyber_mean_token_accuracy": 0.4978000572323799,
+      "eval_cyber_num_tokens": 37136901.0,
+      "eval_cyber_runtime": 58.9512,
+      "eval_cyber_samples_per_second": 6.734,
+      "eval_cyber_steps_per_second": 1.696,
+      "step": 1900
+    },
+    {
+      "entropy": 1.246962970867753,
+      "epoch": 3.056,
+      "grad_norm": 21.5,
+      "learning_rate": 8.081481481481483e-06,
+      "loss": 20.0058,
+      "mean_token_accuracy": 0.6961042139679193,
+      "num_tokens": 37331588.0,
+      "step": 1910
+    },
+    {
+      "entropy": 1.2139686714857816,
+      "epoch": 3.072,
+      "grad_norm": 21.25,
+      "learning_rate": 8.007407407407408e-06,
+      "loss": 19.5736,
+      "mean_token_accuracy": 0.7032940357923507,
+      "num_tokens": 37521211.0,
+      "step": 1920
+    },
+    {
+      "entropy": 1.23736840672791,
+      "epoch": 3.088,
+      "grad_norm": 20.5,
+      "learning_rate": 7.933333333333334e-06,
+      "loss": 20.0982,
+      "mean_token_accuracy": 0.6960875768214464,
+      "num_tokens": 37713328.0,
+      "step": 1930
+    },
+    {
+      "entropy": 1.2229486364871263,
+      "epoch": 3.104,
+      "grad_norm": 19.125,
+      "learning_rate": 7.859259259259259e-06,
+      "loss": 19.6047,
+      "mean_token_accuracy": 0.7018660567700863,
+      "num_tokens": 37913470.0,
+      "step": 1940
+    },
+    {
+      "entropy": 1.223341765627265,
+      "epoch": 3.12,
+      "grad_norm": 20.5,
+      "learning_rate": 7.785185185185185e-06,
+      "loss": 19.92,
+      "mean_token_accuracy": 0.6998291172087192,
+      "num_tokens": 38106718.0,
+      "step": 1950
+    },
+    {
+      "entropy": 1.2402896065264941,
+      "epoch": 3.136,
+      "grad_norm": 22.5,
+      "learning_rate": 7.711111111111112e-06,
+      "loss": 19.879,
+      "mean_token_accuracy": 0.6992235485464334,
+      "num_tokens": 38295701.0,
+      "step": 1960
+    },
+    {
+      "entropy": 1.2329155914485455,
+      "epoch": 3.152,
+      "grad_norm": 20.875,
+      "learning_rate": 7.637037037037037e-06,
+      "loss": 19.8162,
+      "mean_token_accuracy": 0.7000128466635942,
+      "num_tokens": 38493951.0,
+      "step": 1970
+    },
+    {
+      "entropy": 1.2596189703792333,
+      "epoch": 3.168,
+      "grad_norm": 21.625,
+      "learning_rate": 7.562962962962963e-06,
+      "loss": 20.4478,
+      "mean_token_accuracy": 0.6925735887140035,
+      "num_tokens": 38688390.0,
+      "step": 1980
+    },
+    {
+      "entropy": 1.2458199262619019,
+      "epoch": 3.184,
+      "grad_norm": 19.875,
+      "learning_rate": 7.48888888888889e-06,
+      "loss": 20.0605,
+      "mean_token_accuracy": 0.6980946302413941,
+      "num_tokens": 38880157.0,
+      "step": 1990
+    },
+    {
+      "entropy": 1.2279883187264204,
+      "epoch": 3.2,
+      "grad_norm": 19.875,
+      "learning_rate": 7.4148148148148155e-06,
+      "loss": 19.8355,
+      "mean_token_accuracy": 0.7001625929027796,
+      "num_tokens": 39081782.0,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_biology_entropy": 1.203757492542267,
+      "eval_biology_loss": 1.2618530988693237,
+      "eval_biology_mean_token_accuracy": 0.6981693663597107,
+      "eval_biology_num_tokens": 39081782.0,
+      "eval_biology_runtime": 48.5462,
+      "eval_biology_samples_per_second": 10.299,
+      "eval_biology_steps_per_second": 2.575,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_chemistry_entropy": 0.9181569867134094,
+      "eval_chemistry_loss": 0.9586373567581177,
+      "eval_chemistry_mean_token_accuracy": 0.7633922476768493,
+      "eval_chemistry_num_tokens": 39081782.0,
+      "eval_chemistry_runtime": 59.9544,
+      "eval_chemistry_samples_per_second": 8.34,
+      "eval_chemistry_steps_per_second": 2.085,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_math_entropy": 0.827507004737854,
+      "eval_math_loss": 1.0850911140441895,
+      "eval_math_mean_token_accuracy": 0.7499541993141174,
+      "eval_math_num_tokens": 39081782.0,
+      "eval_math_runtime": 61.4817,
+      "eval_math_samples_per_second": 8.133,
+      "eval_math_steps_per_second": 2.033,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_cyber_entropy": 2.1836040806770325,
+      "eval_cyber_loss": 2.829263925552368,
+      "eval_cyber_mean_token_accuracy": 0.4958575034141541,
+      "eval_cyber_num_tokens": 39081782.0,
+      "eval_cyber_runtime": 58.8995,
+      "eval_cyber_samples_per_second": 6.74,
+      "eval_cyber_steps_per_second": 1.698,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 3000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.4082567723215933e+18,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

recover/README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+base_model: google/gemma-3-12b-it
+library_name: transformers
+model_name: recover
+tags:
+- generated_from_trainer
+- sft
+- trl
+licence: license
+---
+# Model Card for recover
+This model is a fine-tuned version of [google/gemma-3-12b-it](https://huggingface.co/google/gemma-3-12b-it).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="None", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/arunasank/sae-scoping-stemqa-biology/runs/124xpcap)
+This model was trained with SFT.
+### Framework versions
+- TRL: 0.22.2
+- Transformers: 4.56.1
+- Pytorch: 2.7.1+cu128
+- Datasets: 4.0.0
+- Tokenizers: 0.22.2
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

recover/checkpoint-3000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

recover/checkpoint-3000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

recover/checkpoint-3000/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 2,
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.56.1"
+}

recover/checkpoint-3000/model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff

recover/checkpoint-3000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

recover/checkpoint-3000/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

recover/checkpoint-3000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

recover/final/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

recover/final/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

recover/final/config.json ADDED Viewed

	@@ -0,0 +1,110 @@

+{
+  "architectures": [
+    "Gemma3ForConditionalGeneration"
+  ],
+  "boi_token_index": 255999,
+  "bos_token_id": 2,
+  "dtype": "bfloat16",
+  "eoi_token_index": 256000,
+  "eos_token_id": 1,
+  "image_token_index": 262144,
+  "initializer_range": 0.02,
+  "mm_tokens_per_image": 256,
+  "model_type": "gemma3",
+  "pad_token_id": 0,
+  "text_config": {
+    "_sliding_window_pattern": 6,
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attn_logit_softcapping": null,
+    "dtype": "bfloat16",
+    "final_logit_softcapping": null,
+    "head_dim": 256,
+    "hidden_activation": "gelu_pytorch_tanh",
+    "hidden_size": 3840,
+    "initializer_range": 0.02,
+    "intermediate_size": 15360,
+    "layer_types": [
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "sliding_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 131072,
+    "model_type": "gemma3_text",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 48,
+    "num_key_value_heads": 8,
+    "query_pre_attn_scalar": 256,
+    "rms_norm_eps": 1e-06,
+    "rope_local_base_freq": 10000.0,
+    "rope_scaling": {
+      "factor": 8.0,
+      "rope_type": "linear"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": 1024,
+    "use_cache": true,
+    "vocab_size": 262208
+  },
+  "transformers_version": "4.56.1",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 896,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 27,
+    "patch_size": 14,
+    "vision_use_head": false
+  }
+}

recover/final/generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 2,
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    1,
+    106
+  ],
+  "pad_token_id": 0,
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.56.1"
+}

recover/final/model.safetensors.index.json ADDED Viewed

The diff for this file is too large to render. See raw diff