Instructions to use unicorn-team/Unicorn-R3 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use unicorn-team/Unicorn-R3 with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="unicorn-team/Unicorn-R3")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("unicorn-team/Unicorn-R3")
model = AutoModelForCausalLM.from_pretrained("unicorn-team/Unicorn-R3")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use unicorn-team/Unicorn-R3 with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "unicorn-team/Unicorn-R3"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "unicorn-team/Unicorn-R3",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/unicorn-team/Unicorn-R3

SGLang

How to use unicorn-team/Unicorn-R3 with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "unicorn-team/Unicorn-R3" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "unicorn-team/Unicorn-R3",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "unicorn-team/Unicorn-R3" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "unicorn-team/Unicorn-R3",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use unicorn-team/Unicorn-R3 with Docker Model Runner:
```
docker model run hf.co/unicorn-team/Unicorn-R3
```

rin2401 commited on Dec 3, 2025

Commit

e99638b

verified ·

1 Parent(s): 1299dcb

Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

.gitattributes +1 -0
added_tokens.json +28 -0
chat_template.jinja +87 -0
config.json +68 -0
generation_config.json +12 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +407 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +239 -0
trainer_state.json +2266 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,87 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + message.content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set content = message.content %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in message.content %}
+                {%- set content = message.content.split('</think>')[-1].lstrip('\n') %}
+                {%- set reasoning_content = message.content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- message.content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- else %}
+        {{- '<think>\n\n' }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.3",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.57.3"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb8718c7e3d2e6bc68b3ff4423b039121f4d493c8a4e3e9ee5d6e587a60c4ad1
+size 4902257696

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa518de503f8fb7e418b0ed8e4fb7f33211794386e6bacaa8fb3857f26e90886
+size 4915960368

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d818da7f7e26608610c9756de52c84d156330843349f50cd50be60ee75e257e4
+size 4983068496

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cff78bb628dc25dec54d4a01dd2cd13534edc35c9c544a6d93ff4a19e94cdcdc
+size 1580230264

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,407 @@

+{
+  "metadata": {
+    "total_parameters": 8190735360,
+    "total_size": 16381470720
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2266 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.956175298804781,
+  "eval_steps": 500,
+  "global_step": 186,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01593625498007968,
+      "grad_norm": 4.5625,
+      "learning_rate": 0.0,
+      "loss": 1.4053,
+      "memory/device_reserved (GiB)": 61.34,
+      "memory/max_active (GiB)": 49.6,
+      "memory/max_allocated (GiB)": 49.6,
+      "step": 1,
+      "tokens_per_second_per_gpu": 4706.79,
+      "total_tokens": 180518
+    },
+    {
+      "epoch": 0.03187250996015936,
+      "grad_norm": 4.34375,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 1.3369,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 2,
+      "tokens_per_second_per_gpu": 5826.72,
+      "total_tokens": 363757
+    },
+    {
+      "epoch": 0.04780876494023904,
+      "grad_norm": 4.15625,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 1.3623,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 3,
+      "tokens_per_second_per_gpu": 5939.96,
+      "total_tokens": 558043
+    },
+    {
+      "epoch": 0.06374501992031872,
+      "grad_norm": 4.34375,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 1.3643,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 4,
+      "tokens_per_second_per_gpu": 5941.47,
+      "total_tokens": 743276
+    },
+    {
+      "epoch": 0.0796812749003984,
+      "grad_norm": 3.90625,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 1.2998,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 5,
+      "tokens_per_second_per_gpu": 5380.38,
+      "total_tokens": 929761
+    },
+    {
+      "epoch": 0.09561752988047809,
+      "grad_norm": 3.546875,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 1.3018,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 6,
+      "tokens_per_second_per_gpu": 5949.69,
+      "total_tokens": 1118316
+    },
+    {
+      "epoch": 0.11155378486055777,
+      "grad_norm": 3.171875,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.2793,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 7,
+      "tokens_per_second_per_gpu": 5785.23,
+      "total_tokens": 1301615
+    },
+    {
+      "epoch": 0.12749003984063745,
+      "grad_norm": 2.96875,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 1.3115,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 8,
+      "tokens_per_second_per_gpu": 5941.21,
+      "total_tokens": 1490474
+    },
+    {
+      "epoch": 0.14342629482071714,
+      "grad_norm": 2.296875,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 1.2588,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 9,
+      "tokens_per_second_per_gpu": 5534.49,
+      "total_tokens": 1667576
+    },
+    {
+      "epoch": 0.1593625498007968,
+      "grad_norm": 1.5625,
+      "learning_rate": 1e-05,
+      "loss": 1.1992,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 10,
+      "tokens_per_second_per_gpu": 6154.87,
+      "total_tokens": 1857807
+    },
+    {
+      "epoch": 0.1752988047808765,
+      "grad_norm": 1.0703125,
+      "learning_rate": 1.1111111111111113e-05,
+      "loss": 1.1436,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 11,
+      "tokens_per_second_per_gpu": 5715.6,
+      "total_tokens": 2041489
+    },
+    {
+      "epoch": 0.19123505976095617,
+      "grad_norm": 0.9765625,
+      "learning_rate": 1.2222222222222224e-05,
+      "loss": 1.2402,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 12,
+      "tokens_per_second_per_gpu": 5749.37,
+      "total_tokens": 2216014
+    },
+    {
+      "epoch": 0.20717131474103587,
+      "grad_norm": 0.9609375,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.2051,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 13,
+      "tokens_per_second_per_gpu": 5748.94,
+      "total_tokens": 2397131
+    },
+    {
+      "epoch": 0.22310756972111553,
+      "grad_norm": 0.921875,
+      "learning_rate": 1.4444444444444446e-05,
+      "loss": 1.1211,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 14,
+      "tokens_per_second_per_gpu": 6171.1,
+      "total_tokens": 2590472
+    },
+    {
+      "epoch": 0.23904382470119523,
+      "grad_norm": 0.8984375,
+      "learning_rate": 1.555555555555556e-05,
+      "loss": 1.1777,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 15,
+      "tokens_per_second_per_gpu": 6160.5,
+      "total_tokens": 2780711
+    },
+    {
+      "epoch": 0.2549800796812749,
+      "grad_norm": 0.80078125,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.1025,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 16,
+      "tokens_per_second_per_gpu": 5706.58,
+      "total_tokens": 2968588
+    },
+    {
+      "epoch": 0.27091633466135456,
+      "grad_norm": 0.65234375,
+      "learning_rate": 1.7777777777777777e-05,
+      "loss": 1.2041,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 17,
+      "tokens_per_second_per_gpu": 5569.19,
+      "total_tokens": 3148691
+    },
+    {
+      "epoch": 0.2868525896414343,
+      "grad_norm": 0.59765625,
+      "learning_rate": 1.888888888888889e-05,
+      "loss": 1.168,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 18,
+      "tokens_per_second_per_gpu": 5894.91,
+      "total_tokens": 3332398
+    },
+    {
+      "epoch": 0.30278884462151395,
+      "grad_norm": 0.5625,
+      "learning_rate": 2e-05,
+      "loss": 1.0977,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 19,
+      "tokens_per_second_per_gpu": 6092.09,
+      "total_tokens": 3526610
+    },
+    {
+      "epoch": 0.3187250996015936,
+      "grad_norm": 0.54296875,
+      "learning_rate": 1.9998251609127465e-05,
+      "loss": 1.1372,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 20,
+      "tokens_per_second_per_gpu": 5971.19,
+      "total_tokens": 3711042
+    },
+    {
+      "epoch": 0.3346613545816733,
+      "grad_norm": 0.5078125,
+      "learning_rate": 1.9993007047883988e-05,
+      "loss": 1.0659,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 21,
+      "tokens_per_second_per_gpu": 5750.71,
+      "total_tokens": 3890841
+    },
+    {
+      "epoch": 0.350597609561753,
+      "grad_norm": 0.50390625,
+      "learning_rate": 1.998426815017817e-05,
+      "loss": 1.124,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 22,
+      "tokens_per_second_per_gpu": 5968.21,
+      "total_tokens": 4074024
+    },
+    {
+      "epoch": 0.3665338645418327,
+      "grad_norm": 0.4609375,
+      "learning_rate": 1.9972037971811802e-05,
+      "loss": 1.064,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 23,
+      "tokens_per_second_per_gpu": 5672.93,
+      "total_tokens": 4261426
+    },
+    {
+      "epoch": 0.38247011952191234,
+      "grad_norm": 0.458984375,
+      "learning_rate": 1.9956320789411338e-05,
+      "loss": 1.0977,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 24,
+      "tokens_per_second_per_gpu": 5947.63,
+      "total_tokens": 4448221
+    },
+    {
+      "epoch": 0.398406374501992,
+      "grad_norm": 0.400390625,
+      "learning_rate": 1.9937122098932428e-05,
+      "loss": 0.9438,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 25,
+      "tokens_per_second_per_gpu": 5830.3,
+      "total_tokens": 4643418
+    },
+    {
+      "epoch": 0.41434262948207173,
+      "grad_norm": 0.451171875,
+      "learning_rate": 1.9914448613738107e-05,
+      "loss": 1.0786,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 26,
+      "tokens_per_second_per_gpu": 5753.23,
+      "total_tokens": 4826564
+    },
+    {
+      "epoch": 0.4302788844621514,
+      "grad_norm": 0.41796875,
+      "learning_rate": 1.9888308262251286e-05,
+      "loss": 1.1084,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 27,
+      "tokens_per_second_per_gpu": 5786.21,
+      "total_tokens": 5008617
+    },
+    {
+      "epoch": 0.44621513944223107,
+      "grad_norm": 0.392578125,
+      "learning_rate": 1.985871018518236e-05,
+      "loss": 1.0488,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 28,
+      "tokens_per_second_per_gpu": 5935.98,
+      "total_tokens": 5194550
+    },
+    {
+      "epoch": 0.46215139442231074,
+      "grad_norm": 0.37109375,
+      "learning_rate": 1.9825664732332886e-05,
+      "loss": 1.0894,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 29,
+      "tokens_per_second_per_gpu": 5927.93,
+      "total_tokens": 5380376
+    },
+    {
+      "epoch": 0.47808764940239046,
+      "grad_norm": 0.35546875,
+      "learning_rate": 1.9789183458976485e-05,
+      "loss": 1.0869,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 30,
+      "tokens_per_second_per_gpu": 6097.05,
+      "total_tokens": 5567310
+    },
+    {
+      "epoch": 0.4940239043824701,
+      "grad_norm": 0.37109375,
+      "learning_rate": 1.9749279121818235e-05,
+      "loss": 1.0181,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 31,
+      "tokens_per_second_per_gpu": 6055.18,
+      "total_tokens": 5750982
+    },
+    {
+      "epoch": 0.5099601593625498,
+      "grad_norm": 0.380859375,
+      "learning_rate": 1.970596567453391e-05,
+      "loss": 1.0552,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 32,
+      "tokens_per_second_per_gpu": 6008.39,
+      "total_tokens": 5937332
+    },
+    {
+      "epoch": 0.5258964143426295,
+      "grad_norm": 0.376953125,
+      "learning_rate": 1.9659258262890683e-05,
+      "loss": 1.0439,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 33,
+      "tokens_per_second_per_gpu": 6030.07,
+      "total_tokens": 6120851
+    },
+    {
+      "epoch": 0.5418326693227091,
+      "grad_norm": 0.369140625,
+      "learning_rate": 1.9609173219450998e-05,
+      "loss": 1.0835,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 34,
+      "tokens_per_second_per_gpu": 5726.88,
+      "total_tokens": 6297402
+    },
+    {
+      "epoch": 0.5577689243027888,
+      "grad_norm": 0.396484375,
+      "learning_rate": 1.955572805786141e-05,
+      "loss": 1.1074,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 35,
+      "tokens_per_second_per_gpu": 5816.12,
+      "total_tokens": 6480316
+    },
+    {
+      "epoch": 0.5737051792828686,
+      "grad_norm": 0.357421875,
+      "learning_rate": 1.9498941466728462e-05,
+      "loss": 1.0391,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 36,
+      "tokens_per_second_per_gpu": 5765.66,
+      "total_tokens": 6665052
+    },
+    {
+      "epoch": 0.5896414342629482,
+      "grad_norm": 0.345703125,
+      "learning_rate": 1.9438833303083677e-05,
+      "loss": 1.0371,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 37,
+      "tokens_per_second_per_gpu": 5749.09,
+      "total_tokens": 6849283
+    },
+    {
+      "epoch": 0.6055776892430279,
+      "grad_norm": 0.34375,
+      "learning_rate": 1.9375424585439994e-05,
+      "loss": 1.0503,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 38,
+      "tokens_per_second_per_gpu": 5927.3,
+      "total_tokens": 7032513
+    },
+    {
+      "epoch": 0.6215139442231076,
+      "grad_norm": 0.330078125,
+      "learning_rate": 1.9308737486442045e-05,
+      "loss": 1.0479,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 39,
+      "tokens_per_second_per_gpu": 5905.92,
+      "total_tokens": 7214561
+    },
+    {
+      "epoch": 0.6374501992031872,
+      "grad_norm": 0.3359375,
+      "learning_rate": 1.9238795325112867e-05,
+      "loss": 1.0098,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 40,
+      "tokens_per_second_per_gpu": 5853.3,
+      "total_tokens": 7400854
+    },
+    {
+      "epoch": 0.6533864541832669,
+      "grad_norm": 0.36328125,
+      "learning_rate": 1.9165622558699763e-05,
+      "loss": 1.106,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 41,
+      "tokens_per_second_per_gpu": 5556.45,
+      "total_tokens": 7577263
+    },
+    {
+      "epoch": 0.6693227091633466,
+      "grad_norm": 0.396484375,
+      "learning_rate": 1.908924477412211e-05,
+      "loss": 1.0498,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 42,
+      "tokens_per_second_per_gpu": 5928.26,
+      "total_tokens": 7763586
+    },
+    {
+      "epoch": 0.6852589641434262,
+      "grad_norm": 0.32421875,
+      "learning_rate": 1.900968867902419e-05,
+      "loss": 1.0171,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 43,
+      "tokens_per_second_per_gpu": 6102.36,
+      "total_tokens": 7953595
+    },
+    {
+      "epoch": 0.701195219123506,
+      "grad_norm": 0.36328125,
+      "learning_rate": 1.8926982092436117e-05,
+      "loss": 1.0688,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 44,
+      "tokens_per_second_per_gpu": 6058.46,
+      "total_tokens": 8135608
+    },
+    {
+      "epoch": 0.7171314741035857,
+      "grad_norm": 0.359375,
+      "learning_rate": 1.8841153935046098e-05,
+      "loss": 0.978,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 45,
+      "tokens_per_second_per_gpu": 5806.45,
+      "total_tokens": 8328038
+    },
+    {
+      "epoch": 0.7330677290836654,
+      "grad_norm": 0.333984375,
+      "learning_rate": 1.8752234219087538e-05,
+      "loss": 1.0435,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 46,
+      "tokens_per_second_per_gpu": 5940.85,
+      "total_tokens": 8517629
+    },
+    {
+      "epoch": 0.749003984063745,
+      "grad_norm": 0.400390625,
+      "learning_rate": 1.866025403784439e-05,
+      "loss": 1.0317,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 47,
+      "tokens_per_second_per_gpu": 5929.8,
+      "total_tokens": 8700619
+    },
+    {
+      "epoch": 0.7649402390438247,
+      "grad_norm": 0.328125,
+      "learning_rate": 1.8565245554778516e-05,
+      "loss": 0.9819,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 48,
+      "tokens_per_second_per_gpu": 5991.89,
+      "total_tokens": 8886726
+    },
+    {
+      "epoch": 0.7808764940239044,
+      "grad_norm": 0.34765625,
+      "learning_rate": 1.8467241992282842e-05,
+      "loss": 1.0396,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 49,
+      "tokens_per_second_per_gpu": 5941.59,
+      "total_tokens": 9074210
+    },
+    {
+      "epoch": 0.796812749003984,
+      "grad_norm": 0.345703125,
+      "learning_rate": 1.83662776200642e-05,
+      "loss": 1.0703,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 50,
+      "tokens_per_second_per_gpu": 5856.71,
+      "total_tokens": 9253264
+    },
+    {
+      "epoch": 0.8127490039840638,
+      "grad_norm": 0.33203125,
+      "learning_rate": 1.826238774315995e-05,
+      "loss": 1.0078,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 51,
+      "tokens_per_second_per_gpu": 5883.97,
+      "total_tokens": 9437019
+    },
+    {
+      "epoch": 0.8286852589641435,
+      "grad_norm": 0.326171875,
+      "learning_rate": 1.8155608689592604e-05,
+      "loss": 1.0352,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 52,
+      "tokens_per_second_per_gpu": 6284.45,
+      "total_tokens": 9624777
+    },
+    {
+      "epoch": 0.8446215139442231,
+      "grad_norm": 0.34375,
+      "learning_rate": 1.8045977797666685e-05,
+      "loss": 1.0015,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 53,
+      "tokens_per_second_per_gpu": 6227.78,
+      "total_tokens": 9816093
+    },
+    {
+      "epoch": 0.8605577689243028,
+      "grad_norm": 0.32421875,
+      "learning_rate": 1.7933533402912354e-05,
+      "loss": 1.0205,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 54,
+      "tokens_per_second_per_gpu": 5562.75,
+      "total_tokens": 10003875
+    },
+    {
+      "epoch": 0.8764940239043825,
+      "grad_norm": 0.3125,
+      "learning_rate": 1.78183148246803e-05,
+      "loss": 0.9985,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 55,
+      "tokens_per_second_per_gpu": 6029.45,
+      "total_tokens": 10195261
+    },
+    {
+      "epoch": 0.8924302788844621,
+      "grad_norm": 0.328125,
+      "learning_rate": 1.7700362352392632e-05,
+      "loss": 1.0151,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 56,
+      "tokens_per_second_per_gpu": 5824.93,
+      "total_tokens": 10378607
+    },
+    {
+      "epoch": 0.9083665338645418,
+      "grad_norm": 0.345703125,
+      "learning_rate": 1.757971723145453e-05,
+      "loss": 1.0737,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 57,
+      "tokens_per_second_per_gpu": 5758.69,
+      "total_tokens": 10565102
+    },
+    {
+      "epoch": 0.9243027888446215,
+      "grad_norm": 0.330078125,
+      "learning_rate": 1.7456421648831658e-05,
+      "loss": 1.0444,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 58,
+      "tokens_per_second_per_gpu": 5699.09,
+      "total_tokens": 10743645
+    },
+    {
+      "epoch": 0.9402390438247012,
+      "grad_norm": 0.337890625,
+      "learning_rate": 1.7330518718298263e-05,
+      "loss": 0.998,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 59,
+      "tokens_per_second_per_gpu": 5772.72,
+      "total_tokens": 10926325
+    },
+    {
+      "epoch": 0.9561752988047809,
+      "grad_norm": 0.361328125,
+      "learning_rate": 1.7202052465361268e-05,
+      "loss": 1.0659,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 60,
+      "tokens_per_second_per_gpu": 5781.99,
+      "total_tokens": 11105741
+    },
+    {
+      "epoch": 0.9721115537848606,
+      "grad_norm": 0.326171875,
+      "learning_rate": 1.7071067811865477e-05,
+      "loss": 1.0024,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 61,
+      "tokens_per_second_per_gpu": 5416.25,
+      "total_tokens": 11283752
+    },
+    {
+      "epoch": 0.9880478087649402,
+      "grad_norm": 0.314453125,
+      "learning_rate": 1.693761056028542e-05,
+      "loss": 0.9429,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 62,
+      "tokens_per_second_per_gpu": 6080.81,
+      "total_tokens": 11476891
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.03125,
+      "learning_rate": 1.6801727377709195e-05,
+      "loss": 0.8979,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 63,
+      "tokens_per_second_per_gpu": 4586.33,
+      "total_tokens": 11600559
+    },
+    {
+      "epoch": 1.0159362549800797,
+      "grad_norm": 0.33203125,
+      "learning_rate": 1.6663465779520042e-05,
+      "loss": 1.0391,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 64,
+      "tokens_per_second_per_gpu": 5765.65,
+      "total_tokens": 11781077
+    },
+    {
+      "epoch": 1.0318725099601593,
+      "grad_norm": 0.328125,
+      "learning_rate": 1.6522874112781213e-05,
+      "loss": 0.9893,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 65,
+      "tokens_per_second_per_gpu": 5812.65,
+      "total_tokens": 11964316
+    },
+    {
+      "epoch": 1.047808764940239,
+      "grad_norm": 0.33203125,
+      "learning_rate": 1.6380001539330088e-05,
+      "loss": 1.019,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 66,
+      "tokens_per_second_per_gpu": 5958.35,
+      "total_tokens": 12158602
+    },
+    {
+      "epoch": 1.0637450199203187,
+      "grad_norm": 0.318359375,
+      "learning_rate": 1.6234898018587336e-05,
+      "loss": 1.0098,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 67,
+      "tokens_per_second_per_gpu": 5947.9,
+      "total_tokens": 12343835
+    },
+    {
+      "epoch": 1.0796812749003983,
+      "grad_norm": 0.31640625,
+      "learning_rate": 1.608761429008721e-05,
+      "loss": 0.959,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 68,
+      "tokens_per_second_per_gpu": 5410.16,
+      "total_tokens": 12530320
+    },
+    {
+      "epoch": 1.095617529880478,
+      "grad_norm": 0.337890625,
+      "learning_rate": 1.5938201855735017e-05,
+      "loss": 0.998,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 69,
+      "tokens_per_second_per_gpu": 5950.0,
+      "total_tokens": 12718875
+    },
+    {
+      "epoch": 1.1115537848605577,
+      "grad_norm": 0.31640625,
+      "learning_rate": 1.578671296179806e-05,
+      "loss": 0.9834,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 70,
+      "tokens_per_second_per_gpu": 5806.97,
+      "total_tokens": 12902174
+    },
+    {
+      "epoch": 1.1274900398406373,
+      "grad_norm": 0.322265625,
+      "learning_rate": 1.563320058063622e-05,
+      "loss": 1.02,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 71,
+      "tokens_per_second_per_gpu": 5964.93,
+      "total_tokens": 13091033
+    },
+    {
+      "epoch": 1.1434262948207172,
+      "grad_norm": 0.328125,
+      "learning_rate": 1.5477718392178716e-05,
+      "loss": 1.001,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 72,
+      "tokens_per_second_per_gpu": 5543.95,
+      "total_tokens": 13268135
+    },
+    {
+      "epoch": 1.159362549800797,
+      "grad_norm": 0.322265625,
+      "learning_rate": 1.5320320765153367e-05,
+      "loss": 0.9868,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 73,
+      "tokens_per_second_per_gpu": 6161.46,
+      "total_tokens": 13458366
+    },
+    {
+      "epoch": 1.1752988047808766,
+      "grad_norm": 0.33203125,
+      "learning_rate": 1.5161062738075068e-05,
+      "loss": 0.9404,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 74,
+      "tokens_per_second_per_gpu": 5781.1,
+      "total_tokens": 13642048
+    },
+    {
+      "epoch": 1.1912350597609562,
+      "grad_norm": 0.423828125,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 1.0273,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 75,
+      "tokens_per_second_per_gpu": 5754.51,
+      "total_tokens": 13816573
+    },
+    {
+      "epoch": 1.207171314741036,
+      "grad_norm": 0.376953125,
+      "learning_rate": 1.4837188871052399e-05,
+      "loss": 0.999,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 76,
+      "tokens_per_second_per_gpu": 5745.16,
+      "total_tokens": 13997690
+    },
+    {
+      "epoch": 1.2231075697211156,
+      "grad_norm": 0.30859375,
+      "learning_rate": 1.4672686282730622e-05,
+      "loss": 0.9365,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 77,
+      "tokens_per_second_per_gpu": 6187.18,
+      "total_tokens": 14191031
+    },
+    {
+      "epoch": 1.2390438247011952,
+      "grad_norm": 0.310546875,
+      "learning_rate": 1.4506549757999456e-05,
+      "loss": 0.9932,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 78,
+      "tokens_per_second_per_gpu": 6189.26,
+      "total_tokens": 14381270
+    },
+    {
+      "epoch": 1.254980079681275,
+      "grad_norm": 0.361328125,
+      "learning_rate": 1.4338837391175582e-05,
+      "loss": 0.9253,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 79,
+      "tokens_per_second_per_gpu": 5694.92,
+      "total_tokens": 14569147
+    },
+    {
+      "epoch": 1.2709163346613546,
+      "grad_norm": 0.349609375,
+      "learning_rate": 1.4169607827613284e-05,
+      "loss": 1.0249,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 80,
+      "tokens_per_second_per_gpu": 5574.13,
+      "total_tokens": 14749250
+    },
+    {
+      "epoch": 1.2868525896414342,
+      "grad_norm": 0.33984375,
+      "learning_rate": 1.3998920243197408e-05,
+      "loss": 1.0044,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 81,
+      "tokens_per_second_per_gpu": 5892.86,
+      "total_tokens": 14932957
+    },
+    {
+      "epoch": 1.302788844621514,
+      "grad_norm": 0.31640625,
+      "learning_rate": 1.3826834323650899e-05,
+      "loss": 0.9443,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 82,
+      "tokens_per_second_per_gpu": 6084.92,
+      "total_tokens": 15127169
+    },
+    {
+      "epoch": 1.3187250996015936,
+      "grad_norm": 0.328125,
+      "learning_rate": 1.3653410243663953e-05,
+      "loss": 0.9878,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 83,
+      "tokens_per_second_per_gpu": 5984.25,
+      "total_tokens": 15311601
+    },
+    {
+      "epoch": 1.3346613545816732,
+      "grad_norm": 0.32421875,
+      "learning_rate": 1.3478708645852272e-05,
+      "loss": 0.9248,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 84,
+      "tokens_per_second_per_gpu": 5744.73,
+      "total_tokens": 15491400
+    },
+    {
+      "epoch": 1.3505976095617531,
+      "grad_norm": 0.33203125,
+      "learning_rate": 1.3302790619551673e-05,
+      "loss": 0.9824,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 85,
+      "tokens_per_second_per_gpu": 6009.5,
+      "total_tokens": 15674583
+    },
+    {
+      "epoch": 1.3665338645418328,
+      "grad_norm": 0.314453125,
+      "learning_rate": 1.3125717679456447e-05,
+      "loss": 0.9404,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 86,
+      "tokens_per_second_per_gpu": 5690.82,
+      "total_tokens": 15861985
+    },
+    {
+      "epoch": 1.3824701195219125,
+      "grad_norm": 0.34765625,
+      "learning_rate": 1.2947551744109044e-05,
+      "loss": 0.9731,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 87,
+      "tokens_per_second_per_gpu": 5962.66,
+      "total_tokens": 16048780
+    },
+    {
+      "epoch": 1.3984063745019921,
+      "grad_norm": 0.318359375,
+      "learning_rate": 1.2768355114248493e-05,
+      "loss": 0.8406,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 88,
+      "tokens_per_second_per_gpu": 5796.13,
+      "total_tokens": 16243977
+    },
+    {
+      "epoch": 1.4143426294820718,
+      "grad_norm": 0.337890625,
+      "learning_rate": 1.2588190451025209e-05,
+      "loss": 0.9692,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 89,
+      "tokens_per_second_per_gpu": 5748.01,
+      "total_tokens": 16427123
+    },
+    {
+      "epoch": 1.4302788844621515,
+      "grad_norm": 0.345703125,
+      "learning_rate": 1.2407120754089733e-05,
+      "loss": 0.998,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 90,
+      "tokens_per_second_per_gpu": 5897.24,
+      "total_tokens": 16609176
+    },
+    {
+      "epoch": 1.4462151394422311,
+      "grad_norm": 0.33203125,
+      "learning_rate": 1.2225209339563144e-05,
+      "loss": 0.9507,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 91,
+      "tokens_per_second_per_gpu": 5936.81,
+      "total_tokens": 16795109
+    },
+    {
+      "epoch": 1.4621513944223108,
+      "grad_norm": 0.328125,
+      "learning_rate": 1.2042519817896805e-05,
+      "loss": 0.9912,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 92,
+      "tokens_per_second_per_gpu": 5949.43,
+      "total_tokens": 16980935
+    },
+    {
+      "epoch": 1.4780876494023905,
+      "grad_norm": 0.333984375,
+      "learning_rate": 1.1859116071629148e-05,
+      "loss": 0.9888,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 93,
+      "tokens_per_second_per_gpu": 6095.07,
+      "total_tokens": 17167869
+    },
+    {
+      "epoch": 1.4940239043824701,
+      "grad_norm": 0.322265625,
+      "learning_rate": 1.1675062233047365e-05,
+      "loss": 0.9219,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 94,
+      "tokens_per_second_per_gpu": 6067.77,
+      "total_tokens": 17351541
+    },
+    {
+      "epoch": 1.5099601593625498,
+      "grad_norm": 0.3828125,
+      "learning_rate": 1.1490422661761744e-05,
+      "loss": 0.9648,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 95,
+      "tokens_per_second_per_gpu": 6008.67,
+      "total_tokens": 17537891
+    },
+    {
+      "epoch": 1.5258964143426295,
+      "grad_norm": 0.328125,
+      "learning_rate": 1.130526192220052e-05,
+      "loss": 0.9556,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 96,
+      "tokens_per_second_per_gpu": 5955.34,
+      "total_tokens": 17721410
+    },
+    {
+      "epoch": 1.5418326693227091,
+      "grad_norm": 0.3359375,
+      "learning_rate": 1.1119644761033079e-05,
+      "loss": 0.9951,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 97,
+      "tokens_per_second_per_gpu": 5732.24,
+      "total_tokens": 17897961
+    },
+    {
+      "epoch": 1.5577689243027888,
+      "grad_norm": 0.330078125,
+      "learning_rate": 1.0933636084529507e-05,
+      "loss": 1.02,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 98,
+      "tokens_per_second_per_gpu": 5813.99,
+      "total_tokens": 18080875
+    },
+    {
+      "epoch": 1.5737051792828685,
+      "grad_norm": 0.330078125,
+      "learning_rate": 1.0747300935864245e-05,
+      "loss": 0.958,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 99,
+      "tokens_per_second_per_gpu": 5769.52,
+      "total_tokens": 18265611
+    },
+    {
+      "epoch": 1.5896414342629481,
+      "grad_norm": 0.326171875,
+      "learning_rate": 1.0560704472371919e-05,
+      "loss": 0.9561,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 100,
+      "tokens_per_second_per_gpu": 5726.38,
+      "total_tokens": 18449842
+    },
+    {
+      "epoch": 1.6055776892430278,
+      "grad_norm": 0.326171875,
+      "learning_rate": 1.037391194276326e-05,
+      "loss": 0.9707,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 101,
+      "tokens_per_second_per_gpu": 5944.93,
+      "total_tokens": 18633072
+    },
+    {
+      "epoch": 1.6215139442231075,
+      "grad_norm": 0.3203125,
+      "learning_rate": 1.0186988664309023e-05,
+      "loss": 0.9707,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 102,
+      "tokens_per_second_per_gpu": 5897.0,
+      "total_tokens": 18815120
+    },
+    {
+      "epoch": 1.6374501992031871,
+      "grad_norm": 0.328125,
+      "learning_rate": 1e-05,
+      "loss": 0.9385,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 103,
+      "tokens_per_second_per_gpu": 5841.82,
+      "total_tokens": 19001413
+    },
+    {
+      "epoch": 1.6533864541832668,
+      "grad_norm": 0.341796875,
+      "learning_rate": 9.81301133569098e-06,
+      "loss": 1.0303,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 104,
+      "tokens_per_second_per_gpu": 5567.16,
+      "total_tokens": 19177822
+    },
+    {
+      "epoch": 1.6693227091633465,
+      "grad_norm": 0.330078125,
+      "learning_rate": 9.626088057236745e-06,
+      "loss": 0.9814,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 105,
+      "tokens_per_second_per_gpu": 5850.82,
+      "total_tokens": 19364145
+    },
+    {
+      "epoch": 1.6852589641434261,
+      "grad_norm": 0.31640625,
+      "learning_rate": 9.439295527628083e-06,
+      "loss": 0.9531,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 106,
+      "tokens_per_second_per_gpu": 6142.09,
+      "total_tokens": 19554154
+    },
+    {
+      "epoch": 1.701195219123506,
+      "grad_norm": 0.333984375,
+      "learning_rate": 9.252699064135759e-06,
+      "loss": 0.998,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 107,
+      "tokens_per_second_per_gpu": 6059.46,
+      "total_tokens": 19736167
+    },
+    {
+      "epoch": 1.7171314741035857,
+      "grad_norm": 0.33203125,
+      "learning_rate": 9.066363915470494e-06,
+      "loss": 0.9204,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 108,
+      "tokens_per_second_per_gpu": 5807.52,
+      "total_tokens": 19928597
+    },
+    {
+      "epoch": 1.7330677290836654,
+      "grad_norm": 0.3515625,
+      "learning_rate": 8.880355238966923e-06,
+      "loss": 0.978,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 109,
+      "tokens_per_second_per_gpu": 5987.33,
+      "total_tokens": 20118188
+    },
+    {
+      "epoch": 1.749003984063745,
+      "grad_norm": 0.3359375,
+      "learning_rate": 8.694738077799487e-06,
+      "loss": 0.9702,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 110,
+      "tokens_per_second_per_gpu": 5888.18,
+      "total_tokens": 20301178
+    },
+    {
+      "epoch": 1.7649402390438247,
+      "grad_norm": 0.357421875,
+      "learning_rate": 8.509577338238255e-06,
+      "loss": 0.9253,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 111,
+      "tokens_per_second_per_gpu": 5972.68,
+      "total_tokens": 20487285
+    },
+    {
+      "epoch": 1.7808764940239044,
+      "grad_norm": 0.337890625,
+      "learning_rate": 8.324937766952638e-06,
+      "loss": 0.9814,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 112,
+      "tokens_per_second_per_gpu": 5932.16,
+      "total_tokens": 20674769
+    },
+    {
+      "epoch": 1.796812749003984,
+      "grad_norm": 0.341796875,
+      "learning_rate": 8.140883928370855e-06,
+      "loss": 1.0088,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 113,
+      "tokens_per_second_per_gpu": 5830.81,
+      "total_tokens": 20853823
+    },
+    {
+      "epoch": 1.812749003984064,
+      "grad_norm": 0.322265625,
+      "learning_rate": 7.957480182103198e-06,
+      "loss": 0.9487,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 114,
+      "tokens_per_second_per_gpu": 5865.22,
+      "total_tokens": 21037578
+    },
+    {
+      "epoch": 1.8286852589641436,
+      "grad_norm": 0.328125,
+      "learning_rate": 7.774790660436857e-06,
+      "loss": 0.9819,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 115,
+      "tokens_per_second_per_gpu": 6252.84,
+      "total_tokens": 21225336
+    },
+    {
+      "epoch": 1.8446215139442232,
+      "grad_norm": 0.33203125,
+      "learning_rate": 7.592879245910273e-06,
+      "loss": 0.9482,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 116,
+      "tokens_per_second_per_gpu": 6223.23,
+      "total_tokens": 21416652
+    },
+    {
+      "epoch": 1.860557768924303,
+      "grad_norm": 0.322265625,
+      "learning_rate": 7.411809548974792e-06,
+      "loss": 0.9697,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 117,
+      "tokens_per_second_per_gpu": 5561.76,
+      "total_tokens": 21604434
+    },
+    {
+      "epoch": 1.8764940239043826,
+      "grad_norm": 0.30859375,
+      "learning_rate": 7.2316448857515076e-06,
+      "loss": 0.9468,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 118,
+      "tokens_per_second_per_gpu": 6026.88,
+      "total_tokens": 21795820
+    },
+    {
+      "epoch": 1.8924302788844622,
+      "grad_norm": 0.32421875,
+      "learning_rate": 7.052448255890958e-06,
+      "loss": 0.9624,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 119,
+      "tokens_per_second_per_gpu": 5817.1,
+      "total_tokens": 21979166
+    },
+    {
+      "epoch": 1.908366533864542,
+      "grad_norm": 0.33984375,
+      "learning_rate": 6.874282320543557e-06,
+      "loss": 1.022,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 120,
+      "tokens_per_second_per_gpu": 5653.71,
+      "total_tokens": 22165661
+    },
+    {
+      "epoch": 1.9243027888446216,
+      "grad_norm": 0.32421875,
+      "learning_rate": 6.697209380448333e-06,
+      "loss": 0.9961,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 121,
+      "tokens_per_second_per_gpu": 5699.1,
+      "total_tokens": 22344204
+    },
+    {
+      "epoch": 1.9402390438247012,
+      "grad_norm": 0.33203125,
+      "learning_rate": 6.521291354147727e-06,
+      "loss": 0.9521,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 122,
+      "tokens_per_second_per_gpu": 5765.79,
+      "total_tokens": 22526884
+    },
+    {
+      "epoch": 1.956175298804781,
+      "grad_norm": 0.349609375,
+      "learning_rate": 6.34658975633605e-06,
+      "loss": 1.0171,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 123,
+      "tokens_per_second_per_gpu": 5780.38,
+      "total_tokens": 22706300
+    },
+    {
+      "epoch": 1.9721115537848606,
+      "grad_norm": 0.318359375,
+      "learning_rate": 6.173165676349103e-06,
+      "loss": 0.957,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 124,
+      "tokens_per_second_per_gpu": 5399.07,
+      "total_tokens": 22884311
+    },
+    {
+      "epoch": 1.9880478087649402,
+      "grad_norm": 0.357421875,
+      "learning_rate": 6.001079756802592e-06,
+      "loss": 0.9028,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 125,
+      "tokens_per_second_per_gpu": 5850.46,
+      "total_tokens": 23077450
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.39453125,
+      "learning_rate": 5.830392172386723e-06,
+      "loss": 0.8589,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 126,
+      "tokens_per_second_per_gpu": 4564.2,
+      "total_tokens": 23201118
+    },
+    {
+      "epoch": 2.0159362549800797,
+      "grad_norm": 0.32421875,
+      "learning_rate": 5.66116260882442e-06,
+      "loss": 0.9985,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 127,
+      "tokens_per_second_per_gpu": 5832.26,
+      "total_tokens": 23381636
+    },
+    {
+      "epoch": 2.0318725099601593,
+      "grad_norm": 0.328125,
+      "learning_rate": 5.493450242000546e-06,
+      "loss": 0.9521,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 128,
+      "tokens_per_second_per_gpu": 5774.6,
+      "total_tokens": 23564875
+    },
+    {
+      "epoch": 2.047808764940239,
+      "grad_norm": 0.328125,
+      "learning_rate": 5.32731371726938e-06,
+      "loss": 0.98,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 129,
+      "tokens_per_second_per_gpu": 5972.38,
+      "total_tokens": 23759161
+    },
+    {
+      "epoch": 2.0637450199203187,
+      "grad_norm": 0.328125,
+      "learning_rate": 5.1628111289476025e-06,
+      "loss": 0.9746,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 130,
+      "tokens_per_second_per_gpu": 5919.54,
+      "total_tokens": 23944394
+    },
+    {
+      "epoch": 2.0796812749003983,
+      "grad_norm": 0.31640625,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 0.9229,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 131,
+      "tokens_per_second_per_gpu": 5414.05,
+      "total_tokens": 24130879
+    },
+    {
+      "epoch": 2.095617529880478,
+      "grad_norm": 0.33203125,
+      "learning_rate": 4.838937261924933e-06,
+      "loss": 0.9639,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 132,
+      "tokens_per_second_per_gpu": 5968.88,
+      "total_tokens": 24319434
+    },
+    {
+      "epoch": 2.1115537848605577,
+      "grad_norm": 0.31640625,
+      "learning_rate": 4.679679234846636e-06,
+      "loss": 0.9502,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 133,
+      "tokens_per_second_per_gpu": 5802.86,
+      "total_tokens": 24502733
+    },
+    {
+      "epoch": 2.1274900398406373,
+      "grad_norm": 0.318359375,
+      "learning_rate": 4.522281607821288e-06,
+      "loss": 0.9854,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 134,
+      "tokens_per_second_per_gpu": 5970.96,
+      "total_tokens": 24691592
+    },
+    {
+      "epoch": 2.143426294820717,
+      "grad_norm": 0.373046875,
+      "learning_rate": 4.3667994193637794e-06,
+      "loss": 0.9683,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 135,
+      "tokens_per_second_per_gpu": 5528.1,
+      "total_tokens": 24868694
+    },
+    {
+      "epoch": 2.1593625498007967,
+      "grad_norm": 0.318359375,
+      "learning_rate": 4.213287038201943e-06,
+      "loss": 0.9561,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 136,
+      "tokens_per_second_per_gpu": 6105.7,
+      "total_tokens": 25058925
+    },
+    {
+      "epoch": 2.1752988047808763,
+      "grad_norm": 0.322265625,
+      "learning_rate": 4.061798144264986e-06,
+      "loss": 0.9116,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 137,
+      "tokens_per_second_per_gpu": 5771.48,
+      "total_tokens": 25242607
+    },
+    {
+      "epoch": 2.191235059760956,
+      "grad_norm": 0.3359375,
+      "learning_rate": 3.912385709912794e-06,
+      "loss": 0.9966,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 138,
+      "tokens_per_second_per_gpu": 5723.02,
+      "total_tokens": 25417132
+    },
+    {
+      "epoch": 2.2071713147410357,
+      "grad_norm": 0.318359375,
+      "learning_rate": 3.7651019814126656e-06,
+      "loss": 0.9712,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 139,
+      "tokens_per_second_per_gpu": 5739.14,
+      "total_tokens": 25598249
+    },
+    {
+      "epoch": 2.2231075697211153,
+      "grad_norm": 0.306640625,
+      "learning_rate": 3.619998460669916e-06,
+      "loss": 0.9106,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 140,
+      "tokens_per_second_per_gpu": 6168.5,
+      "total_tokens": 25791590
+    },
+    {
+      "epoch": 2.239043824701195,
+      "grad_norm": 0.31640625,
+      "learning_rate": 3.4771258872187917e-06,
+      "loss": 0.9673,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 141,
+      "tokens_per_second_per_gpu": 6156.05,
+      "total_tokens": 25981829
+    },
+    {
+      "epoch": 2.2549800796812747,
+      "grad_norm": 0.33203125,
+      "learning_rate": 3.3365342204799613e-06,
+      "loss": 0.9019,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 142,
+      "tokens_per_second_per_gpu": 5766.33,
+      "total_tokens": 26169706
+    },
+    {
+      "epoch": 2.2709163346613543,
+      "grad_norm": 0.50390625,
+      "learning_rate": 3.1982726222908046e-06,
+      "loss": 0.9995,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 143,
+      "tokens_per_second_per_gpu": 5566.19,
+      "total_tokens": 26349809
+    },
+    {
+      "epoch": 2.2868525896414345,
+      "grad_norm": 0.359375,
+      "learning_rate": 3.0623894397145837e-06,
+      "loss": 0.9805,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 144,
+      "tokens_per_second_per_gpu": 5897.52,
+      "total_tokens": 26533516
+    },
+    {
+      "epoch": 2.302788844621514,
+      "grad_norm": 0.375,
+      "learning_rate": 2.9289321881345257e-06,
+      "loss": 0.9219,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 145,
+      "tokens_per_second_per_gpu": 6065.68,
+      "total_tokens": 26727728
+    },
+    {
+      "epoch": 2.318725099601594,
+      "grad_norm": 0.3359375,
+      "learning_rate": 2.7979475346387363e-06,
+      "loss": 0.9639,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 146,
+      "tokens_per_second_per_gpu": 5976.74,
+      "total_tokens": 26912160
+    },
+    {
+      "epoch": 2.3346613545816735,
+      "grad_norm": 0.34765625,
+      "learning_rate": 2.669481281701739e-06,
+      "loss": 0.9038,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 147,
+      "tokens_per_second_per_gpu": 5726.82,
+      "total_tokens": 27091959
+    },
+    {
+      "epoch": 2.350597609561753,
+      "grad_norm": 0.341796875,
+      "learning_rate": 2.5435783511683444e-06,
+      "loss": 0.9614,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 148,
+      "tokens_per_second_per_gpu": 5973.36,
+      "total_tokens": 27275142
+    },
+    {
+      "epoch": 2.366533864541833,
+      "grad_norm": 0.33203125,
+      "learning_rate": 2.420282768545469e-06,
+      "loss": 0.9219,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 149,
+      "tokens_per_second_per_gpu": 5654.39,
+      "total_tokens": 27462544
+    },
+    {
+      "epoch": 2.3824701195219125,
+      "grad_norm": 0.322265625,
+      "learning_rate": 2.2996376476073724e-06,
+      "loss": 0.9526,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 150,
+      "tokens_per_second_per_gpu": 5952.85,
+      "total_tokens": 27649339
+    },
+    {
+      "epoch": 2.398406374501992,
+      "grad_norm": 0.3203125,
+      "learning_rate": 2.1816851753197023e-06,
+      "loss": 0.8235,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 151,
+      "tokens_per_second_per_gpu": 5837.21,
+      "total_tokens": 27844536
+    },
+    {
+      "epoch": 2.414342629482072,
+      "grad_norm": 0.333984375,
+      "learning_rate": 2.0664665970876496e-06,
+      "loss": 0.9521,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 152,
+      "tokens_per_second_per_gpu": 5754.33,
+      "total_tokens": 28027682
+    },
+    {
+      "epoch": 2.4302788844621515,
+      "grad_norm": 0.326171875,
+      "learning_rate": 1.9540222023333165e-06,
+      "loss": 0.9805,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 153,
+      "tokens_per_second_per_gpu": 5902.39,
+      "total_tokens": 28209735
+    },
+    {
+      "epoch": 2.446215139442231,
+      "grad_norm": 0.32421875,
+      "learning_rate": 1.8443913104073984e-06,
+      "loss": 0.9321,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 154,
+      "tokens_per_second_per_gpu": 5930.45,
+      "total_tokens": 28395668
+    },
+    {
+      "epoch": 2.462151394422311,
+      "grad_norm": 0.3203125,
+      "learning_rate": 1.7376122568400533e-06,
+      "loss": 0.9756,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 155,
+      "tokens_per_second_per_gpu": 5945.66,
+      "total_tokens": 28581494
+    },
+    {
+      "epoch": 2.4780876494023905,
+      "grad_norm": 0.322265625,
+      "learning_rate": 1.6337223799358025e-06,
+      "loss": 0.9736,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 156,
+      "tokens_per_second_per_gpu": 6107.11,
+      "total_tokens": 28768428
+    },
+    {
+      "epoch": 2.49402390438247,
+      "grad_norm": 0.31640625,
+      "learning_rate": 1.5327580077171589e-06,
+      "loss": 0.9067,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 157,
+      "tokens_per_second_per_gpu": 6059.61,
+      "total_tokens": 28952100
+    },
+    {
+      "epoch": 2.50996015936255,
+      "grad_norm": 0.326171875,
+      "learning_rate": 1.4347544452214869e-06,
+      "loss": 0.9512,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 158,
+      "tokens_per_second_per_gpu": 6010.47,
+      "total_tokens": 29138450
+    },
+    {
+      "epoch": 2.5258964143426295,
+      "grad_norm": 0.376953125,
+      "learning_rate": 1.339745962155613e-06,
+      "loss": 0.9409,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 159,
+      "tokens_per_second_per_gpu": 6038.89,
+      "total_tokens": 29321969
+    },
+    {
+      "epoch": 2.541832669322709,
+      "grad_norm": 0.330078125,
+      "learning_rate": 1.2477657809124632e-06,
+      "loss": 0.9824,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 160,
+      "tokens_per_second_per_gpu": 5740.71,
+      "total_tokens": 29498520
+    },
+    {
+      "epoch": 2.557768924302789,
+      "grad_norm": 0.328125,
+      "learning_rate": 1.1588460649539036e-06,
+      "loss": 1.0068,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 161,
+      "tokens_per_second_per_gpu": 5804.04,
+      "total_tokens": 29681434
+    },
+    {
+      "epoch": 2.5737051792828685,
+      "grad_norm": 0.337890625,
+      "learning_rate": 1.073017907563887e-06,
+      "loss": 0.9453,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 162,
+      "tokens_per_second_per_gpu": 5741.44,
+      "total_tokens": 29866170
+    },
+    {
+      "epoch": 2.589641434262948,
+      "grad_norm": 0.3203125,
+      "learning_rate": 9.903113209758098e-07,
+      "loss": 0.9443,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 163,
+      "tokens_per_second_per_gpu": 5756.27,
+      "total_tokens": 30050401
+    },
+    {
+      "epoch": 2.605577689243028,
+      "grad_norm": 0.32421875,
+      "learning_rate": 9.107552258778907e-07,
+      "loss": 0.9585,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 164,
+      "tokens_per_second_per_gpu": 5959.88,
+      "total_tokens": 30233631
+    },
+    {
+      "epoch": 2.6215139442231075,
+      "grad_norm": 0.3203125,
+      "learning_rate": 8.343774413002382e-07,
+      "loss": 0.9604,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 165,
+      "tokens_per_second_per_gpu": 5899.57,
+      "total_tokens": 30415679
+    },
+    {
+      "epoch": 2.637450199203187,
+      "grad_norm": 0.326171875,
+      "learning_rate": 7.612046748871327e-07,
+      "loss": 0.9277,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 166,
+      "tokens_per_second_per_gpu": 5845.3,
+      "total_tokens": 30601972
+    },
+    {
+      "epoch": 2.653386454183267,
+      "grad_norm": 0.33984375,
+      "learning_rate": 6.912625135579587e-07,
+      "loss": 1.022,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 167,
+      "tokens_per_second_per_gpu": 5574.11,
+      "total_tokens": 30778381
+    },
+    {
+      "epoch": 2.6693227091633465,
+      "grad_norm": 0.31640625,
+      "learning_rate": 6.245754145600091e-07,
+      "loss": 0.9707,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 168,
+      "tokens_per_second_per_gpu": 5930.11,
+      "total_tokens": 30964704
+    },
+    {
+      "epoch": 2.685258964143426,
+      "grad_norm": 0.318359375,
+      "learning_rate": 5.611666969163243e-07,
+      "loss": 0.9448,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 169,
+      "tokens_per_second_per_gpu": 6128.63,
+      "total_tokens": 31154713
+    },
+    {
+      "epoch": 2.7011952191235062,
+      "grad_norm": 0.333984375,
+      "learning_rate": 5.010585332715401e-07,
+      "loss": 0.9883,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 170,
+      "tokens_per_second_per_gpu": 6064.77,
+      "total_tokens": 31336726
+    },
+    {
+      "epoch": 2.717131474103586,
+      "grad_norm": 0.328125,
+      "learning_rate": 4.4427194213859216e-07,
+      "loss": 0.9131,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 171,
+      "tokens_per_second_per_gpu": 5798.36,
+      "total_tokens": 31529156
+    },
+    {
+      "epoch": 2.7330677290836656,
+      "grad_norm": 0.318359375,
+      "learning_rate": 3.908267805490051e-07,
+      "loss": 0.9697,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 172,
+      "tokens_per_second_per_gpu": 5977.29,
+      "total_tokens": 31718747
+    },
+    {
+      "epoch": 2.7490039840637452,
+      "grad_norm": 0.328125,
+      "learning_rate": 3.4074173710931804e-07,
+      "loss": 0.9619,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 173,
+      "tokens_per_second_per_gpu": 5934.4,
+      "total_tokens": 31901737
+    },
+    {
+      "epoch": 2.764940239043825,
+      "grad_norm": 0.322265625,
+      "learning_rate": 2.940343254660905e-07,
+      "loss": 0.9185,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 174,
+      "tokens_per_second_per_gpu": 5978.89,
+      "total_tokens": 32087844
+    },
+    {
+      "epoch": 2.7808764940239046,
+      "grad_norm": 0.328125,
+      "learning_rate": 2.507208781817638e-07,
+      "loss": 0.9751,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 175,
+      "tokens_per_second_per_gpu": 5946.29,
+      "total_tokens": 32275328
+    },
+    {
+      "epoch": 2.7968127490039842,
+      "grad_norm": 0.337890625,
+      "learning_rate": 2.1081654102351634e-07,
+      "loss": 1.0015,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 176,
+      "tokens_per_second_per_gpu": 5871.96,
+      "total_tokens": 32454382
+    },
+    {
+      "epoch": 2.812749003984064,
+      "grad_norm": 0.318359375,
+      "learning_rate": 1.7433526766711727e-07,
+      "loss": 0.9429,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 177,
+      "tokens_per_second_per_gpu": 5872.24,
+      "total_tokens": 32638137
+    },
+    {
+      "epoch": 2.8286852589641436,
+      "grad_norm": 0.3203125,
+      "learning_rate": 1.4128981481764115e-07,
+      "loss": 0.9746,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 178,
+      "tokens_per_second_per_gpu": 6173.8,
+      "total_tokens": 32825895
+    },
+    {
+      "epoch": 2.8446215139442232,
+      "grad_norm": 0.322265625,
+      "learning_rate": 1.1169173774871478e-07,
+      "loss": 0.9434,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 179,
+      "tokens_per_second_per_gpu": 6232.85,
+      "total_tokens": 33017211
+    },
+    {
+      "epoch": 2.860557768924303,
+      "grad_norm": 0.3203125,
+      "learning_rate": 8.555138626189619e-08,
+      "loss": 0.9644,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 180,
+      "tokens_per_second_per_gpu": 5578.64,
+      "total_tokens": 33204993
+    },
+    {
+      "epoch": 2.8764940239043826,
+      "grad_norm": 0.310546875,
+      "learning_rate": 6.287790106757396e-08,
+      "loss": 0.9429,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 181,
+      "tokens_per_second_per_gpu": 6034.66,
+      "total_tokens": 33396379
+    },
+    {
+      "epoch": 2.8924302788844622,
+      "grad_norm": 0.318359375,
+      "learning_rate": 4.367921058866187e-08,
+      "loss": 0.959,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 182,
+      "tokens_per_second_per_gpu": 5841.56,
+      "total_tokens": 33579725
+    },
+    {
+      "epoch": 2.908366533864542,
+      "grad_norm": 0.33984375,
+      "learning_rate": 2.796202818819871e-08,
+      "loss": 1.0166,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 183,
+      "tokens_per_second_per_gpu": 5736.29,
+      "total_tokens": 33766220
+    },
+    {
+      "epoch": 2.9243027888446216,
+      "grad_norm": 0.322265625,
+      "learning_rate": 1.5731849821833955e-08,
+      "loss": 0.9907,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 184,
+      "tokens_per_second_per_gpu": 5704.78,
+      "total_tokens": 33944763
+    },
+    {
+      "epoch": 2.9402390438247012,
+      "grad_norm": 0.326171875,
+      "learning_rate": 6.992952116013918e-09,
+      "loss": 0.9478,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 185,
+      "tokens_per_second_per_gpu": 5773.31,
+      "total_tokens": 34127443
+    },
+    {
+      "epoch": 2.956175298804781,
+      "grad_norm": 0.349609375,
+      "learning_rate": 1.7483908725357546e-09,
+      "loss": 1.0122,
+      "memory/device_reserved (GiB)": 76.38,
+      "memory/max_active (GiB)": 64.91,
+      "memory/max_allocated (GiB)": 64.91,
+      "step": 186,
+      "tokens_per_second_per_gpu": 5785.44,
+      "total_tokens": 34306859
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 186,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 62,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.2082055574021734e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff