Instructions to use TabibitoQZP/Qwen3-4B-3Task with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use TabibitoQZP/Qwen3-4B-3Task with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="TabibitoQZP/Qwen3-4B-3Task")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForMultimodalLM

tokenizer = AutoTokenizer.from_pretrained("TabibitoQZP/Qwen3-4B-3Task")
model = AutoModelForMultimodalLM.from_pretrained("TabibitoQZP/Qwen3-4B-3Task")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use TabibitoQZP/Qwen3-4B-3Task with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "TabibitoQZP/Qwen3-4B-3Task"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "TabibitoQZP/Qwen3-4B-3Task",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/TabibitoQZP/Qwen3-4B-3Task

SGLang

How to use TabibitoQZP/Qwen3-4B-3Task with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "TabibitoQZP/Qwen3-4B-3Task" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "TabibitoQZP/Qwen3-4B-3Task",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "TabibitoQZP/Qwen3-4B-3Task" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "TabibitoQZP/Qwen3-4B-3Task",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use TabibitoQZP/Qwen3-4B-3Task with Docker Model Runner:
```
docker model run hf.co/TabibitoQZP/Qwen3-4B-3Task
```

TabibitoQZP commited on Jul 12, 2025

Commit

e9f6a8b

verified ·

1 Parent(s): 14cbda1

Upload folder using huggingface_hub

Browse files

Files changed (20) hide show

.gitattributes +1 -0
README.md +61 -0
added_tokens.json +28 -0
all_results.json +8 -0
chat_template.jinja +89 -0
config.json +30 -0
generation_config.json +13 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +405 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
train_results.json +8 -0
trainer_log.jsonl +160 -0
trainer_state.json +1156 -0
training_args.bin +3 -0
training_loss.png +0 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: transformers
+license: other
+base_model: Qwen/Qwen3-4B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: Qwen3-4B-3Task
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# Qwen3-4B-3Task
+This model is a fine-tuned version of [/home/zipengqiu/models/Qwen3-4B/](https://huggingface.co//home/zipengqiu/models/Qwen3-4B/) on the 3task_data dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 32
+- total_eval_batch_size: 32
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 2.0
+### Training results
+### Framework versions
+- Transformers 4.52.4
+- Pytorch 2.6.0+cu124
+- Datasets 3.6.0
+- Tokenizers 0.21.1

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "total_flos": 207829311291392.0,
+    "train_loss": 0.4968748902374843,
+    "train_runtime": 50004.2557,
+    "train_samples_per_second": 1.016,
+    "train_steps_per_second": 0.032
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9728,
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.52.4"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36df1e304a7079c6a48260d2ace4cdf660125fe882176757289c604aebee7789
+size 4967215360

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3302a8f2305b30780cc187db70ed82d748d68bb74d7122f2e833aa9b80407cd4
+size 3077766632

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,405 @@

+{
+  "metadata": {
+    "total_size": 8044936192
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "total_flos": 207829311291392.0,
+    "train_loss": 0.4968748902374843,
+    "train_runtime": 50004.2557,
+    "train_samples_per_second": 1.016,
+    "train_steps_per_second": 0.032
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,160 @@

+{"current_steps": 10, "total_steps": 1590, "loss": 1.2378, "lr": 5.660377358490567e-07, "epoch": 0.012592475995592633, "percentage": 0.63, "elapsed_time": "0:05:18", "remaining_time": "13:59:01"}
+{"current_steps": 20, "total_steps": 1590, "loss": 0.9875, "lr": 1.1949685534591195e-06, "epoch": 0.025184951991185266, "percentage": 1.26, "elapsed_time": "0:10:33", "remaining_time": "13:48:12"}
+{"current_steps": 30, "total_steps": 1590, "loss": 0.6558, "lr": 1.8238993710691824e-06, "epoch": 0.0377774279867779, "percentage": 1.89, "elapsed_time": "0:15:38", "remaining_time": "13:33:18"}
+{"current_steps": 40, "total_steps": 1590, "loss": 0.5882, "lr": 2.4528301886792453e-06, "epoch": 0.05036990398237053, "percentage": 2.52, "elapsed_time": "0:20:39", "remaining_time": "13:20:44"}
+{"current_steps": 50, "total_steps": 1590, "loss": 0.5781, "lr": 3.0817610062893084e-06, "epoch": 0.06296237997796317, "percentage": 3.14, "elapsed_time": "0:25:55", "remaining_time": "13:18:32"}
+{"current_steps": 60, "total_steps": 1590, "loss": 0.5495, "lr": 3.710691823899371e-06, "epoch": 0.0755548559735558, "percentage": 3.77, "elapsed_time": "0:30:53", "remaining_time": "13:07:47"}
+{"current_steps": 70, "total_steps": 1590, "loss": 0.5535, "lr": 4.339622641509435e-06, "epoch": 0.08814733196914844, "percentage": 4.4, "elapsed_time": "0:36:05", "remaining_time": "13:03:49"}
+{"current_steps": 80, "total_steps": 1590, "loss": 0.5396, "lr": 4.968553459119497e-06, "epoch": 0.10073980796474107, "percentage": 5.03, "elapsed_time": "0:41:10", "remaining_time": "12:57:03"}
+{"current_steps": 90, "total_steps": 1590, "loss": 0.5413, "lr": 5.59748427672956e-06, "epoch": 0.11333228396033371, "percentage": 5.66, "elapsed_time": "0:46:16", "remaining_time": "12:51:15"}
+{"current_steps": 100, "total_steps": 1590, "loss": 0.5376, "lr": 6.226415094339623e-06, "epoch": 0.12592475995592634, "percentage": 6.29, "elapsed_time": "0:51:22", "remaining_time": "12:45:25"}
+{"current_steps": 110, "total_steps": 1590, "loss": 0.5351, "lr": 6.855345911949685e-06, "epoch": 0.13851723595151896, "percentage": 6.92, "elapsed_time": "0:56:29", "remaining_time": "12:40:01"}
+{"current_steps": 120, "total_steps": 1590, "loss": 0.5409, "lr": 7.484276729559748e-06, "epoch": 0.1511097119471116, "percentage": 7.55, "elapsed_time": "1:01:48", "remaining_time": "12:37:13"}
+{"current_steps": 130, "total_steps": 1590, "loss": 0.5442, "lr": 8.113207547169812e-06, "epoch": 0.16370218794270425, "percentage": 8.18, "elapsed_time": "1:07:13", "remaining_time": "12:34:59"}
+{"current_steps": 140, "total_steps": 1590, "loss": 0.5365, "lr": 8.742138364779875e-06, "epoch": 0.17629466393829687, "percentage": 8.81, "elapsed_time": "1:12:17", "remaining_time": "12:28:42"}
+{"current_steps": 150, "total_steps": 1590, "loss": 0.5382, "lr": 9.371069182389939e-06, "epoch": 0.1888871399338895, "percentage": 9.43, "elapsed_time": "1:17:40", "remaining_time": "12:25:41"}
+{"current_steps": 160, "total_steps": 1590, "loss": 0.5414, "lr": 1e-05, "epoch": 0.20147961592948213, "percentage": 10.06, "elapsed_time": "1:23:02", "remaining_time": "12:22:10"}
+{"current_steps": 170, "total_steps": 1590, "loss": 0.5331, "lr": 9.998795122086687e-06, "epoch": 0.21407209192507476, "percentage": 10.69, "elapsed_time": "1:28:16", "remaining_time": "12:17:20"}
+{"current_steps": 180, "total_steps": 1590, "loss": 0.5345, "lr": 9.995181069039055e-06, "epoch": 0.22666456792066741, "percentage": 11.32, "elapsed_time": "1:33:20", "remaining_time": "12:11:07"}
+{"current_steps": 190, "total_steps": 1590, "loss": 0.5302, "lr": 9.989159582654187e-06, "epoch": 0.23925704391626004, "percentage": 11.95, "elapsed_time": "1:38:32", "remaining_time": "12:06:08"}
+{"current_steps": 200, "total_steps": 1590, "loss": 0.5337, "lr": 9.98073356499446e-06, "epoch": 0.25184951991185267, "percentage": 12.58, "elapsed_time": "1:43:53", "remaining_time": "12:02:03"}
+{"current_steps": 210, "total_steps": 1590, "loss": 0.5229, "lr": 9.969907076988907e-06, "epoch": 0.2644419959074453, "percentage": 13.21, "elapsed_time": "1:49:03", "remaining_time": "11:56:42"}
+{"current_steps": 220, "total_steps": 1590, "loss": 0.54, "lr": 9.956685336476037e-06, "epoch": 0.2770344719030379, "percentage": 13.84, "elapsed_time": "1:54:36", "remaining_time": "11:53:38"}
+{"current_steps": 230, "total_steps": 1590, "loss": 0.5252, "lr": 9.941074715689097e-06, "epoch": 0.2896269478986306, "percentage": 14.47, "elapsed_time": "1:59:47", "remaining_time": "11:48:18"}
+{"current_steps": 240, "total_steps": 1590, "loss": 0.5324, "lr": 9.923082738184969e-06, "epoch": 0.3022194238942232, "percentage": 15.09, "elapsed_time": "2:05:03", "remaining_time": "11:43:24"}
+{"current_steps": 250, "total_steps": 1590, "loss": 0.5213, "lr": 9.902718075218176e-06, "epoch": 0.31481189988981584, "percentage": 15.72, "elapsed_time": "2:10:18", "remaining_time": "11:38:29"}
+{"current_steps": 260, "total_steps": 1590, "loss": 0.5221, "lr": 9.879990541561766e-06, "epoch": 0.3274043758854085, "percentage": 16.35, "elapsed_time": "2:15:33", "remaining_time": "11:33:25"}
+{"current_steps": 270, "total_steps": 1590, "loss": 0.5116, "lr": 9.854911090777071e-06, "epoch": 0.3399968518810011, "percentage": 16.98, "elapsed_time": "2:20:39", "remaining_time": "11:27:42"}
+{"current_steps": 280, "total_steps": 1590, "loss": 0.5198, "lr": 9.827491809934621e-06, "epoch": 0.35258932787659375, "percentage": 17.61, "elapsed_time": "2:25:50", "remaining_time": "11:22:22"}
+{"current_steps": 290, "total_steps": 1590, "loss": 0.5243, "lr": 9.797745913788772e-06, "epoch": 0.36518180387218635, "percentage": 18.24, "elapsed_time": "2:31:05", "remaining_time": "11:17:17"}
+{"current_steps": 300, "total_steps": 1590, "loss": 0.5154, "lr": 9.765687738408834e-06, "epoch": 0.377774279867779, "percentage": 18.87, "elapsed_time": "2:36:14", "remaining_time": "11:11:51"}
+{"current_steps": 310, "total_steps": 1590, "loss": 0.5368, "lr": 9.731332734269791e-06, "epoch": 0.39036675586337166, "percentage": 19.5, "elapsed_time": "2:41:31", "remaining_time": "11:06:55"}
+{"current_steps": 320, "total_steps": 1590, "loss": 0.5257, "lr": 9.69469745880592e-06, "epoch": 0.40295923185896426, "percentage": 20.13, "elapsed_time": "2:46:58", "remaining_time": "11:02:41"}
+{"current_steps": 330, "total_steps": 1590, "loss": 0.5179, "lr": 9.655799568430926e-06, "epoch": 0.4155517078545569, "percentage": 20.75, "elapsed_time": "2:52:14", "remaining_time": "10:57:38"}
+{"current_steps": 340, "total_steps": 1590, "loss": 0.5205, "lr": 9.614657810028402e-06, "epoch": 0.4281441838501495, "percentage": 21.38, "elapsed_time": "2:57:37", "remaining_time": "10:53:00"}
+{"current_steps": 350, "total_steps": 1590, "loss": 0.5185, "lr": 9.571292011916753e-06, "epoch": 0.4407366598457422, "percentage": 22.01, "elapsed_time": "3:02:56", "remaining_time": "10:48:09"}
+{"current_steps": 360, "total_steps": 1590, "loss": 0.5193, "lr": 9.525723074292916e-06, "epoch": 0.45332913584133483, "percentage": 22.64, "elapsed_time": "3:08:06", "remaining_time": "10:42:43"}
+{"current_steps": 370, "total_steps": 1590, "loss": 0.5163, "lr": 9.47797295915948e-06, "epoch": 0.46592161183692743, "percentage": 23.27, "elapsed_time": "3:13:15", "remaining_time": "10:37:13"}
+{"current_steps": 380, "total_steps": 1590, "loss": 0.5108, "lr": 9.428064679740081e-06, "epoch": 0.4785140878325201, "percentage": 23.9, "elapsed_time": "3:18:38", "remaining_time": "10:32:32"}
+{"current_steps": 390, "total_steps": 1590, "loss": 0.5241, "lr": 9.37602228938814e-06, "epoch": 0.4911065638281127, "percentage": 24.53, "elapsed_time": "3:23:59", "remaining_time": "10:27:40"}
+{"current_steps": 400, "total_steps": 1590, "loss": 0.5132, "lr": 9.321870869994336e-06, "epoch": 0.5036990398237053, "percentage": 25.16, "elapsed_time": "3:29:13", "remaining_time": "10:22:27"}
+{"current_steps": 410, "total_steps": 1590, "loss": 0.5015, "lr": 9.26563651989835e-06, "epoch": 0.516291515819298, "percentage": 25.79, "elapsed_time": "3:34:12", "remaining_time": "10:16:29"}
+{"current_steps": 420, "total_steps": 1590, "loss": 0.5329, "lr": 9.207346341310744e-06, "epoch": 0.5288839918148907, "percentage": 26.42, "elapsed_time": "3:39:43", "remaining_time": "10:12:06"}
+{"current_steps": 430, "total_steps": 1590, "loss": 0.5237, "lr": 9.14702842725101e-06, "epoch": 0.5414764678104832, "percentage": 27.04, "elapsed_time": "3:45:08", "remaining_time": "10:07:22"}
+{"current_steps": 440, "total_steps": 1590, "loss": 0.5175, "lr": 9.084711848008122e-06, "epoch": 0.5540689438060759, "percentage": 27.67, "elapsed_time": "3:50:37", "remaining_time": "10:02:45"}
+{"current_steps": 450, "total_steps": 1590, "loss": 0.5048, "lr": 9.020426637130069e-06, "epoch": 0.5666614198016685, "percentage": 28.3, "elapsed_time": "3:55:41", "remaining_time": "9:57:05"}
+{"current_steps": 460, "total_steps": 1590, "loss": 0.524, "lr": 8.954203776949141e-06, "epoch": 0.5792538957972612, "percentage": 28.93, "elapsed_time": "4:01:06", "remaining_time": "9:52:16"}
+{"current_steps": 470, "total_steps": 1590, "loss": 0.5177, "lr": 8.886075183649976e-06, "epoch": 0.5918463717928538, "percentage": 29.56, "elapsed_time": "4:06:21", "remaining_time": "9:47:05"}
+{"current_steps": 480, "total_steps": 1590, "loss": 0.5089, "lr": 8.816073691887506e-06, "epoch": 0.6044388477884464, "percentage": 30.19, "elapsed_time": "4:11:30", "remaining_time": "9:41:36"}
+{"current_steps": 490, "total_steps": 1590, "loss": 0.5006, "lr": 8.744233038962262e-06, "epoch": 0.617031323784039, "percentage": 30.82, "elapsed_time": "4:16:18", "remaining_time": "9:35:22"}
+{"current_steps": 500, "total_steps": 1590, "loss": 0.5069, "lr": 8.670587848560636e-06, "epoch": 0.6296237997796317, "percentage": 31.45, "elapsed_time": "4:21:26", "remaining_time": "9:29:56"}
+{"current_steps": 510, "total_steps": 1590, "loss": 0.5083, "lr": 8.595173614067966e-06, "epoch": 0.6422162757752243, "percentage": 32.08, "elapsed_time": "4:26:26", "remaining_time": "9:24:13"}
+{"current_steps": 520, "total_steps": 1590, "loss": 0.4996, "lr": 8.518026681462448e-06, "epoch": 0.654808751770817, "percentage": 32.7, "elapsed_time": "4:31:42", "remaining_time": "9:19:05"}
+{"current_steps": 530, "total_steps": 1590, "loss": 0.5071, "lr": 8.43918423179815e-06, "epoch": 0.6674012277664095, "percentage": 33.33, "elapsed_time": "4:36:55", "remaining_time": "9:13:50"}
+{"current_steps": 540, "total_steps": 1590, "loss": 0.5038, "lr": 8.358684263285566e-06, "epoch": 0.6799937037620022, "percentage": 33.96, "elapsed_time": "4:42:13", "remaining_time": "9:08:45"}
+{"current_steps": 550, "total_steps": 1590, "loss": 0.5136, "lr": 8.27656557297833e-06, "epoch": 0.6925861797575948, "percentage": 34.59, "elapsed_time": "4:47:38", "remaining_time": "9:03:53"}
+{"current_steps": 560, "total_steps": 1590, "loss": 0.5087, "lr": 8.192867738074927e-06, "epoch": 0.7051786557531875, "percentage": 35.22, "elapsed_time": "4:52:47", "remaining_time": "8:58:32"}
+{"current_steps": 570, "total_steps": 1590, "loss": 0.5061, "lr": 8.107631096844431e-06, "epoch": 0.7177711317487802, "percentage": 35.85, "elapsed_time": "4:57:47", "remaining_time": "8:52:52"}
+{"current_steps": 580, "total_steps": 1590, "loss": 0.5022, "lr": 8.020896729185406e-06, "epoch": 0.7303636077443727, "percentage": 36.48, "elapsed_time": "5:02:59", "remaining_time": "8:47:37"}
+{"current_steps": 590, "total_steps": 1590, "loss": 0.504, "lr": 7.93270643682742e-06, "epoch": 0.7429560837399654, "percentage": 37.11, "elapsed_time": "5:08:15", "remaining_time": "8:42:28"}
+{"current_steps": 600, "total_steps": 1590, "loss": 0.5112, "lr": 7.843102723184647e-06, "epoch": 0.755548559735558, "percentage": 37.74, "elapsed_time": "5:13:30", "remaining_time": "8:37:17"}
+{"current_steps": 610, "total_steps": 1590, "loss": 0.5112, "lr": 7.752128772871292e-06, "epoch": 0.7681410357311507, "percentage": 38.36, "elapsed_time": "5:18:48", "remaining_time": "8:32:10"}
+{"current_steps": 620, "total_steps": 1590, "loss": 0.5058, "lr": 7.659828430888726e-06, "epoch": 0.7807335117267433, "percentage": 38.99, "elapsed_time": "5:24:00", "remaining_time": "8:26:55"}
+{"current_steps": 630, "total_steps": 1590, "loss": 0.5028, "lr": 7.566246181494325e-06, "epoch": 0.7933259877223359, "percentage": 39.62, "elapsed_time": "5:29:01", "remaining_time": "8:21:22"}
+{"current_steps": 640, "total_steps": 1590, "loss": 0.5064, "lr": 7.4714271267622395e-06, "epoch": 0.8059184637179285, "percentage": 40.25, "elapsed_time": "5:34:15", "remaining_time": "8:16:09"}
+{"current_steps": 650, "total_steps": 1590, "loss": 0.5032, "lr": 7.3754169648463924e-06, "epoch": 0.8185109397135212, "percentage": 40.88, "elapsed_time": "5:39:23", "remaining_time": "8:10:48"}
+{"current_steps": 660, "total_steps": 1590, "loss": 0.5064, "lr": 7.278261967956203e-06, "epoch": 0.8311034157091138, "percentage": 41.51, "elapsed_time": "5:44:37", "remaining_time": "8:05:36"}
+{"current_steps": 670, "total_steps": 1590, "loss": 0.5108, "lr": 7.18000896005564e-06, "epoch": 0.8436958917047065, "percentage": 42.14, "elapsed_time": "5:50:01", "remaining_time": "8:00:37"}
+{"current_steps": 680, "total_steps": 1590, "loss": 0.498, "lr": 7.080705294296355e-06, "epoch": 0.856288367700299, "percentage": 42.77, "elapsed_time": "5:55:04", "remaining_time": "7:55:10"}
+{"current_steps": 690, "total_steps": 1590, "loss": 0.4974, "lr": 6.980398830195785e-06, "epoch": 0.8688808436958917, "percentage": 43.4, "elapsed_time": "6:00:18", "remaining_time": "7:49:58"}
+{"current_steps": 700, "total_steps": 1590, "loss": 0.4979, "lr": 6.879137910571191e-06, "epoch": 0.8814733196914843, "percentage": 44.03, "elapsed_time": "6:05:30", "remaining_time": "7:44:42"}
+{"current_steps": 710, "total_steps": 1590, "loss": 0.5063, "lr": 6.77697133824079e-06, "epoch": 0.894065795687077, "percentage": 44.65, "elapsed_time": "6:10:50", "remaining_time": "7:39:38"}
+{"current_steps": 720, "total_steps": 1590, "loss": 0.5148, "lr": 6.673948352503172e-06, "epoch": 0.9066582716826697, "percentage": 45.28, "elapsed_time": "6:16:09", "remaining_time": "7:34:31"}
+{"current_steps": 730, "total_steps": 1590, "loss": 0.5078, "lr": 6.5701186054063704e-06, "epoch": 0.9192507476782622, "percentage": 45.91, "elapsed_time": "6:21:19", "remaining_time": "7:29:13"}
+{"current_steps": 740, "total_steps": 1590, "loss": 0.505, "lr": 6.4655321378179935e-06, "epoch": 0.9318432236738549, "percentage": 46.54, "elapsed_time": "6:26:43", "remaining_time": "7:24:12"}
+{"current_steps": 750, "total_steps": 1590, "loss": 0.5016, "lr": 6.360239355307972e-06, "epoch": 0.9444356996694475, "percentage": 47.17, "elapsed_time": "6:31:44", "remaining_time": "7:18:45"}
+{"current_steps": 760, "total_steps": 1590, "loss": 0.5086, "lr": 6.254291003855537e-06, "epoch": 0.9570281756650402, "percentage": 47.8, "elapsed_time": "6:37:10", "remaining_time": "7:13:45"}
+{"current_steps": 770, "total_steps": 1590, "loss": 0.4998, "lr": 6.147738145392137e-06, "epoch": 0.9696206516606328, "percentage": 48.43, "elapsed_time": "6:42:28", "remaining_time": "7:08:36"}
+{"current_steps": 780, "total_steps": 1590, "loss": 0.4933, "lr": 6.040632133192074e-06, "epoch": 0.9822131276562254, "percentage": 49.06, "elapsed_time": "6:47:42", "remaining_time": "7:03:23"}
+{"current_steps": 790, "total_steps": 1590, "loss": 0.5084, "lr": 5.933024587122745e-06, "epoch": 0.994805603651818, "percentage": 49.69, "elapsed_time": "6:53:04", "remaining_time": "6:58:18"}
+{"current_steps": 800, "total_steps": 1590, "loss": 0.4699, "lr": 5.824967368766375e-06, "epoch": 1.0062962379977962, "percentage": 50.31, "elapsed_time": "6:57:31", "remaining_time": "6:52:18"}
+{"current_steps": 810, "total_steps": 1590, "loss": 0.4574, "lr": 5.716512556425271e-06, "epoch": 1.0188887139933889, "percentage": 50.94, "elapsed_time": "7:02:42", "remaining_time": "6:47:02"}
+{"current_steps": 820, "total_steps": 1590, "loss": 0.4637, "lr": 5.607712420022627e-06, "epoch": 1.0314811899889815, "percentage": 51.57, "elapsed_time": "7:07:53", "remaining_time": "6:41:48"}
+{"current_steps": 830, "total_steps": 1590, "loss": 0.464, "lr": 5.4986193959109716e-06, "epoch": 1.0440736659845742, "percentage": 52.2, "elapsed_time": "7:13:11", "remaining_time": "6:36:39"}
+{"current_steps": 840, "total_steps": 1590, "loss": 0.4587, "lr": 5.389286061600402e-06, "epoch": 1.0566661419801668, "percentage": 52.83, "elapsed_time": "7:18:18", "remaining_time": "6:31:20"}
+{"current_steps": 850, "total_steps": 1590, "loss": 0.4615, "lr": 5.2797651104187965e-06, "epoch": 1.0692586179757595, "percentage": 53.46, "elapsed_time": "7:23:34", "remaining_time": "6:26:10"}
+{"current_steps": 860, "total_steps": 1590, "loss": 0.4544, "lr": 5.1701093261162095e-06, "epoch": 1.0818510939713522, "percentage": 54.09, "elapsed_time": "7:28:42", "remaining_time": "6:20:52"}
+{"current_steps": 870, "total_steps": 1590, "loss": 0.4578, "lr": 5.060371557425669e-06, "epoch": 1.0944435699669448, "percentage": 54.72, "elapsed_time": "7:33:47", "remaining_time": "6:15:32"}
+{"current_steps": 880, "total_steps": 1590, "loss": 0.4601, "lr": 4.9506046925926725e-06, "epoch": 1.1070360459625375, "percentage": 55.35, "elapsed_time": "7:39:12", "remaining_time": "6:10:29"}
+{"current_steps": 890, "total_steps": 1590, "loss": 0.4655, "lr": 4.840861633885642e-06, "epoch": 1.1196285219581301, "percentage": 55.97, "elapsed_time": "7:44:18", "remaining_time": "6:05:11"}
+{"current_steps": 900, "total_steps": 1590, "loss": 0.4741, "lr": 4.7311952720996106e-06, "epoch": 1.1322209979537226, "percentage": 56.6, "elapsed_time": "7:49:50", "remaining_time": "6:00:12"}
+{"current_steps": 910, "total_steps": 1590, "loss": 0.4639, "lr": 4.621658461065435e-06, "epoch": 1.1448134739493152, "percentage": 57.23, "elapsed_time": "7:55:09", "remaining_time": "5:55:04"}
+{"current_steps": 920, "total_steps": 1590, "loss": 0.4664, "lr": 4.512303992176841e-06, "epoch": 1.1574059499449079, "percentage": 57.86, "elapsed_time": "8:00:30", "remaining_time": "5:49:55"}
+{"current_steps": 930, "total_steps": 1590, "loss": 0.466, "lr": 4.4031845689475406e-06, "epoch": 1.1699984259405005, "percentage": 58.49, "elapsed_time": "8:05:40", "remaining_time": "5:44:40"}
+{"current_steps": 940, "total_steps": 1590, "loss": 0.4526, "lr": 4.294352781610722e-06, "epoch": 1.1825909019360932, "percentage": 59.12, "elapsed_time": "8:10:51", "remaining_time": "5:39:25"}
+{"current_steps": 950, "total_steps": 1590, "loss": 0.4488, "lr": 4.185861081773115e-06, "epoch": 1.1951833779316858, "percentage": 59.75, "elapsed_time": "8:15:49", "remaining_time": "5:34:01"}
+{"current_steps": 960, "total_steps": 1590, "loss": 0.4572, "lr": 4.077761757135882e-06, "epoch": 1.2077758539272785, "percentage": 60.38, "elapsed_time": "8:20:56", "remaining_time": "5:28:44"}
+{"current_steps": 970, "total_steps": 1590, "loss": 0.4684, "lr": 3.970106906294509e-06, "epoch": 1.2203683299228711, "percentage": 61.01, "elapsed_time": "8:26:14", "remaining_time": "5:23:34"}
+{"current_steps": 980, "total_steps": 1590, "loss": 0.459, "lr": 3.862948413629806e-06, "epoch": 1.2329608059184638, "percentage": 61.64, "elapsed_time": "8:31:37", "remaining_time": "5:18:27"}
+{"current_steps": 990, "total_steps": 1590, "loss": 0.4509, "lr": 3.7563379243021924e-06, "epoch": 1.2455532819140562, "percentage": 62.26, "elapsed_time": "8:36:36", "remaining_time": "5:13:05"}
+{"current_steps": 1000, "total_steps": 1590, "loss": 0.4625, "lr": 3.6503268193612316e-06, "epoch": 1.258145757909649, "percentage": 62.89, "elapsed_time": "8:42:05", "remaining_time": "5:08:01"}
+{"current_steps": 1010, "total_steps": 1590, "loss": 0.4638, "lr": 3.5449661909824908e-06, "epoch": 1.2707382339052415, "percentage": 63.52, "elapsed_time": "8:48:07", "remaining_time": "5:03:16"}
+{"current_steps": 1020, "total_steps": 1590, "loss": 0.4658, "lr": 3.440306817843592e-06, "epoch": 1.2833307099008342, "percentage": 64.15, "elapsed_time": "8:53:26", "remaining_time": "4:58:06"}
+{"current_steps": 1030, "total_steps": 1590, "loss": 0.4536, "lr": 3.336399140651385e-06, "epoch": 1.2959231858964269, "percentage": 64.78, "elapsed_time": "8:58:34", "remaining_time": "4:52:49"}
+{"current_steps": 1040, "total_steps": 1590, "loss": 0.4489, "lr": 3.2332932378319803e-06, "epoch": 1.3085156618920195, "percentage": 65.41, "elapsed_time": "9:03:52", "remaining_time": "4:47:37"}
+{"current_steps": 1050, "total_steps": 1590, "loss": 0.4627, "lr": 3.1310388013953897e-06, "epoch": 1.3211081378876122, "percentage": 66.04, "elapsed_time": "9:09:04", "remaining_time": "4:42:23"}
+{"current_steps": 1060, "total_steps": 1590, "loss": 0.4656, "lr": 3.029685112986417e-06, "epoch": 1.3337006138832048, "percentage": 66.67, "elapsed_time": "9:14:26", "remaining_time": "4:37:13"}
+{"current_steps": 1070, "total_steps": 1590, "loss": 0.4591, "lr": 2.9292810201332995e-06, "epoch": 1.3462930898787975, "percentage": 67.3, "elapsed_time": "9:19:54", "remaining_time": "4:32:06"}
+{"current_steps": 1080, "total_steps": 1590, "loss": 0.4646, "lr": 2.8298749127055914e-06, "epoch": 1.3588855658743901, "percentage": 67.92, "elapsed_time": "9:25:08", "remaining_time": "4:26:52"}
+{"current_steps": 1090, "total_steps": 1590, "loss": 0.452, "lr": 2.7315146995926085e-06, "epoch": 1.3714780418699828, "percentage": 68.55, "elapsed_time": "9:30:33", "remaining_time": "4:21:43"}
+{"current_steps": 1100, "total_steps": 1590, "loss": 0.4587, "lr": 2.6342477856136806e-06, "epoch": 1.3840705178655752, "percentage": 69.18, "elapsed_time": "9:35:53", "remaining_time": "4:16:32"}
+{"current_steps": 1110, "total_steps": 1590, "loss": 0.4623, "lr": 2.53812104867135e-06, "epoch": 1.3966629938611679, "percentage": 69.81, "elapsed_time": "9:41:18", "remaining_time": "4:11:22"}
+{"current_steps": 1120, "total_steps": 1590, "loss": 0.463, "lr": 2.443180817158502e-06, "epoch": 1.4092554698567605, "percentage": 70.44, "elapsed_time": "9:46:33", "remaining_time": "4:06:08"}
+{"current_steps": 1130, "total_steps": 1590, "loss": 0.4582, "lr": 2.3494728476303547e-06, "epoch": 1.4218479458523532, "percentage": 71.07, "elapsed_time": "9:52:06", "remaining_time": "4:01:02"}
+{"current_steps": 1140, "total_steps": 1590, "loss": 0.4583, "lr": 2.2570423027520175e-06, "epoch": 1.4344404218479458, "percentage": 71.7, "elapsed_time": "9:57:18", "remaining_time": "3:55:46"}
+{"current_steps": 1150, "total_steps": 1590, "loss": 0.4675, "lr": 2.1659337295323117e-06, "epoch": 1.4470328978435385, "percentage": 72.33, "elapsed_time": "10:02:38", "remaining_time": "3:50:34"}
+{"current_steps": 1160, "total_steps": 1590, "loss": 0.4573, "lr": 2.076191037854267e-06, "epoch": 1.4596253738391312, "percentage": 72.96, "elapsed_time": "10:07:57", "remaining_time": "3:45:21"}
+{"current_steps": 1170, "total_steps": 1590, "loss": 0.4647, "lr": 1.987857479312721e-06, "epoch": 1.4722178498347238, "percentage": 73.58, "elapsed_time": "10:13:10", "remaining_time": "3:40:06"}
+{"current_steps": 1180, "total_steps": 1590, "loss": 0.4633, "lr": 1.9009756263691475e-06, "epoch": 1.4848103258303165, "percentage": 74.21, "elapsed_time": "10:18:50", "remaining_time": "3:35:01"}
+{"current_steps": 1190, "total_steps": 1590, "loss": 0.4591, "lr": 1.815587351833818e-06, "epoch": 1.497402801825909, "percentage": 74.84, "elapsed_time": "10:24:25", "remaining_time": "3:29:53"}
+{"current_steps": 1200, "total_steps": 1590, "loss": 0.459, "lr": 1.7317338086851526e-06, "epoch": 1.5099952778215018, "percentage": 75.47, "elapsed_time": "10:29:38", "remaining_time": "3:24:37"}
+{"current_steps": 1210, "total_steps": 1590, "loss": 0.4538, "lr": 1.649455410235985e-06, "epoch": 1.5225877538170942, "percentage": 76.1, "elapsed_time": "10:34:52", "remaining_time": "3:19:22"}
+{"current_steps": 1220, "total_steps": 1590, "loss": 0.4592, "lr": 1.5687918106563326e-06, "epoch": 1.5351802298126869, "percentage": 76.73, "elapsed_time": "10:40:07", "remaining_time": "3:14:08"}
+{"current_steps": 1230, "total_steps": 1590, "loss": 0.4549, "lr": 1.4897818858620095e-06, "epoch": 1.5477727058082795, "percentage": 77.36, "elapsed_time": "10:45:24", "remaining_time": "3:08:53"}
+{"current_steps": 1240, "total_steps": 1590, "loss": 0.4516, "lr": 1.4124637147783431e-06, "epoch": 1.5603651818038722, "percentage": 77.99, "elapsed_time": "10:50:23", "remaining_time": "3:03:34"}
+{"current_steps": 1250, "total_steps": 1590, "loss": 0.4601, "lr": 1.3368745609879908e-06, "epoch": 1.5729576577994648, "percentage": 78.62, "elapsed_time": "10:55:41", "remaining_time": "2:58:20"}
+{"current_steps": 1260, "total_steps": 1590, "loss": 0.4545, "lr": 1.263050854771705e-06, "epoch": 1.5855501337950575, "percentage": 79.25, "elapsed_time": "11:00:58", "remaining_time": "2:53:06"}
+{"current_steps": 1270, "total_steps": 1590, "loss": 0.4455, "lr": 1.191028175550727e-06, "epoch": 1.5981426097906501, "percentage": 79.87, "elapsed_time": "11:06:02", "remaining_time": "2:47:49"}
+{"current_steps": 1280, "total_steps": 1590, "loss": 0.4445, "lr": 1.1208412347392338e-06, "epoch": 1.6107350857862426, "percentage": 80.5, "elapsed_time": "11:11:04", "remaining_time": "2:42:31"}
+{"current_steps": 1290, "total_steps": 1590, "loss": 0.4496, "lr": 1.0525238590151442e-06, "epoch": 1.6233275617818355, "percentage": 81.13, "elapsed_time": "11:16:22", "remaining_time": "2:37:17"}
+{"current_steps": 1300, "total_steps": 1590, "loss": 0.4546, "lr": 9.86108974017298e-07, "epoch": 1.635920037777428, "percentage": 81.76, "elapsed_time": "11:21:31", "remaining_time": "2:32:01"}
+{"current_steps": 1310, "total_steps": 1590, "loss": 0.4583, "lr": 9.216285884769172e-07, "epoch": 1.6485125137730208, "percentage": 82.39, "elapsed_time": "11:26:56", "remaining_time": "2:26:49"}
+{"current_steps": 1320, "total_steps": 1590, "loss": 0.4555, "lr": 8.591137787909503e-07, "epoch": 1.6611049897686132, "percentage": 83.02, "elapsed_time": "11:32:02", "remaining_time": "2:21:33"}
+{"current_steps": 1330, "total_steps": 1590, "loss": 0.4497, "lr": 7.985946740447792e-07, "epoch": 1.6736974657642059, "percentage": 83.65, "elapsed_time": "11:37:03", "remaining_time": "2:16:16"}
+{"current_steps": 1340, "total_steps": 1590, "loss": 0.463, "lr": 7.401004414914586e-07, "epoch": 1.6862899417597985, "percentage": 84.28, "elapsed_time": "11:42:25", "remaining_time": "2:11:02"}
+{"current_steps": 1350, "total_steps": 1590, "loss": 0.4561, "lr": 6.836592724945323e-07, "epoch": 1.6988824177553912, "percentage": 84.91, "elapsed_time": "11:47:41", "remaining_time": "2:05:48"}
+{"current_steps": 1360, "total_steps": 1590, "loss": 0.4624, "lr": 6.292983689411725e-07, "epoch": 1.7114748937509838, "percentage": 85.53, "elapsed_time": "11:53:10", "remaining_time": "2:00:36"}
+{"current_steps": 1370, "total_steps": 1590, "loss": 0.4467, "lr": 5.770439301321929e-07, "epoch": 1.7240673697465763, "percentage": 86.16, "elapsed_time": "11:58:21", "remaining_time": "1:55:21"}
+{"current_steps": 1380, "total_steps": 1590, "loss": 0.451, "lr": 5.269211401552721e-07, "epoch": 1.7366598457421691, "percentage": 86.79, "elapsed_time": "12:03:24", "remaining_time": "1:50:05"}
+{"current_steps": 1390, "total_steps": 1590, "loss": 0.4639, "lr": 4.78954155747448e-07, "epoch": 1.7492523217377616, "percentage": 87.42, "elapsed_time": "12:08:50", "remaining_time": "1:44:52"}
+{"current_steps": 1400, "total_steps": 1590, "loss": 0.4518, "lr": 4.3316609465275437e-07, "epoch": 1.7618447977333545, "percentage": 88.05, "elapsed_time": "12:14:03", "remaining_time": "1:39:37"}
+{"current_steps": 1410, "total_steps": 1590, "loss": 0.4603, "lr": 3.895790244805936e-07, "epoch": 1.7744372737289469, "percentage": 88.68, "elapsed_time": "12:19:18", "remaining_time": "1:34:22"}
+{"current_steps": 1420, "total_steps": 1590, "loss": 0.4512, "lr": 3.4821395207022767e-07, "epoch": 1.7870297497245395, "percentage": 89.31, "elapsed_time": "12:24:33", "remaining_time": "1:29:08"}
+{"current_steps": 1430, "total_steps": 1590, "loss": 0.4597, "lr": 3.0909081336650883e-07, "epoch": 1.7996222257201322, "percentage": 89.94, "elapsed_time": "12:29:42", "remaining_time": "1:23:53"}
+{"current_steps": 1440, "total_steps": 1590, "loss": 0.467, "lr": 2.7222846381172616e-07, "epoch": 1.8122147017157249, "percentage": 90.57, "elapsed_time": "12:35:07", "remaining_time": "1:18:39"}
+{"current_steps": 1450, "total_steps": 1590, "loss": 0.4617, "lr": 2.3764466925820518e-07, "epoch": 1.8248071777113175, "percentage": 91.19, "elapsed_time": "12:40:35", "remaining_time": "1:13:26"}
+{"current_steps": 1460, "total_steps": 1590, "loss": 0.4586, "lr": 2.0535609740603092e-07, "epoch": 1.8373996537069102, "percentage": 91.82, "elapsed_time": "12:45:45", "remaining_time": "1:08:11"}
+{"current_steps": 1470, "total_steps": 1590, "loss": 0.4504, "lr": 1.7537830977003456e-07, "epoch": 1.8499921297025028, "percentage": 92.45, "elapsed_time": "12:50:49", "remaining_time": "1:02:55"}
+{"current_steps": 1480, "total_steps": 1590, "loss": 0.4534, "lr": 1.477257541799032e-07, "epoch": 1.8625846056980953, "percentage": 93.08, "elapsed_time": "12:55:58", "remaining_time": "0:57:40"}
+{"current_steps": 1490, "total_steps": 1590, "loss": 0.4553, "lr": 1.2241175781702587e-07, "epoch": 1.8751770816936881, "percentage": 93.71, "elapsed_time": "13:01:16", "remaining_time": "0:52:26"}
+{"current_steps": 1500, "total_steps": 1590, "loss": 0.4572, "lr": 9.944852079144862e-08, "epoch": 1.8877695576892806, "percentage": 94.34, "elapsed_time": "13:06:40", "remaining_time": "0:47:12"}
+{"current_steps": 1510, "total_steps": 1590, "loss": 0.4589, "lr": 7.884711026201586e-08, "epoch": 1.9003620336848734, "percentage": 94.97, "elapsed_time": "13:11:44", "remaining_time": "0:41:56"}
+{"current_steps": 1520, "total_steps": 1590, "loss": 0.4547, "lr": 6.061745510254069e-08, "epoch": 1.9129545096804659, "percentage": 95.6, "elapsed_time": "13:16:55", "remaining_time": "0:36:42"}
+{"current_steps": 1530, "total_steps": 1590, "loss": 0.4533, "lr": 4.476834111656891e-08, "epoch": 1.9255469856760585, "percentage": 96.23, "elapsed_time": "13:21:57", "remaining_time": "0:31:26"}
+{"current_steps": 1540, "total_steps": 1590, "loss": 0.4503, "lr": 3.130740680305666e-08, "epoch": 1.9381394616716512, "percentage": 96.86, "elapsed_time": "13:27:15", "remaining_time": "0:26:12"}
+{"current_steps": 1550, "total_steps": 1590, "loss": 0.4447, "lr": 2.0241139674982424e-08, "epoch": 1.9507319376672438, "percentage": 97.48, "elapsed_time": "13:32:18", "remaining_time": "0:20:57"}
+{"current_steps": 1560, "total_steps": 1590, "loss": 0.4649, "lr": 1.1574873132684239e-08, "epoch": 1.9633244136628365, "percentage": 98.11, "elapsed_time": "13:37:40", "remaining_time": "0:15:43"}
+{"current_steps": 1570, "total_steps": 1590, "loss": 0.4572, "lr": 5.31278389342138e-09, "epoch": 1.975916889658429, "percentage": 98.74, "elapsed_time": "13:43:01", "remaining_time": "0:10:29"}
+{"current_steps": 1580, "total_steps": 1590, "loss": 0.4551, "lr": 1.4578899784001288e-09, "epoch": 1.9885093656540218, "percentage": 99.37, "elapsed_time": "13:48:11", "remaining_time": "0:05:14"}
+{"current_steps": 1590, "total_steps": 1590, "loss": 0.4489, "lr": 1.2049258235058425e-11, "epoch": 2.0, "percentage": 100.0, "elapsed_time": "13:52:46", "remaining_time": "0:00:00"}
+{"current_steps": 1590, "total_steps": 1590, "epoch": 2.0, "percentage": 100.0, "elapsed_time": "13:53:24", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1156 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 1590,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.012592475995592633,
+      "grad_norm": 38.37793731689453,
+      "learning_rate": 5.660377358490567e-07,
+      "loss": 1.2378,
+      "step": 10
+    },
+    {
+      "epoch": 0.025184951991185266,
+      "grad_norm": 13.752121925354004,
+      "learning_rate": 1.1949685534591195e-06,
+      "loss": 0.9875,
+      "step": 20
+    },
+    {
+      "epoch": 0.0377774279867779,
+      "grad_norm": 3.883774995803833,
+      "learning_rate": 1.8238993710691824e-06,
+      "loss": 0.6558,
+      "step": 30
+    },
+    {
+      "epoch": 0.05036990398237053,
+      "grad_norm": 1.039472222328186,
+      "learning_rate": 2.4528301886792453e-06,
+      "loss": 0.5882,
+      "step": 40
+    },
+    {
+      "epoch": 0.06296237997796317,
+      "grad_norm": 0.9505448937416077,
+      "learning_rate": 3.0817610062893084e-06,
+      "loss": 0.5781,
+      "step": 50
+    },
+    {
+      "epoch": 0.0755548559735558,
+      "grad_norm": 0.8333441019058228,
+      "learning_rate": 3.710691823899371e-06,
+      "loss": 0.5495,
+      "step": 60
+    },
+    {
+      "epoch": 0.08814733196914844,
+      "grad_norm": 1.262669324874878,
+      "learning_rate": 4.339622641509435e-06,
+      "loss": 0.5535,
+      "step": 70
+    },
+    {
+      "epoch": 0.10073980796474107,
+      "grad_norm": 0.8360942006111145,
+      "learning_rate": 4.968553459119497e-06,
+      "loss": 0.5396,
+      "step": 80
+    },
+    {
+      "epoch": 0.11333228396033371,
+      "grad_norm": 0.7950102090835571,
+      "learning_rate": 5.59748427672956e-06,
+      "loss": 0.5413,
+      "step": 90
+    },
+    {
+      "epoch": 0.12592475995592634,
+      "grad_norm": 0.8145875334739685,
+      "learning_rate": 6.226415094339623e-06,
+      "loss": 0.5376,
+      "step": 100
+    },
+    {
+      "epoch": 0.13851723595151896,
+      "grad_norm": 0.7814944386482239,
+      "learning_rate": 6.855345911949685e-06,
+      "loss": 0.5351,
+      "step": 110
+    },
+    {
+      "epoch": 0.1511097119471116,
+      "grad_norm": 0.8993023037910461,
+      "learning_rate": 7.484276729559748e-06,
+      "loss": 0.5409,
+      "step": 120
+    },
+    {
+      "epoch": 0.16370218794270425,
+      "grad_norm": 0.866847574710846,
+      "learning_rate": 8.113207547169812e-06,
+      "loss": 0.5442,
+      "step": 130
+    },
+    {
+      "epoch": 0.17629466393829687,
+      "grad_norm": 0.7159755229949951,
+      "learning_rate": 8.742138364779875e-06,
+      "loss": 0.5365,
+      "step": 140
+    },
+    {
+      "epoch": 0.1888871399338895,
+      "grad_norm": 0.7923691272735596,
+      "learning_rate": 9.371069182389939e-06,
+      "loss": 0.5382,
+      "step": 150
+    },
+    {
+      "epoch": 0.20147961592948213,
+      "grad_norm": 0.8047380447387695,
+      "learning_rate": 1e-05,
+      "loss": 0.5414,
+      "step": 160
+    },
+    {
+      "epoch": 0.21407209192507476,
+      "grad_norm": 0.8467481732368469,
+      "learning_rate": 9.998795122086687e-06,
+      "loss": 0.5331,
+      "step": 170
+    },
+    {
+      "epoch": 0.22666456792066741,
+      "grad_norm": 0.7700195908546448,
+      "learning_rate": 9.995181069039055e-06,
+      "loss": 0.5345,
+      "step": 180
+    },
+    {
+      "epoch": 0.23925704391626004,
+      "grad_norm": 1.2827311754226685,
+      "learning_rate": 9.989159582654187e-06,
+      "loss": 0.5302,
+      "step": 190
+    },
+    {
+      "epoch": 0.25184951991185267,
+      "grad_norm": 0.774922251701355,
+      "learning_rate": 9.98073356499446e-06,
+      "loss": 0.5337,
+      "step": 200
+    },
+    {
+      "epoch": 0.2644419959074453,
+      "grad_norm": 0.7742050290107727,
+      "learning_rate": 9.969907076988907e-06,
+      "loss": 0.5229,
+      "step": 210
+    },
+    {
+      "epoch": 0.2770344719030379,
+      "grad_norm": 0.7685420513153076,
+      "learning_rate": 9.956685336476037e-06,
+      "loss": 0.54,
+      "step": 220
+    },
+    {
+      "epoch": 0.2896269478986306,
+      "grad_norm": 0.7166957259178162,
+      "learning_rate": 9.941074715689097e-06,
+      "loss": 0.5252,
+      "step": 230
+    },
+    {
+      "epoch": 0.3022194238942232,
+      "grad_norm": 0.7183574438095093,
+      "learning_rate": 9.923082738184969e-06,
+      "loss": 0.5324,
+      "step": 240
+    },
+    {
+      "epoch": 0.31481189988981584,
+      "grad_norm": 0.7572329044342041,
+      "learning_rate": 9.902718075218176e-06,
+      "loss": 0.5213,
+      "step": 250
+    },
+    {
+      "epoch": 0.3274043758854085,
+      "grad_norm": 0.7367239594459534,
+      "learning_rate": 9.879990541561766e-06,
+      "loss": 0.5221,
+      "step": 260
+    },
+    {
+      "epoch": 0.3399968518810011,
+      "grad_norm": 0.7647990584373474,
+      "learning_rate": 9.854911090777071e-06,
+      "loss": 0.5116,
+      "step": 270
+    },
+    {
+      "epoch": 0.35258932787659375,
+      "grad_norm": 0.7244531512260437,
+      "learning_rate": 9.827491809934621e-06,
+      "loss": 0.5198,
+      "step": 280
+    },
+    {
+      "epoch": 0.36518180387218635,
+      "grad_norm": 0.7534804344177246,
+      "learning_rate": 9.797745913788772e-06,
+      "loss": 0.5243,
+      "step": 290
+    },
+    {
+      "epoch": 0.377774279867779,
+      "grad_norm": 0.7589166760444641,
+      "learning_rate": 9.765687738408834e-06,
+      "loss": 0.5154,
+      "step": 300
+    },
+    {
+      "epoch": 0.39036675586337166,
+      "grad_norm": 0.755774974822998,
+      "learning_rate": 9.731332734269791e-06,
+      "loss": 0.5368,
+      "step": 310
+    },
+    {
+      "epoch": 0.40295923185896426,
+      "grad_norm": 0.7197142243385315,
+      "learning_rate": 9.69469745880592e-06,
+      "loss": 0.5257,
+      "step": 320
+    },
+    {
+      "epoch": 0.4155517078545569,
+      "grad_norm": 0.6717684268951416,
+      "learning_rate": 9.655799568430926e-06,
+      "loss": 0.5179,
+      "step": 330
+    },
+    {
+      "epoch": 0.4281441838501495,
+      "grad_norm": 0.7795198559761047,
+      "learning_rate": 9.614657810028402e-06,
+      "loss": 0.5205,
+      "step": 340
+    },
+    {
+      "epoch": 0.4407366598457422,
+      "grad_norm": 0.7759056091308594,
+      "learning_rate": 9.571292011916753e-06,
+      "loss": 0.5185,
+      "step": 350
+    },
+    {
+      "epoch": 0.45332913584133483,
+      "grad_norm": 0.7955228090286255,
+      "learning_rate": 9.525723074292916e-06,
+      "loss": 0.5193,
+      "step": 360
+    },
+    {
+      "epoch": 0.46592161183692743,
+      "grad_norm": 0.7349282503128052,
+      "learning_rate": 9.47797295915948e-06,
+      "loss": 0.5163,
+      "step": 370
+    },
+    {
+      "epoch": 0.4785140878325201,
+      "grad_norm": 0.6859073042869568,
+      "learning_rate": 9.428064679740081e-06,
+      "loss": 0.5108,
+      "step": 380
+    },
+    {
+      "epoch": 0.4911065638281127,
+      "grad_norm": 0.7050626873970032,
+      "learning_rate": 9.37602228938814e-06,
+      "loss": 0.5241,
+      "step": 390
+    },
+    {
+      "epoch": 0.5036990398237053,
+      "grad_norm": 0.7306986451148987,
+      "learning_rate": 9.321870869994336e-06,
+      "loss": 0.5132,
+      "step": 400
+    },
+    {
+      "epoch": 0.516291515819298,
+      "grad_norm": 0.7835687398910522,
+      "learning_rate": 9.26563651989835e-06,
+      "loss": 0.5015,
+      "step": 410
+    },
+    {
+      "epoch": 0.5288839918148907,
+      "grad_norm": 0.716162383556366,
+      "learning_rate": 9.207346341310744e-06,
+      "loss": 0.5329,
+      "step": 420
+    },
+    {
+      "epoch": 0.5414764678104832,
+      "grad_norm": 0.6837930083274841,
+      "learning_rate": 9.14702842725101e-06,
+      "loss": 0.5237,
+      "step": 430
+    },
+    {
+      "epoch": 0.5540689438060759,
+      "grad_norm": 0.680153489112854,
+      "learning_rate": 9.084711848008122e-06,
+      "loss": 0.5175,
+      "step": 440
+    },
+    {
+      "epoch": 0.5666614198016685,
+      "grad_norm": 0.711155891418457,
+      "learning_rate": 9.020426637130069e-06,
+      "loss": 0.5048,
+      "step": 450
+    },
+    {
+      "epoch": 0.5792538957972612,
+      "grad_norm": 0.7100813388824463,
+      "learning_rate": 8.954203776949141e-06,
+      "loss": 0.524,
+      "step": 460
+    },
+    {
+      "epoch": 0.5918463717928538,
+      "grad_norm": 0.7131823897361755,
+      "learning_rate": 8.886075183649976e-06,
+      "loss": 0.5177,
+      "step": 470
+    },
+    {
+      "epoch": 0.6044388477884464,
+      "grad_norm": 0.6676498651504517,
+      "learning_rate": 8.816073691887506e-06,
+      "loss": 0.5089,
+      "step": 480
+    },
+    {
+      "epoch": 0.617031323784039,
+      "grad_norm": 0.6786186099052429,
+      "learning_rate": 8.744233038962262e-06,
+      "loss": 0.5006,
+      "step": 490
+    },
+    {
+      "epoch": 0.6296237997796317,
+      "grad_norm": 0.695183515548706,
+      "learning_rate": 8.670587848560636e-06,
+      "loss": 0.5069,
+      "step": 500
+    },
+    {
+      "epoch": 0.6422162757752243,
+      "grad_norm": 0.6954060792922974,
+      "learning_rate": 8.595173614067966e-06,
+      "loss": 0.5083,
+      "step": 510
+    },
+    {
+      "epoch": 0.654808751770817,
+      "grad_norm": 0.7450917959213257,
+      "learning_rate": 8.518026681462448e-06,
+      "loss": 0.4996,
+      "step": 520
+    },
+    {
+      "epoch": 0.6674012277664095,
+      "grad_norm": 0.7362504005432129,
+      "learning_rate": 8.43918423179815e-06,
+      "loss": 0.5071,
+      "step": 530
+    },
+    {
+      "epoch": 0.6799937037620022,
+      "grad_norm": 0.7175170183181763,
+      "learning_rate": 8.358684263285566e-06,
+      "loss": 0.5038,
+      "step": 540
+    },
+    {
+      "epoch": 0.6925861797575948,
+      "grad_norm": 0.7169266939163208,
+      "learning_rate": 8.27656557297833e-06,
+      "loss": 0.5136,
+      "step": 550
+    },
+    {
+      "epoch": 0.7051786557531875,
+      "grad_norm": 0.68199223279953,
+      "learning_rate": 8.192867738074927e-06,
+      "loss": 0.5087,
+      "step": 560
+    },
+    {
+      "epoch": 0.7177711317487802,
+      "grad_norm": 0.7578943967819214,
+      "learning_rate": 8.107631096844431e-06,
+      "loss": 0.5061,
+      "step": 570
+    },
+    {
+      "epoch": 0.7303636077443727,
+      "grad_norm": 0.6680927276611328,
+      "learning_rate": 8.020896729185406e-06,
+      "loss": 0.5022,
+      "step": 580
+    },
+    {
+      "epoch": 0.7429560837399654,
+      "grad_norm": 0.7082540988922119,
+      "learning_rate": 7.93270643682742e-06,
+      "loss": 0.504,
+      "step": 590
+    },
+    {
+      "epoch": 0.755548559735558,
+      "grad_norm": 0.6694560050964355,
+      "learning_rate": 7.843102723184647e-06,
+      "loss": 0.5112,
+      "step": 600
+    },
+    {
+      "epoch": 0.7681410357311507,
+      "grad_norm": 0.6237286925315857,
+      "learning_rate": 7.752128772871292e-06,
+      "loss": 0.5112,
+      "step": 610
+    },
+    {
+      "epoch": 0.7807335117267433,
+      "grad_norm": 0.7196964025497437,
+      "learning_rate": 7.659828430888726e-06,
+      "loss": 0.5058,
+      "step": 620
+    },
+    {
+      "epoch": 0.7933259877223359,
+      "grad_norm": 0.7414775490760803,
+      "learning_rate": 7.566246181494325e-06,
+      "loss": 0.5028,
+      "step": 630
+    },
+    {
+      "epoch": 0.8059184637179285,
+      "grad_norm": 0.7570202350616455,
+      "learning_rate": 7.4714271267622395e-06,
+      "loss": 0.5064,
+      "step": 640
+    },
+    {
+      "epoch": 0.8185109397135212,
+      "grad_norm": 0.7066277861595154,
+      "learning_rate": 7.3754169648463924e-06,
+      "loss": 0.5032,
+      "step": 650
+    },
+    {
+      "epoch": 0.8311034157091138,
+      "grad_norm": 0.6958999037742615,
+      "learning_rate": 7.278261967956203e-06,
+      "loss": 0.5064,
+      "step": 660
+    },
+    {
+      "epoch": 0.8436958917047065,
+      "grad_norm": 0.7002361416816711,
+      "learning_rate": 7.18000896005564e-06,
+      "loss": 0.5108,
+      "step": 670
+    },
+    {
+      "epoch": 0.856288367700299,
+      "grad_norm": 0.6879448294639587,
+      "learning_rate": 7.080705294296355e-06,
+      "loss": 0.498,
+      "step": 680
+    },
+    {
+      "epoch": 0.8688808436958917,
+      "grad_norm": 0.6851900219917297,
+      "learning_rate": 6.980398830195785e-06,
+      "loss": 0.4974,
+      "step": 690
+    },
+    {
+      "epoch": 0.8814733196914843,
+      "grad_norm": 0.6358043551445007,
+      "learning_rate": 6.879137910571191e-06,
+      "loss": 0.4979,
+      "step": 700
+    },
+    {
+      "epoch": 0.894065795687077,
+      "grad_norm": 0.7097135782241821,
+      "learning_rate": 6.77697133824079e-06,
+      "loss": 0.5063,
+      "step": 710
+    },
+    {
+      "epoch": 0.9066582716826697,
+      "grad_norm": 0.646121621131897,
+      "learning_rate": 6.673948352503172e-06,
+      "loss": 0.5148,
+      "step": 720
+    },
+    {
+      "epoch": 0.9192507476782622,
+      "grad_norm": 0.661415159702301,
+      "learning_rate": 6.5701186054063704e-06,
+      "loss": 0.5078,
+      "step": 730
+    },
+    {
+      "epoch": 0.9318432236738549,
+      "grad_norm": 0.7175974249839783,
+      "learning_rate": 6.4655321378179935e-06,
+      "loss": 0.505,
+      "step": 740
+    },
+    {
+      "epoch": 0.9444356996694475,
+      "grad_norm": 0.7281399369239807,
+      "learning_rate": 6.360239355307972e-06,
+      "loss": 0.5016,
+      "step": 750
+    },
+    {
+      "epoch": 0.9570281756650402,
+      "grad_norm": 0.6843705177307129,
+      "learning_rate": 6.254291003855537e-06,
+      "loss": 0.5086,
+      "step": 760
+    },
+    {
+      "epoch": 0.9696206516606328,
+      "grad_norm": 0.6782203316688538,
+      "learning_rate": 6.147738145392137e-06,
+      "loss": 0.4998,
+      "step": 770
+    },
+    {
+      "epoch": 0.9822131276562254,
+      "grad_norm": 0.6951731443405151,
+      "learning_rate": 6.040632133192074e-06,
+      "loss": 0.4933,
+      "step": 780
+    },
+    {
+      "epoch": 0.994805603651818,
+      "grad_norm": 0.6784470081329346,
+      "learning_rate": 5.933024587122745e-06,
+      "loss": 0.5084,
+      "step": 790
+    },
+    {
+      "epoch": 1.0062962379977962,
+      "grad_norm": 0.7149181962013245,
+      "learning_rate": 5.824967368766375e-06,
+      "loss": 0.4699,
+      "step": 800
+    },
+    {
+      "epoch": 1.0188887139933889,
+      "grad_norm": 0.6838890910148621,
+      "learning_rate": 5.716512556425271e-06,
+      "loss": 0.4574,
+      "step": 810
+    },
+    {
+      "epoch": 1.0314811899889815,
+      "grad_norm": 0.6297887563705444,
+      "learning_rate": 5.607712420022627e-06,
+      "loss": 0.4637,
+      "step": 820
+    },
+    {
+      "epoch": 1.0440736659845742,
+      "grad_norm": 0.6451053619384766,
+      "learning_rate": 5.4986193959109716e-06,
+      "loss": 0.464,
+      "step": 830
+    },
+    {
+      "epoch": 1.0566661419801668,
+      "grad_norm": 0.6407359838485718,
+      "learning_rate": 5.389286061600402e-06,
+      "loss": 0.4587,
+      "step": 840
+    },
+    {
+      "epoch": 1.0692586179757595,
+      "grad_norm": 0.6714970469474792,
+      "learning_rate": 5.2797651104187965e-06,
+      "loss": 0.4615,
+      "step": 850
+    },
+    {
+      "epoch": 1.0818510939713522,
+      "grad_norm": 0.6700007319450378,
+      "learning_rate": 5.1701093261162095e-06,
+      "loss": 0.4544,
+      "step": 860
+    },
+    {
+      "epoch": 1.0944435699669448,
+      "grad_norm": 0.721367359161377,
+      "learning_rate": 5.060371557425669e-06,
+      "loss": 0.4578,
+      "step": 870
+    },
+    {
+      "epoch": 1.1070360459625375,
+      "grad_norm": 0.6329649090766907,
+      "learning_rate": 4.9506046925926725e-06,
+      "loss": 0.4601,
+      "step": 880
+    },
+    {
+      "epoch": 1.1196285219581301,
+      "grad_norm": 0.7482566833496094,
+      "learning_rate": 4.840861633885642e-06,
+      "loss": 0.4655,
+      "step": 890
+    },
+    {
+      "epoch": 1.1322209979537226,
+      "grad_norm": 0.6573087573051453,
+      "learning_rate": 4.7311952720996106e-06,
+      "loss": 0.4741,
+      "step": 900
+    },
+    {
+      "epoch": 1.1448134739493152,
+      "grad_norm": 0.6579948663711548,
+      "learning_rate": 4.621658461065435e-06,
+      "loss": 0.4639,
+      "step": 910
+    },
+    {
+      "epoch": 1.1574059499449079,
+      "grad_norm": 0.702316164970398,
+      "learning_rate": 4.512303992176841e-06,
+      "loss": 0.4664,
+      "step": 920
+    },
+    {
+      "epoch": 1.1699984259405005,
+      "grad_norm": 0.6987930536270142,
+      "learning_rate": 4.4031845689475406e-06,
+      "loss": 0.466,
+      "step": 930
+    },
+    {
+      "epoch": 1.1825909019360932,
+      "grad_norm": 0.7473271489143372,
+      "learning_rate": 4.294352781610722e-06,
+      "loss": 0.4526,
+      "step": 940
+    },
+    {
+      "epoch": 1.1951833779316858,
+      "grad_norm": 0.7382975816726685,
+      "learning_rate": 4.185861081773115e-06,
+      "loss": 0.4488,
+      "step": 950
+    },
+    {
+      "epoch": 1.2077758539272785,
+      "grad_norm": 0.7045325040817261,
+      "learning_rate": 4.077761757135882e-06,
+      "loss": 0.4572,
+      "step": 960
+    },
+    {
+      "epoch": 1.2203683299228711,
+      "grad_norm": 0.6717881560325623,
+      "learning_rate": 3.970106906294509e-06,
+      "loss": 0.4684,
+      "step": 970
+    },
+    {
+      "epoch": 1.2329608059184638,
+      "grad_norm": 0.6612910628318787,
+      "learning_rate": 3.862948413629806e-06,
+      "loss": 0.459,
+      "step": 980
+    },
+    {
+      "epoch": 1.2455532819140562,
+      "grad_norm": 0.6803273558616638,
+      "learning_rate": 3.7563379243021924e-06,
+      "loss": 0.4509,
+      "step": 990
+    },
+    {
+      "epoch": 1.258145757909649,
+      "grad_norm": 0.6448065638542175,
+      "learning_rate": 3.6503268193612316e-06,
+      "loss": 0.4625,
+      "step": 1000
+    },
+    {
+      "epoch": 1.2707382339052415,
+      "grad_norm": 0.6815820932388306,
+      "learning_rate": 3.5449661909824908e-06,
+      "loss": 0.4638,
+      "step": 1010
+    },
+    {
+      "epoch": 1.2833307099008342,
+      "grad_norm": 0.6469627022743225,
+      "learning_rate": 3.440306817843592e-06,
+      "loss": 0.4658,
+      "step": 1020
+    },
+    {
+      "epoch": 1.2959231858964269,
+      "grad_norm": 0.6718019843101501,
+      "learning_rate": 3.336399140651385e-06,
+      "loss": 0.4536,
+      "step": 1030
+    },
+    {
+      "epoch": 1.3085156618920195,
+      "grad_norm": 0.7337303161621094,
+      "learning_rate": 3.2332932378319803e-06,
+      "loss": 0.4489,
+      "step": 1040
+    },
+    {
+      "epoch": 1.3211081378876122,
+      "grad_norm": 0.6914992332458496,
+      "learning_rate": 3.1310388013953897e-06,
+      "loss": 0.4627,
+      "step": 1050
+    },
+    {
+      "epoch": 1.3337006138832048,
+      "grad_norm": 0.6538123488426208,
+      "learning_rate": 3.029685112986417e-06,
+      "loss": 0.4656,
+      "step": 1060
+    },
+    {
+      "epoch": 1.3462930898787975,
+      "grad_norm": 0.6971728205680847,
+      "learning_rate": 2.9292810201332995e-06,
+      "loss": 0.4591,
+      "step": 1070
+    },
+    {
+      "epoch": 1.3588855658743901,
+      "grad_norm": 0.7958908081054688,
+      "learning_rate": 2.8298749127055914e-06,
+      "loss": 0.4646,
+      "step": 1080
+    },
+    {
+      "epoch": 1.3714780418699828,
+      "grad_norm": 0.6317901015281677,
+      "learning_rate": 2.7315146995926085e-06,
+      "loss": 0.452,
+      "step": 1090
+    },
+    {
+      "epoch": 1.3840705178655752,
+      "grad_norm": 0.6657803654670715,
+      "learning_rate": 2.6342477856136806e-06,
+      "loss": 0.4587,
+      "step": 1100
+    },
+    {
+      "epoch": 1.3966629938611679,
+      "grad_norm": 0.6851221323013306,
+      "learning_rate": 2.53812104867135e-06,
+      "loss": 0.4623,
+      "step": 1110
+    },
+    {
+      "epoch": 1.4092554698567605,
+      "grad_norm": 0.6648300290107727,
+      "learning_rate": 2.443180817158502e-06,
+      "loss": 0.463,
+      "step": 1120
+    },
+    {
+      "epoch": 1.4218479458523532,
+      "grad_norm": 0.6653546690940857,
+      "learning_rate": 2.3494728476303547e-06,
+      "loss": 0.4582,
+      "step": 1130
+    },
+    {
+      "epoch": 1.4344404218479458,
+      "grad_norm": 0.6322280168533325,
+      "learning_rate": 2.2570423027520175e-06,
+      "loss": 0.4583,
+      "step": 1140
+    },
+    {
+      "epoch": 1.4470328978435385,
+      "grad_norm": 0.6664165258407593,
+      "learning_rate": 2.1659337295323117e-06,
+      "loss": 0.4675,
+      "step": 1150
+    },
+    {
+      "epoch": 1.4596253738391312,
+      "grad_norm": 0.6616364121437073,
+      "learning_rate": 2.076191037854267e-06,
+      "loss": 0.4573,
+      "step": 1160
+    },
+    {
+      "epoch": 1.4722178498347238,
+      "grad_norm": 0.6122522950172424,
+      "learning_rate": 1.987857479312721e-06,
+      "loss": 0.4647,
+      "step": 1170
+    },
+    {
+      "epoch": 1.4848103258303165,
+      "grad_norm": 0.7026521563529968,
+      "learning_rate": 1.9009756263691475e-06,
+      "loss": 0.4633,
+      "step": 1180
+    },
+    {
+      "epoch": 1.497402801825909,
+      "grad_norm": 0.7002488374710083,
+      "learning_rate": 1.815587351833818e-06,
+      "loss": 0.4591,
+      "step": 1190
+    },
+    {
+      "epoch": 1.5099952778215018,
+      "grad_norm": 0.6730997562408447,
+      "learning_rate": 1.7317338086851526e-06,
+      "loss": 0.459,
+      "step": 1200
+    },
+    {
+      "epoch": 1.5225877538170942,
+      "grad_norm": 0.6867558360099792,
+      "learning_rate": 1.649455410235985e-06,
+      "loss": 0.4538,
+      "step": 1210
+    },
+    {
+      "epoch": 1.5351802298126869,
+      "grad_norm": 0.646712064743042,
+      "learning_rate": 1.5687918106563326e-06,
+      "loss": 0.4592,
+      "step": 1220
+    },
+    {
+      "epoch": 1.5477727058082795,
+      "grad_norm": 0.7295082807540894,
+      "learning_rate": 1.4897818858620095e-06,
+      "loss": 0.4549,
+      "step": 1230
+    },
+    {
+      "epoch": 1.5603651818038722,
+      "grad_norm": 0.6636416912078857,
+      "learning_rate": 1.4124637147783431e-06,
+      "loss": 0.4516,
+      "step": 1240
+    },
+    {
+      "epoch": 1.5729576577994648,
+      "grad_norm": 0.7151824831962585,
+      "learning_rate": 1.3368745609879908e-06,
+      "loss": 0.4601,
+      "step": 1250
+    },
+    {
+      "epoch": 1.5855501337950575,
+      "grad_norm": 0.626083493232727,
+      "learning_rate": 1.263050854771705e-06,
+      "loss": 0.4545,
+      "step": 1260
+    },
+    {
+      "epoch": 1.5981426097906501,
+      "grad_norm": 0.638517439365387,
+      "learning_rate": 1.191028175550727e-06,
+      "loss": 0.4455,
+      "step": 1270
+    },
+    {
+      "epoch": 1.6107350857862426,
+      "grad_norm": 0.6936119198799133,
+      "learning_rate": 1.1208412347392338e-06,
+      "loss": 0.4445,
+      "step": 1280
+    },
+    {
+      "epoch": 1.6233275617818355,
+      "grad_norm": 0.6687029004096985,
+      "learning_rate": 1.0525238590151442e-06,
+      "loss": 0.4496,
+      "step": 1290
+    },
+    {
+      "epoch": 1.635920037777428,
+      "grad_norm": 0.6389179229736328,
+      "learning_rate": 9.86108974017298e-07,
+      "loss": 0.4546,
+      "step": 1300
+    },
+    {
+      "epoch": 1.6485125137730208,
+      "grad_norm": 0.615524172782898,
+      "learning_rate": 9.216285884769172e-07,
+      "loss": 0.4583,
+      "step": 1310
+    },
+    {
+      "epoch": 1.6611049897686132,
+      "grad_norm": 0.6831961274147034,
+      "learning_rate": 8.591137787909503e-07,
+      "loss": 0.4555,
+      "step": 1320
+    },
+    {
+      "epoch": 1.6736974657642059,
+      "grad_norm": 0.6675463914871216,
+      "learning_rate": 7.985946740447792e-07,
+      "loss": 0.4497,
+      "step": 1330
+    },
+    {
+      "epoch": 1.6862899417597985,
+      "grad_norm": 0.6614457368850708,
+      "learning_rate": 7.401004414914586e-07,
+      "loss": 0.463,
+      "step": 1340
+    },
+    {
+      "epoch": 1.6988824177553912,
+      "grad_norm": 0.6566441059112549,
+      "learning_rate": 6.836592724945323e-07,
+      "loss": 0.4561,
+      "step": 1350
+    },
+    {
+      "epoch": 1.7114748937509838,
+      "grad_norm": 0.6838300228118896,
+      "learning_rate": 6.292983689411725e-07,
+      "loss": 0.4624,
+      "step": 1360
+    },
+    {
+      "epoch": 1.7240673697465763,
+      "grad_norm": 0.7261980772018433,
+      "learning_rate": 5.770439301321929e-07,
+      "loss": 0.4467,
+      "step": 1370
+    },
+    {
+      "epoch": 1.7366598457421691,
+      "grad_norm": 0.6649404168128967,
+      "learning_rate": 5.269211401552721e-07,
+      "loss": 0.451,
+      "step": 1380
+    },
+    {
+      "epoch": 1.7492523217377616,
+      "grad_norm": 0.6621150374412537,
+      "learning_rate": 4.78954155747448e-07,
+      "loss": 0.4639,
+      "step": 1390
+    },
+    {
+      "epoch": 1.7618447977333545,
+      "grad_norm": 0.71415114402771,
+      "learning_rate": 4.3316609465275437e-07,
+      "loss": 0.4518,
+      "step": 1400
+    },
+    {
+      "epoch": 1.7744372737289469,
+      "grad_norm": 0.6590133309364319,
+      "learning_rate": 3.895790244805936e-07,
+      "loss": 0.4603,
+      "step": 1410
+    },
+    {
+      "epoch": 1.7870297497245395,
+      "grad_norm": 0.673554003238678,
+      "learning_rate": 3.4821395207022767e-07,
+      "loss": 0.4512,
+      "step": 1420
+    },
+    {
+      "epoch": 1.7996222257201322,
+      "grad_norm": 0.6459655165672302,
+      "learning_rate": 3.0909081336650883e-07,
+      "loss": 0.4597,
+      "step": 1430
+    },
+    {
+      "epoch": 1.8122147017157249,
+      "grad_norm": 0.5669092535972595,
+      "learning_rate": 2.7222846381172616e-07,
+      "loss": 0.467,
+      "step": 1440
+    },
+    {
+      "epoch": 1.8248071777113175,
+      "grad_norm": 0.6353556513786316,
+      "learning_rate": 2.3764466925820518e-07,
+      "loss": 0.4617,
+      "step": 1450
+    },
+    {
+      "epoch": 1.8373996537069102,
+      "grad_norm": 0.780803382396698,
+      "learning_rate": 2.0535609740603092e-07,
+      "loss": 0.4586,
+      "step": 1460
+    },
+    {
+      "epoch": 1.8499921297025028,
+      "grad_norm": 0.6868489980697632,
+      "learning_rate": 1.7537830977003456e-07,
+      "loss": 0.4504,
+      "step": 1470
+    },
+    {
+      "epoch": 1.8625846056980953,
+      "grad_norm": 0.7090204358100891,
+      "learning_rate": 1.477257541799032e-07,
+      "loss": 0.4534,
+      "step": 1480
+    },
+    {
+      "epoch": 1.8751770816936881,
+      "grad_norm": 0.6413393616676331,
+      "learning_rate": 1.2241175781702587e-07,
+      "loss": 0.4553,
+      "step": 1490
+    },
+    {
+      "epoch": 1.8877695576892806,
+      "grad_norm": 0.6809853911399841,
+      "learning_rate": 9.944852079144862e-08,
+      "loss": 0.4572,
+      "step": 1500
+    },
+    {
+      "epoch": 1.9003620336848734,
+      "grad_norm": 0.6310750842094421,
+      "learning_rate": 7.884711026201586e-08,
+      "loss": 0.4589,
+      "step": 1510
+    },
+    {
+      "epoch": 1.9129545096804659,
+      "grad_norm": 0.6572443842887878,
+      "learning_rate": 6.061745510254069e-08,
+      "loss": 0.4547,
+      "step": 1520
+    },
+    {
+      "epoch": 1.9255469856760585,
+      "grad_norm": 0.6803452372550964,
+      "learning_rate": 4.476834111656891e-08,
+      "loss": 0.4533,
+      "step": 1530
+    },
+    {
+      "epoch": 1.9381394616716512,
+      "grad_norm": 0.7150864005088806,
+      "learning_rate": 3.130740680305666e-08,
+      "loss": 0.4503,
+      "step": 1540
+    },
+    {
+      "epoch": 1.9507319376672438,
+      "grad_norm": 0.6401649117469788,
+      "learning_rate": 2.0241139674982424e-08,
+      "loss": 0.4447,
+      "step": 1550
+    },
+    {
+      "epoch": 1.9633244136628365,
+      "grad_norm": 0.635547935962677,
+      "learning_rate": 1.1574873132684239e-08,
+      "loss": 0.4649,
+      "step": 1560
+    },
+    {
+      "epoch": 1.975916889658429,
+      "grad_norm": 0.6223708391189575,
+      "learning_rate": 5.31278389342138e-09,
+      "loss": 0.4572,
+      "step": 1570
+    },
+    {
+      "epoch": 1.9885093656540218,
+      "grad_norm": 0.6320503950119019,
+      "learning_rate": 1.4578899784001288e-09,
+      "loss": 0.4551,
+      "step": 1580
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.6981777548789978,
+      "learning_rate": 1.2049258235058425e-11,
+      "loss": 0.4489,
+      "step": 1590
+    },
+    {
+      "epoch": 2.0,
+      "step": 1590,
+      "total_flos": 207829311291392.0,
+      "train_loss": 0.4968748902374843,
+      "train_runtime": 50004.2557,
+      "train_samples_per_second": 1.016,
+      "train_steps_per_second": 0.032
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1590,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 207829311291392.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a767ca601b21e241f288dac49cc117bb52125a081887f482139f0773312d1ba8
+size 7736

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff