hf-reset commited on Nov 21, 2025

Commit

4534ab6

0 Parent(s):

Reset repository without checkpoints directories

Files changed (23) hide show

.gitattributes +36 -0
README.md +61 -0
added_tokens.json +28 -0
all_results.json +16 -0
chat_template.jinja +89 -0
config.json +68 -0
generation_config.json +13 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +407 -0
run_summary.json +12 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +240 -0
train_results.json +16 -0
trainer_log.jsonl +158 -0
trainer_state.json +1774 -0
training_args.bin +3 -0
training_loss.png +0 -0
vocab.json +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,36 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: Qwen/Qwen3-8B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: bash_textbook_tasks_traces
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# bash_textbook_tasks_traces
+This model is a fine-tuned version of [Qwen/Qwen3-8B](https://huggingface.co/Qwen/Qwen3-8B) on the DCAgent/bash_textbook_tasks_traces dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 4e-05
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 16
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 128
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 5.0
+### Training results
+### Framework versions
+- Transformers 4.55.0
+- Pytorch 2.7.0+cu128
+- Datasets 3.6.0
+- Tokenizers 0.21.1

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "achieved_tflops_per_gpu": 4.616871406366803,
+    "achieved_tflops_per_gpu_theoretical": 162.61941901551205,
+    "epoch": 5.0,
+    "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.38632673025131226,
+    "mfu_percent": 0.3262806647609048,
+    "mfu_percent_theoretical": 11.49253844632594,
+    "total_flos": 1.2145665807220736e+18,
+    "train_loss": 0.4196553195358082,
+    "train_runtime": 16441.9592,
+    "train_samples_per_second": 3.04,
+    "train_steps_per_second": 0.048,
+    "valid_targets_mean": 3155.6,
+    "valid_targets_min": 917
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.55.0",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.55.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4fea3ad425a210b5094698622562a4c7feafa0c4dc5489ec439ed42bbde0474
+size 4902257696

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bafb37eab9eaddeea26a7942bf2e453482e768c35161b3c4a6c000c105436fa
+size 4915960368

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:05815b7612aa39277cdcabbe7d730cbe71b57da6ac0e18d0c7ed36f9347734bf
+size 4983068496

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7fc0c641e4df1327ecd8f0dee796830bdcd3c22f3b29e25c83c8800d2c5cc7e
+size 1580230264

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,407 @@

+{
+  "metadata": {
+    "total_parameters": 308224,
+    "total_size": 16381470720
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

run_summary.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "agent_name": null,
+  "training_start": null,
+  "training_end": null,
+  "created_by": "DCAgent",
+  "base_model_name": "Qwen/Qwen3-8B",
+  "dataset_name": "DCAgent/bash_textbook_tasks_traces",
+  "training_type": "SFT",
+  "training_parameters": "https://huggingface.co/DCAgent/bash_textbook_tasks_traces/blob/main/config.json",
+  "wandb_link": "https://wandb.ai/dogml/dc-agent/runs/bash_textbook_tasks_traces",
+  "traces_location_s3": null
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb13307a71acd8fe81861d94ad54ab689df773318809eed3cbe794b4492dae4
+size 11422654

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,240 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "achieved_tflops_per_gpu": 4.616871406366803,
+    "achieved_tflops_per_gpu_theoretical": 162.61941901551205,
+    "epoch": 5.0,
+    "loss_nan_ranks": 0,
+    "loss_rank_avg": 0.38632673025131226,
+    "mfu_percent": 0.3262806647609048,
+    "mfu_percent_theoretical": 11.49253844632594,
+    "total_flos": 1.2145665807220736e+18,
+    "train_loss": 0.4196553195358082,
+    "train_runtime": 16441.9592,
+    "train_samples_per_second": 3.04,
+    "train_steps_per_second": 0.048,
+    "valid_targets_mean": 3155.6,
+    "valid_targets_min": 917
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,158 @@

+{"current_steps": 5, "total_steps": 785, "loss": 0.7455, "lr": 2.0253164556962026e-06, "epoch": 0.032, "percentage": 0.64, "elapsed_time": "0:02:00", "remaining_time": "5:12:59"}
+{"current_steps": 10, "total_steps": 785, "loss": 0.7168, "lr": 4.556962025316456e-06, "epoch": 0.064, "percentage": 1.27, "elapsed_time": "0:03:53", "remaining_time": "5:01:41"}
+{"current_steps": 15, "total_steps": 785, "loss": 0.662, "lr": 7.08860759493671e-06, "epoch": 0.096, "percentage": 1.91, "elapsed_time": "0:05:44", "remaining_time": "4:54:41"}
+{"current_steps": 20, "total_steps": 785, "loss": 0.6259, "lr": 9.620253164556963e-06, "epoch": 0.128, "percentage": 2.55, "elapsed_time": "0:07:24", "remaining_time": "4:43:37"}
+{"current_steps": 25, "total_steps": 785, "loss": 0.6034, "lr": 1.2151898734177216e-05, "epoch": 0.16, "percentage": 3.18, "elapsed_time": "0:09:13", "remaining_time": "4:40:29"}
+{"current_steps": 30, "total_steps": 785, "loss": 0.5807, "lr": 1.468354430379747e-05, "epoch": 0.192, "percentage": 3.82, "elapsed_time": "0:11:00", "remaining_time": "4:36:54"}
+{"current_steps": 35, "total_steps": 785, "loss": 0.5433, "lr": 1.7215189873417723e-05, "epoch": 0.224, "percentage": 4.46, "elapsed_time": "0:12:47", "remaining_time": "4:34:08"}
+{"current_steps": 40, "total_steps": 785, "loss": 0.5255, "lr": 1.974683544303798e-05, "epoch": 0.256, "percentage": 5.1, "elapsed_time": "0:14:44", "remaining_time": "4:34:39"}
+{"current_steps": 45, "total_steps": 785, "loss": 0.5254, "lr": 2.2278481012658228e-05, "epoch": 0.288, "percentage": 5.73, "elapsed_time": "0:16:34", "remaining_time": "4:32:37"}
+{"current_steps": 50, "total_steps": 785, "loss": 0.504, "lr": 2.481012658227848e-05, "epoch": 0.32, "percentage": 6.37, "elapsed_time": "0:18:23", "remaining_time": "4:30:21"}
+{"current_steps": 55, "total_steps": 785, "loss": 0.5226, "lr": 2.7341772151898737e-05, "epoch": 0.352, "percentage": 7.01, "elapsed_time": "0:20:14", "remaining_time": "4:28:35"}
+{"current_steps": 60, "total_steps": 785, "loss": 0.4865, "lr": 2.987341772151899e-05, "epoch": 0.384, "percentage": 7.64, "elapsed_time": "0:22:07", "remaining_time": "4:27:16"}
+{"current_steps": 65, "total_steps": 785, "loss": 0.484, "lr": 3.240506329113924e-05, "epoch": 0.416, "percentage": 8.28, "elapsed_time": "0:23:49", "remaining_time": "4:23:50"}
+{"current_steps": 70, "total_steps": 785, "loss": 0.4681, "lr": 3.49367088607595e-05, "epoch": 0.448, "percentage": 8.92, "elapsed_time": "0:25:40", "remaining_time": "4:22:11"}
+{"current_steps": 75, "total_steps": 785, "loss": 0.474, "lr": 3.746835443037975e-05, "epoch": 0.48, "percentage": 9.55, "elapsed_time": "0:27:24", "remaining_time": "4:19:31"}
+{"current_steps": 80, "total_steps": 785, "loss": 0.4638, "lr": 4e-05, "epoch": 0.512, "percentage": 10.19, "elapsed_time": "0:29:06", "remaining_time": "4:16:30"}
+{"current_steps": 85, "total_steps": 785, "loss": 0.4739, "lr": 3.999504991751045e-05, "epoch": 0.544, "percentage": 10.83, "elapsed_time": "0:30:44", "remaining_time": "4:13:10"}
+{"current_steps": 90, "total_steps": 785, "loss": 0.449, "lr": 3.9980202120373464e-05, "epoch": 0.576, "percentage": 11.46, "elapsed_time": "0:32:31", "remaining_time": "4:11:08"}
+{"current_steps": 95, "total_steps": 785, "loss": 0.4557, "lr": 3.995546395837111e-05, "epoch": 0.608, "percentage": 12.1, "elapsed_time": "0:34:14", "remaining_time": "4:08:44"}
+{"current_steps": 100, "total_steps": 785, "loss": 0.4534, "lr": 3.992084767709763e-05, "epoch": 0.64, "percentage": 12.74, "elapsed_time": "0:35:59", "remaining_time": "4:06:30"}
+{"current_steps": 105, "total_steps": 785, "loss": 0.4602, "lr": 3.987637041189781e-05, "epoch": 0.672, "percentage": 13.38, "elapsed_time": "0:37:42", "remaining_time": "4:04:11"}
+{"current_steps": 110, "total_steps": 785, "loss": 0.4583, "lr": 3.982205417938482e-05, "epoch": 0.704, "percentage": 14.01, "elapsed_time": "0:39:32", "remaining_time": "4:02:39"}
+{"current_steps": 115, "total_steps": 785, "loss": 0.4453, "lr": 3.975792586654179e-05, "epoch": 0.736, "percentage": 14.65, "elapsed_time": "0:41:15", "remaining_time": "4:00:21"}
+{"current_steps": 120, "total_steps": 785, "loss": 0.4403, "lr": 3.968401721741259e-05, "epoch": 0.768, "percentage": 15.29, "elapsed_time": "0:43:00", "remaining_time": "3:58:22"}
+{"current_steps": 125, "total_steps": 785, "loss": 0.4448, "lr": 3.960036481738819e-05, "epoch": 0.8, "percentage": 15.92, "elapsed_time": "0:44:41", "remaining_time": "3:56:00"}
+{"current_steps": 130, "total_steps": 785, "loss": 0.4289, "lr": 3.950701007509667e-05, "epoch": 0.832, "percentage": 16.56, "elapsed_time": "0:46:33", "remaining_time": "3:54:34"}
+{"current_steps": 135, "total_steps": 785, "loss": 0.4476, "lr": 3.940399920190552e-05, "epoch": 0.864, "percentage": 17.2, "elapsed_time": "0:48:17", "remaining_time": "3:52:29"}
+{"current_steps": 140, "total_steps": 785, "loss": 0.4455, "lr": 3.92913831890467e-05, "epoch": 0.896, "percentage": 17.83, "elapsed_time": "0:50:08", "remaining_time": "3:51:01"}
+{"current_steps": 145, "total_steps": 785, "loss": 0.445, "lr": 3.916921778237556e-05, "epoch": 0.928, "percentage": 18.47, "elapsed_time": "0:51:54", "remaining_time": "3:49:04"}
+{"current_steps": 150, "total_steps": 785, "loss": 0.4523, "lr": 3.903756345477612e-05, "epoch": 0.96, "percentage": 19.11, "elapsed_time": "0:53:32", "remaining_time": "3:46:39"}
+{"current_steps": 155, "total_steps": 785, "loss": 0.4414, "lr": 3.889648537622657e-05, "epoch": 0.992, "percentage": 19.75, "elapsed_time": "0:55:19", "remaining_time": "3:44:53"}
+{"current_steps": 160, "total_steps": 785, "loss": 0.4448, "lr": 3.874605338153952e-05, "epoch": 1.0192, "percentage": 20.38, "elapsed_time": "0:57:00", "remaining_time": "3:42:42"}
+{"current_steps": 165, "total_steps": 785, "loss": 0.439, "lr": 3.8586341935793265e-05, "epoch": 1.0512, "percentage": 21.02, "elapsed_time": "0:58:44", "remaining_time": "3:40:44"}
+{"current_steps": 170, "total_steps": 785, "loss": 0.4328, "lr": 3.841743009747089e-05, "epoch": 1.0832, "percentage": 21.66, "elapsed_time": "1:00:28", "remaining_time": "3:38:48"}
+{"current_steps": 175, "total_steps": 785, "loss": 0.4357, "lr": 3.8239401479325714e-05, "epoch": 1.1152, "percentage": 22.29, "elapsed_time": "1:02:08", "remaining_time": "3:36:36"}
+{"current_steps": 180, "total_steps": 785, "loss": 0.4112, "lr": 3.8052344206992276e-05, "epoch": 1.1472, "percentage": 22.93, "elapsed_time": "1:03:59", "remaining_time": "3:35:05"}
+{"current_steps": 185, "total_steps": 785, "loss": 0.4311, "lr": 3.7856350875363396e-05, "epoch": 1.1792, "percentage": 23.57, "elapsed_time": "1:05:40", "remaining_time": "3:33:01"}
+{"current_steps": 190, "total_steps": 785, "loss": 0.4192, "lr": 3.765151850275497e-05, "epoch": 1.2112, "percentage": 24.2, "elapsed_time": "1:07:26", "remaining_time": "3:31:12"}
+{"current_steps": 195, "total_steps": 785, "loss": 0.4117, "lr": 3.7437948482881104e-05, "epoch": 1.2432, "percentage": 24.84, "elapsed_time": "1:09:18", "remaining_time": "3:29:41"}
+{"current_steps": 200, "total_steps": 785, "loss": 0.4177, "lr": 3.721574653466336e-05, "epoch": 1.2752, "percentage": 25.48, "elapsed_time": "1:11:04", "remaining_time": "3:27:53"}
+{"current_steps": 205, "total_steps": 785, "loss": 0.4233, "lr": 3.698502264989903e-05, "epoch": 1.3072, "percentage": 26.11, "elapsed_time": "1:12:47", "remaining_time": "3:25:56"}
+{"current_steps": 210, "total_steps": 785, "loss": 0.4194, "lr": 3.674589103881432e-05, "epoch": 1.3392, "percentage": 26.75, "elapsed_time": "1:14:41", "remaining_time": "3:24:30"}
+{"current_steps": 215, "total_steps": 785, "loss": 0.4182, "lr": 3.64984700735293e-05, "epoch": 1.3712, "percentage": 27.39, "elapsed_time": "1:16:33", "remaining_time": "3:22:59"}
+{"current_steps": 220, "total_steps": 785, "loss": 0.4275, "lr": 3.624288222946273e-05, "epoch": 1.4032, "percentage": 28.03, "elapsed_time": "1:18:20", "remaining_time": "3:21:11"}
+{"current_steps": 225, "total_steps": 785, "loss": 0.4232, "lr": 3.597925402470578e-05, "epoch": 1.4352, "percentage": 28.66, "elapsed_time": "1:20:08", "remaining_time": "3:19:26"}
+{"current_steps": 230, "total_steps": 785, "loss": 0.4253, "lr": 3.570771595739445e-05, "epoch": 1.4672, "percentage": 29.3, "elapsed_time": "1:21:58", "remaining_time": "3:17:47"}
+{"current_steps": 235, "total_steps": 785, "loss": 0.4105, "lr": 3.5428402441111964e-05, "epoch": 1.4992, "percentage": 29.94, "elapsed_time": "1:23:49", "remaining_time": "3:16:11"}
+{"current_steps": 240, "total_steps": 785, "loss": 0.4085, "lr": 3.5141451738352936e-05, "epoch": 1.5312000000000001, "percentage": 30.57, "elapsed_time": "1:25:38", "remaining_time": "3:14:28"}
+{"current_steps": 245, "total_steps": 785, "loss": 0.4129, "lr": 3.4847005892082266e-05, "epoch": 1.5632000000000001, "percentage": 31.21, "elapsed_time": "1:27:24", "remaining_time": "3:12:40"}
+{"current_steps": 250, "total_steps": 785, "loss": 0.4116, "lr": 3.454521065542273e-05, "epoch": 1.5952, "percentage": 31.85, "elapsed_time": "1:29:19", "remaining_time": "3:11:09"}
+{"current_steps": 255, "total_steps": 785, "loss": 0.4294, "lr": 3.423621541950597e-05, "epoch": 1.6272, "percentage": 32.48, "elapsed_time": "1:30:53", "remaining_time": "3:08:55"}
+{"current_steps": 260, "total_steps": 785, "loss": 0.4269, "lr": 3.3920173139522664e-05, "epoch": 1.6592, "percentage": 33.12, "elapsed_time": "1:32:33", "remaining_time": "3:06:53"}
+{"current_steps": 265, "total_steps": 785, "loss": 0.4164, "lr": 3.35972402590084e-05, "epoch": 1.6912, "percentage": 33.76, "elapsed_time": "1:34:20", "remaining_time": "3:05:07"}
+{"current_steps": 270, "total_steps": 785, "loss": 0.412, "lr": 3.326757663240291e-05, "epoch": 1.7231999999999998, "percentage": 34.39, "elapsed_time": "1:36:03", "remaining_time": "3:03:13"}
+{"current_steps": 275, "total_steps": 785, "loss": 0.4199, "lr": 3.293134544592073e-05, "epoch": 1.7551999999999999, "percentage": 35.03, "elapsed_time": "1:37:44", "remaining_time": "3:01:15"}
+{"current_steps": 280, "total_steps": 785, "loss": 0.4151, "lr": 3.258871313677274e-05, "epoch": 1.7872, "percentage": 35.67, "elapsed_time": "1:39:28", "remaining_time": "2:59:25"}
+{"current_steps": 285, "total_steps": 785, "loss": 0.4165, "lr": 3.2239849310778316e-05, "epoch": 1.8192, "percentage": 36.31, "elapsed_time": "1:41:13", "remaining_time": "2:57:35"}
+{"current_steps": 290, "total_steps": 785, "loss": 0.4019, "lr": 3.188492665840909e-05, "epoch": 1.8512, "percentage": 36.94, "elapsed_time": "1:42:59", "remaining_time": "2:55:48"}
+{"current_steps": 295, "total_steps": 785, "loss": 0.4125, "lr": 3.1524120869305726e-05, "epoch": 1.8832, "percentage": 37.58, "elapsed_time": "1:44:52", "remaining_time": "2:54:11"}
+{"current_steps": 300, "total_steps": 785, "loss": 0.4035, "lr": 3.11576105453101e-05, "epoch": 1.9152, "percentage": 38.22, "elapsed_time": "1:46:36", "remaining_time": "2:52:20"}
+{"current_steps": 305, "total_steps": 785, "loss": 0.4243, "lr": 3.0785577112055916e-05, "epoch": 1.9472, "percentage": 38.85, "elapsed_time": "1:48:22", "remaining_time": "2:50:32"}
+{"current_steps": 310, "total_steps": 785, "loss": 0.4156, "lr": 3.040820472916153e-05, "epoch": 1.9792, "percentage": 39.49, "elapsed_time": "1:50:00", "remaining_time": "2:48:32"}
+{"current_steps": 315, "total_steps": 785, "loss": 0.4175, "lr": 3.002568019906939e-05, "epoch": 2.0064, "percentage": 40.13, "elapsed_time": "1:51:36", "remaining_time": "2:46:31"}
+{"current_steps": 320, "total_steps": 785, "loss": 0.408, "lr": 2.963819287457733e-05, "epoch": 2.0384, "percentage": 40.76, "elapsed_time": "1:53:25", "remaining_time": "2:44:49"}
+{"current_steps": 325, "total_steps": 785, "loss": 0.4075, "lr": 2.924593456510733e-05, "epoch": 2.0704, "percentage": 41.4, "elapsed_time": "1:55:10", "remaining_time": "2:43:00"}
+{"current_steps": 330, "total_steps": 785, "loss": 0.4052, "lr": 2.8849099441758306e-05, "epoch": 2.1024, "percentage": 42.04, "elapsed_time": "1:56:54", "remaining_time": "2:41:11"}
+{"current_steps": 335, "total_steps": 785, "loss": 0.3929, "lr": 2.844788394118979e-05, "epoch": 2.1344, "percentage": 42.68, "elapsed_time": "1:58:46", "remaining_time": "2:39:33"}
+{"current_steps": 340, "total_steps": 785, "loss": 0.4008, "lr": 2.8042486668384164e-05, "epoch": 2.1664, "percentage": 43.31, "elapsed_time": "2:00:28", "remaining_time": "2:37:40"}
+{"current_steps": 345, "total_steps": 785, "loss": 0.4025, "lr": 2.7633108298335582e-05, "epoch": 2.1984, "percentage": 43.95, "elapsed_time": "2:02:07", "remaining_time": "2:35:45"}
+{"current_steps": 350, "total_steps": 785, "loss": 0.3976, "lr": 2.721995147671416e-05, "epoch": 2.2304, "percentage": 44.59, "elapsed_time": "2:03:51", "remaining_time": "2:33:56"}
+{"current_steps": 355, "total_steps": 785, "loss": 0.3962, "lr": 2.68032207195547e-05, "epoch": 2.2624, "percentage": 45.22, "elapsed_time": "2:05:39", "remaining_time": "2:32:12"}
+{"current_steps": 360, "total_steps": 785, "loss": 0.398, "lr": 2.6383122312019604e-05, "epoch": 2.2944, "percentage": 45.86, "elapsed_time": "2:07:29", "remaining_time": "2:30:30"}
+{"current_steps": 365, "total_steps": 785, "loss": 0.4117, "lr": 2.595986420628597e-05, "epoch": 2.3264, "percentage": 46.5, "elapsed_time": "2:09:23", "remaining_time": "2:28:53"}
+{"current_steps": 370, "total_steps": 785, "loss": 0.403, "lr": 2.5533655918607573e-05, "epoch": 2.3584, "percentage": 47.13, "elapsed_time": "2:10:58", "remaining_time": "2:26:54"}
+{"current_steps": 375, "total_steps": 785, "loss": 0.3973, "lr": 2.510470842560259e-05, "epoch": 2.3904, "percentage": 47.77, "elapsed_time": "2:12:51", "remaining_time": "2:25:15"}
+{"current_steps": 380, "total_steps": 785, "loss": 0.4017, "lr": 2.467323405981841e-05, "epoch": 2.4224, "percentage": 48.41, "elapsed_time": "2:14:29", "remaining_time": "2:23:20"}
+{"current_steps": 385, "total_steps": 785, "loss": 0.4033, "lr": 2.423944640462533e-05, "epoch": 2.4544, "percentage": 49.04, "elapsed_time": "2:16:09", "remaining_time": "2:21:28"}
+{"current_steps": 390, "total_steps": 785, "loss": 0.3995, "lr": 2.3803560188490968e-05, "epoch": 2.4864, "percentage": 49.68, "elapsed_time": "2:17:51", "remaining_time": "2:19:37"}
+{"current_steps": 395, "total_steps": 785, "loss": 0.4008, "lr": 2.336579117868789e-05, "epoch": 2.5183999999999997, "percentage": 50.32, "elapsed_time": "2:19:44", "remaining_time": "2:17:58"}
+{"current_steps": 400, "total_steps": 785, "loss": 0.4065, "lr": 2.292635607448711e-05, "epoch": 2.5504, "percentage": 50.96, "elapsed_time": "2:21:23", "remaining_time": "2:16:05"}
+{"current_steps": 405, "total_steps": 785, "loss": 0.409, "lr": 2.248547239989008e-05, "epoch": 2.5824, "percentage": 51.59, "elapsed_time": "2:23:07", "remaining_time": "2:14:17"}
+{"current_steps": 410, "total_steps": 785, "loss": 0.3978, "lr": 2.204335839595255e-05, "epoch": 2.6144, "percentage": 52.23, "elapsed_time": "2:24:45", "remaining_time": "2:12:24"}
+{"current_steps": 415, "total_steps": 785, "loss": 0.4034, "lr": 2.1600232912753452e-05, "epoch": 2.6464, "percentage": 52.87, "elapsed_time": "2:26:23", "remaining_time": "2:10:31"}
+{"current_steps": 420, "total_steps": 785, "loss": 0.4014, "lr": 2.1156315301062293e-05, "epoch": 2.6784, "percentage": 53.5, "elapsed_time": "2:28:11", "remaining_time": "2:08:46"}
+{"current_steps": 425, "total_steps": 785, "loss": 0.4103, "lr": 2.0711825303758712e-05, "epoch": 2.7104, "percentage": 54.14, "elapsed_time": "2:29:49", "remaining_time": "2:06:54"}
+{"current_steps": 430, "total_steps": 785, "loss": 0.4139, "lr": 2.0266982947057962e-05, "epoch": 2.7424, "percentage": 54.78, "elapsed_time": "2:31:29", "remaining_time": "2:05:03"}
+{"current_steps": 435, "total_steps": 785, "loss": 0.3831, "lr": 1.9822008431596083e-05, "epoch": 2.7744, "percentage": 55.41, "elapsed_time": "2:33:12", "remaining_time": "2:03:16"}
+{"current_steps": 440, "total_steps": 785, "loss": 0.3972, "lr": 1.937712202342881e-05, "epoch": 2.8064, "percentage": 56.05, "elapsed_time": "2:34:57", "remaining_time": "2:01:30"}
+{"current_steps": 445, "total_steps": 785, "loss": 0.387, "lr": 1.8932543944998037e-05, "epoch": 2.8384, "percentage": 56.69, "elapsed_time": "2:36:35", "remaining_time": "1:59:38"}
+{"current_steps": 450, "total_steps": 785, "loss": 0.3901, "lr": 1.8488494266119877e-05, "epoch": 2.8704, "percentage": 57.32, "elapsed_time": "2:38:28", "remaining_time": "1:57:58"}
+{"current_steps": 455, "total_steps": 785, "loss": 0.385, "lr": 1.804519279504834e-05, "epoch": 2.9024, "percentage": 57.96, "elapsed_time": "2:40:15", "remaining_time": "1:56:13"}
+{"current_steps": 460, "total_steps": 785, "loss": 0.393, "lr": 1.7602858969668365e-05, "epoch": 2.9344, "percentage": 58.6, "elapsed_time": "2:42:01", "remaining_time": "1:54:28"}
+{"current_steps": 465, "total_steps": 785, "loss": 0.3972, "lr": 1.716171174887231e-05, "epoch": 2.9664, "percentage": 59.24, "elapsed_time": "2:43:48", "remaining_time": "1:52:43"}
+{"current_steps": 470, "total_steps": 785, "loss": 0.3914, "lr": 1.6721969504173484e-05, "epoch": 2.9984, "percentage": 59.87, "elapsed_time": "2:45:34", "remaining_time": "1:50:58"}
+{"current_steps": 475, "total_steps": 785, "loss": 0.3797, "lr": 1.628384991161041e-05, "epoch": 3.0256, "percentage": 60.51, "elapsed_time": "2:47:02", "remaining_time": "1:49:00"}
+{"current_steps": 480, "total_steps": 785, "loss": 0.3778, "lr": 1.5847569843995452e-05, "epoch": 3.0576, "percentage": 61.15, "elapsed_time": "2:48:49", "remaining_time": "1:47:16"}
+{"current_steps": 485, "total_steps": 785, "loss": 0.3819, "lr": 1.5413345263560922e-05, "epoch": 3.0896, "percentage": 61.78, "elapsed_time": "2:50:32", "remaining_time": "1:45:29"}
+{"current_steps": 490, "total_steps": 785, "loss": 0.3906, "lr": 1.4981391115056032e-05, "epoch": 3.1216, "percentage": 62.42, "elapsed_time": "2:52:13", "remaining_time": "1:43:41"}
+{"current_steps": 495, "total_steps": 785, "loss": 0.3897, "lr": 1.455192121934748e-05, "epoch": 3.1536, "percentage": 63.06, "elapsed_time": "2:53:59", "remaining_time": "1:41:56"}
+{"current_steps": 500, "total_steps": 785, "loss": 0.3974, "lr": 1.4125148167576303e-05, "epoch": 3.1856, "percentage": 63.69, "elapsed_time": "2:55:39", "remaining_time": "1:40:07"}
+{"current_steps": 505, "total_steps": 785, "loss": 0.3858, "lr": 1.3701283215923563e-05, "epoch": 3.2176, "percentage": 64.33, "elapsed_time": "2:57:21", "remaining_time": "1:38:20"}
+{"current_steps": 510, "total_steps": 785, "loss": 0.3903, "lr": 1.328053618103677e-05, "epoch": 3.2496, "percentage": 64.97, "elapsed_time": "2:58:58", "remaining_time": "1:36:30"}
+{"current_steps": 515, "total_steps": 785, "loss": 0.3861, "lr": 1.2863115336168916e-05, "epoch": 3.2816, "percentage": 65.61, "elapsed_time": "3:00:41", "remaining_time": "1:34:43"}
+{"current_steps": 520, "total_steps": 785, "loss": 0.3945, "lr": 1.2449227308081509e-05, "epoch": 3.3136, "percentage": 66.24, "elapsed_time": "3:02:36", "remaining_time": "1:33:03"}
+{"current_steps": 525, "total_steps": 785, "loss": 0.3951, "lr": 1.2039076974762587e-05, "epoch": 3.3456, "percentage": 66.88, "elapsed_time": "3:04:18", "remaining_time": "1:31:16"}
+{"current_steps": 530, "total_steps": 785, "loss": 0.3829, "lr": 1.163286736401044e-05, "epoch": 3.3776, "percentage": 67.52, "elapsed_time": "3:06:08", "remaining_time": "1:29:33"}
+{"current_steps": 535, "total_steps": 785, "loss": 0.4, "lr": 1.123079955293322e-05, "epoch": 3.4096, "percentage": 68.15, "elapsed_time": "3:07:57", "remaining_time": "1:27:49"}
+{"current_steps": 540, "total_steps": 785, "loss": 0.3952, "lr": 1.0833072568414037e-05, "epoch": 3.4416, "percentage": 68.79, "elapsed_time": "3:09:40", "remaining_time": "1:26:03"}
+{"current_steps": 545, "total_steps": 785, "loss": 0.3903, "lr": 1.0439883288591057e-05, "epoch": 3.4736000000000002, "percentage": 69.43, "elapsed_time": "3:11:27", "remaining_time": "1:24:18"}
+{"current_steps": 550, "total_steps": 785, "loss": 0.3785, "lr": 1.0051426345401202e-05, "epoch": 3.5056000000000003, "percentage": 70.06, "elapsed_time": "3:13:10", "remaining_time": "1:22:32"}
+{"current_steps": 555, "total_steps": 785, "loss": 0.3901, "lr": 9.667894028235704e-06, "epoch": 3.5376, "percentage": 70.7, "elapsed_time": "3:14:52", "remaining_time": "1:20:45"}
+{"current_steps": 560, "total_steps": 785, "loss": 0.3911, "lr": 9.289476188755315e-06, "epoch": 3.5696, "percentage": 71.34, "elapsed_time": "3:16:31", "remaining_time": "1:18:57"}
+{"current_steps": 565, "total_steps": 785, "loss": 0.3873, "lr": 8.916360146912122e-06, "epoch": 3.6016, "percentage": 71.97, "elapsed_time": "3:18:13", "remaining_time": "1:17:11"}
+{"current_steps": 570, "total_steps": 785, "loss": 0.3994, "lr": 8.548730598224646e-06, "epoch": 3.6336, "percentage": 72.61, "elapsed_time": "3:20:02", "remaining_time": "1:15:27"}
+{"current_steps": 575, "total_steps": 785, "loss": 0.388, "lr": 8.186769522352053e-06, "epoch": 3.6656, "percentage": 73.25, "elapsed_time": "3:21:50", "remaining_time": "1:13:42"}
+{"current_steps": 580, "total_steps": 785, "loss": 0.3811, "lr": 7.830656093012714e-06, "epoch": 3.6976, "percentage": 73.89, "elapsed_time": "3:23:37", "remaining_time": "1:11:58"}
+{"current_steps": 585, "total_steps": 785, "loss": 0.3869, "lr": 7.480566589291696e-06, "epoch": 3.7296, "percentage": 74.52, "elapsed_time": "3:25:20", "remaining_time": "1:10:12"}
+{"current_steps": 590, "total_steps": 785, "loss": 0.3931, "lr": 7.1366743083812285e-06, "epoch": 3.7616, "percentage": 75.16, "elapsed_time": "3:27:03", "remaining_time": "1:08:26"}
+{"current_steps": 595, "total_steps": 785, "loss": 0.3869, "lr": 6.799149479797101e-06, "epoch": 3.7936, "percentage": 75.8, "elapsed_time": "3:28:51", "remaining_time": "1:06:41"}
+{"current_steps": 600, "total_steps": 785, "loss": 0.3867, "lr": 6.4681591811137e-06, "epoch": 3.8256, "percentage": 76.43, "elapsed_time": "3:30:39", "remaining_time": "1:04:57"}
+{"current_steps": 605, "total_steps": 785, "loss": 0.3822, "lr": 6.143867255259197e-06, "epoch": 3.8576, "percentage": 77.07, "elapsed_time": "3:32:21", "remaining_time": "1:03:10"}
+{"current_steps": 610, "total_steps": 785, "loss": 0.3958, "lr": 5.8264342294119504e-06, "epoch": 3.8895999999999997, "percentage": 77.71, "elapsed_time": "3:33:57", "remaining_time": "1:01:22"}
+{"current_steps": 615, "total_steps": 785, "loss": 0.4026, "lr": 5.516017235538258e-06, "epoch": 3.9215999999999998, "percentage": 78.34, "elapsed_time": "3:35:41", "remaining_time": "0:59:37"}
+{"current_steps": 620, "total_steps": 785, "loss": 0.3881, "lr": 5.212769932610695e-06, "epoch": 3.9536, "percentage": 78.98, "elapsed_time": "3:37:27", "remaining_time": "0:57:52"}
+{"current_steps": 625, "total_steps": 785, "loss": 0.3854, "lr": 4.916842430545681e-06, "epoch": 3.9856, "percentage": 79.62, "elapsed_time": "3:39:19", "remaining_time": "0:56:08"}
+{"current_steps": 630, "total_steps": 785, "loss": 0.3935, "lr": 4.628381215897837e-06, "epoch": 4.0128, "percentage": 80.25, "elapsed_time": "3:40:34", "remaining_time": "0:54:16"}
+{"current_steps": 635, "total_steps": 785, "loss": 0.3818, "lr": 4.347529079347914e-06, "epoch": 4.0448, "percentage": 80.89, "elapsed_time": "3:42:22", "remaining_time": "0:52:31"}
+{"current_steps": 640, "total_steps": 785, "loss": 0.3879, "lr": 4.074425045020247e-06, "epoch": 4.0768, "percentage": 81.53, "elapsed_time": "3:44:09", "remaining_time": "0:50:47"}
+{"current_steps": 645, "total_steps": 785, "loss": 0.3898, "lr": 3.8092043016646487e-06, "epoch": 4.1088, "percentage": 82.17, "elapsed_time": "3:45:54", "remaining_time": "0:49:02"}
+{"current_steps": 650, "total_steps": 785, "loss": 0.3895, "lr": 3.551998135736867e-06, "epoch": 4.1408, "percentage": 82.8, "elapsed_time": "3:47:44", "remaining_time": "0:47:18"}
+{"current_steps": 655, "total_steps": 785, "loss": 0.3711, "lr": 3.3029338664107267e-06, "epoch": 4.1728, "percentage": 83.44, "elapsed_time": "3:49:29", "remaining_time": "0:45:32"}
+{"current_steps": 660, "total_steps": 785, "loss": 0.391, "lr": 3.0621347825540625e-06, "epoch": 4.2048, "percentage": 84.08, "elapsed_time": "3:51:14", "remaining_time": "0:43:47"}
+{"current_steps": 665, "total_steps": 785, "loss": 0.3869, "lr": 2.8297200816997183e-06, "epoch": 4.2368, "percentage": 84.71, "elapsed_time": "3:52:53", "remaining_time": "0:42:01"}
+{"current_steps": 670, "total_steps": 785, "loss": 0.3807, "lr": 2.605804811041803e-06, "epoch": 4.2688, "percentage": 85.35, "elapsed_time": "3:54:31", "remaining_time": "0:40:15"}
+{"current_steps": 675, "total_steps": 785, "loss": 0.3783, "lr": 2.390499810486351e-06, "epoch": 4.3008, "percentage": 85.99, "elapsed_time": "3:56:15", "remaining_time": "0:38:30"}
+{"current_steps": 680, "total_steps": 785, "loss": 0.3837, "lr": 2.183911657784685e-06, "epoch": 4.3328, "percentage": 86.62, "elapsed_time": "3:58:04", "remaining_time": "0:36:45"}
+{"current_steps": 685, "total_steps": 785, "loss": 0.3837, "lr": 1.986142615776532e-06, "epoch": 4.3648, "percentage": 87.26, "elapsed_time": "3:59:54", "remaining_time": "0:35:01"}
+{"current_steps": 690, "total_steps": 785, "loss": 0.3943, "lr": 1.7972905817690644e-06, "epoch": 4.3968, "percentage": 87.9, "elapsed_time": "4:01:32", "remaining_time": "0:33:15"}
+{"current_steps": 695, "total_steps": 785, "loss": 0.391, "lr": 1.617449039076955e-06, "epoch": 4.4288, "percentage": 88.54, "elapsed_time": "4:03:18", "remaining_time": "0:31:30"}
+{"current_steps": 700, "total_steps": 785, "loss": 0.3834, "lr": 1.4467070107473413e-06, "epoch": 4.4608, "percentage": 89.17, "elapsed_time": "4:04:54", "remaining_time": "0:29:44"}
+{"current_steps": 705, "total_steps": 785, "loss": 0.3818, "lr": 1.2851490154926816e-06, "epoch": 4.4928, "percentage": 89.81, "elapsed_time": "4:06:36", "remaining_time": "0:27:59"}
+{"current_steps": 710, "total_steps": 785, "loss": 0.3832, "lr": 1.1328550258533211e-06, "epoch": 4.5248, "percentage": 90.45, "elapsed_time": "4:08:18", "remaining_time": "0:26:13"}
+{"current_steps": 715, "total_steps": 785, "loss": 0.3928, "lr": 9.899004286103953e-07, "epoch": 4.5568, "percentage": 91.08, "elapsed_time": "4:09:55", "remaining_time": "0:24:28"}
+{"current_steps": 720, "total_steps": 785, "loss": 0.3839, "lr": 8.5635598746876e-07, "epoch": 4.5888, "percentage": 91.72, "elapsed_time": "4:11:46", "remaining_time": "0:22:43"}
+{"current_steps": 725, "total_steps": 785, "loss": 0.3751, "lr": 7.32287808028389e-07, "epoch": 4.6208, "percentage": 92.36, "elapsed_time": "4:13:29", "remaining_time": "0:20:58"}
+{"current_steps": 730, "total_steps": 785, "loss": 0.3818, "lr": 6.177573050615327e-07, "epoch": 4.6528, "percentage": 92.99, "elapsed_time": "4:15:17", "remaining_time": "0:19:14"}
+{"current_steps": 735, "total_steps": 785, "loss": 0.3846, "lr": 5.128211721119213e-07, "epoch": 4.6848, "percentage": 93.63, "elapsed_time": "4:17:09", "remaining_time": "0:17:29"}
+{"current_steps": 740, "total_steps": 785, "loss": 0.3957, "lr": 4.175313534309755e-07, "epoch": 4.7168, "percentage": 94.27, "elapsed_time": "4:18:51", "remaining_time": "0:15:44"}
+{"current_steps": 745, "total_steps": 785, "loss": 0.3858, "lr": 3.319350182649861e-07, "epoch": 4.7488, "percentage": 94.9, "elapsed_time": "4:20:41", "remaining_time": "0:13:59"}
+{"current_steps": 750, "total_steps": 785, "loss": 0.3758, "lr": 2.560745375059392e-07, "epoch": 4.7808, "percentage": 95.54, "elapsed_time": "4:22:24", "remaining_time": "0:12:14"}
+{"current_steps": 755, "total_steps": 785, "loss": 0.38, "lr": 1.8998746271758016e-07, "epoch": 4.8128, "percentage": 96.18, "elapsed_time": "4:24:08", "remaining_time": "0:10:29"}
+{"current_steps": 760, "total_steps": 785, "loss": 0.3926, "lr": 1.337065075470778e-07, "epoch": 4.8448, "percentage": 96.82, "elapsed_time": "4:25:43", "remaining_time": "0:08:44"}
+{"current_steps": 765, "total_steps": 785, "loss": 0.3866, "lr": 8.725953153150279e-08, "epoch": 4.8768, "percentage": 97.45, "elapsed_time": "4:27:22", "remaining_time": "0:06:59"}
+{"current_steps": 770, "total_steps": 785, "loss": 0.3764, "lr": 5.066952630711886e-08, "epoch": 4.9088, "percentage": 98.09, "elapsed_time": "4:29:15", "remaining_time": "0:05:14"}
+{"current_steps": 775, "total_steps": 785, "loss": 0.3897, "lr": 2.3954604228342283e-08, "epoch": 4.9408, "percentage": 98.73, "elapsed_time": "4:30:59", "remaining_time": "0:03:29"}
+{"current_steps": 780, "total_steps": 785, "loss": 0.3905, "lr": 7.12798940197601e-09, "epoch": 4.9728, "percentage": 99.36, "elapsed_time": "4:32:38", "remaining_time": "0:01:44"}
+{"current_steps": 785, "total_steps": 785, "loss": 0.3821, "lr": 1.9801114115480802e-10, "epoch": 5.0, "percentage": 100.0, "elapsed_time": "4:33:59", "remaining_time": "0:00:00"}
+{"current_steps": 785, "total_steps": 785, "epoch": 5.0, "percentage": 100.0, "elapsed_time": "4:33:59", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1774 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 785,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.032,
+      "grad_norm": 6.107608851383935,
+      "learning_rate": 2.0253164556962026e-06,
+      "loss": 0.7455,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17644742131233215,
+      "step": 5,
+      "valid_targets_mean": 4706.8,
+      "valid_targets_min": 1106
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 4.127049955682705,
+      "learning_rate": 4.556962025316456e-06,
+      "loss": 0.7168,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15632694959640503,
+      "step": 10,
+      "valid_targets_mean": 4084.8,
+      "valid_targets_min": 810
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 2.3029768018854244,
+      "learning_rate": 7.08860759493671e-06,
+      "loss": 0.662,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1367417573928833,
+      "step": 15,
+      "valid_targets_mean": 4292.0,
+      "valid_targets_min": 1183
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 0.9446288361337228,
+      "learning_rate": 9.620253164556963e-06,
+      "loss": 0.6259,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.17443199455738068,
+      "step": 20,
+      "valid_targets_mean": 4366.4,
+      "valid_targets_min": 794
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.7185214756105344,
+      "learning_rate": 1.2151898734177216e-05,
+      "loss": 0.6034,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15555769205093384,
+      "step": 25,
+      "valid_targets_mean": 4660.7,
+      "valid_targets_min": 791
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 0.5760489151085344,
+      "learning_rate": 1.468354430379747e-05,
+      "loss": 0.5807,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10560796409845352,
+      "step": 30,
+      "valid_targets_mean": 2108.0,
+      "valid_targets_min": 626
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 0.4877135466876705,
+      "learning_rate": 1.7215189873417723e-05,
+      "loss": 0.5433,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11195793747901917,
+      "step": 35,
+      "valid_targets_mean": 2955.8,
+      "valid_targets_min": 986
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 0.3624410004020328,
+      "learning_rate": 1.974683544303798e-05,
+      "loss": 0.5255,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13301032781600952,
+      "step": 40,
+      "valid_targets_mean": 4398.3,
+      "valid_targets_min": 974
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 0.3161733355122809,
+      "learning_rate": 2.2278481012658228e-05,
+      "loss": 0.5254,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09797270596027374,
+      "step": 45,
+      "valid_targets_mean": 3789.7,
+      "valid_targets_min": 971
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.3282787112321606,
+      "learning_rate": 2.481012658227848e-05,
+      "loss": 0.504,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11803701519966125,
+      "step": 50,
+      "valid_targets_mean": 3716.9,
+      "valid_targets_min": 745
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 0.3304161820612071,
+      "learning_rate": 2.7341772151898737e-05,
+      "loss": 0.5226,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1383068859577179,
+      "step": 55,
+      "valid_targets_mean": 3657.2,
+      "valid_targets_min": 742
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 0.26548459531887825,
+      "learning_rate": 2.987341772151899e-05,
+      "loss": 0.4865,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1221662163734436,
+      "step": 60,
+      "valid_targets_mean": 4677.1,
+      "valid_targets_min": 790
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 0.28910632104468453,
+      "learning_rate": 3.240506329113924e-05,
+      "loss": 0.484,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11457986384630203,
+      "step": 65,
+      "valid_targets_mean": 3794.5,
+      "valid_targets_min": 1093
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 0.28039748750342514,
+      "learning_rate": 3.49367088607595e-05,
+      "loss": 0.4681,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13367806375026703,
+      "step": 70,
+      "valid_targets_mean": 4306.7,
+      "valid_targets_min": 811
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.3515687541623445,
+      "learning_rate": 3.746835443037975e-05,
+      "loss": 0.474,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09756779670715332,
+      "step": 75,
+      "valid_targets_mean": 3202.6,
+      "valid_targets_min": 995
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 0.29574743171943335,
+      "learning_rate": 4e-05,
+      "loss": 0.4638,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10536515712738037,
+      "step": 80,
+      "valid_targets_mean": 3387.2,
+      "valid_targets_min": 778
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 0.304879438569274,
+      "learning_rate": 3.999504991751045e-05,
+      "loss": 0.4739,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09783598780632019,
+      "step": 85,
+      "valid_targets_mean": 2869.9,
+      "valid_targets_min": 769
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 0.27264054448960384,
+      "learning_rate": 3.9980202120373464e-05,
+      "loss": 0.449,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1292189657688141,
+      "step": 90,
+      "valid_targets_mean": 5253.2,
+      "valid_targets_min": 1530
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 0.28510371417891295,
+      "learning_rate": 3.995546395837111e-05,
+      "loss": 0.4557,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09879469871520996,
+      "step": 95,
+      "valid_targets_mean": 3112.0,
+      "valid_targets_min": 909
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.3042715840047225,
+      "learning_rate": 3.992084767709763e-05,
+      "loss": 0.4534,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11518902331590652,
+      "step": 100,
+      "valid_targets_mean": 3185.5,
+      "valid_targets_min": 896
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 0.3122541792144832,
+      "learning_rate": 3.987637041189781e-05,
+      "loss": 0.4602,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10355521738529205,
+      "step": 105,
+      "valid_targets_mean": 3099.8,
+      "valid_targets_min": 877
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 0.3010397462755949,
+      "learning_rate": 3.982205417938482e-05,
+      "loss": 0.4583,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09757611155509949,
+      "step": 110,
+      "valid_targets_mean": 2974.1,
+      "valid_targets_min": 735
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 0.2723793782396818,
+      "learning_rate": 3.975792586654179e-05,
+      "loss": 0.4453,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0976935625076294,
+      "step": 115,
+      "valid_targets_mean": 4154.2,
+      "valid_targets_min": 932
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 0.2777107583881316,
+      "learning_rate": 3.968401721741259e-05,
+      "loss": 0.4403,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11072695255279541,
+      "step": 120,
+      "valid_targets_mean": 4520.2,
+      "valid_targets_min": 989
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.29626977921824504,
+      "learning_rate": 3.960036481738819e-05,
+      "loss": 0.4448,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09114716947078705,
+      "step": 125,
+      "valid_targets_mean": 3407.4,
+      "valid_targets_min": 1066
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 0.27035588866639104,
+      "learning_rate": 3.950701007509667e-05,
+      "loss": 0.4289,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10672830790281296,
+      "step": 130,
+      "valid_targets_mean": 4044.8,
+      "valid_targets_min": 909
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 0.34837201643421056,
+      "learning_rate": 3.940399920190552e-05,
+      "loss": 0.4476,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1184217780828476,
+      "step": 135,
+      "valid_targets_mean": 3964.4,
+      "valid_targets_min": 633
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 0.27938671284433453,
+      "learning_rate": 3.92913831890467e-05,
+      "loss": 0.4455,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12027984112501144,
+      "step": 140,
+      "valid_targets_mean": 4521.9,
+      "valid_targets_min": 1131
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 0.31804065299221124,
+      "learning_rate": 3.916921778237556e-05,
+      "loss": 0.445,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0931854322552681,
+      "step": 145,
+      "valid_targets_mean": 3013.6,
+      "valid_targets_min": 766
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.2744925417793362,
+      "learning_rate": 3.903756345477612e-05,
+      "loss": 0.4523,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10946588218212128,
+      "step": 150,
+      "valid_targets_mean": 4371.4,
+      "valid_targets_min": 541
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 0.2856537317229886,
+      "learning_rate": 3.889648537622657e-05,
+      "loss": 0.4414,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11907991021871567,
+      "step": 155,
+      "valid_targets_mean": 4329.2,
+      "valid_targets_min": 624
+    },
+    {
+      "epoch": 1.0192,
+      "grad_norm": 0.2879141707463672,
+      "learning_rate": 3.874605338153952e-05,
+      "loss": 0.4448,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11861169338226318,
+      "step": 160,
+      "valid_targets_mean": 4391.5,
+      "valid_targets_min": 778
+    },
+    {
+      "epoch": 1.0512,
+      "grad_norm": 0.29661655419869887,
+      "learning_rate": 3.8586341935793265e-05,
+      "loss": 0.439,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10656130313873291,
+      "step": 165,
+      "valid_targets_mean": 3601.3,
+      "valid_targets_min": 1213
+    },
+    {
+      "epoch": 1.0832,
+      "grad_norm": 0.28570287652110415,
+      "learning_rate": 3.841743009747089e-05,
+      "loss": 0.4328,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1121365949511528,
+      "step": 170,
+      "valid_targets_mean": 4714.2,
+      "valid_targets_min": 965
+    },
+    {
+      "epoch": 1.1152,
+      "grad_norm": 0.27398298369656376,
+      "learning_rate": 3.8239401479325714e-05,
+      "loss": 0.4357,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12218301743268967,
+      "step": 175,
+      "valid_targets_mean": 4598.1,
+      "valid_targets_min": 1201
+    },
+    {
+      "epoch": 1.1472,
+      "grad_norm": 0.2711176693333212,
+      "learning_rate": 3.8052344206992276e-05,
+      "loss": 0.4112,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09930449724197388,
+      "step": 180,
+      "valid_targets_mean": 3603.8,
+      "valid_targets_min": 699
+    },
+    {
+      "epoch": 1.1792,
+      "grad_norm": 0.2929354661757715,
+      "learning_rate": 3.7856350875363396e-05,
+      "loss": 0.4311,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10408104211091995,
+      "step": 185,
+      "valid_targets_mean": 3858.0,
+      "valid_targets_min": 899
+    },
+    {
+      "epoch": 1.2112,
+      "grad_norm": 0.3048058460665974,
+      "learning_rate": 3.765151850275497e-05,
+      "loss": 0.4192,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09669551253318787,
+      "step": 190,
+      "valid_targets_mean": 3769.9,
+      "valid_targets_min": 614
+    },
+    {
+      "epoch": 1.2432,
+      "grad_norm": 0.30457339863231014,
+      "learning_rate": 3.7437948482881104e-05,
+      "loss": 0.4117,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0848011001944542,
+      "step": 195,
+      "valid_targets_mean": 3365.2,
+      "valid_targets_min": 750
+    },
+    {
+      "epoch": 1.2752,
+      "grad_norm": 0.26188787177664613,
+      "learning_rate": 3.721574653466336e-05,
+      "loss": 0.4177,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08277255296707153,
+      "step": 200,
+      "valid_targets_mean": 3634.0,
+      "valid_targets_min": 1159
+    },
+    {
+      "epoch": 1.3072,
+      "grad_norm": 0.28252106293682183,
+      "learning_rate": 3.698502264989903e-05,
+      "loss": 0.4233,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09822885692119598,
+      "step": 205,
+      "valid_targets_mean": 3658.9,
+      "valid_targets_min": 1293
+    },
+    {
+      "epoch": 1.3392,
+      "grad_norm": 0.290327599906892,
+      "learning_rate": 3.674589103881432e-05,
+      "loss": 0.4194,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09229561686515808,
+      "step": 210,
+      "valid_targets_mean": 3470.6,
+      "valid_targets_min": 936
+    },
+    {
+      "epoch": 1.3712,
+      "grad_norm": 0.2922145234243129,
+      "learning_rate": 3.64984700735293e-05,
+      "loss": 0.4182,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09459995478391647,
+      "step": 215,
+      "valid_targets_mean": 3381.3,
+      "valid_targets_min": 854
+    },
+    {
+      "epoch": 1.4032,
+      "grad_norm": 0.30800560949213257,
+      "learning_rate": 3.624288222946273e-05,
+      "loss": 0.4275,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.15284359455108643,
+      "step": 220,
+      "valid_targets_mean": 4698.0,
+      "valid_targets_min": 1621
+    },
+    {
+      "epoch": 1.4352,
+      "grad_norm": 0.2946060468124792,
+      "learning_rate": 3.597925402470578e-05,
+      "loss": 0.4232,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1023549735546112,
+      "step": 225,
+      "valid_targets_mean": 3266.2,
+      "valid_targets_min": 696
+    },
+    {
+      "epoch": 1.4672,
+      "grad_norm": 0.2909375667048486,
+      "learning_rate": 3.570771595739445e-05,
+      "loss": 0.4253,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10413042455911636,
+      "step": 230,
+      "valid_targets_mean": 3986.3,
+      "valid_targets_min": 931
+    },
+    {
+      "epoch": 1.4992,
+      "grad_norm": 0.258968652511318,
+      "learning_rate": 3.5428402441111964e-05,
+      "loss": 0.4105,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08242276310920715,
+      "step": 235,
+      "valid_targets_mean": 3288.0,
+      "valid_targets_min": 825
+    },
+    {
+      "epoch": 1.5312000000000001,
+      "grad_norm": 0.260120898792648,
+      "learning_rate": 3.5141451738352936e-05,
+      "loss": 0.4085,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1041165292263031,
+      "step": 240,
+      "valid_targets_mean": 4548.1,
+      "valid_targets_min": 1250
+    },
+    {
+      "epoch": 1.5632000000000001,
+      "grad_norm": 0.3815842876872111,
+      "learning_rate": 3.4847005892082266e-05,
+      "loss": 0.4129,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10319903492927551,
+      "step": 245,
+      "valid_targets_mean": 4928.2,
+      "valid_targets_min": 1525
+    },
+    {
+      "epoch": 1.5952,
+      "grad_norm": 0.29887518088782095,
+      "learning_rate": 3.454521065542273e-05,
+      "loss": 0.4116,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09942469000816345,
+      "step": 250,
+      "valid_targets_mean": 4006.8,
+      "valid_targets_min": 923
+    },
+    {
+      "epoch": 1.6272,
+      "grad_norm": 0.3077625843249331,
+      "learning_rate": 3.423621541950597e-05,
+      "loss": 0.4294,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11495564132928848,
+      "step": 255,
+      "valid_targets_mean": 3654.4,
+      "valid_targets_min": 633
+    },
+    {
+      "epoch": 1.6592,
+      "grad_norm": 0.30742900313420013,
+      "learning_rate": 3.3920173139522664e-05,
+      "loss": 0.4269,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07939112186431885,
+      "step": 260,
+      "valid_targets_mean": 2838.2,
+      "valid_targets_min": 651
+    },
+    {
+      "epoch": 1.6912,
+      "grad_norm": 0.28353397923235046,
+      "learning_rate": 3.35972402590084e-05,
+      "loss": 0.4164,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11654111742973328,
+      "step": 265,
+      "valid_targets_mean": 5176.1,
+      "valid_targets_min": 1145
+    },
+    {
+      "epoch": 1.7231999999999998,
+      "grad_norm": 0.3159988844954844,
+      "learning_rate": 3.326757663240291e-05,
+      "loss": 0.412,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10565860569477081,
+      "step": 270,
+      "valid_targets_mean": 3831.5,
+      "valid_targets_min": 885
+    },
+    {
+      "epoch": 1.7551999999999999,
+      "grad_norm": 0.28303832854596667,
+      "learning_rate": 3.293134544592073e-05,
+      "loss": 0.4199,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09378932416439056,
+      "step": 275,
+      "valid_targets_mean": 4078.2,
+      "valid_targets_min": 1085
+    },
+    {
+      "epoch": 1.7872,
+      "grad_norm": 0.29629452883670093,
+      "learning_rate": 3.258871313677274e-05,
+      "loss": 0.4151,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11147819459438324,
+      "step": 280,
+      "valid_targets_mean": 4165.8,
+      "valid_targets_min": 1130
+    },
+    {
+      "epoch": 1.8192,
+      "grad_norm": 0.30579345790370027,
+      "learning_rate": 3.2239849310778316e-05,
+      "loss": 0.4165,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09240031242370605,
+      "step": 285,
+      "valid_targets_mean": 3160.4,
+      "valid_targets_min": 964
+    },
+    {
+      "epoch": 1.8512,
+      "grad_norm": 0.2639801571915376,
+      "learning_rate": 3.188492665840909e-05,
+      "loss": 0.4019,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10795797407627106,
+      "step": 290,
+      "valid_targets_mean": 5055.9,
+      "valid_targets_min": 1849
+    },
+    {
+      "epoch": 1.8832,
+      "grad_norm": 0.27607877025115213,
+      "learning_rate": 3.1524120869305726e-05,
+      "loss": 0.4125,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12126939743757248,
+      "step": 295,
+      "valid_targets_mean": 5233.9,
+      "valid_targets_min": 1737
+    },
+    {
+      "epoch": 1.9152,
+      "grad_norm": 0.2669974360426593,
+      "learning_rate": 3.11576105453101e-05,
+      "loss": 0.4035,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09347060322761536,
+      "step": 300,
+      "valid_targets_mean": 4767.1,
+      "valid_targets_min": 1224
+    },
+    {
+      "epoch": 1.9472,
+      "grad_norm": 0.3345770824254686,
+      "learning_rate": 3.0785577112055916e-05,
+      "loss": 0.4243,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0994449108839035,
+      "step": 305,
+      "valid_targets_mean": 3115.7,
+      "valid_targets_min": 787
+    },
+    {
+      "epoch": 1.9792,
+      "grad_norm": 0.2848512696158886,
+      "learning_rate": 3.040820472916153e-05,
+      "loss": 0.4156,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09286624193191528,
+      "step": 310,
+      "valid_targets_mean": 3558.1,
+      "valid_targets_min": 793
+    },
+    {
+      "epoch": 2.0064,
+      "grad_norm": 0.3082601924350668,
+      "learning_rate": 3.002568019906939e-05,
+      "loss": 0.4175,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.13024066388607025,
+      "step": 315,
+      "valid_targets_mean": 4633.3,
+      "valid_targets_min": 710
+    },
+    {
+      "epoch": 2.0384,
+      "grad_norm": 0.2972613402450226,
+      "learning_rate": 2.963819287457733e-05,
+      "loss": 0.408,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.14002487063407898,
+      "step": 320,
+      "valid_targets_mean": 5598.2,
+      "valid_targets_min": 1014
+    },
+    {
+      "epoch": 2.0704,
+      "grad_norm": 0.29338748624504957,
+      "learning_rate": 2.924593456510733e-05,
+      "loss": 0.4075,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11791073530912399,
+      "step": 325,
+      "valid_targets_mean": 4469.2,
+      "valid_targets_min": 909
+    },
+    {
+      "epoch": 2.1024,
+      "grad_norm": 0.2788624095471663,
+      "learning_rate": 2.8849099441758306e-05,
+      "loss": 0.4052,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09456164389848709,
+      "step": 330,
+      "valid_targets_mean": 2896.9,
+      "valid_targets_min": 1122
+    },
+    {
+      "epoch": 2.1344,
+      "grad_norm": 0.2581699312084376,
+      "learning_rate": 2.844788394118979e-05,
+      "loss": 0.3929,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09569685161113739,
+      "step": 335,
+      "valid_targets_mean": 3911.0,
+      "valid_targets_min": 940
+    },
+    {
+      "epoch": 2.1664,
+      "grad_norm": 0.31608505858012337,
+      "learning_rate": 2.8042486668384164e-05,
+      "loss": 0.4008,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1096731573343277,
+      "step": 340,
+      "valid_targets_mean": 4302.9,
+      "valid_targets_min": 1251
+    },
+    {
+      "epoch": 2.1984,
+      "grad_norm": 0.2880911863813072,
+      "learning_rate": 2.7633108298335582e-05,
+      "loss": 0.4025,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09002970159053802,
+      "step": 345,
+      "valid_targets_mean": 3883.4,
+      "valid_targets_min": 841
+    },
+    {
+      "epoch": 2.2304,
+      "grad_norm": 0.33383503829503497,
+      "learning_rate": 2.721995147671416e-05,
+      "loss": 0.3976,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11322958767414093,
+      "step": 350,
+      "valid_targets_mean": 4466.8,
+      "valid_targets_min": 890
+    },
+    {
+      "epoch": 2.2624,
+      "grad_norm": 0.3060080665890357,
+      "learning_rate": 2.68032207195547e-05,
+      "loss": 0.3962,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1092362031340599,
+      "step": 355,
+      "valid_targets_mean": 3826.1,
+      "valid_targets_min": 1137
+    },
+    {
+      "epoch": 2.2944,
+      "grad_norm": 0.26221504446327776,
+      "learning_rate": 2.6383122312019604e-05,
+      "loss": 0.398,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08882156014442444,
+      "step": 360,
+      "valid_targets_mean": 4397.3,
+      "valid_targets_min": 1033
+    },
+    {
+      "epoch": 2.3264,
+      "grad_norm": 0.3340098068516625,
+      "learning_rate": 2.595986420628597e-05,
+      "loss": 0.4117,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12631461024284363,
+      "step": 365,
+      "valid_targets_mean": 4953.4,
+      "valid_targets_min": 2095
+    },
+    {
+      "epoch": 2.3584,
+      "grad_norm": 0.27145668481073304,
+      "learning_rate": 2.5533655918607573e-05,
+      "loss": 0.403,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10268014669418335,
+      "step": 370,
+      "valid_targets_mean": 4452.4,
+      "valid_targets_min": 899
+    },
+    {
+      "epoch": 2.3904,
+      "grad_norm": 0.2810788522245723,
+      "learning_rate": 2.510470842560259e-05,
+      "loss": 0.3973,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1246403232216835,
+      "step": 375,
+      "valid_targets_mean": 5544.6,
+      "valid_targets_min": 1007
+    },
+    {
+      "epoch": 2.4224,
+      "grad_norm": 0.3126736568714705,
+      "learning_rate": 2.467323405981841e-05,
+      "loss": 0.4017,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08612629771232605,
+      "step": 380,
+      "valid_targets_mean": 2997.2,
+      "valid_targets_min": 810
+    },
+    {
+      "epoch": 2.4544,
+      "grad_norm": 0.2953368163016378,
+      "learning_rate": 2.423944640462533e-05,
+      "loss": 0.4033,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08532306551933289,
+      "step": 385,
+      "valid_targets_mean": 3594.6,
+      "valid_targets_min": 752
+    },
+    {
+      "epoch": 2.4864,
+      "grad_norm": 0.29200179241732954,
+      "learning_rate": 2.3803560188490968e-05,
+      "loss": 0.3995,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09730486571788788,
+      "step": 390,
+      "valid_targets_mean": 4327.1,
+      "valid_targets_min": 783
+    },
+    {
+      "epoch": 2.5183999999999997,
+      "grad_norm": 0.2946762576979655,
+      "learning_rate": 2.336579117868789e-05,
+      "loss": 0.4008,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11689925938844681,
+      "step": 395,
+      "valid_targets_mean": 4077.4,
+      "valid_targets_min": 965
+    },
+    {
+      "epoch": 2.5504,
+      "grad_norm": 0.28832935456119246,
+      "learning_rate": 2.292635607448711e-05,
+      "loss": 0.4065,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09628384560346603,
+      "step": 400,
+      "valid_targets_mean": 3998.8,
+      "valid_targets_min": 948
+    },
+    {
+      "epoch": 2.5824,
+      "grad_norm": 0.28622185841806863,
+      "learning_rate": 2.248547239989008e-05,
+      "loss": 0.409,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0933937281370163,
+      "step": 405,
+      "valid_targets_mean": 4487.5,
+      "valid_targets_min": 801
+    },
+    {
+      "epoch": 2.6144,
+      "grad_norm": 0.2746389328095657,
+      "learning_rate": 2.204335839595255e-05,
+      "loss": 0.3978,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11653994023799896,
+      "step": 410,
+      "valid_targets_mean": 4645.2,
+      "valid_targets_min": 656
+    },
+    {
+      "epoch": 2.6464,
+      "grad_norm": 0.3133949368221043,
+      "learning_rate": 2.1600232912753452e-05,
+      "loss": 0.4034,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11006447672843933,
+      "step": 415,
+      "valid_targets_mean": 3497.1,
+      "valid_targets_min": 1033
+    },
+    {
+      "epoch": 2.6784,
+      "grad_norm": 0.26840721362327946,
+      "learning_rate": 2.1156315301062293e-05,
+      "loss": 0.4014,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10718810558319092,
+      "step": 420,
+      "valid_targets_mean": 4133.1,
+      "valid_targets_min": 1486
+    },
+    {
+      "epoch": 2.7104,
+      "grad_norm": 0.28328827868904544,
+      "learning_rate": 2.0711825303758712e-05,
+      "loss": 0.4103,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.12090544402599335,
+      "step": 425,
+      "valid_targets_mean": 5332.2,
+      "valid_targets_min": 923
+    },
+    {
+      "epoch": 2.7424,
+      "grad_norm": 0.3169828962163063,
+      "learning_rate": 2.0266982947057962e-05,
+      "loss": 0.4139,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09149235486984253,
+      "step": 430,
+      "valid_targets_mean": 3602.7,
+      "valid_targets_min": 827
+    },
+    {
+      "epoch": 2.7744,
+      "grad_norm": 0.24585141329828905,
+      "learning_rate": 1.9822008431596083e-05,
+      "loss": 0.3831,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0855756402015686,
+      "step": 435,
+      "valid_targets_mean": 3692.9,
+      "valid_targets_min": 1508
+    },
+    {
+      "epoch": 2.8064,
+      "grad_norm": 0.28624685923515464,
+      "learning_rate": 1.937712202342881e-05,
+      "loss": 0.3972,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10186800360679626,
+      "step": 440,
+      "valid_targets_mean": 4585.4,
+      "valid_targets_min": 877
+    },
+    {
+      "epoch": 2.8384,
+      "grad_norm": 0.2588341586751398,
+      "learning_rate": 1.8932543944998037e-05,
+      "loss": 0.387,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07834403216838837,
+      "step": 445,
+      "valid_targets_mean": 3711.6,
+      "valid_targets_min": 746
+    },
+    {
+      "epoch": 2.8704,
+      "grad_norm": 0.30323288737998944,
+      "learning_rate": 1.8488494266119877e-05,
+      "loss": 0.3901,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09488328546285629,
+      "step": 450,
+      "valid_targets_mean": 2979.2,
+      "valid_targets_min": 722
+    },
+    {
+      "epoch": 2.9024,
+      "grad_norm": 0.24266113449716165,
+      "learning_rate": 1.804519279504834e-05,
+      "loss": 0.385,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07156480848789215,
+      "step": 455,
+      "valid_targets_mean": 4107.6,
+      "valid_targets_min": 742
+    },
+    {
+      "epoch": 2.9344,
+      "grad_norm": 0.28261298997066275,
+      "learning_rate": 1.7602858969668365e-05,
+      "loss": 0.393,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09054580330848694,
+      "step": 460,
+      "valid_targets_mean": 3750.1,
+      "valid_targets_min": 1213
+    },
+    {
+      "epoch": 2.9664,
+      "grad_norm": 0.259989135927338,
+      "learning_rate": 1.716171174887231e-05,
+      "loss": 0.3972,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09447605907917023,
+      "step": 465,
+      "valid_targets_mean": 4066.9,
+      "valid_targets_min": 797
+    },
+    {
+      "epoch": 2.9984,
+      "grad_norm": 0.2842931846792312,
+      "learning_rate": 1.6721969504173484e-05,
+      "loss": 0.3914,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10005789995193481,
+      "step": 470,
+      "valid_targets_mean": 4615.3,
+      "valid_targets_min": 1184
+    },
+    {
+      "epoch": 3.0256,
+      "grad_norm": 0.2942258678514413,
+      "learning_rate": 1.628384991161041e-05,
+      "loss": 0.3797,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.106219083070755,
+      "step": 475,
+      "valid_targets_mean": 4277.8,
+      "valid_targets_min": 1094
+    },
+    {
+      "epoch": 3.0576,
+      "grad_norm": 0.2690806364664981,
+      "learning_rate": 1.5847569843995452e-05,
+      "loss": 0.3778,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09493634104728699,
+      "step": 480,
+      "valid_targets_mean": 3908.0,
+      "valid_targets_min": 784
+    },
+    {
+      "epoch": 3.0896,
+      "grad_norm": 0.26353669494610443,
+      "learning_rate": 1.5413345263560922e-05,
+      "loss": 0.3819,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11369521915912628,
+      "step": 485,
+      "valid_targets_mean": 4864.3,
+      "valid_targets_min": 972
+    },
+    {
+      "epoch": 3.1216,
+      "grad_norm": 0.4041290592713129,
+      "learning_rate": 1.4981391115056032e-05,
+      "loss": 0.3906,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09258768707513809,
+      "step": 490,
+      "valid_targets_mean": 2708.4,
+      "valid_targets_min": 989
+    },
+    {
+      "epoch": 3.1536,
+      "grad_norm": 0.25878391245076104,
+      "learning_rate": 1.455192121934748e-05,
+      "loss": 0.3897,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07488387823104858,
+      "step": 495,
+      "valid_targets_mean": 3082.7,
+      "valid_targets_min": 656
+    },
+    {
+      "epoch": 3.1856,
+      "grad_norm": 0.253759150529026,
+      "learning_rate": 1.4125148167576303e-05,
+      "loss": 0.3974,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1091025173664093,
+      "step": 500,
+      "valid_targets_mean": 4998.2,
+      "valid_targets_min": 1150
+    },
+    {
+      "epoch": 3.2176,
+      "grad_norm": 0.2683080146842537,
+      "learning_rate": 1.3701283215923563e-05,
+      "loss": 0.3858,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07230888307094574,
+      "step": 505,
+      "valid_targets_mean": 3185.6,
+      "valid_targets_min": 827
+    },
+    {
+      "epoch": 3.2496,
+      "grad_norm": 0.2947819206644499,
+      "learning_rate": 1.328053618103677e-05,
+      "loss": 0.3903,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11434278637170792,
+      "step": 510,
+      "valid_targets_mean": 4241.5,
+      "valid_targets_min": 734
+    },
+    {
+      "epoch": 3.2816,
+      "grad_norm": 0.2705047308271746,
+      "learning_rate": 1.2863115336168916e-05,
+      "loss": 0.3861,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11061400175094604,
+      "step": 515,
+      "valid_targets_mean": 4625.5,
+      "valid_targets_min": 965
+    },
+    {
+      "epoch": 3.3136,
+      "grad_norm": 0.2610230513683317,
+      "learning_rate": 1.2449227308081509e-05,
+      "loss": 0.3945,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10025350749492645,
+      "step": 520,
+      "valid_targets_mean": 4237.3,
+      "valid_targets_min": 1048
+    },
+    {
+      "epoch": 3.3456,
+      "grad_norm": 0.2825954817857534,
+      "learning_rate": 1.2039076974762587e-05,
+      "loss": 0.3951,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10196895897388458,
+      "step": 525,
+      "valid_targets_mean": 4061.5,
+      "valid_targets_min": 810
+    },
+    {
+      "epoch": 3.3776,
+      "grad_norm": 0.24013472756026968,
+      "learning_rate": 1.163286736401044e-05,
+      "loss": 0.3829,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08009563386440277,
+      "step": 530,
+      "valid_targets_mean": 3982.6,
+      "valid_targets_min": 843
+    },
+    {
+      "epoch": 3.4096,
+      "grad_norm": 0.26036428326503036,
+      "learning_rate": 1.123079955293322e-05,
+      "loss": 0.4,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11866132915019989,
+      "step": 535,
+      "valid_targets_mean": 4450.6,
+      "valid_targets_min": 1048
+    },
+    {
+      "epoch": 3.4416,
+      "grad_norm": 0.24881198574724328,
+      "learning_rate": 1.0833072568414037e-05,
+      "loss": 0.3952,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09163567423820496,
+      "step": 540,
+      "valid_targets_mean": 4590.5,
+      "valid_targets_min": 702
+    },
+    {
+      "epoch": 3.4736000000000002,
+      "grad_norm": 0.2843932556205226,
+      "learning_rate": 1.0439883288591057e-05,
+      "loss": 0.3903,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09883452206850052,
+      "step": 545,
+      "valid_targets_mean": 3780.2,
+      "valid_targets_min": 975
+    },
+    {
+      "epoch": 3.5056000000000003,
+      "grad_norm": 0.27338503039297785,
+      "learning_rate": 1.0051426345401202e-05,
+      "loss": 0.3785,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08160857856273651,
+      "step": 550,
+      "valid_targets_mean": 3942.5,
+      "valid_targets_min": 938
+    },
+    {
+      "epoch": 3.5376,
+      "grad_norm": 0.2674094532197557,
+      "learning_rate": 9.667894028235704e-06,
+      "loss": 0.3901,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10117650032043457,
+      "step": 555,
+      "valid_targets_mean": 3955.4,
+      "valid_targets_min": 793
+    },
+    {
+      "epoch": 3.5696,
+      "grad_norm": 0.27380161269817377,
+      "learning_rate": 9.289476188755315e-06,
+      "loss": 0.3911,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.087982177734375,
+      "step": 560,
+      "valid_targets_mean": 3488.1,
+      "valid_targets_min": 874
+    },
+    {
+      "epoch": 3.6016,
+      "grad_norm": 0.31002515430693867,
+      "learning_rate": 8.916360146912122e-06,
+      "loss": 0.3873,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11359541863203049,
+      "step": 565,
+      "valid_targets_mean": 3674.3,
+      "valid_targets_min": 941
+    },
+    {
+      "epoch": 3.6336,
+      "grad_norm": 0.32806171635804243,
+      "learning_rate": 8.548730598224646e-06,
+      "loss": 0.3994,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08924146741628647,
+      "step": 570,
+      "valid_targets_mean": 2419.3,
+      "valid_targets_min": 639
+    },
+    {
+      "epoch": 3.6656,
+      "grad_norm": 0.2907755504334934,
+      "learning_rate": 8.186769522352053e-06,
+      "loss": 0.388,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10015973448753357,
+      "step": 575,
+      "valid_targets_mean": 3822.8,
+      "valid_targets_min": 975
+    },
+    {
+      "epoch": 3.6976,
+      "grad_norm": 0.28606169446008295,
+      "learning_rate": 7.830656093012714e-06,
+      "loss": 0.3811,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.1018945500254631,
+      "step": 580,
+      "valid_targets_mean": 3379.8,
+      "valid_targets_min": 612
+    },
+    {
+      "epoch": 3.7296,
+      "grad_norm": 0.2590625610172514,
+      "learning_rate": 7.480566589291696e-06,
+      "loss": 0.3869,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11175013333559036,
+      "step": 585,
+      "valid_targets_mean": 4867.4,
+      "valid_targets_min": 704
+    },
+    {
+      "epoch": 3.7616,
+      "grad_norm": 0.2763907408247419,
+      "learning_rate": 7.1366743083812285e-06,
+      "loss": 0.3931,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10954703390598297,
+      "step": 590,
+      "valid_targets_mean": 4537.1,
+      "valid_targets_min": 710
+    },
+    {
+      "epoch": 3.7936,
+      "grad_norm": 0.24962648496447917,
+      "learning_rate": 6.799149479797101e-06,
+      "loss": 0.3869,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09462133795022964,
+      "step": 595,
+      "valid_targets_mean": 4469.4,
+      "valid_targets_min": 690
+    },
+    {
+      "epoch": 3.8256,
+      "grad_norm": 0.2754736478883349,
+      "learning_rate": 6.4681591811137e-06,
+      "loss": 0.3867,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11113976687192917,
+      "step": 600,
+      "valid_targets_mean": 4153.2,
+      "valid_targets_min": 896
+    },
+    {
+      "epoch": 3.8576,
+      "grad_norm": 0.28158413256335013,
+      "learning_rate": 6.143867255259197e-06,
+      "loss": 0.3822,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11500473320484161,
+      "step": 605,
+      "valid_targets_mean": 4267.9,
+      "valid_targets_min": 863
+    },
+    {
+      "epoch": 3.8895999999999997,
+      "grad_norm": 0.2995558635935276,
+      "learning_rate": 5.8264342294119504e-06,
+      "loss": 0.3958,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10843653976917267,
+      "step": 610,
+      "valid_targets_mean": 3483.2,
+      "valid_targets_min": 1058
+    },
+    {
+      "epoch": 3.9215999999999998,
+      "grad_norm": 0.26971516213282304,
+      "learning_rate": 5.516017235538258e-06,
+      "loss": 0.4026,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09091812372207642,
+      "step": 615,
+      "valid_targets_mean": 3210.1,
+      "valid_targets_min": 693
+    },
+    {
+      "epoch": 3.9536,
+      "grad_norm": 0.27718460735351713,
+      "learning_rate": 5.212769932610695e-06,
+      "loss": 0.3881,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10660787671804428,
+      "step": 620,
+      "valid_targets_mean": 3532.4,
+      "valid_targets_min": 701
+    },
+    {
+      "epoch": 3.9856,
+      "grad_norm": 0.24222704520402027,
+      "learning_rate": 4.916842430545681e-06,
+      "loss": 0.3854,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.06686671078205109,
+      "step": 625,
+      "valid_targets_mean": 3113.8,
+      "valid_targets_min": 1014
+    },
+    {
+      "epoch": 4.0128,
+      "grad_norm": 0.2577795312253048,
+      "learning_rate": 4.628381215897837e-06,
+      "loss": 0.3935,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10310535132884979,
+      "step": 630,
+      "valid_targets_mean": 4274.4,
+      "valid_targets_min": 821
+    },
+    {
+      "epoch": 4.0448,
+      "grad_norm": 0.26450694499499056,
+      "learning_rate": 4.347529079347914e-06,
+      "loss": 0.3818,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08196067810058594,
+      "step": 635,
+      "valid_targets_mean": 3661.9,
+      "valid_targets_min": 798
+    },
+    {
+      "epoch": 4.0768,
+      "grad_norm": 0.25757656679535085,
+      "learning_rate": 4.074425045020247e-06,
+      "loss": 0.3879,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11379433423280716,
+      "step": 640,
+      "valid_targets_mean": 5251.4,
+      "valid_targets_min": 873
+    },
+    {
+      "epoch": 4.1088,
+      "grad_norm": 0.2857282667440211,
+      "learning_rate": 3.8092043016646487e-06,
+      "loss": 0.3898,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09233619272708893,
+      "step": 645,
+      "valid_targets_mean": 3476.4,
+      "valid_targets_min": 942
+    },
+    {
+      "epoch": 4.1408,
+      "grad_norm": 0.26803241687834123,
+      "learning_rate": 3.551998135736867e-06,
+      "loss": 0.3895,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11338621377944946,
+      "step": 650,
+      "valid_targets_mean": 4720.1,
+      "valid_targets_min": 1226
+    },
+    {
+      "epoch": 4.1728,
+      "grad_norm": 0.25400284057837186,
+      "learning_rate": 3.3029338664107267e-06,
+      "loss": 0.3711,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08650071918964386,
+      "step": 655,
+      "valid_targets_mean": 4031.5,
+      "valid_targets_min": 809
+    },
+    {
+      "epoch": 4.2048,
+      "grad_norm": 0.2568237062355446,
+      "learning_rate": 3.0621347825540625e-06,
+      "loss": 0.391,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09939530491828918,
+      "step": 660,
+      "valid_targets_mean": 4138.6,
+      "valid_targets_min": 762
+    },
+    {
+      "epoch": 4.2368,
+      "grad_norm": 0.2676124398757461,
+      "learning_rate": 2.8297200816997183e-06,
+      "loss": 0.3869,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09458170086145401,
+      "step": 665,
+      "valid_targets_mean": 4247.1,
+      "valid_targets_min": 868
+    },
+    {
+      "epoch": 4.2688,
+      "grad_norm": 0.28046598824382457,
+      "learning_rate": 2.605804811041803e-06,
+      "loss": 0.3807,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10842232406139374,
+      "step": 670,
+      "valid_targets_mean": 3938.6,
+      "valid_targets_min": 833
+    },
+    {
+      "epoch": 4.3008,
+      "grad_norm": 0.2570693432350438,
+      "learning_rate": 2.390499810486351e-06,
+      "loss": 0.3783,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08588958531618118,
+      "step": 675,
+      "valid_targets_mean": 3437.5,
+      "valid_targets_min": 850
+    },
+    {
+      "epoch": 4.3328,
+      "grad_norm": 0.25507056895604874,
+      "learning_rate": 2.183911657784685e-06,
+      "loss": 0.3837,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09940114617347717,
+      "step": 680,
+      "valid_targets_mean": 4383.1,
+      "valid_targets_min": 900
+    },
+    {
+      "epoch": 4.3648,
+      "grad_norm": 0.2489526579222752,
+      "learning_rate": 1.986142615776532e-06,
+      "loss": 0.3837,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11270736902952194,
+      "step": 685,
+      "valid_targets_mean": 5063.6,
+      "valid_targets_min": 960
+    },
+    {
+      "epoch": 4.3968,
+      "grad_norm": 0.30376368802757764,
+      "learning_rate": 1.7972905817690644e-06,
+      "loss": 0.3943,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08725392818450928,
+      "step": 690,
+      "valid_targets_mean": 3286.1,
+      "valid_targets_min": 892
+    },
+    {
+      "epoch": 4.4288,
+      "grad_norm": 0.4292351264693741,
+      "learning_rate": 1.617449039076955e-06,
+      "loss": 0.391,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11258338391780853,
+      "step": 695,
+      "valid_targets_mean": 4237.6,
+      "valid_targets_min": 1186
+    },
+    {
+      "epoch": 4.4608,
+      "grad_norm": 0.25325658381922306,
+      "learning_rate": 1.4467070107473413e-06,
+      "loss": 0.3834,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0918629914522171,
+      "step": 700,
+      "valid_targets_mean": 4016.9,
+      "valid_targets_min": 970
+    },
+    {
+      "epoch": 4.4928,
+      "grad_norm": 0.30072408255586425,
+      "learning_rate": 1.2851490154926816e-06,
+      "loss": 0.3818,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09678243845701218,
+      "step": 705,
+      "valid_targets_mean": 3707.1,
+      "valid_targets_min": 1103
+    },
+    {
+      "epoch": 4.5248,
+      "grad_norm": 0.25410126385994386,
+      "learning_rate": 1.1328550258533211e-06,
+      "loss": 0.3832,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10050881654024124,
+      "step": 710,
+      "valid_targets_mean": 4388.2,
+      "valid_targets_min": 880
+    },
+    {
+      "epoch": 4.5568,
+      "grad_norm": 0.34950980807629306,
+      "learning_rate": 9.899004286103953e-07,
+      "loss": 0.3928,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.0971115306019783,
+      "step": 715,
+      "valid_targets_mean": 2979.0,
+      "valid_targets_min": 994
+    },
+    {
+      "epoch": 4.5888,
+      "grad_norm": 0.24312281541870698,
+      "learning_rate": 8.5635598746876e-07,
+      "loss": 0.3839,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09972332417964935,
+      "step": 720,
+      "valid_targets_mean": 4491.6,
+      "valid_targets_min": 969
+    },
+    {
+      "epoch": 4.6208,
+      "grad_norm": 0.2714481941303094,
+      "learning_rate": 7.32287808028389e-07,
+      "loss": 0.3751,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08378778398036957,
+      "step": 725,
+      "valid_targets_mean": 4230.4,
+      "valid_targets_min": 795
+    },
+    {
+      "epoch": 4.6528,
+      "grad_norm": 0.2854227918980573,
+      "learning_rate": 6.177573050615327e-07,
+      "loss": 0.3818,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10359008610248566,
+      "step": 730,
+      "valid_targets_mean": 3959.3,
+      "valid_targets_min": 1324
+    },
+    {
+      "epoch": 4.6848,
+      "grad_norm": 0.24942374686892158,
+      "learning_rate": 5.128211721119213e-07,
+      "loss": 0.3846,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.11520683765411377,
+      "step": 735,
+      "valid_targets_mean": 5002.9,
+      "valid_targets_min": 913
+    },
+    {
+      "epoch": 4.7168,
+      "grad_norm": 0.31797210014974603,
+      "learning_rate": 4.175313534309755e-07,
+      "loss": 0.3957,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10495293140411377,
+      "step": 740,
+      "valid_targets_mean": 3320.9,
+      "valid_targets_min": 706
+    },
+    {
+      "epoch": 4.7488,
+      "grad_norm": 0.2768908745456099,
+      "learning_rate": 3.319350182649861e-07,
+      "loss": 0.3858,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.07093711942434311,
+      "step": 745,
+      "valid_targets_mean": 2778.2,
+      "valid_targets_min": 633
+    },
+    {
+      "epoch": 4.7808,
+      "grad_norm": 0.2960407866353702,
+      "learning_rate": 2.560745375059392e-07,
+      "loss": 0.3758,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10425875335931778,
+      "step": 750,
+      "valid_targets_mean": 3789.5,
+      "valid_targets_min": 896
+    },
+    {
+      "epoch": 4.8128,
+      "grad_norm": 0.2399975960595749,
+      "learning_rate": 1.8998746271758016e-07,
+      "loss": 0.38,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09158598631620407,
+      "step": 755,
+      "valid_targets_mean": 4844.2,
+      "valid_targets_min": 1125
+    },
+    {
+      "epoch": 4.8448,
+      "grad_norm": 0.26684033395373213,
+      "learning_rate": 1.337065075470778e-07,
+      "loss": 0.3926,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09115723520517349,
+      "step": 760,
+      "valid_targets_mean": 3444.8,
+      "valid_targets_min": 820
+    },
+    {
+      "epoch": 4.8768,
+      "grad_norm": 0.258854589815443,
+      "learning_rate": 8.725953153150279e-08,
+      "loss": 0.3866,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.10301363468170166,
+      "step": 765,
+      "valid_targets_mean": 4948.0,
+      "valid_targets_min": 807
+    },
+    {
+      "epoch": 4.9088,
+      "grad_norm": 0.2624455783886108,
+      "learning_rate": 5.066952630711886e-08,
+      "loss": 0.3764,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08958660066127777,
+      "step": 770,
+      "valid_targets_mean": 3562.5,
+      "valid_targets_min": 707
+    },
+    {
+      "epoch": 4.9408,
+      "grad_norm": 0.276084245733527,
+      "learning_rate": 2.3954604228342283e-08,
+      "loss": 0.3897,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.09636662155389786,
+      "step": 775,
+      "valid_targets_mean": 4382.5,
+      "valid_targets_min": 754
+    },
+    {
+      "epoch": 4.9728,
+      "grad_norm": 0.24631738908048942,
+      "learning_rate": 7.12798940197601e-09,
+      "loss": 0.3905,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.08279719948768616,
+      "step": 780,
+      "valid_targets_mean": 3800.4,
+      "valid_targets_min": 950
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.5798931353670957,
+      "learning_rate": 1.9801114115480802e-10,
+      "loss": 0.3821,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.38632673025131226,
+      "step": 785,
+      "valid_targets_mean": 3155.6,
+      "valid_targets_min": 917
+    },
+    {
+      "epoch": 5.0,
+      "loss_nan_ranks": 0,
+      "loss_rank_avg": 0.38632673025131226,
+      "step": 785,
+      "total_flos": 1.2145665807220736e+18,
+      "train_loss": 0.4196553195358082,
+      "train_runtime": 16441.9592,
+      "train_samples_per_second": 3.04,
+      "train_steps_per_second": 0.048,
+      "valid_targets_mean": 3155.6,
+      "valid_targets_min": 917
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 785,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2145665807220736e+18,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b9a678adf1c985bc07081161ccca23bbcf5ef6938301d58c50ecedf17c67c6ae
+size 8529

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff