sang-w00 commited on Nov 6, 2025

Commit

e47d5f9

verified ·

1 Parent(s): 3bf357b

Delete sft-clevr-1106-20epoch/checkpoint-2500

Browse files

Files changed (17) hide show

sft-clevr-1106-20epoch/checkpoint-2500/added_tokens.json +0 -24
sft-clevr-1106-20epoch/checkpoint-2500/chat_template.json +0 -3
sft-clevr-1106-20epoch/checkpoint-2500/config.json +0 -50
sft-clevr-1106-20epoch/checkpoint-2500/generation_config.json +0 -14
sft-clevr-1106-20epoch/checkpoint-2500/merges.txt +0 -0
sft-clevr-1106-20epoch/checkpoint-2500/model-00001-of-00004.safetensors +0 -3
sft-clevr-1106-20epoch/checkpoint-2500/model-00002-of-00004.safetensors +0 -3
sft-clevr-1106-20epoch/checkpoint-2500/model-00003-of-00004.safetensors +0 -3
sft-clevr-1106-20epoch/checkpoint-2500/model-00004-of-00004.safetensors +0 -3
sft-clevr-1106-20epoch/checkpoint-2500/model.safetensors.index.json +0 -736
sft-clevr-1106-20epoch/checkpoint-2500/preprocessor_config.json +0 -29
sft-clevr-1106-20epoch/checkpoint-2500/special_tokens_map.json +0 -31
sft-clevr-1106-20epoch/checkpoint-2500/tokenizer.json +0 -3
sft-clevr-1106-20epoch/checkpoint-2500/tokenizer_config.json +0 -209
sft-clevr-1106-20epoch/checkpoint-2500/trainer_state.json +0 -3033
sft-clevr-1106-20epoch/checkpoint-2500/training_args.bin +0 -3
sft-clevr-1106-20epoch/checkpoint-2500/vocab.json +0 -0

sft-clevr-1106-20epoch/checkpoint-2500/added_tokens.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "</tool_call>": 151658,
-  "<tool_call>": 151657,
-  "<|box_end|>": 151649,
-  "<|box_start|>": 151648,
-  "<|endoftext|>": 151643,
-  "<|file_sep|>": 151664,
-  "<|fim_middle|>": 151660,
-  "<|fim_pad|>": 151662,
-  "<|fim_prefix|>": 151659,
-  "<|fim_suffix|>": 151661,
-  "<|im_end|>": 151645,
-  "<|im_start|>": 151644,
-  "<|image_pad|>": 151655,
-  "<|object_ref_end|>": 151647,
-  "<|object_ref_start|>": 151646,
-  "<|quad_end|>": 151651,
-  "<|quad_start|>": 151650,
-  "<|repo_name|>": 151663,
-  "<|video_pad|>": 151656,
-  "<|vision_end|>": 151653,
-  "<|vision_pad|>": 151654,
-  "<|vision_start|>": 151652
-}

sft-clevr-1106-20epoch/checkpoint-2500/chat_template.json DELETED Viewed

@@ -1,3 +0,0 @@
-{
-  "chat_template": "{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n{% endif %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}<|im_end|>\n{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>\n{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}"
-}

sft-clevr-1106-20epoch/checkpoint-2500/config.json DELETED Viewed

@@ -1,50 +0,0 @@
-{
-  "_name_or_path": "Qwen/Qwen2.5-VL-7B-Instruct",
-  "architectures": [
-    "Qwen2_5_VLForConditionalGeneration"
-  ],
-  "attention_dropout": 0.0,
-  "bos_token_id": 151643,
-  "eos_token_id": 151645,
-  "hidden_act": "silu",
-  "hidden_size": 3584,
-  "image_token_id": 151655,
-  "initializer_range": 0.02,
-  "intermediate_size": 18944,
-  "max_position_embeddings": 128000,
-  "max_window_layers": 28,
-  "model_type": "qwen2_5_vl",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": {
-    "mrope_section": [
-      16,
-      24,
-      24
-    ],
-    "rope_type": "default",
-    "type": "default"
-  },
-  "rope_theta": 1000000.0,
-  "sliding_window": 32768,
-  "tie_word_embeddings": false,
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.49.0",
-  "use_cache": false,
-  "use_sliding_window": false,
-  "video_token_id": 151656,
-  "vision_config": {
-    "hidden_size": 1280,
-    "in_chans": 3,
-    "model_type": "qwen2_5_vl",
-    "spatial_patch_size": 14,
-    "tokens_per_second": 2,
-    "torch_dtype": "bfloat16"
-  },
-  "vision_end_token_id": 151653,
-  "vision_start_token_id": 151652,
-  "vision_token_id": 151654,
-  "vocab_size": 152064
-}

sft-clevr-1106-20epoch/checkpoint-2500/generation_config.json DELETED Viewed

@@ -1,14 +0,0 @@
-{
-  "attn_implementation": "flash_attention_2",
-  "bos_token_id": 151643,
-  "do_sample": true,
-  "eos_token_id": [
-    151645,
-    151643
-  ],
-  "pad_token_id": 151643,
-  "repetition_penalty": 1.05,
-  "temperature": 1e-06,
-  "transformers_version": "4.49.0",
-  "use_cache": false
-}

sft-clevr-1106-20epoch/checkpoint-2500/merges.txt DELETED Viewed

The diff for this file is too large to render. See raw diff

sft-clevr-1106-20epoch/checkpoint-2500/model-00001-of-00004.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:1f5a41d63e65d883f59ebb4573c9f00a2186c601607308378ad14493bcf18a29
-size 4968243304

sft-clevr-1106-20epoch/checkpoint-2500/model-00002-of-00004.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:6e04d5d29b50ed607f477415ba0078d77d16558454127087b34c2708c7becd93
-size 4991495816

sft-clevr-1106-20epoch/checkpoint-2500/model-00003-of-00004.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:69bee98a05456798942df0fc5e3e7558cf9d0ce29b6f3032ef0691affcecef18
-size 4932751040

sft-clevr-1106-20epoch/checkpoint-2500/model-00004-of-00004.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:135d6c5ef42de9fe78889c22fd56e5c61719e41d757881e8b1c0de06554ac165
-size 1691924384

sft-clevr-1106-20epoch/checkpoint-2500/model.safetensors.index.json DELETED Viewed

@@ -1,736 +0,0 @@
-{
-  "metadata": {
-    "total_size": 16584333312
-  },
-  "weight_map": {
-    "lm_head.weight": "model-00004-of-00004.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.17.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.17.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.17.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.18.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.18.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.18.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00004-of-00004.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
-    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
-    "model.layers.27.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
-    "model.layers.27.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
-    "model.layers.27.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.norm.weight": "model-00004-of-00004.safetensors",
-    "visual.blocks.0.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.0.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.1.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.10.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.11.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.12.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.13.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.14.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.15.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.16.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.17.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.18.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.19.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.2.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.20.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.21.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.22.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.23.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.24.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.25.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.26.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.27.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.28.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.29.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.3.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.30.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.31.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.4.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.5.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.6.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.7.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.8.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.attn.proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.attn.proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.attn.qkv.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.attn.qkv.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.norm1.weight": "model-00001-of-00004.safetensors",
-    "visual.blocks.9.norm2.weight": "model-00001-of-00004.safetensors",
-    "visual.merger.ln_q.weight": "model-00001-of-00004.safetensors",
-    "visual.merger.mlp.0.bias": "model-00001-of-00004.safetensors",
-    "visual.merger.mlp.0.weight": "model-00001-of-00004.safetensors",
-    "visual.merger.mlp.2.bias": "model-00001-of-00004.safetensors",
-    "visual.merger.mlp.2.weight": "model-00001-of-00004.safetensors",
-    "visual.patch_embed.proj.weight": "model-00001-of-00004.safetensors"
-  }
-}

sft-clevr-1106-20epoch/checkpoint-2500/preprocessor_config.json DELETED Viewed

@@ -1,29 +0,0 @@
-{
-  "do_convert_rgb": true,
-  "do_normalize": true,
-  "do_rescale": true,
-  "do_resize": true,
-  "image_mean": [
-    0.48145466,
-    0.4578275,
-    0.40821073
-  ],
-  "image_processor_type": "Qwen2VLImageProcessor",
-  "image_std": [
-    0.26862954,
-    0.26130258,
-    0.27577711
-  ],
-  "max_pixels": 12845056,
-  "merge_size": 2,
-  "min_pixels": 3136,
-  "patch_size": 14,
-  "processor_class": "Qwen2_5_VLProcessor",
-  "resample": 3,
-  "rescale_factor": 0.00392156862745098,
-  "size": {
-    "longest_edge": 12845056,
-    "shortest_edge": 3136
-  },
-  "temporal_patch_size": 2
-}

sft-clevr-1106-20epoch/checkpoint-2500/special_tokens_map.json DELETED Viewed

@@ -1,31 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  }
-}

sft-clevr-1106-20epoch/checkpoint-2500/tokenizer.json DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:ba0c439f7be467bf47d12a7e6f9adc6116201056fc60c67f431c679b7c16afc8
-size 11422064

sft-clevr-1106-20epoch/checkpoint-2500/tokenizer_config.json DELETED Viewed

@@ -1,209 +0,0 @@
-{
-  "add_bos_token": false,
-  "add_prefix_space": false,
-  "added_tokens_decoder": {
-    "151643": {
-      "content": "<|endoftext|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151644": {
-      "content": "<|im_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151645": {
-      "content": "<|im_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151646": {
-      "content": "<|object_ref_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151647": {
-      "content": "<|object_ref_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151648": {
-      "content": "<|box_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151649": {
-      "content": "<|box_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151650": {
-      "content": "<|quad_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151651": {
-      "content": "<|quad_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151652": {
-      "content": "<|vision_start|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151653": {
-      "content": "<|vision_end|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151654": {
-      "content": "<|vision_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151655": {
-      "content": "<|image_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151656": {
-      "content": "<|video_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "151657": {
-      "content": "<tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151658": {
-      "content": "</tool_call>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151659": {
-      "content": "<|fim_prefix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151660": {
-      "content": "<|fim_middle|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151661": {
-      "content": "<|fim_suffix|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151662": {
-      "content": "<|fim_pad|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151663": {
-      "content": "<|repo_name|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    },
-    "151664": {
-      "content": "<|file_sep|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": false
-    }
-  },
-  "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>",
-    "<|object_ref_start|>",
-    "<|object_ref_end|>",
-    "<|box_start|>",
-    "<|box_end|>",
-    "<|quad_start|>",
-    "<|quad_end|>",
-    "<|vision_start|>",
-    "<|vision_end|>",
-    "<|vision_pad|>",
-    "<|image_pad|>",
-    "<|video_pad|>"
-  ],
-  "bos_token": null,
-  "chat_template": "{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n{% endif %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}<|im_end|>\n{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>\n{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}",
-  "clean_up_tokenization_spaces": false,
-  "eos_token": "<|im_end|>",
-  "errors": "replace",
-  "extra_special_tokens": {},
-  "model_max_length": 131072,
-  "pad_token": "<|endoftext|>",
-  "processor_class": "Qwen2_5_VLProcessor",
-  "split_special_tokens": false,
-  "tokenizer_class": "Qwen2Tokenizer",
-  "unk_token": null
-}

sft-clevr-1106-20epoch/checkpoint-2500/trainer_state.json DELETED Viewed

@@ -1,3033 +0,0 @@
-{
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 20.0,
-  "eval_steps": 500,
-  "global_step": 2500,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0,
-      "step": 0,
-      "train/loss": 2.271090269088745
-    },
-    {
-      "epoch": 0.08,
-      "grad_norm": 10.1875,
-      "learning_rate": 9.960000000000001e-06,
-      "loss": 0.6981,
-      "step": 10
-    },
-    {
-      "epoch": 0.08,
-      "step": 10,
-      "train/loss": 0.17855204641819
-    },
-    {
-      "epoch": 0.16,
-      "grad_norm": 4.125,
-      "learning_rate": 9.920000000000002e-06,
-      "loss": 0.1739,
-      "step": 20
-    },
-    {
-      "epoch": 0.16,
-      "step": 20,
-      "train/loss": 0.19313403964042664
-    },
-    {
-      "epoch": 0.24,
-      "grad_norm": 6.71875,
-      "learning_rate": 9.88e-06,
-      "loss": 0.1152,
-      "step": 30
-    },
-    {
-      "epoch": 0.24,
-      "step": 30,
-      "train/loss": 0.05154286324977875
-    },
-    {
-      "epoch": 0.32,
-      "grad_norm": 4.53125,
-      "learning_rate": 9.84e-06,
-      "loss": 0.0714,
-      "step": 40
-    },
-    {
-      "epoch": 0.32,
-      "step": 40,
-      "train/loss": 0.08214734494686127
-    },
-    {
-      "epoch": 0.4,
-      "grad_norm": 9.25,
-      "learning_rate": 9.800000000000001e-06,
-      "loss": 0.051,
-      "step": 50
-    },
-    {
-      "epoch": 0.4,
-      "step": 50,
-      "train/loss": 0.16986459493637085
-    },
-    {
-      "epoch": 0.48,
-      "grad_norm": 3.46875,
-      "learning_rate": 9.760000000000001e-06,
-      "loss": 0.0643,
-      "step": 60
-    },
-    {
-      "epoch": 0.48,
-      "step": 60,
-      "train/loss": 0.04494616761803627
-    },
-    {
-      "epoch": 0.56,
-      "grad_norm": 6.4375,
-      "learning_rate": 9.72e-06,
-      "loss": 0.0315,
-      "step": 70
-    },
-    {
-      "epoch": 0.56,
-      "step": 70,
-      "train/loss": 0.008576815016567707
-    },
-    {
-      "epoch": 0.64,
-      "grad_norm": 12.625,
-      "learning_rate": 9.68e-06,
-      "loss": 0.0293,
-      "step": 80
-    },
-    {
-      "epoch": 0.64,
-      "step": 80,
-      "train/loss": 0.05587716028094292
-    },
-    {
-      "epoch": 0.72,
-      "grad_norm": 4.25,
-      "learning_rate": 9.640000000000001e-06,
-      "loss": 0.0236,
-      "step": 90
-    },
-    {
-      "epoch": 0.72,
-      "step": 90,
-      "train/loss": 0.011845740489661694
-    },
-    {
-      "epoch": 0.8,
-      "grad_norm": 3.4375,
-      "learning_rate": 9.600000000000001e-06,
-      "loss": 0.0316,
-      "step": 100
-    },
-    {
-      "epoch": 0.8,
-      "step": 100,
-      "train/loss": 0.048473458737134933
-    },
-    {
-      "epoch": 0.88,
-      "grad_norm": 2.296875,
-      "learning_rate": 9.56e-06,
-      "loss": 0.0218,
-      "step": 110
-    },
-    {
-      "epoch": 0.88,
-      "step": 110,
-      "train/loss": 0.00870122853666544
-    },
-    {
-      "epoch": 0.96,
-      "grad_norm": 6.84375,
-      "learning_rate": 9.52e-06,
-      "loss": 0.0248,
-      "step": 120
-    },
-    {
-      "epoch": 0.96,
-      "step": 120,
-      "train/loss": 0.021771380677819252
-    },
-    {
-      "epoch": 1.04,
-      "grad_norm": 3.25,
-      "learning_rate": 9.48e-06,
-      "loss": 0.019,
-      "step": 130
-    },
-    {
-      "epoch": 1.04,
-      "step": 130,
-      "train/loss": 0.015329583548009396
-    },
-    {
-      "epoch": 1.12,
-      "grad_norm": 2.46875,
-      "learning_rate": 9.440000000000001e-06,
-      "loss": 0.0167,
-      "step": 140
-    },
-    {
-      "epoch": 1.12,
-      "step": 140,
-      "train/loss": 0.03584172576665878
-    },
-    {
-      "epoch": 1.2,
-      "grad_norm": 3.359375,
-      "learning_rate": 9.4e-06,
-      "loss": 0.0271,
-      "step": 150
-    },
-    {
-      "epoch": 1.2,
-      "step": 150,
-      "train/loss": 0.028160186484456062
-    },
-    {
-      "epoch": 1.28,
-      "grad_norm": 2.390625,
-      "learning_rate": 9.360000000000002e-06,
-      "loss": 0.0198,
-      "step": 160
-    },
-    {
-      "epoch": 1.28,
-      "step": 160,
-      "train/loss": 0.009682728908956051
-    },
-    {
-      "epoch": 1.3599999999999999,
-      "grad_norm": 1.9140625,
-      "learning_rate": 9.32e-06,
-      "loss": 0.0156,
-      "step": 170
-    },
-    {
-      "epoch": 1.3599999999999999,
-      "step": 170,
-      "train/loss": 0.001779431477189064
-    },
-    {
-      "epoch": 1.44,
-      "grad_norm": 9.8125,
-      "learning_rate": 9.280000000000001e-06,
-      "loss": 0.0172,
-      "step": 180
-    },
-    {
-      "epoch": 1.44,
-      "step": 180,
-      "train/loss": 0.024483440443873405
-    },
-    {
-      "epoch": 1.52,
-      "grad_norm": 2.453125,
-      "learning_rate": 9.240000000000001e-06,
-      "loss": 0.0119,
-      "step": 190
-    },
-    {
-      "epoch": 1.52,
-      "step": 190,
-      "train/loss": 0.0002734360168687999
-    },
-    {
-      "epoch": 1.6,
-      "grad_norm": 2.296875,
-      "learning_rate": 9.200000000000002e-06,
-      "loss": 0.012,
-      "step": 200
-    },
-    {
-      "epoch": 1.6,
-      "step": 200,
-      "train/loss": 0.008814319968223572
-    },
-    {
-      "epoch": 1.6800000000000002,
-      "grad_norm": 0.79296875,
-      "learning_rate": 9.16e-06,
-      "loss": 0.0108,
-      "step": 210
-    },
-    {
-      "epoch": 1.6800000000000002,
-      "step": 210,
-      "train/loss": 0.004692906513810158
-    },
-    {
-      "epoch": 1.76,
-      "grad_norm": 1.84375,
-      "learning_rate": 9.12e-06,
-      "loss": 0.0134,
-      "step": 220
-    },
-    {
-      "epoch": 1.76,
-      "step": 220,
-      "train/loss": 0.005740709602832794
-    },
-    {
-      "epoch": 1.8399999999999999,
-      "grad_norm": 3.625,
-      "learning_rate": 9.080000000000001e-06,
-      "loss": 0.0072,
-      "step": 230
-    },
-    {
-      "epoch": 1.8399999999999999,
-      "step": 230,
-      "train/loss": 0.0017300192266702652
-    },
-    {
-      "epoch": 1.92,
-      "grad_norm": 1.5234375,
-      "learning_rate": 9.040000000000002e-06,
-      "loss": 0.0068,
-      "step": 240
-    },
-    {
-      "epoch": 1.92,
-      "step": 240,
-      "train/loss": 0.01101005170494318
-    },
-    {
-      "epoch": 2.0,
-      "grad_norm": 1.4375,
-      "learning_rate": 9e-06,
-      "loss": 0.0128,
-      "step": 250
-    },
-    {
-      "epoch": 2.0,
-      "step": 250,
-      "train/loss": 0.003425895469263196
-    },
-    {
-      "epoch": 2.08,
-      "grad_norm": 2.6875,
-      "learning_rate": 8.96e-06,
-      "loss": 0.0074,
-      "step": 260
-    },
-    {
-      "epoch": 2.08,
-      "step": 260,
-      "train/loss": 0.026302414014935493
-    },
-    {
-      "epoch": 2.16,
-      "grad_norm": 1.2421875,
-      "learning_rate": 8.920000000000001e-06,
-      "loss": 0.0102,
-      "step": 270
-    },
-    {
-      "epoch": 2.16,
-      "step": 270,
-      "train/loss": 0.0006555073196068406
-    },
-    {
-      "epoch": 2.24,
-      "grad_norm": 1.6640625,
-      "learning_rate": 8.880000000000001e-06,
-      "loss": 0.009,
-      "step": 280
-    },
-    {
-      "epoch": 2.24,
-      "step": 280,
-      "train/loss": 0.005413789767771959
-    },
-    {
-      "epoch": 2.32,
-      "grad_norm": 1.171875,
-      "learning_rate": 8.84e-06,
-      "loss": 0.0059,
-      "step": 290
-    },
-    {
-      "epoch": 2.32,
-      "step": 290,
-      "train/loss": 0.016869384795427322
-    },
-    {
-      "epoch": 2.4,
-      "grad_norm": 2.5625,
-      "learning_rate": 8.8e-06,
-      "loss": 0.0148,
-      "step": 300
-    },
-    {
-      "epoch": 2.4,
-      "step": 300,
-      "train/loss": 5.8237197663402185e-05
-    },
-    {
-      "epoch": 2.48,
-      "grad_norm": 1.296875,
-      "learning_rate": 8.76e-06,
-      "loss": 0.0109,
-      "step": 310
-    },
-    {
-      "epoch": 2.48,
-      "step": 310,
-      "train/loss": 0.0001535036863060668
-    },
-    {
-      "epoch": 2.56,
-      "grad_norm": 3.875,
-      "learning_rate": 8.720000000000001e-06,
-      "loss": 0.0042,
-      "step": 320
-    },
-    {
-      "epoch": 2.56,
-      "step": 320,
-      "train/loss": 0.0072115445509552956
-    },
-    {
-      "epoch": 2.64,
-      "grad_norm": 1.015625,
-      "learning_rate": 8.68e-06,
-      "loss": 0.0068,
-      "step": 330
-    },
-    {
-      "epoch": 2.64,
-      "step": 330,
-      "train/loss": 0.004820008762180805
-    },
-    {
-      "epoch": 2.7199999999999998,
-      "grad_norm": 6.34375,
-      "learning_rate": 8.64e-06,
-      "loss": 0.0132,
-      "step": 340
-    },
-    {
-      "epoch": 2.7199999999999998,
-      "step": 340,
-      "train/loss": 0.003863546997308731
-    },
-    {
-      "epoch": 2.8,
-      "grad_norm": 1.65625,
-      "learning_rate": 8.6e-06,
-      "loss": 0.0037,
-      "step": 350
-    },
-    {
-      "epoch": 2.8,
-      "step": 350,
-      "train/loss": 0.000956513627897948
-    },
-    {
-      "epoch": 2.88,
-      "grad_norm": 0.224609375,
-      "learning_rate": 8.560000000000001e-06,
-      "loss": 0.0018,
-      "step": 360
-    },
-    {
-      "epoch": 2.88,
-      "step": 360,
-      "train/loss": 0.0001041244322550483
-    },
-    {
-      "epoch": 2.96,
-      "grad_norm": 1.2734375,
-      "learning_rate": 8.52e-06,
-      "loss": 0.0089,
-      "step": 370
-    },
-    {
-      "epoch": 2.96,
-      "step": 370,
-      "train/loss": 0.014187252148985863
-    },
-    {
-      "epoch": 3.04,
-      "grad_norm": 0.76953125,
-      "learning_rate": 8.48e-06,
-      "loss": 0.0053,
-      "step": 380
-    },
-    {
-      "epoch": 3.04,
-      "step": 380,
-      "train/loss": 0.00017445831326767802
-    },
-    {
-      "epoch": 3.12,
-      "grad_norm": 0.4140625,
-      "learning_rate": 8.44e-06,
-      "loss": 0.0038,
-      "step": 390
-    },
-    {
-      "epoch": 3.12,
-      "step": 390,
-      "train/loss": 0.0015271755401045084
-    },
-    {
-      "epoch": 3.2,
-      "grad_norm": 1.2421875,
-      "learning_rate": 8.400000000000001e-06,
-      "loss": 0.0046,
-      "step": 400
-    },
-    {
-      "epoch": 3.2,
-      "step": 400,
-      "train/loss": 0.0023774108849465847
-    },
-    {
-      "epoch": 3.2800000000000002,
-      "grad_norm": 0.54296875,
-      "learning_rate": 8.36e-06,
-      "loss": 0.0053,
-      "step": 410
-    },
-    {
-      "epoch": 3.2800000000000002,
-      "step": 410,
-      "train/loss": 0.0044172233901917934
-    },
-    {
-      "epoch": 3.36,
-      "grad_norm": 0.365234375,
-      "learning_rate": 8.32e-06,
-      "loss": 0.0045,
-      "step": 420
-    },
-    {
-      "epoch": 3.36,
-      "step": 420,
-      "train/loss": 0.0023545583244413137
-    },
-    {
-      "epoch": 3.44,
-      "grad_norm": 0.28515625,
-      "learning_rate": 8.28e-06,
-      "loss": 0.0043,
-      "step": 430
-    },
-    {
-      "epoch": 3.44,
-      "step": 430,
-      "train/loss": 3.492781615932472e-05
-    },
-    {
-      "epoch": 3.52,
-      "grad_norm": 0.95703125,
-      "learning_rate": 8.24e-06,
-      "loss": 0.002,
-      "step": 440
-    },
-    {
-      "epoch": 3.52,
-      "step": 440,
-      "train/loss": 1.694618731562514e-05
-    },
-    {
-      "epoch": 3.6,
-      "grad_norm": 0.5078125,
-      "learning_rate": 8.2e-06,
-      "loss": 0.0025,
-      "step": 450
-    },
-    {
-      "epoch": 3.6,
-      "step": 450,
-      "train/loss": 1.0210129403276369e-05
-    },
-    {
-      "epoch": 3.68,
-      "grad_norm": 1.6640625,
-      "learning_rate": 8.16e-06,
-      "loss": 0.0032,
-      "step": 460
-    },
-    {
-      "epoch": 3.68,
-      "step": 460,
-      "train/loss": 4.278627966414206e-05
-    },
-    {
-      "epoch": 3.76,
-      "grad_norm": 0.0966796875,
-      "learning_rate": 8.120000000000002e-06,
-      "loss": 0.0019,
-      "step": 470
-    },
-    {
-      "epoch": 3.76,
-      "step": 470,
-      "train/loss": 1.557427276566159e-05
-    },
-    {
-      "epoch": 3.84,
-      "grad_norm": 2.078125,
-      "learning_rate": 8.08e-06,
-      "loss": 0.0025,
-      "step": 480
-    },
-    {
-      "epoch": 3.84,
-      "step": 480,
-      "train/loss": 0.0007325322949327528
-    },
-    {
-      "epoch": 3.92,
-      "grad_norm": 0.126953125,
-      "learning_rate": 8.040000000000001e-06,
-      "loss": 0.0028,
-      "step": 490
-    },
-    {
-      "epoch": 3.92,
-      "step": 490,
-      "train/loss": 4.8548095946898684e-05
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 0.59765625,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 0.0028,
-      "step": 500
-    },
-    {
-      "epoch": 4.0,
-      "step": 500,
-      "train/loss": 0.0001273242523893714
-    },
-    {
-      "epoch": 4.08,
-      "grad_norm": 0.8046875,
-      "learning_rate": 7.960000000000002e-06,
-      "loss": 0.0009,
-      "step": 510
-    },
-    {
-      "epoch": 4.08,
-      "step": 510,
-      "train/loss": 0.004483949858695269
-    },
-    {
-      "epoch": 4.16,
-      "grad_norm": 0.3125,
-      "learning_rate": 7.92e-06,
-      "loss": 0.0011,
-      "step": 520
-    },
-    {
-      "epoch": 4.16,
-      "step": 520,
-      "train/loss": 0.002184318844228983
-    },
-    {
-      "epoch": 4.24,
-      "grad_norm": 1.8671875,
-      "learning_rate": 7.88e-06,
-      "loss": 0.0016,
-      "step": 530
-    },
-    {
-      "epoch": 4.24,
-      "step": 530,
-      "train/loss": 5.333217814040836e-06
-    },
-    {
-      "epoch": 4.32,
-      "grad_norm": 0.7734375,
-      "learning_rate": 7.840000000000001e-06,
-      "loss": 0.0013,
-      "step": 540
-    },
-    {
-      "epoch": 4.32,
-      "step": 540,
-      "train/loss": 2.3022841560305096e-05
-    },
-    {
-      "epoch": 4.4,
-      "grad_norm": 0.0235595703125,
-      "learning_rate": 7.800000000000002e-06,
-      "loss": 0.0005,
-      "step": 550
-    },
-    {
-      "epoch": 4.4,
-      "step": 550,
-      "train/loss": 1.1525683476065751e-05
-    },
-    {
-      "epoch": 4.48,
-      "grad_norm": 0.09033203125,
-      "learning_rate": 7.76e-06,
-      "loss": 0.0009,
-      "step": 560
-    },
-    {
-      "epoch": 4.48,
-      "step": 560,
-      "train/loss": 0.0002542025758884847
-    },
-    {
-      "epoch": 4.5600000000000005,
-      "grad_norm": 0.02392578125,
-      "learning_rate": 7.72e-06,
-      "loss": 0.0009,
-      "step": 570
-    },
-    {
-      "epoch": 4.5600000000000005,
-      "step": 570,
-      "train/loss": 8.229686500271782e-06
-    },
-    {
-      "epoch": 4.64,
-      "grad_norm": 0.0164794921875,
-      "learning_rate": 7.680000000000001e-06,
-      "loss": 0.0006,
-      "step": 580
-    },
-    {
-      "epoch": 4.64,
-      "step": 580,
-      "train/loss": 0.0002689993707463145
-    },
-    {
-      "epoch": 4.72,
-      "grad_norm": 0.0194091796875,
-      "learning_rate": 7.640000000000001e-06,
-      "loss": 0.0002,
-      "step": 590
-    },
-    {
-      "epoch": 4.72,
-      "step": 590,
-      "train/loss": 6.554759693244705e-06
-    },
-    {
-      "epoch": 4.8,
-      "grad_norm": 0.0079345703125,
-      "learning_rate": 7.600000000000001e-06,
-      "loss": 0.0012,
-      "step": 600
-    },
-    {
-      "epoch": 4.8,
-      "step": 600,
-      "train/loss": 3.557118907338008e-05
-    },
-    {
-      "epoch": 4.88,
-      "grad_norm": 0.90234375,
-      "learning_rate": 7.5600000000000005e-06,
-      "loss": 0.0006,
-      "step": 610
-    },
-    {
-      "epoch": 4.88,
-      "step": 610,
-      "train/loss": 0.00013326486805453897
-    },
-    {
-      "epoch": 4.96,
-      "grad_norm": 0.1943359375,
-      "learning_rate": 7.520000000000001e-06,
-      "loss": 0.0013,
-      "step": 620
-    },
-    {
-      "epoch": 4.96,
-      "step": 620,
-      "train/loss": 0.00026195202372036874
-    },
-    {
-      "epoch": 5.04,
-      "grad_norm": 0.2109375,
-      "learning_rate": 7.48e-06,
-      "loss": 0.0007,
-      "step": 630
-    },
-    {
-      "epoch": 5.04,
-      "step": 630,
-      "train/loss": 4.716463081422262e-06
-    },
-    {
-      "epoch": 5.12,
-      "grad_norm": 0.73046875,
-      "learning_rate": 7.440000000000001e-06,
-      "loss": 0.001,
-      "step": 640
-    },
-    {
-      "epoch": 5.12,
-      "step": 640,
-      "train/loss": 0.0009888594504445791
-    },
-    {
-      "epoch": 5.2,
-      "grad_norm": 0.38671875,
-      "learning_rate": 7.4e-06,
-      "loss": 0.0006,
-      "step": 650
-    },
-    {
-      "epoch": 5.2,
-      "step": 650,
-      "train/loss": 2.9275020096974913e-06
-    },
-    {
-      "epoch": 5.28,
-      "grad_norm": 0.9921875,
-      "learning_rate": 7.360000000000001e-06,
-      "loss": 0.0013,
-      "step": 660
-    },
-    {
-      "epoch": 5.28,
-      "step": 660,
-      "train/loss": 0.0005347562255337834
-    },
-    {
-      "epoch": 5.36,
-      "grad_norm": 0.27734375,
-      "learning_rate": 7.32e-06,
-      "loss": 0.0006,
-      "step": 670
-    },
-    {
-      "epoch": 5.36,
-      "step": 670,
-      "train/loss": 5.418706132331863e-05
-    },
-    {
-      "epoch": 5.44,
-      "grad_norm": 0.00543212890625,
-      "learning_rate": 7.280000000000001e-06,
-      "loss": 0.0005,
-      "step": 680
-    },
-    {
-      "epoch": 5.44,
-      "step": 680,
-      "train/loss": 0.00025511899730190635
-    },
-    {
-      "epoch": 5.52,
-      "grad_norm": 0.451171875,
-      "learning_rate": 7.24e-06,
-      "loss": 0.0003,
-      "step": 690
-    },
-    {
-      "epoch": 5.52,
-      "step": 690,
-      "train/loss": 6.210683750396129e-06
-    },
-    {
-      "epoch": 5.6,
-      "grad_norm": 0.21875,
-      "learning_rate": 7.2000000000000005e-06,
-      "loss": 0.0007,
-      "step": 700
-    },
-    {
-      "epoch": 5.6,
-      "step": 700,
-      "train/loss": 0.0006609788397327065
-    },
-    {
-      "epoch": 5.68,
-      "grad_norm": 0.0020599365234375,
-      "learning_rate": 7.16e-06,
-      "loss": 0.0005,
-      "step": 710
-    },
-    {
-      "epoch": 5.68,
-      "step": 710,
-      "train/loss": 2.6659903596737422e-05
-    },
-    {
-      "epoch": 5.76,
-      "grad_norm": 0.224609375,
-      "learning_rate": 7.1200000000000004e-06,
-      "loss": 0.0002,
-      "step": 720
-    },
-    {
-      "epoch": 5.76,
-      "step": 720,
-      "train/loss": 7.112800813047215e-05
-    },
-    {
-      "epoch": 5.84,
-      "grad_norm": 0.490234375,
-      "learning_rate": 7.08e-06,
-      "loss": 0.0005,
-      "step": 730
-    },
-    {
-      "epoch": 5.84,
-      "step": 730,
-      "train/loss": 8.572215847379994e-06
-    },
-    {
-      "epoch": 5.92,
-      "grad_norm": 0.00921630859375,
-      "learning_rate": 7.04e-06,
-      "loss": 0.0002,
-      "step": 740
-    },
-    {
-      "epoch": 5.92,
-      "step": 740,
-      "train/loss": 0.0024293933529406786
-    },
-    {
-      "epoch": 6.0,
-      "grad_norm": 0.0693359375,
-      "learning_rate": 7e-06,
-      "loss": 0.0003,
-      "step": 750
-    },
-    {
-      "epoch": 6.0,
-      "step": 750,
-      "train/loss": 1.0925517017312814e-05
-    },
-    {
-      "epoch": 6.08,
-      "grad_norm": 0.0079345703125,
-      "learning_rate": 6.96e-06,
-      "loss": 0.0002,
-      "step": 760
-    },
-    {
-      "epoch": 6.08,
-      "step": 760,
-      "train/loss": 6.2842104853189085e-06
-    },
-    {
-      "epoch": 6.16,
-      "grad_norm": 0.091796875,
-      "learning_rate": 6.92e-06,
-      "loss": 0.0005,
-      "step": 770
-    },
-    {
-      "epoch": 6.16,
-      "step": 770,
-      "train/loss": 1.9141054508509114e-05
-    },
-    {
-      "epoch": 6.24,
-      "grad_norm": 0.01165771484375,
-      "learning_rate": 6.88e-06,
-      "loss": 0.0002,
-      "step": 780
-    },
-    {
-      "epoch": 6.24,
-      "step": 780,
-      "train/loss": 8.359744242625311e-06
-    },
-    {
-      "epoch": 6.32,
-      "grad_norm": 0.0216064453125,
-      "learning_rate": 6.8400000000000014e-06,
-      "loss": 0.0001,
-      "step": 790
-    },
-    {
-      "epoch": 6.32,
-      "step": 790,
-      "train/loss": 2.0496892830124125e-05
-    },
-    {
-      "epoch": 6.4,
-      "grad_norm": 0.01904296875,
-      "learning_rate": 6.800000000000001e-06,
-      "loss": 0.0001,
-      "step": 800
-    },
-    {
-      "epoch": 6.4,
-      "step": 800,
-      "train/loss": 5.762509317719378e-06
-    },
-    {
-      "epoch": 6.48,
-      "grad_norm": 0.00165557861328125,
-      "learning_rate": 6.760000000000001e-06,
-      "loss": 0.0002,
-      "step": 810
-    },
-    {
-      "epoch": 6.48,
-      "step": 810,
-      "train/loss": 2.0831541405641474e-05
-    },
-    {
-      "epoch": 6.5600000000000005,
-      "grad_norm": 0.19140625,
-      "learning_rate": 6.720000000000001e-06,
-      "loss": 0.001,
-      "step": 820
-    },
-    {
-      "epoch": 6.5600000000000005,
-      "step": 820,
-      "train/loss": 0.0008487328886985779
-    },
-    {
-      "epoch": 6.64,
-      "grad_norm": 0.01806640625,
-      "learning_rate": 6.680000000000001e-06,
-      "loss": 0.0,
-      "step": 830
-    },
-    {
-      "epoch": 6.64,
-      "step": 830,
-      "train/loss": 0.0021144477650523186
-    },
-    {
-      "epoch": 6.72,
-      "grad_norm": 0.09423828125,
-      "learning_rate": 6.640000000000001e-06,
-      "loss": 0.0001,
-      "step": 840
-    },
-    {
-      "epoch": 6.72,
-      "step": 840,
-      "train/loss": 1.730973417579662e-05
-    },
-    {
-      "epoch": 6.8,
-      "grad_norm": 0.00909423828125,
-      "learning_rate": 6.600000000000001e-06,
-      "loss": 0.0004,
-      "step": 850
-    },
-    {
-      "epoch": 6.8,
-      "step": 850,
-      "train/loss": 1.7513702914584428e-06
-    },
-    {
-      "epoch": 6.88,
-      "grad_norm": 0.00787353515625,
-      "learning_rate": 6.560000000000001e-06,
-      "loss": 0.0003,
-      "step": 860
-    },
-    {
-      "epoch": 6.88,
-      "step": 860,
-      "train/loss": 0.0036166643258184195
-    },
-    {
-      "epoch": 6.96,
-      "grad_norm": 0.00238037109375,
-      "learning_rate": 6.520000000000001e-06,
-      "loss": 0.0004,
-      "step": 870
-    },
-    {
-      "epoch": 6.96,
-      "step": 870,
-      "train/loss": 1.9699104996107053e-06
-    },
-    {
-      "epoch": 7.04,
-      "grad_norm": 0.0185546875,
-      "learning_rate": 6.480000000000001e-06,
-      "loss": 0.0,
-      "step": 880
-    },
-    {
-      "epoch": 7.04,
-      "step": 880,
-      "train/loss": 4.418452135723783e-06
-    },
-    {
-      "epoch": 7.12,
-      "grad_norm": 0.0159912109375,
-      "learning_rate": 6.440000000000001e-06,
-      "loss": 0.0,
-      "step": 890
-    },
-    {
-      "epoch": 7.12,
-      "step": 890,
-      "train/loss": 7.8619332271046e-06
-    },
-    {
-      "epoch": 7.2,
-      "grad_norm": 0.01361083984375,
-      "learning_rate": 6.4000000000000006e-06,
-      "loss": 0.0001,
-      "step": 900
-    },
-    {
-      "epoch": 7.2,
-      "step": 900,
-      "train/loss": 1.224165316671133e-05
-    },
-    {
-      "epoch": 7.28,
-      "grad_norm": 0.2158203125,
-      "learning_rate": 6.360000000000001e-06,
-      "loss": 0.0001,
-      "step": 910
-    },
-    {
-      "epoch": 7.28,
-      "step": 910,
-      "train/loss": 1.74042031630961e-06
-    },
-    {
-      "epoch": 7.36,
-      "grad_norm": 0.00421142578125,
-      "learning_rate": 6.3200000000000005e-06,
-      "loss": 0.0,
-      "step": 920
-    },
-    {
-      "epoch": 7.36,
-      "step": 920,
-      "train/loss": 1.9013602923223516e-06
-    },
-    {
-      "epoch": 7.44,
-      "grad_norm": 0.005889892578125,
-      "learning_rate": 6.280000000000001e-06,
-      "loss": 0.0002,
-      "step": 930
-    },
-    {
-      "epoch": 7.44,
-      "step": 930,
-      "train/loss": 1.5262668966897763e-05
-    },
-    {
-      "epoch": 7.52,
-      "grad_norm": 0.01470947265625,
-      "learning_rate": 6.24e-06,
-      "loss": 0.0001,
-      "step": 940
-    },
-    {
-      "epoch": 7.52,
-      "step": 940,
-      "train/loss": 1.0542215932218824e-05
-    },
-    {
-      "epoch": 7.6,
-      "grad_norm": 0.00921630859375,
-      "learning_rate": 6.200000000000001e-06,
-      "loss": 0.0001,
-      "step": 950
-    },
-    {
-      "epoch": 7.6,
-      "step": 950,
-      "train/loss": 1.299941595789278e-05
-    },
-    {
-      "epoch": 7.68,
-      "grad_norm": 0.0130615234375,
-      "learning_rate": 6.16e-06,
-      "loss": 0.0003,
-      "step": 960
-    },
-    {
-      "epoch": 7.68,
-      "step": 960,
-      "train/loss": 8.325143426191062e-06
-    },
-    {
-      "epoch": 7.76,
-      "grad_norm": 0.08984375,
-      "learning_rate": 6.120000000000001e-06,
-      "loss": 0.0011,
-      "step": 970
-    },
-    {
-      "epoch": 7.76,
-      "step": 970,
-      "train/loss": 9.192517609335482e-06
-    },
-    {
-      "epoch": 7.84,
-      "grad_norm": 0.0029449462890625,
-      "learning_rate": 6.08e-06,
-      "loss": 0.0001,
-      "step": 980
-    },
-    {
-      "epoch": 7.84,
-      "step": 980,
-      "train/loss": 1.614072607480921e-05
-    },
-    {
-      "epoch": 7.92,
-      "grad_norm": 0.0093994140625,
-      "learning_rate": 6.040000000000001e-06,
-      "loss": 0.0,
-      "step": 990
-    },
-    {
-      "epoch": 7.92,
-      "step": 990,
-      "train/loss": 3.7631343730026856e-05
-    },
-    {
-      "epoch": 8.0,
-      "grad_norm": 0.01611328125,
-      "learning_rate": 6e-06,
-      "loss": 0.0,
-      "step": 1000
-    },
-    {
-      "epoch": 8.0,
-      "step": 1000,
-      "train/loss": 1.4566069694410544e-05
-    },
-    {
-      "epoch": 8.08,
-      "grad_norm": 0.0245361328125,
-      "learning_rate": 5.9600000000000005e-06,
-      "loss": 0.0,
-      "step": 1010
-    },
-    {
-      "epoch": 8.08,
-      "step": 1010,
-      "train/loss": 1.8284432371729054e-05
-    },
-    {
-      "epoch": 8.16,
-      "grad_norm": 0.07275390625,
-      "learning_rate": 5.92e-06,
-      "loss": 0.0,
-      "step": 1020
-    },
-    {
-      "epoch": 8.16,
-      "step": 1020,
-      "train/loss": 1.2149367876190809e-06
-    },
-    {
-      "epoch": 8.24,
-      "grad_norm": 0.0021514892578125,
-      "learning_rate": 5.8800000000000005e-06,
-      "loss": 0.0,
-      "step": 1030
-    },
-    {
-      "epoch": 8.24,
-      "step": 1030,
-      "train/loss": 1.8189823094871826e-05
-    },
-    {
-      "epoch": 8.32,
-      "grad_norm": 0.01190185546875,
-      "learning_rate": 5.84e-06,
-      "loss": 0.0005,
-      "step": 1040
-    },
-    {
-      "epoch": 8.32,
-      "step": 1040,
-      "train/loss": 3.7805109514010837e-06
-    },
-    {
-      "epoch": 8.4,
-      "grad_norm": 0.00323486328125,
-      "learning_rate": 5.8e-06,
-      "loss": 0.0,
-      "step": 1050
-    },
-    {
-      "epoch": 8.4,
-      "step": 1050,
-      "train/loss": 1.2520137715910096e-05
-    },
-    {
-      "epoch": 8.48,
-      "grad_norm": 0.0034637451171875,
-      "learning_rate": 5.76e-06,
-      "loss": 0.0002,
-      "step": 1060
-    },
-    {
-      "epoch": 8.48,
-      "step": 1060,
-      "train/loss": 4.325816007622052e-06
-    },
-    {
-      "epoch": 8.56,
-      "grad_norm": 0.03759765625,
-      "learning_rate": 5.72e-06,
-      "loss": 0.0002,
-      "step": 1070
-    },
-    {
-      "epoch": 8.56,
-      "step": 1070,
-      "train/loss": 1.5546473832728225e-06
-    },
-    {
-      "epoch": 8.64,
-      "grad_norm": 0.0108642578125,
-      "learning_rate": 5.68e-06,
-      "loss": 0.0001,
-      "step": 1080
-    },
-    {
-      "epoch": 8.64,
-      "step": 1080,
-      "train/loss": 8.575192623538896e-06
-    },
-    {
-      "epoch": 8.72,
-      "grad_norm": 0.002593994140625,
-      "learning_rate": 5.64e-06,
-      "loss": 0.0,
-      "step": 1090
-    },
-    {
-      "epoch": 8.72,
-      "step": 1090,
-      "train/loss": 3.1708948426967254e-06
-    },
-    {
-      "epoch": 8.8,
-      "grad_norm": 0.002471923828125,
-      "learning_rate": 5.600000000000001e-06,
-      "loss": 0.0003,
-      "step": 1100
-    },
-    {
-      "epoch": 8.8,
-      "step": 1100,
-      "train/loss": 3.5236623716627946e-06
-    },
-    {
-      "epoch": 8.88,
-      "grad_norm": 0.00616455078125,
-      "learning_rate": 5.560000000000001e-06,
-      "loss": 0.0001,
-      "step": 1110
-    },
-    {
-      "epoch": 8.88,
-      "step": 1110,
-      "train/loss": 8.851275197230279e-07
-    },
-    {
-      "epoch": 8.96,
-      "grad_norm": 0.0020599365234375,
-      "learning_rate": 5.5200000000000005e-06,
-      "loss": 0.0001,
-      "step": 1120
-    },
-    {
-      "epoch": 8.96,
-      "step": 1120,
-      "train/loss": 1.1822639862657525e-05
-    },
-    {
-      "epoch": 9.04,
-      "grad_norm": 0.0030059814453125,
-      "learning_rate": 5.480000000000001e-06,
-      "loss": 0.0002,
-      "step": 1130
-    },
-    {
-      "epoch": 9.04,
-      "step": 1130,
-      "train/loss": 6.532348834298318e-06
-    },
-    {
-      "epoch": 9.12,
-      "grad_norm": 0.005523681640625,
-      "learning_rate": 5.4400000000000004e-06,
-      "loss": 0.0,
-      "step": 1140
-    },
-    {
-      "epoch": 9.12,
-      "step": 1140,
-      "train/loss": 1.3127173588145524e-05
-    },
-    {
-      "epoch": 9.2,
-      "grad_norm": 0.00994873046875,
-      "learning_rate": 5.400000000000001e-06,
-      "loss": 0.0001,
-      "step": 1150
-    },
-    {
-      "epoch": 9.2,
-      "step": 1150,
-      "train/loss": 4.936652203468839e-06
-    },
-    {
-      "epoch": 9.28,
-      "grad_norm": 0.00124359130859375,
-      "learning_rate": 5.36e-06,
-      "loss": 0.0002,
-      "step": 1160
-    },
-    {
-      "epoch": 9.28,
-      "step": 1160,
-      "train/loss": 2.0295181002438767e-06
-    },
-    {
-      "epoch": 9.36,
-      "grad_norm": 0.01446533203125,
-      "learning_rate": 5.320000000000001e-06,
-      "loss": 0.0001,
-      "step": 1170
-    },
-    {
-      "epoch": 9.36,
-      "step": 1170,
-      "train/loss": 5.721064553654287e-06
-    },
-    {
-      "epoch": 9.44,
-      "grad_norm": 0.0029296875,
-      "learning_rate": 5.28e-06,
-      "loss": 0.0,
-      "step": 1180
-    },
-    {
-      "epoch": 9.44,
-      "step": 1180,
-      "train/loss": 0.00014855993504170328
-    },
-    {
-      "epoch": 9.52,
-      "grad_norm": 0.0234375,
-      "learning_rate": 5.240000000000001e-06,
-      "loss": 0.0001,
-      "step": 1190
-    },
-    {
-      "epoch": 9.52,
-      "step": 1190,
-      "train/loss": 1.1649264706647955e-05
-    },
-    {
-      "epoch": 9.6,
-      "grad_norm": 0.000957489013671875,
-      "learning_rate": 5.2e-06,
-      "loss": 0.0001,
-      "step": 1200
-    },
-    {
-      "epoch": 9.6,
-      "step": 1200,
-      "train/loss": 5.042222710471833e-06
-    },
-    {
-      "epoch": 9.68,
-      "grad_norm": 0.001708984375,
-      "learning_rate": 5.1600000000000006e-06,
-      "loss": 0.0,
-      "step": 1210
-    },
-    {
-      "epoch": 9.68,
-      "step": 1210,
-      "train/loss": 1.6043163668655325e-06
-    },
-    {
-      "epoch": 9.76,
-      "grad_norm": 0.0021514892578125,
-      "learning_rate": 5.12e-06,
-      "loss": 0.0,
-      "step": 1220
-    },
-    {
-      "epoch": 9.76,
-      "step": 1220,
-      "train/loss": 1.9052860125157167e-06
-    },
-    {
-      "epoch": 9.84,
-      "grad_norm": 0.0303955078125,
-      "learning_rate": 5.0800000000000005e-06,
-      "loss": 0.0,
-      "step": 1230
-    },
-    {
-      "epoch": 9.84,
-      "step": 1230,
-      "train/loss": 1.1143329174956307e-05
-    },
-    {
-      "epoch": 9.92,
-      "grad_norm": 0.062255859375,
-      "learning_rate": 5.04e-06,
-      "loss": 0.0,
-      "step": 1240
-    },
-    {
-      "epoch": 9.92,
-      "step": 1240,
-      "train/loss": 4.859384262090316e-06
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.0390625,
-      "learning_rate": 5e-06,
-      "loss": 0.0,
-      "step": 1250
-    },
-    {
-      "epoch": 10.0,
-      "step": 1250,
-      "train/loss": 1.2310964848438744e-05
-    },
-    {
-      "epoch": 10.08,
-      "grad_norm": 0.0096435546875,
-      "learning_rate": 4.960000000000001e-06,
-      "loss": 0.0,
-      "step": 1260
-    },
-    {
-      "epoch": 10.08,
-      "step": 1260,
-      "train/loss": 3.4872434753197012e-06
-    },
-    {
-      "epoch": 10.16,
-      "grad_norm": 0.007354736328125,
-      "learning_rate": 4.92e-06,
-      "loss": 0.0,
-      "step": 1270
-    },
-    {
-      "epoch": 10.16,
-      "step": 1270,
-      "train/loss": 2.7374915589462034e-05
-    },
-    {
-      "epoch": 10.24,
-      "grad_norm": 0.0050048828125,
-      "learning_rate": 4.880000000000001e-06,
-      "loss": 0.0,
-      "step": 1280
-    },
-    {
-      "epoch": 10.24,
-      "step": 1280,
-      "train/loss": 9.079674896383949e-07
-    },
-    {
-      "epoch": 10.32,
-      "grad_norm": 0.0167236328125,
-      "learning_rate": 4.84e-06,
-      "loss": 0.0,
-      "step": 1290
-    },
-    {
-      "epoch": 10.32,
-      "step": 1290,
-      "train/loss": 6.887464405735955e-05
-    },
-    {
-      "epoch": 10.4,
-      "grad_norm": 0.0030059814453125,
-      "learning_rate": 4.800000000000001e-06,
-      "loss": 0.0,
-      "step": 1300
-    },
-    {
-      "epoch": 10.4,
-      "step": 1300,
-      "train/loss": 4.588063347910065e-06
-    },
-    {
-      "epoch": 10.48,
-      "grad_norm": 0.0810546875,
-      "learning_rate": 4.76e-06,
-      "loss": 0.0,
-      "step": 1310
-    },
-    {
-      "epoch": 10.48,
-      "step": 1310,
-      "train/loss": 3.869086867780425e-06
-    },
-    {
-      "epoch": 10.56,
-      "grad_norm": 0.00494384765625,
-      "learning_rate": 4.7200000000000005e-06,
-      "loss": 0.0002,
-      "step": 1320
-    },
-    {
-      "epoch": 10.56,
-      "step": 1320,
-      "train/loss": 7.87773046795337e-07
-    },
-    {
-      "epoch": 10.64,
-      "grad_norm": 0.01495361328125,
-      "learning_rate": 4.680000000000001e-06,
-      "loss": 0.0,
-      "step": 1330
-    },
-    {
-      "epoch": 10.64,
-      "step": 1330,
-      "train/loss": 2.0062170733581297e-05
-    },
-    {
-      "epoch": 10.72,
-      "grad_norm": 0.00360107421875,
-      "learning_rate": 4.6400000000000005e-06,
-      "loss": 0.0,
-      "step": 1340
-    },
-    {
-      "epoch": 10.72,
-      "step": 1340,
-      "train/loss": 3.143127059956896e-06
-    },
-    {
-      "epoch": 10.8,
-      "grad_norm": 0.003448486328125,
-      "learning_rate": 4.600000000000001e-06,
-      "loss": 0.0,
-      "step": 1350
-    },
-    {
-      "epoch": 10.8,
-      "step": 1350,
-      "train/loss": 6.601278528250987e-06
-    },
-    {
-      "epoch": 10.88,
-      "grad_norm": 0.003021240234375,
-      "learning_rate": 4.56e-06,
-      "loss": 0.0003,
-      "step": 1360
-    },
-    {
-      "epoch": 10.88,
-      "step": 1360,
-      "train/loss": 4.25061580244801e-06
-    },
-    {
-      "epoch": 10.96,
-      "grad_norm": 0.00433349609375,
-      "learning_rate": 4.520000000000001e-06,
-      "loss": 0.0001,
-      "step": 1370
-    },
-    {
-      "epoch": 10.96,
-      "step": 1370,
-      "train/loss": 2.1255189039948164e-06
-    },
-    {
-      "epoch": 11.04,
-      "grad_norm": 0.06005859375,
-      "learning_rate": 4.48e-06,
-      "loss": 0.0,
-      "step": 1380
-    },
-    {
-      "epoch": 11.04,
-      "step": 1380,
-      "train/loss": 2.866860768335755e-06
-    },
-    {
-      "epoch": 11.12,
-      "grad_norm": 0.0167236328125,
-      "learning_rate": 4.440000000000001e-06,
-      "loss": 0.0,
-      "step": 1390
-    },
-    {
-      "epoch": 11.12,
-      "step": 1390,
-      "train/loss": 1.4920918829375296e-06
-    },
-    {
-      "epoch": 11.2,
-      "grad_norm": 0.185546875,
-      "learning_rate": 4.4e-06,
-      "loss": 0.0004,
-      "step": 1400
-    },
-    {
-      "epoch": 11.2,
-      "step": 1400,
-      "train/loss": 1.3183645251046983e-06
-    },
-    {
-      "epoch": 11.28,
-      "grad_norm": 0.0244140625,
-      "learning_rate": 4.360000000000001e-06,
-      "loss": 0.0,
-      "step": 1410
-    },
-    {
-      "epoch": 11.28,
-      "step": 1410,
-      "train/loss": 2.6989214347850066e-06
-    },
-    {
-      "epoch": 11.36,
-      "grad_norm": 0.0087890625,
-      "learning_rate": 4.32e-06,
-      "loss": 0.0004,
-      "step": 1420
-    },
-    {
-      "epoch": 11.36,
-      "step": 1420,
-      "train/loss": 2.1954119802103378e-06
-    },
-    {
-      "epoch": 11.44,
-      "grad_norm": 0.109375,
-      "learning_rate": 4.2800000000000005e-06,
-      "loss": 0.0,
-      "step": 1430
-    },
-    {
-      "epoch": 11.44,
-      "step": 1430,
-      "train/loss": 1.8517592934585991e-06
-    },
-    {
-      "epoch": 11.52,
-      "grad_norm": 0.0027923583984375,
-      "learning_rate": 4.24e-06,
-      "loss": 0.0,
-      "step": 1440
-    },
-    {
-      "epoch": 11.52,
-      "step": 1440,
-      "train/loss": 6.585671144421212e-06
-    },
-    {
-      "epoch": 11.6,
-      "grad_norm": 0.0263671875,
-      "learning_rate": 4.2000000000000004e-06,
-      "loss": 0.0,
-      "step": 1450
-    },
-    {
-      "epoch": 11.6,
-      "step": 1450,
-      "train/loss": 2.106990450556623e-06
-    },
-    {
-      "epoch": 11.68,
-      "grad_norm": 0.00159454345703125,
-      "learning_rate": 4.16e-06,
-      "loss": 0.0,
-      "step": 1460
-    },
-    {
-      "epoch": 11.68,
-      "step": 1460,
-      "train/loss": 1.052016614266904e-06
-    },
-    {
-      "epoch": 11.76,
-      "grad_norm": 0.375,
-      "learning_rate": 4.12e-06,
-      "loss": 0.0001,
-      "step": 1470
-    },
-    {
-      "epoch": 11.76,
-      "step": 1470,
-      "train/loss": 1.0533399290579837e-05
-    },
-    {
-      "epoch": 11.84,
-      "grad_norm": 0.01312255859375,
-      "learning_rate": 4.08e-06,
-      "loss": 0.0001,
-      "step": 1480
-    },
-    {
-      "epoch": 11.84,
-      "step": 1480,
-      "train/loss": 6.241708433663007e-06
-    },
-    {
-      "epoch": 11.92,
-      "grad_norm": 0.00494384765625,
-      "learning_rate": 4.04e-06,
-      "loss": 0.0,
-      "step": 1490
-    },
-    {
-      "epoch": 11.92,
-      "step": 1490,
-      "train/loss": 4.304019512346713e-06
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 0.004364013671875,
-      "learning_rate": 4.000000000000001e-06,
-      "loss": 0.0001,
-      "step": 1500
-    },
-    {
-      "epoch": 12.0,
-      "step": 1500,
-      "train/loss": 6.725377375005337e-07
-    },
-    {
-      "epoch": 12.08,
-      "grad_norm": 0.0279541015625,
-      "learning_rate": 3.96e-06,
-      "loss": 0.0001,
-      "step": 1510
-    },
-    {
-      "epoch": 12.08,
-      "step": 1510,
-      "train/loss": 1.8328212263440946e-06
-    },
-    {
-      "epoch": 12.16,
-      "grad_norm": 0.003021240234375,
-      "learning_rate": 3.920000000000001e-06,
-      "loss": 0.0,
-      "step": 1520
-    },
-    {
-      "epoch": 12.16,
-      "step": 1520,
-      "train/loss": 1.849480759119615e-05
-    },
-    {
-      "epoch": 12.24,
-      "grad_norm": 0.0673828125,
-      "learning_rate": 3.88e-06,
-      "loss": 0.0,
-      "step": 1530
-    },
-    {
-      "epoch": 12.24,
-      "step": 1530,
-      "train/loss": 9.769206371856853e-06
-    },
-    {
-      "epoch": 12.32,
-      "grad_norm": 0.060546875,
-      "learning_rate": 3.8400000000000005e-06,
-      "loss": 0.0,
-      "step": 1540
-    },
-    {
-      "epoch": 12.32,
-      "step": 1540,
-      "train/loss": 4.941887254972244e-06
-    },
-    {
-      "epoch": 12.4,
-      "grad_norm": 0.002044677734375,
-      "learning_rate": 3.8000000000000005e-06,
-      "loss": 0.0,
-      "step": 1550
-    },
-    {
-      "epoch": 12.4,
-      "step": 1550,
-      "train/loss": 0.0008674569544382393
-    },
-    {
-      "epoch": 12.48,
-      "grad_norm": 0.00787353515625,
-      "learning_rate": 3.7600000000000004e-06,
-      "loss": 0.0,
-      "step": 1560
-    },
-    {
-      "epoch": 12.48,
-      "step": 1560,
-      "train/loss": 5.4637007451674435e-06
-    },
-    {
-      "epoch": 12.56,
-      "grad_norm": 0.0030059814453125,
-      "learning_rate": 3.7200000000000004e-06,
-      "loss": 0.0,
-      "step": 1570
-    },
-    {
-      "epoch": 12.56,
-      "step": 1570,
-      "train/loss": 1.8032819752988871e-06
-    },
-    {
-      "epoch": 12.64,
-      "grad_norm": 0.000843048095703125,
-      "learning_rate": 3.6800000000000003e-06,
-      "loss": 0.0001,
-      "step": 1580
-    },
-    {
-      "epoch": 12.64,
-      "step": 1580,
-      "train/loss": 1.6003571090550395e-06
-    },
-    {
-      "epoch": 12.72,
-      "grad_norm": 0.00531005859375,
-      "learning_rate": 3.6400000000000003e-06,
-      "loss": 0.0,
-      "step": 1590
-    },
-    {
-      "epoch": 12.72,
-      "step": 1590,
-      "train/loss": 7.059289600874763e-06
-    },
-    {
-      "epoch": 12.8,
-      "grad_norm": 0.0018157958984375,
-      "learning_rate": 3.6000000000000003e-06,
-      "loss": 0.0,
-      "step": 1600
-    },
-    {
-      "epoch": 12.8,
-      "step": 1600,
-      "train/loss": 1.4950710465200245e-06
-    },
-    {
-      "epoch": 12.88,
-      "grad_norm": 0.00408935546875,
-      "learning_rate": 3.5600000000000002e-06,
-      "loss": 0.0,
-      "step": 1610
-    },
-    {
-      "epoch": 12.88,
-      "step": 1610,
-      "train/loss": 4.470039584703045e-06
-    },
-    {
-      "epoch": 12.96,
-      "grad_norm": 0.006195068359375,
-      "learning_rate": 3.52e-06,
-      "loss": 0.0001,
-      "step": 1620
-    },
-    {
-      "epoch": 12.96,
-      "step": 1620,
-      "train/loss": 1.7133684195869137e-06
-    },
-    {
-      "epoch": 13.04,
-      "grad_norm": 0.2041015625,
-      "learning_rate": 3.48e-06,
-      "loss": 0.0001,
-      "step": 1630
-    },
-    {
-      "epoch": 13.04,
-      "step": 1630,
-      "train/loss": 1.756774690875318e-05
-    },
-    {
-      "epoch": 13.12,
-      "grad_norm": 0.01397705078125,
-      "learning_rate": 3.44e-06,
-      "loss": 0.0,
-      "step": 1640
-    },
-    {
-      "epoch": 13.12,
-      "step": 1640,
-      "train/loss": 1.2655867749344907e-06
-    },
-    {
-      "epoch": 13.2,
-      "grad_norm": 0.020751953125,
-      "learning_rate": 3.4000000000000005e-06,
-      "loss": 0.0001,
-      "step": 1650
-    },
-    {
-      "epoch": 13.2,
-      "step": 1650,
-      "train/loss": 4.243750026944326e-06
-    },
-    {
-      "epoch": 13.28,
-      "grad_norm": 0.00469970703125,
-      "learning_rate": 3.3600000000000004e-06,
-      "loss": 0.0,
-      "step": 1660
-    },
-    {
-      "epoch": 13.28,
-      "step": 1660,
-      "train/loss": 8.94761978997849e-06
-    },
-    {
-      "epoch": 13.36,
-      "grad_norm": 0.0027923583984375,
-      "learning_rate": 3.3200000000000004e-06,
-      "loss": 0.0,
-      "step": 1670
-    },
-    {
-      "epoch": 13.36,
-      "step": 1670,
-      "train/loss": 1.1165860769324354e-06
-    },
-    {
-      "epoch": 13.44,
-      "grad_norm": 0.0281982421875,
-      "learning_rate": 3.2800000000000004e-06,
-      "loss": 0.0,
-      "step": 1680
-    },
-    {
-      "epoch": 13.44,
-      "step": 1680,
-      "train/loss": 2.4268495053547667e-06
-    },
-    {
-      "epoch": 13.52,
-      "grad_norm": 0.00140380859375,
-      "learning_rate": 3.2400000000000003e-06,
-      "loss": 0.0,
-      "step": 1690
-    },
-    {
-      "epoch": 13.52,
-      "step": 1690,
-      "train/loss": 8.542659634258598e-05
-    },
-    {
-      "epoch": 13.6,
-      "grad_norm": 0.0022430419921875,
-      "learning_rate": 3.2000000000000003e-06,
-      "loss": 0.0,
-      "step": 1700
-    },
-    {
-      "epoch": 13.6,
-      "step": 1700,
-      "train/loss": 8.702247100700333e-07
-    },
-    {
-      "epoch": 13.68,
-      "grad_norm": 0.01507568359375,
-      "learning_rate": 3.1600000000000002e-06,
-      "loss": 0.0,
-      "step": 1710
-    },
-    {
-      "epoch": 13.68,
-      "step": 1710,
-      "train/loss": 1.119564558393904e-06
-    },
-    {
-      "epoch": 13.76,
-      "grad_norm": 0.2470703125,
-      "learning_rate": 3.12e-06,
-      "loss": 0.0001,
-      "step": 1720
-    },
-    {
-      "epoch": 13.76,
-      "step": 1720,
-      "train/loss": 4.818349225388374e-06
-    },
-    {
-      "epoch": 13.84,
-      "grad_norm": 0.10791015625,
-      "learning_rate": 3.08e-06,
-      "loss": 0.0,
-      "step": 1730
-    },
-    {
-      "epoch": 13.84,
-      "step": 1730,
-      "train/loss": 2.6204995720036095e-06
-    },
-    {
-      "epoch": 13.92,
-      "grad_norm": 0.002899169921875,
-      "learning_rate": 3.04e-06,
-      "loss": 0.0,
-      "step": 1740
-    },
-    {
-      "epoch": 13.92,
-      "step": 1740,
-      "train/loss": 1.994286685658153e-05
-    },
-    {
-      "epoch": 14.0,
-      "grad_norm": 0.064453125,
-      "learning_rate": 3e-06,
-      "loss": 0.0,
-      "step": 1750
-    },
-    {
-      "epoch": 14.0,
-      "step": 1750,
-      "train/loss": 6.559032954100985e-06
-    },
-    {
-      "epoch": 14.08,
-      "grad_norm": 0.00469970703125,
-      "learning_rate": 2.96e-06,
-      "loss": 0.0,
-      "step": 1760
-    },
-    {
-      "epoch": 14.08,
-      "step": 1760,
-      "train/loss": 1.7702242303130333e-06
-    },
-    {
-      "epoch": 14.16,
-      "grad_norm": 0.01202392578125,
-      "learning_rate": 2.92e-06,
-      "loss": 0.0,
-      "step": 1770
-    },
-    {
-      "epoch": 14.16,
-      "step": 1770,
-      "train/loss": 3.1200149805954425e-06
-    },
-    {
-      "epoch": 14.24,
-      "grad_norm": 0.0019683837890625,
-      "learning_rate": 2.88e-06,
-      "loss": 0.0,
-      "step": 1780
-    },
-    {
-      "epoch": 14.24,
-      "step": 1780,
-      "train/loss": 1.8795326468534768e-05
-    },
-    {
-      "epoch": 14.32,
-      "grad_norm": 0.00323486328125,
-      "learning_rate": 2.84e-06,
-      "loss": 0.0,
-      "step": 1790
-    },
-    {
-      "epoch": 14.32,
-      "step": 1790,
-      "train/loss": 1.5069895198394079e-06
-    },
-    {
-      "epoch": 14.4,
-      "grad_norm": 0.0537109375,
-      "learning_rate": 2.8000000000000003e-06,
-      "loss": 0.0,
-      "step": 1800
-    },
-    {
-      "epoch": 14.4,
-      "step": 1800,
-      "train/loss": 2.0881050204479834e-06
-    },
-    {
-      "epoch": 14.48,
-      "grad_norm": 0.1982421875,
-      "learning_rate": 2.7600000000000003e-06,
-      "loss": 0.0001,
-      "step": 1810
-    },
-    {
-      "epoch": 14.48,
-      "step": 1810,
-      "train/loss": 6.848983503005002e-06
-    },
-    {
-      "epoch": 14.56,
-      "grad_norm": 0.0233154296875,
-      "learning_rate": 2.7200000000000002e-06,
-      "loss": 0.0001,
-      "step": 1820
-    },
-    {
-      "epoch": 14.56,
-      "step": 1820,
-      "train/loss": 3.0963235531089595e-06
-    },
-    {
-      "epoch": 14.64,
-      "grad_norm": 0.000762939453125,
-      "learning_rate": 2.68e-06,
-      "loss": 0.0,
-      "step": 1830
-    },
-    {
-      "epoch": 14.64,
-      "step": 1830,
-      "train/loss": 1.3718830587094999e-06
-    },
-    {
-      "epoch": 14.72,
-      "grad_norm": 0.0057373046875,
-      "learning_rate": 2.64e-06,
-      "loss": 0.0,
-      "step": 1840
-    },
-    {
-      "epoch": 14.72,
-      "step": 1840,
-      "train/loss": 1.155993049906101e-05
-    },
-    {
-      "epoch": 14.8,
-      "grad_norm": 0.05810546875,
-      "learning_rate": 2.6e-06,
-      "loss": 0.0001,
-      "step": 1850
-    },
-    {
-      "epoch": 14.8,
-      "step": 1850,
-      "train/loss": 0.0021582189947366714
-    },
-    {
-      "epoch": 14.88,
-      "grad_norm": 0.01068115234375,
-      "learning_rate": 2.56e-06,
-      "loss": 0.0001,
-      "step": 1860
-    },
-    {
-      "epoch": 14.88,
-      "step": 1860,
-      "train/loss": 8.173182322934736e-06
-    },
-    {
-      "epoch": 14.96,
-      "grad_norm": 0.000827789306640625,
-      "learning_rate": 2.52e-06,
-      "loss": 0.0,
-      "step": 1870
-    },
-    {
-      "epoch": 14.96,
-      "step": 1870,
-      "train/loss": 1.2834279004891869e-05
-    },
-    {
-      "epoch": 15.04,
-      "grad_norm": 0.06591796875,
-      "learning_rate": 2.4800000000000004e-06,
-      "loss": 0.0,
-      "step": 1880
-    },
-    {
-      "epoch": 15.04,
-      "step": 1880,
-      "train/loss": 0.0005998230190016329
-    },
-    {
-      "epoch": 15.12,
-      "grad_norm": 0.004669189453125,
-      "learning_rate": 2.4400000000000004e-06,
-      "loss": 0.0,
-      "step": 1890
-    },
-    {
-      "epoch": 15.12,
-      "step": 1890,
-      "train/loss": 1.5745865312055685e-05
-    },
-    {
-      "epoch": 15.2,
-      "grad_norm": 0.02294921875,
-      "learning_rate": 2.4000000000000003e-06,
-      "loss": 0.0,
-      "step": 1900
-    },
-    {
-      "epoch": 15.2,
-      "step": 1900,
-      "train/loss": 2.679145381989656e-06
-    },
-    {
-      "epoch": 15.28,
-      "grad_norm": 0.007659912109375,
-      "learning_rate": 2.3600000000000003e-06,
-      "loss": 0.0,
-      "step": 1910
-    },
-    {
-      "epoch": 15.28,
-      "step": 1910,
-      "train/loss": 7.805366476532072e-05
-    },
-    {
-      "epoch": 15.36,
-      "grad_norm": 0.00213623046875,
-      "learning_rate": 2.3200000000000002e-06,
-      "loss": 0.0001,
-      "step": 1920
-    },
-    {
-      "epoch": 15.36,
-      "step": 1920,
-      "train/loss": 3.0448240977420937e-06
-    },
-    {
-      "epoch": 15.44,
-      "grad_norm": 0.04541015625,
-      "learning_rate": 2.28e-06,
-      "loss": 0.0,
-      "step": 1930
-    },
-    {
-      "epoch": 15.44,
-      "step": 1930,
-      "train/loss": 8.960526542978187e-07
-    },
-    {
-      "epoch": 15.52,
-      "grad_norm": 0.0021820068359375,
-      "learning_rate": 2.24e-06,
-      "loss": 0.0,
-      "step": 1940
-    },
-    {
-      "epoch": 15.52,
-      "step": 1940,
-      "train/loss": 6.716804364259588e-06
-    },
-    {
-      "epoch": 15.6,
-      "grad_norm": 0.0021209716796875,
-      "learning_rate": 2.2e-06,
-      "loss": 0.0,
-      "step": 1950
-    },
-    {
-      "epoch": 15.6,
-      "step": 1950,
-      "train/loss": 7.708176417509094e-05
-    },
-    {
-      "epoch": 15.68,
-      "grad_norm": 0.006103515625,
-      "learning_rate": 2.16e-06,
-      "loss": 0.0,
-      "step": 1960
-    },
-    {
-      "epoch": 15.68,
-      "step": 1960,
-      "train/loss": 2.2430820081353886e-06
-    },
-    {
-      "epoch": 15.76,
-      "grad_norm": 0.0059814453125,
-      "learning_rate": 2.12e-06,
-      "loss": 0.0,
-      "step": 1970
-    },
-    {
-      "epoch": 15.76,
-      "step": 1970,
-      "train/loss": 1.1175829968124162e-06
-    },
-    {
-      "epoch": 15.84,
-      "grad_norm": 0.0263671875,
-      "learning_rate": 2.08e-06,
-      "loss": 0.0,
-      "step": 1980
-    },
-    {
-      "epoch": 15.84,
-      "step": 1980,
-      "train/loss": 3.1032529932417674e-06
-    },
-    {
-      "epoch": 15.92,
-      "grad_norm": 0.004425048828125,
-      "learning_rate": 2.04e-06,
-      "loss": 0.0001,
-      "step": 1990
-    },
-    {
-      "epoch": 15.92,
-      "step": 1990,
-      "train/loss": 1.1532710232131649e-05
-    },
-    {
-      "epoch": 16.0,
-      "grad_norm": 0.04150390625,
-      "learning_rate": 2.0000000000000003e-06,
-      "loss": 0.0001,
-      "step": 2000
-    },
-    {
-      "epoch": 16.0,
-      "step": 2000,
-      "train/loss": 1.6921478618314723e-06
-    },
-    {
-      "epoch": 16.08,
-      "grad_norm": 0.006500244140625,
-      "learning_rate": 1.9600000000000003e-06,
-      "loss": 0.0,
-      "step": 2010
-    },
-    {
-      "epoch": 16.08,
-      "step": 2010,
-      "train/loss": 1.5082887330208905e-06
-    },
-    {
-      "epoch": 16.16,
-      "grad_norm": 0.024658203125,
-      "learning_rate": 1.9200000000000003e-06,
-      "loss": 0.0,
-      "step": 2020
-    },
-    {
-      "epoch": 16.16,
-      "step": 2020,
-      "train/loss": 2.4297712570842123e-06
-    },
-    {
-      "epoch": 16.24,
-      "grad_norm": 0.0026092529296875,
-      "learning_rate": 1.8800000000000002e-06,
-      "loss": 0.0,
-      "step": 2030
-    },
-    {
-      "epoch": 16.24,
-      "step": 2030,
-      "train/loss": 0.00027944811154156923
-    },
-    {
-      "epoch": 16.32,
-      "grad_norm": 0.01434326171875,
-      "learning_rate": 1.8400000000000002e-06,
-      "loss": 0.0,
-      "step": 2040
-    },
-    {
-      "epoch": 16.32,
-      "step": 2040,
-      "train/loss": 3.3982730656134663e-06
-    },
-    {
-      "epoch": 16.4,
-      "grad_norm": 0.00543212890625,
-      "learning_rate": 1.8000000000000001e-06,
-      "loss": 0.0,
-      "step": 2050
-    },
-    {
-      "epoch": 16.4,
-      "step": 2050,
-      "train/loss": 2.168583250750089e-06
-    },
-    {
-      "epoch": 16.48,
-      "grad_norm": 0.044189453125,
-      "learning_rate": 1.76e-06,
-      "loss": 0.0,
-      "step": 2060
-    },
-    {
-      "epoch": 16.48,
-      "step": 2060,
-      "train/loss": 1.3261948197396123e-06
-    },
-    {
-      "epoch": 16.56,
-      "grad_norm": 0.01324462890625,
-      "learning_rate": 1.72e-06,
-      "loss": 0.0,
-      "step": 2070
-    },
-    {
-      "epoch": 16.56,
-      "step": 2070,
-      "train/loss": 0.00011921257100766525
-    },
-    {
-      "epoch": 16.64,
-      "grad_norm": 0.00994873046875,
-      "learning_rate": 1.6800000000000002e-06,
-      "loss": 0.0001,
-      "step": 2080
-    },
-    {
-      "epoch": 16.64,
-      "step": 2080,
-      "train/loss": 5.616849648504285e-06
-    },
-    {
-      "epoch": 16.72,
-      "grad_norm": 0.0019378662109375,
-      "learning_rate": 1.6400000000000002e-06,
-      "loss": 0.0,
-      "step": 2090
-    },
-    {
-      "epoch": 16.72,
-      "step": 2090,
-      "train/loss": 2.1993721475155326e-06
-    },
-    {
-      "epoch": 16.8,
-      "grad_norm": 0.205078125,
-      "learning_rate": 1.6000000000000001e-06,
-      "loss": 0.0001,
-      "step": 2100
-    },
-    {
-      "epoch": 16.8,
-      "step": 2100,
-      "train/loss": 4.359588729130337e-06
-    },
-    {
-      "epoch": 16.88,
-      "grad_norm": 0.0081787109375,
-      "learning_rate": 1.56e-06,
-      "loss": 0.0,
-      "step": 2110
-    },
-    {
-      "epoch": 16.88,
-      "step": 2110,
-      "train/loss": 5.8437781262909994e-05
-    },
-    {
-      "epoch": 16.96,
-      "grad_norm": 0.005950927734375,
-      "learning_rate": 1.52e-06,
-      "loss": 0.0,
-      "step": 2120
-    },
-    {
-      "epoch": 16.96,
-      "step": 2120,
-      "train/loss": 2.4972925984911853e-06
-    },
-    {
-      "epoch": 17.04,
-      "grad_norm": 0.001068115234375,
-      "learning_rate": 1.48e-06,
-      "loss": 0.0001,
-      "step": 2130
-    },
-    {
-      "epoch": 17.04,
-      "step": 2130,
-      "train/loss": 2.1669484340236522e-06
-    },
-    {
-      "epoch": 17.12,
-      "grad_norm": 0.00677490234375,
-      "learning_rate": 1.44e-06,
-      "loss": 0.0001,
-      "step": 2140
-    },
-    {
-      "epoch": 17.12,
-      "step": 2140,
-      "train/loss": 1.6788450238891528e-06
-    },
-    {
-      "epoch": 17.2,
-      "grad_norm": 0.0030059814453125,
-      "learning_rate": 1.4000000000000001e-06,
-      "loss": 0.0,
-      "step": 2150
-    },
-    {
-      "epoch": 17.2,
-      "step": 2150,
-      "train/loss": 1.1647519386315253e-05
-    },
-    {
-      "epoch": 17.28,
-      "grad_norm": 0.00194549560546875,
-      "learning_rate": 1.3600000000000001e-06,
-      "loss": 0.0,
-      "step": 2160
-    },
-    {
-      "epoch": 17.28,
-      "step": 2160,
-      "train/loss": 3.008859948749887e-06
-    },
-    {
-      "epoch": 17.36,
-      "grad_norm": 0.034423828125,
-      "learning_rate": 1.32e-06,
-      "loss": 0.0,
-      "step": 2170
-    },
-    {
-      "epoch": 17.36,
-      "step": 2170,
-      "train/loss": 4.579791948344791e-06
-    },
-    {
-      "epoch": 17.44,
-      "grad_norm": 0.013916015625,
-      "learning_rate": 1.28e-06,
-      "loss": 0.0,
-      "step": 2180
-    },
-    {
-      "epoch": 17.44,
-      "step": 2180,
-      "train/loss": 4.607034952641698e-06
-    },
-    {
-      "epoch": 17.52,
-      "grad_norm": 0.005859375,
-      "learning_rate": 1.2400000000000002e-06,
-      "loss": 0.0,
-      "step": 2190
-    },
-    {
-      "epoch": 17.52,
-      "step": 2190,
-      "train/loss": 1.0560316695773508e-05
-    },
-    {
-      "epoch": 17.6,
-      "grad_norm": 0.01300048828125,
-      "learning_rate": 1.2000000000000002e-06,
-      "loss": 0.0,
-      "step": 2200
-    },
-    {
-      "epoch": 17.6,
-      "step": 2200,
-      "train/loss": 5.534459887712728e-06
-    },
-    {
-      "epoch": 17.68,
-      "grad_norm": 0.0010986328125,
-      "learning_rate": 1.1600000000000001e-06,
-      "loss": 0.0,
-      "step": 2210
-    },
-    {
-      "epoch": 17.68,
-      "step": 2210,
-      "train/loss": 7.40236055207788e-06
-    },
-    {
-      "epoch": 17.76,
-      "grad_norm": 0.01483154296875,
-      "learning_rate": 1.12e-06,
-      "loss": 0.0,
-      "step": 2220
-    },
-    {
-      "epoch": 17.76,
-      "step": 2220,
-      "train/loss": 1.2024161151202861e-05
-    },
-    {
-      "epoch": 17.84,
-      "grad_norm": 0.044677734375,
-      "learning_rate": 1.08e-06,
-      "loss": 0.0,
-      "step": 2230
-    },
-    {
-      "epoch": 17.84,
-      "step": 2230,
-      "train/loss": 1.3470184057950974e-05
-    },
-    {
-      "epoch": 17.92,
-      "grad_norm": 0.0037689208984375,
-      "learning_rate": 1.04e-06,
-      "loss": 0.0001,
-      "step": 2240
-    },
-    {
-      "epoch": 17.92,
-      "step": 2240,
-      "train/loss": 1.004335217658081e-06
-    },
-    {
-      "epoch": 18.0,
-      "grad_norm": 0.005584716796875,
-      "learning_rate": 1.0000000000000002e-06,
-      "loss": 0.0,
-      "step": 2250
-    },
-    {
-      "epoch": 18.0,
-      "step": 2250,
-      "train/loss": 9.866492291621398e-06
-    },
-    {
-      "epoch": 18.08,
-      "grad_norm": 0.0014495849609375,
-      "learning_rate": 9.600000000000001e-07,
-      "loss": 0.0001,
-      "step": 2260
-    },
-    {
-      "epoch": 18.08,
-      "step": 2260,
-      "train/loss": 6.16822944721207e-06
-    },
-    {
-      "epoch": 18.16,
-      "grad_norm": 0.010986328125,
-      "learning_rate": 9.200000000000001e-07,
-      "loss": 0.0001,
-      "step": 2270
-    },
-    {
-      "epoch": 18.16,
-      "step": 2270,
-      "train/loss": 6.2418380366580095e-06
-    },
-    {
-      "epoch": 18.24,
-      "grad_norm": 0.006927490234375,
-      "learning_rate": 8.8e-07,
-      "loss": 0.0,
-      "step": 2280
-    },
-    {
-      "epoch": 18.24,
-      "step": 2280,
-      "train/loss": 0.0006859241984784603
-    },
-    {
-      "epoch": 18.32,
-      "grad_norm": 0.0185546875,
-      "learning_rate": 8.400000000000001e-07,
-      "loss": 0.0001,
-      "step": 2290
-    },
-    {
-      "epoch": 18.32,
-      "step": 2290,
-      "train/loss": 1.0311543974239612e-06
-    },
-    {
-      "epoch": 18.4,
-      "grad_norm": 0.0054931640625,
-      "learning_rate": 8.000000000000001e-07,
-      "loss": 0.0,
-      "step": 2300
-    },
-    {
-      "epoch": 18.4,
-      "step": 2300,
-      "train/loss": 4.017131232103566e-06
-    },
-    {
-      "epoch": 18.48,
-      "grad_norm": 0.0042724609375,
-      "learning_rate": 7.6e-07,
-      "loss": 0.0,
-      "step": 2310
-    },
-    {
-      "epoch": 18.48,
-      "step": 2310,
-      "train/loss": 3.2660318538546562e-06
-    },
-    {
-      "epoch": 18.56,
-      "grad_norm": 0.0014495849609375,
-      "learning_rate": 7.2e-07,
-      "loss": 0.0,
-      "step": 2320
-    },
-    {
-      "epoch": 18.56,
-      "step": 2320,
-      "train/loss": 3.985218427260406e-06
-    },
-    {
-      "epoch": 18.64,
-      "grad_norm": 0.004608154296875,
-      "learning_rate": 6.800000000000001e-07,
-      "loss": 0.0,
-      "step": 2330
-    },
-    {
-      "epoch": 18.64,
-      "step": 2330,
-      "train/loss": 5.642308224196313e-06
-    },
-    {
-      "epoch": 18.72,
-      "grad_norm": 0.033935546875,
-      "learning_rate": 6.4e-07,
-      "loss": 0.0,
-      "step": 2340
-    },
-    {
-      "epoch": 18.72,
-      "step": 2340,
-      "train/loss": 2.283810999870184e-06
-    },
-    {
-      "epoch": 18.8,
-      "grad_norm": 0.005828857421875,
-      "learning_rate": 6.000000000000001e-07,
-      "loss": 0.0,
-      "step": 2350
-    },
-    {
-      "epoch": 18.8,
-      "step": 2350,
-      "train/loss": 1.9907624846382532e-06
-    },
-    {
-      "epoch": 18.88,
-      "grad_norm": 0.04931640625,
-      "learning_rate": 5.6e-07,
-      "loss": 0.0,
-      "step": 2360
-    },
-    {
-      "epoch": 18.88,
-      "step": 2360,
-      "train/loss": 1.4662552985100774e-06
-    },
-    {
-      "epoch": 18.96,
-      "grad_norm": 0.291015625,
-      "learning_rate": 5.2e-07,
-      "loss": 0.0001,
-      "step": 2370
-    },
-    {
-      "epoch": 18.96,
-      "step": 2370,
-      "train/loss": 9.493099241808522e-06
-    },
-    {
-      "epoch": 19.04,
-      "grad_norm": 0.00116729736328125,
-      "learning_rate": 4.800000000000001e-07,
-      "loss": 0.0,
-      "step": 2380
-    },
-    {
-      "epoch": 19.04,
-      "step": 2380,
-      "train/loss": 9.761146429809742e-06
-    },
-    {
-      "epoch": 19.12,
-      "grad_norm": 0.006927490234375,
-      "learning_rate": 4.4e-07,
-      "loss": 0.0,
-      "step": 2390
-    },
-    {
-      "epoch": 19.12,
-      "step": 2390,
-      "train/loss": 2.536246756790206e-05
-    },
-    {
-      "epoch": 19.2,
-      "grad_norm": 0.004608154296875,
-      "learning_rate": 4.0000000000000003e-07,
-      "loss": 0.0,
-      "step": 2400
-    },
-    {
-      "epoch": 19.2,
-      "step": 2400,
-      "train/loss": 8.023907867027447e-06
-    },
-    {
-      "epoch": 19.28,
-      "grad_norm": 0.0027618408203125,
-      "learning_rate": 3.6e-07,
-      "loss": 0.0,
-      "step": 2410
-    },
-    {
-      "epoch": 19.28,
-      "step": 2410,
-      "train/loss": 0.0006006373441778123
-    },
-    {
-      "epoch": 19.36,
-      "grad_norm": 0.002716064453125,
-      "learning_rate": 3.2e-07,
-      "loss": 0.0001,
-      "step": 2420
-    },
-    {
-      "epoch": 19.36,
-      "step": 2420,
-      "train/loss": 7.440636977662507e-07
-    },
-    {
-      "epoch": 19.44,
-      "grad_norm": 0.001617431640625,
-      "learning_rate": 2.8e-07,
-      "loss": 0.0,
-      "step": 2430
-    },
-    {
-      "epoch": 19.44,
-      "step": 2430,
-      "train/loss": 1.9689025521074655e-06
-    },
-    {
-      "epoch": 19.52,
-      "grad_norm": 0.005767822265625,
-      "learning_rate": 2.4000000000000003e-07,
-      "loss": 0.0,
-      "step": 2440
-    },
-    {
-      "epoch": 19.52,
-      "step": 2440,
-      "train/loss": 1.3217643754614983e-05
-    },
-    {
-      "epoch": 19.6,
-      "grad_norm": 0.018310546875,
-      "learning_rate": 2.0000000000000002e-07,
-      "loss": 0.0,
-      "step": 2450
-    },
-    {
-      "epoch": 19.6,
-      "step": 2450,
-      "train/loss": 4.347400681581348e-05
-    },
-    {
-      "epoch": 19.68,
-      "grad_norm": 0.03955078125,
-      "learning_rate": 1.6e-07,
-      "loss": 0.0,
-      "step": 2460
-    },
-    {
-      "epoch": 19.68,
-      "step": 2460,
-      "train/loss": 2.077109911624575e-06
-    },
-    {
-      "epoch": 19.76,
-      "grad_norm": 0.0034332275390625,
-      "learning_rate": 1.2000000000000002e-07,
-      "loss": 0.0001,
-      "step": 2470
-    },
-    {
-      "epoch": 19.76,
-      "step": 2470,
-      "train/loss": 1.724543608361273e-06
-    },
-    {
-      "epoch": 19.84,
-      "grad_norm": 0.01531982421875,
-      "learning_rate": 8e-08,
-      "loss": 0.0,
-      "step": 2480
-    },
-    {
-      "epoch": 19.84,
-      "step": 2480,
-      "train/loss": 1.8618636659084586e-06
-    },
-    {
-      "epoch": 19.92,
-      "grad_norm": 0.000965118408203125,
-      "learning_rate": 4e-08,
-      "loss": 0.0,
-      "step": 2490
-    },
-    {
-      "epoch": 19.92,
-      "step": 2490,
-      "train/loss": 9.447310844734602e-07
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 0.318359375,
-      "learning_rate": 0.0,
-      "loss": 0.0001,
-      "step": 2500
-    }
-  ],
-  "logging_steps": 10,
-  "max_steps": 2500,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
-  "save_steps": 1500,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": true
-      },
-      "attributes": {}
-    }
-  },
-  "total_flos": 0.0,
-  "train_batch_size": 4,
-  "trial_name": null,
-  "trial_params": null
-}

sft-clevr-1106-20epoch/checkpoint-2500/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:b0bb0bbe398bf6f1c52facbfb16a7e403cb24f51e43c07eb463234278d7eaa04
-size 5777

sft-clevr-1106-20epoch/checkpoint-2500/vocab.json DELETED Viewed

The diff for this file is too large to render. See raw diff