bmzq commited on Jan 26

Commit

c0f7c43

verified ·

1 Parent(s): 8b26954

Upload folder using huggingface_hub

Browse files

Files changed (24) hide show

.gitattributes +1 -0
README.md +61 -3
added_tokens.json +24 -0
all_results.json +8 -0
chat_template.jinja +7 -0
config.json +132 -0
generation_config.json +11 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +737 -0
preprocessor_config.json +39 -0
special_tokens_map.json +31 -0
tokenizer.json +3 -0
tokenizer_config.json +209 -0
train_results.json +8 -0
trainer_log.jsonl +104 -0
trainer_state.json +764 -0
training_args.bin +3 -0
training_loss.png +0 -0
video_preprocessor_config.json +43 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,61 @@
----
-license: cc-by-nc-nd-4.0
----

+---
+library_name: transformers
+license: other
+base_model: Qwen/Qwen2.5-VL-7B-Instruct
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: mirrorguard
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# MirrorGuard
+This model is a fine-tuned version of [Qwen/Qwen2.5-VL-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct) on the MirrorGuard dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 128
+- total_eval_batch_size: 32
+- optimizer: Use adamw_torch_fused with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 6.0
+### Training results
+### Framework versions
+- Transformers 4.57.1
+- Pytorch 2.9.0+cu128
+- Datasets 4.0.0
+- Tokenizers 0.22.1

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 6.0,
+    "total_flos": 884370134269952.0,
+    "train_loss": 0.20082982304657615,
+    "train_runtime": 10237.3944,
+    "train_samples_per_second": 12.861,
+    "train_steps_per_second": 0.101
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,7 @@

+{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system
+You are a helpful assistant.<|im_end|>
+{% endif %}<|im_start|>{{ message['role'] }}
+{% if message['content'] is string %}{{ message['content'] }}<|im_end|>
+{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>
+{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant
+{% endif %}

config.json ADDED Viewed

	@@ -0,0 +1,132 @@

+{
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "text_config": {
+    "_name_or_path": "/inspire/hdd/global_user/jiangchangyue-240114020171/model_hub/Qwen2.5-VL-7B-Instruct",
+    "architectures": [
+      "Qwen2_5_VLForConditionalGeneration"
+    ],
+    "attention_dropout": 0.0,
+    "dtype": "float32",
+    "eos_token_id": 151645,
+    "hidden_act": "silu",
+    "hidden_size": 3584,
+    "initializer_range": 0.02,
+    "intermediate_size": 18944,
+    "layer_types": [
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 128000,
+    "max_window_layers": 28,
+    "model_type": "qwen2_5_vl_text",
+    "num_attention_heads": 28,
+    "num_hidden_layers": 28,
+    "num_key_value_heads": 4,
+    "pad_token_id": 151643,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "mrope_section": [
+        16,
+        24,
+        24
+      ],
+      "rope_type": "default",
+      "type": "default"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "use_cache": false,
+    "use_sliding_window": false,
+    "vision_token_id": 151654,
+    "vocab_size": 152064
+  },
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.1",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "dtype": "float32",
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "initializer_range": 0.02,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 1e-06,
+  "transformers_version": "4.57.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:488b6de4a90de6f76fa79a7740a6538ca995e164921c7702aa559c4570a514d3
+size 4968243304

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cacf539c23980dbdfffcba7f26f4c52885cb7ac14b8be3a11401b273412686c0
+size 4991495816

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96b006f0c56671250f0724022b1c7d7e53d985b074bf0e1bc2111b9afc370a9a
+size 4932751040

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d1c0e575e33fb3db45aa998434a6cb6d60bfab6d5a47c15e85afd2bf31fc6cf
+size 1691924384

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,737 @@

+{
+  "metadata": {
+    "total_parameters": 848896,
+    "total_size": 16584333312
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.0.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.merger.ln_q.weight": "model-00001-of-00004.safetensors",
+    "visual.merger.mlp.0.bias": "model-00001-of-00004.safetensors",
+    "visual.merger.mlp.0.weight": "model-00001-of-00004.safetensors",
+    "visual.merger.mlp.2.bias": "model-00001-of-00004.safetensors",
+    "visual.merger.mlp.2.weight": "model-00001-of-00004.safetensors",
+    "visual.patch_embed.proj.weight": "model-00001-of-00004.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "disable_grouping": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "Qwen2VLImageProcessorFast",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "input_data_format": null,
+  "max_pixels": 12845056,
+  "merge_size": 2,
+  "min_pixels": 3136,
+  "pad_size": null,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5_VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_tensors": null,
+  "size": {
+    "longest_edge": 12845056,
+    "shortest_edge": 3136
+  },
+  "temporal_patch_size": 2
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,209 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "processor_class": "Qwen2_5_VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 6.0,
+    "total_flos": 884370134269952.0,
+    "train_loss": 0.20082982304657615,
+    "train_runtime": 10237.3944,
+    "train_samples_per_second": 12.861,
+    "train_steps_per_second": 0.101
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,104 @@

+{"current_steps": 10, "total_steps": 1032, "loss": 1.5047, "lr": 9.000000000000001e-07, "epoch": 0.05830903790087463, "percentage": 0.97, "elapsed_time": "0:01:39", "remaining_time": "2:49:16"}
+{"current_steps": 20, "total_steps": 1032, "loss": 1.1973, "lr": 1.9000000000000002e-06, "epoch": 0.11661807580174927, "percentage": 1.94, "elapsed_time": "0:03:22", "remaining_time": "2:50:30"}
+{"current_steps": 30, "total_steps": 1032, "loss": 0.8, "lr": 2.9e-06, "epoch": 0.1749271137026239, "percentage": 2.91, "elapsed_time": "0:05:03", "remaining_time": "2:48:47"}
+{"current_steps": 40, "total_steps": 1032, "loss": 0.6175, "lr": 3.900000000000001e-06, "epoch": 0.23323615160349853, "percentage": 3.88, "elapsed_time": "0:06:41", "remaining_time": "2:46:06"}
+{"current_steps": 50, "total_steps": 1032, "loss": 0.5677, "lr": 4.9000000000000005e-06, "epoch": 0.2915451895043732, "percentage": 4.84, "elapsed_time": "0:08:19", "remaining_time": "2:43:32"}
+{"current_steps": 60, "total_steps": 1032, "loss": 0.5051, "lr": 5.9e-06, "epoch": 0.3498542274052478, "percentage": 5.81, "elapsed_time": "0:09:55", "remaining_time": "2:40:53"}
+{"current_steps": 70, "total_steps": 1032, "loss": 0.4964, "lr": 6.9e-06, "epoch": 0.40816326530612246, "percentage": 6.78, "elapsed_time": "0:11:34", "remaining_time": "2:38:59"}
+{"current_steps": 80, "total_steps": 1032, "loss": 0.4929, "lr": 7.9e-06, "epoch": 0.46647230320699706, "percentage": 7.75, "elapsed_time": "0:13:05", "remaining_time": "2:35:43"}
+{"current_steps": 90, "total_steps": 1032, "loss": 0.4703, "lr": 8.900000000000001e-06, "epoch": 0.5247813411078717, "percentage": 8.72, "elapsed_time": "0:14:43", "remaining_time": "2:34:03"}
+{"current_steps": 100, "total_steps": 1032, "loss": 0.4443, "lr": 9.9e-06, "epoch": 0.5830903790087464, "percentage": 9.69, "elapsed_time": "0:16:08", "remaining_time": "2:30:27"}
+{"current_steps": 110, "total_steps": 1032, "loss": 0.4364, "lr": 9.997699301870489e-06, "epoch": 0.641399416909621, "percentage": 10.66, "elapsed_time": "0:17:51", "remaining_time": "2:29:38"}
+{"current_steps": 120, "total_steps": 1032, "loss": 0.4147, "lr": 9.98974898953517e-06, "epoch": 0.6997084548104956, "percentage": 11.63, "elapsed_time": "0:19:25", "remaining_time": "2:27:37"}
+{"current_steps": 130, "total_steps": 1032, "loss": 0.4294, "lr": 9.976129689724575e-06, "epoch": 0.7580174927113703, "percentage": 12.6, "elapsed_time": "0:21:06", "remaining_time": "2:26:24"}
+{"current_steps": 140, "total_steps": 1032, "loss": 0.4168, "lr": 9.956856875690006e-06, "epoch": 0.8163265306122449, "percentage": 13.57, "elapsed_time": "0:22:43", "remaining_time": "2:24:49"}
+{"current_steps": 150, "total_steps": 1032, "loss": 0.4085, "lr": 9.931952443791704e-06, "epoch": 0.8746355685131195, "percentage": 14.53, "elapsed_time": "0:24:25", "remaining_time": "2:23:38"}
+{"current_steps": 160, "total_steps": 1032, "loss": 0.4063, "lr": 9.901444688621801e-06, "epoch": 0.9329446064139941, "percentage": 15.5, "elapsed_time": "0:26:08", "remaining_time": "2:22:30"}
+{"current_steps": 170, "total_steps": 1032, "loss": 0.3978, "lr": 9.865368270858082e-06, "epoch": 0.9912536443148688, "percentage": 16.47, "elapsed_time": "0:27:49", "remaining_time": "2:21:03"}
+{"current_steps": 180, "total_steps": 1032, "loss": 0.343, "lr": 9.82376417788506e-06, "epoch": 1.0466472303206997, "percentage": 17.44, "elapsed_time": "0:29:24", "remaining_time": "2:19:13"}
+{"current_steps": 190, "total_steps": 1032, "loss": 0.297, "lr": 9.77667967722711e-06, "epoch": 1.1049562682215743, "percentage": 18.41, "elapsed_time": "0:31:06", "remaining_time": "2:17:52"}
+{"current_steps": 200, "total_steps": 1032, "loss": 0.3153, "lr": 9.724168262846567e-06, "epoch": 1.163265306122449, "percentage": 19.38, "elapsed_time": "0:32:39", "remaining_time": "2:15:50"}
+{"current_steps": 210, "total_steps": 1032, "loss": 0.3036, "lr": 9.666289594367804e-06, "epoch": 1.2215743440233235, "percentage": 20.35, "elapsed_time": "0:34:12", "remaining_time": "2:13:55"}
+{"current_steps": 220, "total_steps": 1032, "loss": 0.3246, "lr": 9.603109429296333e-06, "epoch": 1.2798833819241984, "percentage": 21.32, "elapsed_time": "0:35:51", "remaining_time": "2:12:19"}
+{"current_steps": 230, "total_steps": 1032, "loss": 0.302, "lr": 9.534699548309949e-06, "epoch": 1.3381924198250728, "percentage": 22.29, "elapsed_time": "0:37:28", "remaining_time": "2:10:41"}
+{"current_steps": 240, "total_steps": 1032, "loss": 0.3068, "lr": 9.461137673706768e-06, "epoch": 1.3965014577259476, "percentage": 23.26, "elapsed_time": "0:39:17", "remaining_time": "2:09:38"}
+{"current_steps": 250, "total_steps": 1032, "loss": 0.298, "lr": 9.382507381102848e-06, "epoch": 1.4548104956268222, "percentage": 24.22, "elapsed_time": "0:41:01", "remaining_time": "2:08:19"}
+{"current_steps": 260, "total_steps": 1032, "loss": 0.3075, "lr": 9.298898004479698e-06, "epoch": 1.5131195335276968, "percentage": 25.19, "elapsed_time": "0:42:38", "remaining_time": "2:06:35"}
+{"current_steps": 270, "total_steps": 1032, "loss": 0.3057, "lr": 9.210404534689536e-06, "epoch": 1.5714285714285714, "percentage": 26.16, "elapsed_time": "0:44:17", "remaining_time": "2:04:59"}
+{"current_steps": 280, "total_steps": 1032, "loss": 0.2988, "lr": 9.117127511533654e-06, "epoch": 1.629737609329446, "percentage": 27.13, "elapsed_time": "0:45:55", "remaining_time": "2:03:19"}
+{"current_steps": 290, "total_steps": 1032, "loss": 0.3033, "lr": 9.019172909536442e-06, "epoch": 1.6880466472303208, "percentage": 28.1, "elapsed_time": "0:47:32", "remaining_time": "2:01:38"}
+{"current_steps": 300, "total_steps": 1032, "loss": 0.3035, "lr": 8.9166520175449e-06, "epoch": 1.7463556851311952, "percentage": 29.07, "elapsed_time": "0:49:15", "remaining_time": "2:00:12"}
+{"current_steps": 310, "total_steps": 1032, "loss": 0.3037, "lr": 8.809681312290398e-06, "epoch": 1.80466472303207, "percentage": 30.04, "elapsed_time": "0:50:46", "remaining_time": "1:58:15"}
+{"current_steps": 320, "total_steps": 1032, "loss": 0.2921, "lr": 8.698382326056341e-06, "epoch": 1.8629737609329446, "percentage": 31.01, "elapsed_time": "0:52:16", "remaining_time": "1:56:18"}
+{"current_steps": 330, "total_steps": 1032, "loss": 0.2948, "lr": 8.582881508602082e-06, "epoch": 1.9212827988338192, "percentage": 31.98, "elapsed_time": "0:53:58", "remaining_time": "1:54:49"}
+{"current_steps": 340, "total_steps": 1032, "loss": 0.2946, "lr": 8.46331008349997e-06, "epoch": 1.9795918367346939, "percentage": 32.95, "elapsed_time": "0:55:30", "remaining_time": "1:52:57"}
+{"current_steps": 350, "total_steps": 1032, "loss": 0.2193, "lr": 8.339803899048737e-06, "epoch": 2.0349854227405246, "percentage": 33.91, "elapsed_time": "0:56:57", "remaining_time": "1:50:59"}
+{"current_steps": 360, "total_steps": 1032, "loss": 0.1747, "lr": 8.212503273932594e-06, "epoch": 2.0932944606413995, "percentage": 34.88, "elapsed_time": "0:58:39", "remaining_time": "1:49:29"}
+{"current_steps": 370, "total_steps": 1032, "loss": 0.1778, "lr": 8.081552837801428e-06, "epoch": 2.151603498542274, "percentage": 35.85, "elapsed_time": "1:00:10", "remaining_time": "1:47:40"}
+{"current_steps": 380, "total_steps": 1032, "loss": 0.176, "lr": 7.947101366953177e-06, "epoch": 2.2099125364431487, "percentage": 36.82, "elapsed_time": "1:01:50", "remaining_time": "1:46:05"}
+{"current_steps": 390, "total_steps": 1032, "loss": 0.169, "lr": 7.809301615305098e-06, "epoch": 2.2682215743440235, "percentage": 37.79, "elapsed_time": "1:03:32", "remaining_time": "1:44:35"}
+{"current_steps": 400, "total_steps": 1032, "loss": 0.1828, "lr": 7.668310140845944e-06, "epoch": 2.326530612244898, "percentage": 38.76, "elapsed_time": "1:05:08", "remaining_time": "1:42:56"}
+{"current_steps": 410, "total_steps": 1032, "loss": 0.1691, "lr": 7.524287127766245e-06, "epoch": 2.3848396501457727, "percentage": 39.73, "elapsed_time": "1:06:46", "remaining_time": "1:41:18"}
+{"current_steps": 420, "total_steps": 1032, "loss": 0.1813, "lr": 7.377396204468754e-06, "epoch": 2.443148688046647, "percentage": 40.7, "elapsed_time": "1:08:31", "remaining_time": "1:39:51"}
+{"current_steps": 430, "total_steps": 1032, "loss": 0.1739, "lr": 7.227804257665838e-06, "epoch": 2.501457725947522, "percentage": 41.67, "elapsed_time": "1:10:18", "remaining_time": "1:38:25"}
+{"current_steps": 440, "total_steps": 1032, "loss": 0.1857, "lr": 7.075681242775017e-06, "epoch": 2.5597667638483967, "percentage": 42.64, "elapsed_time": "1:11:54", "remaining_time": "1:36:44"}
+{"current_steps": 450, "total_steps": 1032, "loss": 0.1864, "lr": 6.921199990828056e-06, "epoch": 2.618075801749271, "percentage": 43.6, "elapsed_time": "1:13:30", "remaining_time": "1:35:04"}
+{"current_steps": 460, "total_steps": 1032, "loss": 0.1927, "lr": 6.764536012113005e-06, "epoch": 2.6763848396501455, "percentage": 44.57, "elapsed_time": "1:15:09", "remaining_time": "1:33:27"}
+{"current_steps": 470, "total_steps": 1032, "loss": 0.1716, "lr": 6.605867296772262e-06, "epoch": 2.7346938775510203, "percentage": 45.54, "elapsed_time": "1:16:44", "remaining_time": "1:31:45"}
+{"current_steps": 480, "total_steps": 1032, "loss": 0.1843, "lr": 6.445374112583196e-06, "epoch": 2.793002915451895, "percentage": 46.51, "elapsed_time": "1:18:28", "remaining_time": "1:30:14"}
+{"current_steps": 490, "total_steps": 1032, "loss": 0.1711, "lr": 6.2832388001511034e-06, "epoch": 2.8513119533527695, "percentage": 47.48, "elapsed_time": "1:20:08", "remaining_time": "1:28:38"}
+{"current_steps": 500, "total_steps": 1032, "loss": 0.1739, "lr": 6.119645565747165e-06, "epoch": 2.9096209912536444, "percentage": 48.45, "elapsed_time": "1:21:41", "remaining_time": "1:26:55"}
+{"current_steps": 510, "total_steps": 1032, "loss": 0.1757, "lr": 5.954780272026761e-06, "epoch": 2.9679300291545188, "percentage": 49.42, "elapsed_time": "1:23:21", "remaining_time": "1:25:19"}
+{"current_steps": 520, "total_steps": 1032, "loss": 0.1391, "lr": 5.788830226865929e-06, "epoch": 3.0233236151603498, "percentage": 50.39, "elapsed_time": "1:24:58", "remaining_time": "1:23:40"}
+{"current_steps": 530, "total_steps": 1032, "loss": 0.0892, "lr": 5.621983970555881e-06, "epoch": 3.0816326530612246, "percentage": 51.36, "elapsed_time": "1:26:33", "remaining_time": "1:21:59"}
+{"current_steps": 540, "total_steps": 1032, "loss": 0.0872, "lr": 5.454431061597312e-06, "epoch": 3.139941690962099, "percentage": 52.33, "elapsed_time": "1:28:13", "remaining_time": "1:20:23"}
+{"current_steps": 550, "total_steps": 1032, "loss": 0.0849, "lr": 5.286361861337924e-06, "epoch": 3.198250728862974, "percentage": 53.29, "elapsed_time": "1:29:50", "remaining_time": "1:18:43"}
+{"current_steps": 560, "total_steps": 1032, "loss": 0.0871, "lr": 5.1179673176977915e-06, "epoch": 3.256559766763848, "percentage": 54.26, "elapsed_time": "1:31:38", "remaining_time": "1:17:14"}
+{"current_steps": 570, "total_steps": 1032, "loss": 0.0905, "lr": 4.9494387482283185e-06, "epoch": 3.314868804664723, "percentage": 55.23, "elapsed_time": "1:33:22", "remaining_time": "1:15:40"}
+{"current_steps": 580, "total_steps": 1032, "loss": 0.0895, "lr": 4.7809676227512455e-06, "epoch": 3.373177842565598, "percentage": 56.2, "elapsed_time": "1:35:01", "remaining_time": "1:14:03"}
+{"current_steps": 590, "total_steps": 1032, "loss": 0.0953, "lr": 4.612745345824652e-06, "epoch": 3.431486880466472, "percentage": 57.17, "elapsed_time": "1:36:44", "remaining_time": "1:12:28"}
+{"current_steps": 600, "total_steps": 1032, "loss": 0.0924, "lr": 4.444963039283114e-06, "epoch": 3.489795918367347, "percentage": 58.14, "elapsed_time": "1:38:20", "remaining_time": "1:10:48"}
+{"current_steps": 610, "total_steps": 1032, "loss": 0.0933, "lr": 4.277811325099072e-06, "epoch": 3.5481049562682214, "percentage": 59.11, "elapsed_time": "1:39:47", "remaining_time": "1:09:01"}
+{"current_steps": 620, "total_steps": 1032, "loss": 0.0921, "lr": 4.111480108812096e-06, "epoch": 3.6064139941690962, "percentage": 60.08, "elapsed_time": "1:41:24", "remaining_time": "1:07:22"}
+{"current_steps": 630, "total_steps": 1032, "loss": 0.0884, "lr": 3.946158363772118e-06, "epoch": 3.664723032069971, "percentage": 61.05, "elapsed_time": "1:43:01", "remaining_time": "1:05:44"}
+{"current_steps": 640, "total_steps": 1032, "loss": 0.0881, "lr": 3.78203391644175e-06, "epoch": 3.7230320699708455, "percentage": 62.02, "elapsed_time": "1:44:41", "remaining_time": "1:04:07"}
+{"current_steps": 650, "total_steps": 1032, "loss": 0.0904, "lr": 3.6192932330016074e-06, "epoch": 3.78134110787172, "percentage": 62.98, "elapsed_time": "1:46:19", "remaining_time": "1:02:29"}
+{"current_steps": 660, "total_steps": 1032, "loss": 0.0901, "lr": 3.4581212075010834e-06, "epoch": 3.8396501457725947, "percentage": 63.95, "elapsed_time": "1:47:57", "remaining_time": "1:00:50"}
+{"current_steps": 670, "total_steps": 1032, "loss": 0.0915, "lr": 3.2987009517952716e-06, "epoch": 3.8979591836734695, "percentage": 64.92, "elapsed_time": "1:49:35", "remaining_time": "0:59:12"}
+{"current_steps": 680, "total_steps": 1032, "loss": 0.0886, "lr": 3.1412135875066853e-06, "epoch": 3.956268221574344, "percentage": 65.89, "elapsed_time": "1:51:12", "remaining_time": "0:57:34"}
+{"current_steps": 690, "total_steps": 1032, "loss": 0.0711, "lr": 2.9858380402481203e-06, "epoch": 4.011661807580175, "percentage": 66.86, "elapsed_time": "1:52:44", "remaining_time": "0:55:52"}
+{"current_steps": 700, "total_steps": 1032, "loss": 0.0389, "lr": 2.8327508363404816e-06, "epoch": 4.069970845481049, "percentage": 67.83, "elapsed_time": "1:54:22", "remaining_time": "0:54:14"}
+{"current_steps": 710, "total_steps": 1032, "loss": 0.0367, "lr": 2.6821259022565106e-06, "epoch": 4.128279883381924, "percentage": 68.8, "elapsed_time": "1:56:01", "remaining_time": "0:52:37"}
+{"current_steps": 720, "total_steps": 1032, "loss": 0.0371, "lr": 2.5341343670182373e-06, "epoch": 4.186588921282799, "percentage": 69.77, "elapsed_time": "1:57:40", "remaining_time": "0:50:59"}
+{"current_steps": 730, "total_steps": 1032, "loss": 0.035, "lr": 2.3889443677727386e-06, "epoch": 4.244897959183674, "percentage": 70.74, "elapsed_time": "1:59:22", "remaining_time": "0:49:23"}
+{"current_steps": 740, "total_steps": 1032, "loss": 0.0384, "lr": 2.2467208587670054e-06, "epoch": 4.303206997084548, "percentage": 71.71, "elapsed_time": "2:00:59", "remaining_time": "0:47:44"}
+{"current_steps": 750, "total_steps": 1032, "loss": 0.0368, "lr": 2.107625423939015e-06, "epoch": 4.3615160349854225, "percentage": 72.67, "elapsed_time": "2:02:35", "remaining_time": "0:46:05"}
+{"current_steps": 760, "total_steps": 1032, "loss": 0.0368, "lr": 1.9718160933378905e-06, "epoch": 4.419825072886297, "percentage": 73.64, "elapsed_time": "2:04:10", "remaining_time": "0:44:26"}
+{"current_steps": 770, "total_steps": 1032, "loss": 0.0349, "lr": 1.8394471635817158e-06, "epoch": 4.478134110787172, "percentage": 74.61, "elapsed_time": "2:05:53", "remaining_time": "0:42:50"}
+{"current_steps": 780, "total_steps": 1032, "loss": 0.0371, "lr": 1.7106690225570343e-06, "epoch": 4.536443148688047, "percentage": 75.58, "elapsed_time": "2:07:30", "remaining_time": "0:41:11"}
+{"current_steps": 790, "total_steps": 1032, "loss": 0.0339, "lr": 1.5856279785591321e-06, "epoch": 4.594752186588921, "percentage": 76.55, "elapsed_time": "2:09:00", "remaining_time": "0:39:31"}
+{"current_steps": 800, "total_steps": 1032, "loss": 0.0323, "lr": 1.4644660940672628e-06, "epoch": 4.653061224489796, "percentage": 77.52, "elapsed_time": "2:10:39", "remaining_time": "0:37:53"}
+{"current_steps": 810, "total_steps": 1032, "loss": 0.0334, "lr": 1.3473210243436673e-06, "epoch": 4.711370262390671, "percentage": 78.49, "elapsed_time": "2:12:23", "remaining_time": "0:36:17"}
+{"current_steps": 820, "total_steps": 1032, "loss": 0.0326, "lr": 1.2343258610397397e-06, "epoch": 4.769679300291545, "percentage": 79.46, "elapsed_time": "2:13:59", "remaining_time": "0:34:38"}
+{"current_steps": 830, "total_steps": 1032, "loss": 0.0334, "lr": 1.1256089809870336e-06, "epoch": 4.827988338192419, "percentage": 80.43, "elapsed_time": "2:15:40", "remaining_time": "0:33:01"}
+{"current_steps": 840, "total_steps": 1032, "loss": 0.0345, "lr": 1.0212939003449128e-06, "epoch": 4.886297376093294, "percentage": 81.4, "elapsed_time": "2:17:18", "remaining_time": "0:31:23"}
+{"current_steps": 850, "total_steps": 1032, "loss": 0.0346, "lr": 9.214991342705304e-07, "epoch": 4.944606413994169, "percentage": 82.36, "elapsed_time": "2:18:51", "remaining_time": "0:29:43"}
+{"current_steps": 860, "total_steps": 1032, "loss": 0.0337, "lr": 8.263380622705796e-07, "epoch": 5.0, "percentage": 83.33, "elapsed_time": "2:20:28", "remaining_time": "0:28:05"}
+{"current_steps": 870, "total_steps": 1032, "loss": 0.0158, "lr": 7.359187993878109e-07, "epoch": 5.058309037900875, "percentage": 84.3, "elapsed_time": "2:21:59", "remaining_time": "0:26:26"}
+{"current_steps": 880, "total_steps": 1032, "loss": 0.013, "lr": 6.503440733686251e-07, "epoch": 5.11661807580175, "percentage": 85.27, "elapsed_time": "2:23:35", "remaining_time": "0:24:48"}
+{"current_steps": 890, "total_steps": 1032, "loss": 0.013, "lr": 5.69711107951334e-07, "epoch": 5.174927113702624, "percentage": 86.24, "elapsed_time": "2:25:10", "remaining_time": "0:23:09"}
+{"current_steps": 900, "total_steps": 1032, "loss": 0.0123, "lr": 4.941115124076679e-07, "epoch": 5.233236151603498, "percentage": 87.21, "elapsed_time": "2:26:53", "remaining_time": "0:21:32"}
+{"current_steps": 910, "total_steps": 1032, "loss": 0.012, "lr": 4.2363117746302476e-07, "epoch": 5.291545189504373, "percentage": 88.18, "elapsed_time": "2:28:29", "remaining_time": "0:19:54"}
+{"current_steps": 920, "total_steps": 1032, "loss": 0.0125, "lr": 3.583501777137227e-07, "epoch": 5.349854227405248, "percentage": 89.15, "elapsed_time": "2:30:10", "remaining_time": "0:18:16"}
+{"current_steps": 930, "total_steps": 1032, "loss": 0.0125, "lr": 2.9834268065210006e-07, "epoch": 5.408163265306122, "percentage": 90.12, "elapsed_time": "2:31:51", "remaining_time": "0:16:39"}
+{"current_steps": 940, "total_steps": 1032, "loss": 0.0124, "lr": 2.4367686240284127e-07, "epoch": 5.466472303206997, "percentage": 91.09, "elapsed_time": "2:33:31", "remaining_time": "0:15:01"}
+{"current_steps": 950, "total_steps": 1032, "loss": 0.0113, "lr": 1.9441483026626185e-07, "epoch": 5.524781341107872, "percentage": 92.05, "elapsed_time": "2:35:12", "remaining_time": "0:13:23"}
+{"current_steps": 960, "total_steps": 1032, "loss": 0.0116, "lr": 1.506125521565327e-07, "epoch": 5.5830903790087465, "percentage": 93.02, "elapsed_time": "2:36:52", "remaining_time": "0:11:45"}
+{"current_steps": 970, "total_steps": 1032, "loss": 0.0117, "lr": 1.1231979301504048e-07, "epoch": 5.641399416909621, "percentage": 93.99, "elapsed_time": "2:38:29", "remaining_time": "0:10:07"}
+{"current_steps": 980, "total_steps": 1032, "loss": 0.0113, "lr": 7.958005827110039e-08, "epoch": 5.699708454810495, "percentage": 94.96, "elapsed_time": "2:40:02", "remaining_time": "0:08:29"}
+{"current_steps": 990, "total_steps": 1032, "loss": 0.0126, "lr": 5.2430544414273645e-08, "epoch": 5.75801749271137, "percentage": 95.93, "elapsed_time": "2:41:38", "remaining_time": "0:06:51"}
+{"current_steps": 1000, "total_steps": 1032, "loss": 0.0121, "lr": 3.0902096734442554e-08, "epoch": 5.816326530612245, "percentage": 96.9, "elapsed_time": "2:43:21", "remaining_time": "0:05:13"}
+{"current_steps": 1010, "total_steps": 1032, "loss": 0.0114, "lr": 1.5019174277645098e-08, "epoch": 5.87463556851312, "percentage": 97.87, "elapsed_time": "2:45:59", "remaining_time": "0:03:36"}
+{"current_steps": 1020, "total_steps": 1032, "loss": 0.0123, "lr": 4.799822057502401e-09, "epoch": 5.932944606413994, "percentage": 98.84, "elapsed_time": "2:47:35", "remaining_time": "0:01:58"}
+{"current_steps": 1030, "total_steps": 1032, "loss": 0.0116, "lr": 2.5565055379261904e-10, "epoch": 5.9912536443148685, "percentage": 99.81, "elapsed_time": "2:49:13", "remaining_time": "0:00:19"}
+{"current_steps": 1032, "total_steps": 1032, "epoch": 6.0, "percentage": 100.0, "elapsed_time": "2:50:37", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,764 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 1032,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05830903790087463,
+      "grad_norm": 14.626969535556903,
+      "learning_rate": 9.000000000000001e-07,
+      "loss": 1.5047,
+      "step": 10
+    },
+    {
+      "epoch": 0.11661807580174927,
+      "grad_norm": 7.637318846998983,
+      "learning_rate": 1.9000000000000002e-06,
+      "loss": 1.1973,
+      "step": 20
+    },
+    {
+      "epoch": 0.1749271137026239,
+      "grad_norm": 3.691260729275177,
+      "learning_rate": 2.9e-06,
+      "loss": 0.8,
+      "step": 30
+    },
+    {
+      "epoch": 0.23323615160349853,
+      "grad_norm": 2.1291989636182427,
+      "learning_rate": 3.900000000000001e-06,
+      "loss": 0.6175,
+      "step": 40
+    },
+    {
+      "epoch": 0.2915451895043732,
+      "grad_norm": 2.14798091897299,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 0.5677,
+      "step": 50
+    },
+    {
+      "epoch": 0.3498542274052478,
+      "grad_norm": 2.0456305815246005,
+      "learning_rate": 5.9e-06,
+      "loss": 0.5051,
+      "step": 60
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 1.988581124794002,
+      "learning_rate": 6.9e-06,
+      "loss": 0.4964,
+      "step": 70
+    },
+    {
+      "epoch": 0.46647230320699706,
+      "grad_norm": 2.303466906806559,
+      "learning_rate": 7.9e-06,
+      "loss": 0.4929,
+      "step": 80
+    },
+    {
+      "epoch": 0.5247813411078717,
+      "grad_norm": 1.9377203696272898,
+      "learning_rate": 8.900000000000001e-06,
+      "loss": 0.4703,
+      "step": 90
+    },
+    {
+      "epoch": 0.5830903790087464,
+      "grad_norm": 2.190981800812453,
+      "learning_rate": 9.9e-06,
+      "loss": 0.4443,
+      "step": 100
+    },
+    {
+      "epoch": 0.641399416909621,
+      "grad_norm": 2.0744832345963493,
+      "learning_rate": 9.997699301870489e-06,
+      "loss": 0.4364,
+      "step": 110
+    },
+    {
+      "epoch": 0.6997084548104956,
+      "grad_norm": 1.7704017643532202,
+      "learning_rate": 9.98974898953517e-06,
+      "loss": 0.4147,
+      "step": 120
+    },
+    {
+      "epoch": 0.7580174927113703,
+      "grad_norm": 1.747873159096446,
+      "learning_rate": 9.976129689724575e-06,
+      "loss": 0.4294,
+      "step": 130
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 1.7960844701869685,
+      "learning_rate": 9.956856875690006e-06,
+      "loss": 0.4168,
+      "step": 140
+    },
+    {
+      "epoch": 0.8746355685131195,
+      "grad_norm": 1.7736875630417643,
+      "learning_rate": 9.931952443791704e-06,
+      "loss": 0.4085,
+      "step": 150
+    },
+    {
+      "epoch": 0.9329446064139941,
+      "grad_norm": 2.2132067152288752,
+      "learning_rate": 9.901444688621801e-06,
+      "loss": 0.4063,
+      "step": 160
+    },
+    {
+      "epoch": 0.9912536443148688,
+      "grad_norm": 1.8315327950009368,
+      "learning_rate": 9.865368270858082e-06,
+      "loss": 0.3978,
+      "step": 170
+    },
+    {
+      "epoch": 1.0466472303206997,
+      "grad_norm": 1.6782697102135526,
+      "learning_rate": 9.82376417788506e-06,
+      "loss": 0.343,
+      "step": 180
+    },
+    {
+      "epoch": 1.1049562682215743,
+      "grad_norm": 1.5675824197763997,
+      "learning_rate": 9.77667967722711e-06,
+      "loss": 0.297,
+      "step": 190
+    },
+    {
+      "epoch": 1.163265306122449,
+      "grad_norm": 1.9145136006604275,
+      "learning_rate": 9.724168262846567e-06,
+      "loss": 0.3153,
+      "step": 200
+    },
+    {
+      "epoch": 1.2215743440233235,
+      "grad_norm": 1.7203060932188563,
+      "learning_rate": 9.666289594367804e-06,
+      "loss": 0.3036,
+      "step": 210
+    },
+    {
+      "epoch": 1.2798833819241984,
+      "grad_norm": 1.7012502607051327,
+      "learning_rate": 9.603109429296333e-06,
+      "loss": 0.3246,
+      "step": 220
+    },
+    {
+      "epoch": 1.3381924198250728,
+      "grad_norm": 1.6624551186289933,
+      "learning_rate": 9.534699548309949e-06,
+      "loss": 0.302,
+      "step": 230
+    },
+    {
+      "epoch": 1.3965014577259476,
+      "grad_norm": 1.442216855717199,
+      "learning_rate": 9.461137673706768e-06,
+      "loss": 0.3068,
+      "step": 240
+    },
+    {
+      "epoch": 1.4548104956268222,
+      "grad_norm": 1.6576009785614365,
+      "learning_rate": 9.382507381102848e-06,
+      "loss": 0.298,
+      "step": 250
+    },
+    {
+      "epoch": 1.5131195335276968,
+      "grad_norm": 1.8058128149355792,
+      "learning_rate": 9.298898004479698e-06,
+      "loss": 0.3075,
+      "step": 260
+    },
+    {
+      "epoch": 1.5714285714285714,
+      "grad_norm": 1.4784242670602321,
+      "learning_rate": 9.210404534689536e-06,
+      "loss": 0.3057,
+      "step": 270
+    },
+    {
+      "epoch": 1.629737609329446,
+      "grad_norm": 1.546258930542768,
+      "learning_rate": 9.117127511533654e-06,
+      "loss": 0.2988,
+      "step": 280
+    },
+    {
+      "epoch": 1.6880466472303208,
+      "grad_norm": 1.695476568663106,
+      "learning_rate": 9.019172909536442e-06,
+      "loss": 0.3033,
+      "step": 290
+    },
+    {
+      "epoch": 1.7463556851311952,
+      "grad_norm": 1.6544653059743208,
+      "learning_rate": 8.9166520175449e-06,
+      "loss": 0.3035,
+      "step": 300
+    },
+    {
+      "epoch": 1.80466472303207,
+      "grad_norm": 1.6077779186418766,
+      "learning_rate": 8.809681312290398e-06,
+      "loss": 0.3037,
+      "step": 310
+    },
+    {
+      "epoch": 1.8629737609329446,
+      "grad_norm": 1.6177268312586421,
+      "learning_rate": 8.698382326056341e-06,
+      "loss": 0.2921,
+      "step": 320
+    },
+    {
+      "epoch": 1.9212827988338192,
+      "grad_norm": 1.603497878343536,
+      "learning_rate": 8.582881508602082e-06,
+      "loss": 0.2948,
+      "step": 330
+    },
+    {
+      "epoch": 1.9795918367346939,
+      "grad_norm": 1.3886954878888524,
+      "learning_rate": 8.46331008349997e-06,
+      "loss": 0.2946,
+      "step": 340
+    },
+    {
+      "epoch": 2.0349854227405246,
+      "grad_norm": 1.499985665960878,
+      "learning_rate": 8.339803899048737e-06,
+      "loss": 0.2193,
+      "step": 350
+    },
+    {
+      "epoch": 2.0932944606413995,
+      "grad_norm": 1.435584840559424,
+      "learning_rate": 8.212503273932594e-06,
+      "loss": 0.1747,
+      "step": 360
+    },
+    {
+      "epoch": 2.151603498542274,
+      "grad_norm": 1.4871062012555394,
+      "learning_rate": 8.081552837801428e-06,
+      "loss": 0.1778,
+      "step": 370
+    },
+    {
+      "epoch": 2.2099125364431487,
+      "grad_norm": 1.4218330629504066,
+      "learning_rate": 7.947101366953177e-06,
+      "loss": 0.176,
+      "step": 380
+    },
+    {
+      "epoch": 2.2682215743440235,
+      "grad_norm": 1.2427066721460804,
+      "learning_rate": 7.809301615305098e-06,
+      "loss": 0.169,
+      "step": 390
+    },
+    {
+      "epoch": 2.326530612244898,
+      "grad_norm": 1.491373179347201,
+      "learning_rate": 7.668310140845944e-06,
+      "loss": 0.1828,
+      "step": 400
+    },
+    {
+      "epoch": 2.3848396501457727,
+      "grad_norm": 1.1382514278247085,
+      "learning_rate": 7.524287127766245e-06,
+      "loss": 0.1691,
+      "step": 410
+    },
+    {
+      "epoch": 2.443148688046647,
+      "grad_norm": 1.4250482419303996,
+      "learning_rate": 7.377396204468754e-06,
+      "loss": 0.1813,
+      "step": 420
+    },
+    {
+      "epoch": 2.501457725947522,
+      "grad_norm": 1.3115974493545381,
+      "learning_rate": 7.227804257665838e-06,
+      "loss": 0.1739,
+      "step": 430
+    },
+    {
+      "epoch": 2.5597667638483967,
+      "grad_norm": 1.460585330094477,
+      "learning_rate": 7.075681242775017e-06,
+      "loss": 0.1857,
+      "step": 440
+    },
+    {
+      "epoch": 2.618075801749271,
+      "grad_norm": 1.2364257305075577,
+      "learning_rate": 6.921199990828056e-06,
+      "loss": 0.1864,
+      "step": 450
+    },
+    {
+      "epoch": 2.6763848396501455,
+      "grad_norm": 1.460927926445741,
+      "learning_rate": 6.764536012113005e-06,
+      "loss": 0.1927,
+      "step": 460
+    },
+    {
+      "epoch": 2.7346938775510203,
+      "grad_norm": 1.1802915819618254,
+      "learning_rate": 6.605867296772262e-06,
+      "loss": 0.1716,
+      "step": 470
+    },
+    {
+      "epoch": 2.793002915451895,
+      "grad_norm": 1.2215463060704888,
+      "learning_rate": 6.445374112583196e-06,
+      "loss": 0.1843,
+      "step": 480
+    },
+    {
+      "epoch": 2.8513119533527695,
+      "grad_norm": 1.1217299502317768,
+      "learning_rate": 6.2832388001511034e-06,
+      "loss": 0.1711,
+      "step": 490
+    },
+    {
+      "epoch": 2.9096209912536444,
+      "grad_norm": 1.359355058632944,
+      "learning_rate": 6.119645565747165e-06,
+      "loss": 0.1739,
+      "step": 500
+    },
+    {
+      "epoch": 2.9679300291545188,
+      "grad_norm": 1.2912101573020145,
+      "learning_rate": 5.954780272026761e-06,
+      "loss": 0.1757,
+      "step": 510
+    },
+    {
+      "epoch": 3.0233236151603498,
+      "grad_norm": 1.0681809205213206,
+      "learning_rate": 5.788830226865929e-06,
+      "loss": 0.1391,
+      "step": 520
+    },
+    {
+      "epoch": 3.0816326530612246,
+      "grad_norm": 1.2260857222791004,
+      "learning_rate": 5.621983970555881e-06,
+      "loss": 0.0892,
+      "step": 530
+    },
+    {
+      "epoch": 3.139941690962099,
+      "grad_norm": 1.0189023598379496,
+      "learning_rate": 5.454431061597312e-06,
+      "loss": 0.0872,
+      "step": 540
+    },
+    {
+      "epoch": 3.198250728862974,
+      "grad_norm": 1.1572966564929497,
+      "learning_rate": 5.286361861337924e-06,
+      "loss": 0.0849,
+      "step": 550
+    },
+    {
+      "epoch": 3.256559766763848,
+      "grad_norm": 1.3012849394193384,
+      "learning_rate": 5.1179673176977915e-06,
+      "loss": 0.0871,
+      "step": 560
+    },
+    {
+      "epoch": 3.314868804664723,
+      "grad_norm": 1.0416650556204414,
+      "learning_rate": 4.9494387482283185e-06,
+      "loss": 0.0905,
+      "step": 570
+    },
+    {
+      "epoch": 3.373177842565598,
+      "grad_norm": 1.210951177453276,
+      "learning_rate": 4.7809676227512455e-06,
+      "loss": 0.0895,
+      "step": 580
+    },
+    {
+      "epoch": 3.431486880466472,
+      "grad_norm": 1.21811830246229,
+      "learning_rate": 4.612745345824652e-06,
+      "loss": 0.0953,
+      "step": 590
+    },
+    {
+      "epoch": 3.489795918367347,
+      "grad_norm": 1.0389113088365345,
+      "learning_rate": 4.444963039283114e-06,
+      "loss": 0.0924,
+      "step": 600
+    },
+    {
+      "epoch": 3.5481049562682214,
+      "grad_norm": 1.0509213042877452,
+      "learning_rate": 4.277811325099072e-06,
+      "loss": 0.0933,
+      "step": 610
+    },
+    {
+      "epoch": 3.6064139941690962,
+      "grad_norm": 1.031466931202058,
+      "learning_rate": 4.111480108812096e-06,
+      "loss": 0.0921,
+      "step": 620
+    },
+    {
+      "epoch": 3.664723032069971,
+      "grad_norm": 0.9674006736435579,
+      "learning_rate": 3.946158363772118e-06,
+      "loss": 0.0884,
+      "step": 630
+    },
+    {
+      "epoch": 3.7230320699708455,
+      "grad_norm": 1.052555764127678,
+      "learning_rate": 3.78203391644175e-06,
+      "loss": 0.0881,
+      "step": 640
+    },
+    {
+      "epoch": 3.78134110787172,
+      "grad_norm": 1.041731792136989,
+      "learning_rate": 3.6192932330016074e-06,
+      "loss": 0.0904,
+      "step": 650
+    },
+    {
+      "epoch": 3.8396501457725947,
+      "grad_norm": 1.1688175176919982,
+      "learning_rate": 3.4581212075010834e-06,
+      "loss": 0.0901,
+      "step": 660
+    },
+    {
+      "epoch": 3.8979591836734695,
+      "grad_norm": 1.102720481784069,
+      "learning_rate": 3.2987009517952716e-06,
+      "loss": 0.0915,
+      "step": 670
+    },
+    {
+      "epoch": 3.956268221574344,
+      "grad_norm": 1.0261487225837105,
+      "learning_rate": 3.1412135875066853e-06,
+      "loss": 0.0886,
+      "step": 680
+    },
+    {
+      "epoch": 4.011661807580175,
+      "grad_norm": 0.6607620413640864,
+      "learning_rate": 2.9858380402481203e-06,
+      "loss": 0.0711,
+      "step": 690
+    },
+    {
+      "epoch": 4.069970845481049,
+      "grad_norm": 0.8936608342352569,
+      "learning_rate": 2.8327508363404816e-06,
+      "loss": 0.0389,
+      "step": 700
+    },
+    {
+      "epoch": 4.128279883381924,
+      "grad_norm": 0.7891996422928471,
+      "learning_rate": 2.6821259022565106e-06,
+      "loss": 0.0367,
+      "step": 710
+    },
+    {
+      "epoch": 4.186588921282799,
+      "grad_norm": 0.9396857177599008,
+      "learning_rate": 2.5341343670182373e-06,
+      "loss": 0.0371,
+      "step": 720
+    },
+    {
+      "epoch": 4.244897959183674,
+      "grad_norm": 0.7935821446040255,
+      "learning_rate": 2.3889443677727386e-06,
+      "loss": 0.035,
+      "step": 730
+    },
+    {
+      "epoch": 4.303206997084548,
+      "grad_norm": 0.7947020670633791,
+      "learning_rate": 2.2467208587670054e-06,
+      "loss": 0.0384,
+      "step": 740
+    },
+    {
+      "epoch": 4.3615160349854225,
+      "grad_norm": 0.8946315335018554,
+      "learning_rate": 2.107625423939015e-06,
+      "loss": 0.0368,
+      "step": 750
+    },
+    {
+      "epoch": 4.419825072886297,
+      "grad_norm": 0.7944653560307688,
+      "learning_rate": 1.9718160933378905e-06,
+      "loss": 0.0368,
+      "step": 760
+    },
+    {
+      "epoch": 4.478134110787172,
+      "grad_norm": 0.7774636550435158,
+      "learning_rate": 1.8394471635817158e-06,
+      "loss": 0.0349,
+      "step": 770
+    },
+    {
+      "epoch": 4.536443148688047,
+      "grad_norm": 0.8756408218531322,
+      "learning_rate": 1.7106690225570343e-06,
+      "loss": 0.0371,
+      "step": 780
+    },
+    {
+      "epoch": 4.594752186588921,
+      "grad_norm": 0.8687861976493633,
+      "learning_rate": 1.5856279785591321e-06,
+      "loss": 0.0339,
+      "step": 790
+    },
+    {
+      "epoch": 4.653061224489796,
+      "grad_norm": 0.8189000224644959,
+      "learning_rate": 1.4644660940672628e-06,
+      "loss": 0.0323,
+      "step": 800
+    },
+    {
+      "epoch": 4.711370262390671,
+      "grad_norm": 0.8369884028081186,
+      "learning_rate": 1.3473210243436673e-06,
+      "loss": 0.0334,
+      "step": 810
+    },
+    {
+      "epoch": 4.769679300291545,
+      "grad_norm": 0.7785311317469292,
+      "learning_rate": 1.2343258610397397e-06,
+      "loss": 0.0326,
+      "step": 820
+    },
+    {
+      "epoch": 4.827988338192419,
+      "grad_norm": 0.8404324074760597,
+      "learning_rate": 1.1256089809870336e-06,
+      "loss": 0.0334,
+      "step": 830
+    },
+    {
+      "epoch": 4.886297376093294,
+      "grad_norm": 0.8675304198425063,
+      "learning_rate": 1.0212939003449128e-06,
+      "loss": 0.0345,
+      "step": 840
+    },
+    {
+      "epoch": 4.944606413994169,
+      "grad_norm": 0.8431136894720528,
+      "learning_rate": 9.214991342705304e-07,
+      "loss": 0.0346,
+      "step": 850
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.1768071446682524,
+      "learning_rate": 8.263380622705796e-07,
+      "loss": 0.0337,
+      "step": 860
+    },
+    {
+      "epoch": 5.058309037900875,
+      "grad_norm": 0.40110032583503596,
+      "learning_rate": 7.359187993878109e-07,
+      "loss": 0.0158,
+      "step": 870
+    },
+    {
+      "epoch": 5.11661807580175,
+      "grad_norm": 0.49375416237980635,
+      "learning_rate": 6.503440733686251e-07,
+      "loss": 0.013,
+      "step": 880
+    },
+    {
+      "epoch": 5.174927113702624,
+      "grad_norm": 0.5363565719022582,
+      "learning_rate": 5.69711107951334e-07,
+      "loss": 0.013,
+      "step": 890
+    },
+    {
+      "epoch": 5.233236151603498,
+      "grad_norm": 0.5236558514075167,
+      "learning_rate": 4.941115124076679e-07,
+      "loss": 0.0123,
+      "step": 900
+    },
+    {
+      "epoch": 5.291545189504373,
+      "grad_norm": 0.49489565231551663,
+      "learning_rate": 4.2363117746302476e-07,
+      "loss": 0.012,
+      "step": 910
+    },
+    {
+      "epoch": 5.349854227405248,
+      "grad_norm": 0.5305713447576351,
+      "learning_rate": 3.583501777137227e-07,
+      "loss": 0.0125,
+      "step": 920
+    },
+    {
+      "epoch": 5.408163265306122,
+      "grad_norm": 0.8039219674866297,
+      "learning_rate": 2.9834268065210006e-07,
+      "loss": 0.0125,
+      "step": 930
+    },
+    {
+      "epoch": 5.466472303206997,
+      "grad_norm": 0.3862288158846098,
+      "learning_rate": 2.4367686240284127e-07,
+      "loss": 0.0124,
+      "step": 940
+    },
+    {
+      "epoch": 5.524781341107872,
+      "grad_norm": 0.47054782769610126,
+      "learning_rate": 1.9441483026626185e-07,
+      "loss": 0.0113,
+      "step": 950
+    },
+    {
+      "epoch": 5.5830903790087465,
+      "grad_norm": 0.4671541625745262,
+      "learning_rate": 1.506125521565327e-07,
+      "loss": 0.0116,
+      "step": 960
+    },
+    {
+      "epoch": 5.641399416909621,
+      "grad_norm": 0.48837436287072683,
+      "learning_rate": 1.1231979301504048e-07,
+      "loss": 0.0117,
+      "step": 970
+    },
+    {
+      "epoch": 5.699708454810495,
+      "grad_norm": 0.4538198562291079,
+      "learning_rate": 7.958005827110039e-08,
+      "loss": 0.0113,
+      "step": 980
+    },
+    {
+      "epoch": 5.75801749271137,
+      "grad_norm": 0.5730409751947306,
+      "learning_rate": 5.2430544414273645e-08,
+      "loss": 0.0126,
+      "step": 990
+    },
+    {
+      "epoch": 5.816326530612245,
+      "grad_norm": 0.6123539079634027,
+      "learning_rate": 3.0902096734442554e-08,
+      "loss": 0.0121,
+      "step": 1000
+    },
+    {
+      "epoch": 5.87463556851312,
+      "grad_norm": 0.5748592685210242,
+      "learning_rate": 1.5019174277645098e-08,
+      "loss": 0.0114,
+      "step": 1010
+    },
+    {
+      "epoch": 5.932944606413994,
+      "grad_norm": 0.4633724477797094,
+      "learning_rate": 4.799822057502401e-09,
+      "loss": 0.0123,
+      "step": 1020
+    },
+    {
+      "epoch": 5.9912536443148685,
+      "grad_norm": 0.4377554362173321,
+      "learning_rate": 2.5565055379261904e-10,
+      "loss": 0.0116,
+      "step": 1030
+    },
+    {
+      "epoch": 6.0,
+      "step": 1032,
+      "total_flos": 884370134269952.0,
+      "train_loss": 0.20082982304657615,
+      "train_runtime": 10237.3944,
+      "train_samples_per_second": 12.861,
+      "train_steps_per_second": 0.101
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1032,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 884370134269952.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5efba05d20dd835ed36fd1a9fa56075b5ec46aa6bbb2b258b43b38634275dfe0
+size 8209

training_loss.png ADDED Viewed

video_preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "do_sample_frames": false,
+  "fps": null,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "input_data_format": null,
+  "max_frames": 768,
+  "max_pixels": 12845056,
+  "merge_size": 2,
+  "min_frames": 4,
+  "min_pixels": 3136,
+  "num_frames": null,
+  "pad_size": null,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5_VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_metadata": false,
+  "size": {
+    "longest_edge": 12845056,
+    "shortest_edge": 3136
+  },
+  "temporal_patch_size": 2,
+  "video_metadata": null,
+  "video_processor_type": "Qwen2VLVideoProcessor"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff