JamesK2W commited on Mar 5

Commit

6a1baf6

verified ·

1 Parent(s): 0ab50d7

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/README.md +67 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/added_tokens.json +24 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/all_results.json +12 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/chat_template.jinja +7 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/config.json +134 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/eval_results.json +7 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/generation_config.json +11 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/merges.txt +0 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model-00001-of-00004.safetensors +3 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model-00002-of-00004.safetensors +3 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model-00003-of-00004.safetensors +3 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model-00004-of-00004.safetensors +3 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model.safetensors.index.json +737 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/preprocessor_config.json +39 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/sft_config.yaml +35 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/special_tokens_map.json +31 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/tokenizer_config.json +209 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/train_results.json +8 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/trainer_log.jsonl +76 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/trainer_state.json +571 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/training_args.bin +3 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/video_preprocessor_config.json +45 -0
graphrl_viewsuite_ae_new_graph/iter_001/sft_model/vocab.json +0 -0

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/README.md ADDED Viewed

	@@ -0,0 +1,67 @@

+---
+library_name: transformers
+license: other
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: sft_model
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# sft_model
+This model is a fine-tuned version of [/root/projects/viewsuite/GraphRL/exps/graphrl_viewsuite_ae_new_graph/iter_001/rl_model](https://huggingface.co//root/projects/viewsuite/GraphRL/exps/graphrl_viewsuite_ae_new_graph/iter_001/rl_model) on the multi_turn_action_gen, the view_difference and the view_difference_mcq datasets.
+It achieves the following results on the evaluation set:
+- Loss: 0.1355
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 32
+- total_eval_batch_size: 16
+- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 0.1433        | 1.0   | 242  | 0.1478          |
+| 0.115         | 2.0   | 484  | 0.1355          |
+| 0.0648        | 3.0   | 726  | 0.1565          |
+### Framework versions
+- Transformers 4.56.1
+- Pytorch 2.8.0+cu128
+- Datasets 4.0.0
+- Tokenizers 0.22.2

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.1355440318584442,
+    "eval_runtime": 76.379,
+    "eval_samples_per_second": 25.269,
+    "eval_steps_per_second": 1.584,
+    "total_flos": 2.8869961528744346e+18,
+    "train_loss": 0.11243543833412087,
+    "train_runtime": 2587.3904,
+    "train_samples_per_second": 8.951,
+    "train_steps_per_second": 0.281
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,7 @@

+{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system
+You are a helpful assistant.<|im_end|>
+{% endif %}<|im_start|>{{ message['role'] }}
+{% if message['content'] is string %}{{ message['content'] }}<|im_end|>
+{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>
+{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant
+{% endif %}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/config.json ADDED Viewed

	@@ -0,0 +1,134 @@

+{
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "pad_token_id": 151643,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "text_config": {
+    "_name_or_path": "Qwen/Qwen2.5-VL-7B-Instruct",
+    "architectures": [
+      "Qwen2_5_VLForConditionalGeneration"
+    ],
+    "attention_dropout": 0.0,
+    "dtype": "float32",
+    "eos_token_id": 151645,
+    "hidden_act": "silu",
+    "hidden_size": 3584,
+    "image_token_id": null,
+    "initializer_range": 0.02,
+    "intermediate_size": 18944,
+    "layer_types": [
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 128000,
+    "max_window_layers": 28,
+    "model_type": "qwen2_5_vl",
+    "num_attention_heads": 28,
+    "num_hidden_layers": 28,
+    "num_key_value_heads": 4,
+    "pad_token_id": 151643,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "mrope_section": [
+        16,
+        24,
+        24
+      ],
+      "rope_type": "default",
+      "type": "default"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "use_cache": false,
+    "use_sliding_window": false,
+    "video_token_id": null,
+    "vision_token_id": 151654,
+    "vocab_size": 152064
+  },
+  "tie_word_embeddings": false,
+  "transformers_version": "4.56.1",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "dtype": "float32",
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "initializer_range": 0.02,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.1355440318584442,
+    "eval_runtime": 76.379,
+    "eval_samples_per_second": 25.269,
+    "eval_steps_per_second": 1.584
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 1e-06,
+  "transformers_version": "4.56.1"
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2360bc19a573f413e3505e1180e828e1d233ed0977348de87bce2dfa60d1e907
+size 4968243304

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a01e10fb5d96a40590074e647289a3bea67ba05cc3904c92b79fa6e07953c2b
+size 4991495816

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b4d5f1a6dd28fb09bf3557ff41a6a4bf414bec0b4af9212e923124735c98c50
+size 4932751040

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cc0658242fd53dd041e82a5c504d588893c4dd244416b0e2056645a82438a89
+size 1691924384

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,737 @@

+{
+  "metadata": {
+    "total_parameters": 8292166656,
+    "total_size": 16584333312
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors",
+    "visual.blocks.0.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.0.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.1.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.10.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.11.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.12.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.13.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.14.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.15.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.16.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.17.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.18.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.19.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.2.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.20.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.21.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.22.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.23.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.24.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.25.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.26.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.27.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.28.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.29.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.3.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.30.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.31.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.4.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.5.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.6.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.7.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.8.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.attn.proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.attn.proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.attn.qkv.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.attn.qkv.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.down_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.gate_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.up_proj.bias": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.norm1.weight": "model-00001-of-00004.safetensors",
+    "visual.blocks.9.norm2.weight": "model-00001-of-00004.safetensors",
+    "visual.merger.ln_q.weight": "model-00001-of-00004.safetensors",
+    "visual.merger.mlp.0.bias": "model-00001-of-00004.safetensors",
+    "visual.merger.mlp.0.weight": "model-00001-of-00004.safetensors",
+    "visual.merger.mlp.2.bias": "model-00001-of-00004.safetensors",
+    "visual.merger.mlp.2.weight": "model-00001-of-00004.safetensors",
+    "visual.patch_embed.proj.weight": "model-00001-of-00004.safetensors"
+  }
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "disable_grouping": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "Qwen2VLImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "input_data_format": null,
+  "max_pixels": 12845056,
+  "merge_size": 2,
+  "min_pixels": 3136,
+  "pad_size": null,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5_VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_tensors": null,
+  "size": {
+    "longest_edge": 12845056,
+    "shortest_edge": 3136
+  },
+  "temporal_patch_size": 2
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/sft_config.yaml ADDED Viewed

	@@ -0,0 +1,35 @@

+stage: sft
+do_train: true
+finetuning_type: full
+dataset: multi_turn_action_gen,view_difference,view_difference_mcq
+template: qwen2_vl
+cutoff_len: 16384
+preprocessing_num_workers: 16
+per_device_train_batch_size: 2
+gradient_accumulation_steps: 2
+learning_rate: 1.0e-05
+num_train_epochs: 3.0
+lr_scheduler_type: cosine
+warmup_ratio: 0.1
+bf16: true
+logging_steps: 10
+save_steps: 500
+overwrite_output_dir: true
+trust_remote_code: true
+deepspeed: /root/projects/viewsuite/GraphRL/graphrl/configs/sft/llama_factory/ds_z2_config.json
+use_fast_tokenizer: false
+weight_decay: 0.01
+flash_attn: fa2
+val_size: 0.2
+eval_strategy: epoch
+per_device_eval_batch_size: 2
+load_best_model_at_end: true
+metric_for_best_model: eval_loss
+greater_is_better: false
+save_strategy: epoch
+save_total_limit: 1
+model_name_or_path: /root/projects/viewsuite/GraphRL/exps/graphrl_viewsuite_ae_new_graph/iter_001/rl_model
+dataset_dir: /root/projects/viewsuite/GraphRL/exps/graphrl_viewsuite_ae_new_graph/iter_001/sft_data
+output_dir: /root/projects/viewsuite/GraphRL/exps/graphrl_viewsuite_ae_new_graph/iter_001/sft_model
+report_to: wandb
+run_name: graphrl_viewsuite_ae_new_graph_sft_iter001

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,209 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "processor_class": "Qwen2_5_VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "total_flos": 2.8869961528744346e+18,
+    "train_loss": 0.11243543833412087,
+    "train_runtime": 2587.3904,
+    "train_samples_per_second": 8.951,
+    "train_steps_per_second": 0.281
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,76 @@

+{"current_steps": 10, "total_steps": 726, "loss": 0.1716, "lr": 1.2328767123287673e-06, "epoch": 0.041407867494824016, "percentage": 1.38, "elapsed_time": "0:00:30", "remaining_time": "0:35:54"}
+{"current_steps": 20, "total_steps": 726, "loss": 0.1742, "lr": 2.6027397260273973e-06, "epoch": 0.08281573498964803, "percentage": 2.75, "elapsed_time": "0:00:58", "remaining_time": "0:34:24"}
+{"current_steps": 30, "total_steps": 726, "loss": 0.151, "lr": 3.972602739726027e-06, "epoch": 0.12422360248447205, "percentage": 4.13, "elapsed_time": "0:01:28", "remaining_time": "0:34:08"}
+{"current_steps": 40, "total_steps": 726, "loss": 0.1529, "lr": 5.342465753424658e-06, "epoch": 0.16563146997929606, "percentage": 5.51, "elapsed_time": "0:01:56", "remaining_time": "0:33:20"}
+{"current_steps": 50, "total_steps": 726, "loss": 0.1395, "lr": 6.712328767123288e-06, "epoch": 0.2070393374741201, "percentage": 6.89, "elapsed_time": "0:02:26", "remaining_time": "0:33:00"}
+{"current_steps": 60, "total_steps": 726, "loss": 0.1373, "lr": 8.082191780821919e-06, "epoch": 0.2484472049689441, "percentage": 8.26, "elapsed_time": "0:02:54", "remaining_time": "0:32:19"}
+{"current_steps": 70, "total_steps": 726, "loss": 0.1297, "lr": 9.452054794520548e-06, "epoch": 0.2898550724637681, "percentage": 9.64, "elapsed_time": "0:03:23", "remaining_time": "0:31:50"}
+{"current_steps": 80, "total_steps": 726, "loss": 0.1408, "lr": 9.997917016951162e-06, "epoch": 0.33126293995859213, "percentage": 11.02, "elapsed_time": "0:03:52", "remaining_time": "0:31:21"}
+{"current_steps": 90, "total_steps": 726, "loss": 0.1408, "lr": 9.985193960591397e-06, "epoch": 0.37267080745341613, "percentage": 12.4, "elapsed_time": "0:04:21", "remaining_time": "0:30:46"}
+{"current_steps": 100, "total_steps": 726, "loss": 0.1329, "lr": 9.960934467895394e-06, "epoch": 0.4140786749482402, "percentage": 13.77, "elapsed_time": "0:04:50", "remaining_time": "0:30:18"}
+{"current_steps": 110, "total_steps": 726, "loss": 0.1407, "lr": 9.925194678723558e-06, "epoch": 0.4554865424430642, "percentage": 15.15, "elapsed_time": "0:05:19", "remaining_time": "0:29:51"}
+{"current_steps": 120, "total_steps": 726, "loss": 0.1473, "lr": 9.87805729994862e-06, "epoch": 0.4968944099378882, "percentage": 16.53, "elapsed_time": "0:05:49", "remaining_time": "0:29:25"}
+{"current_steps": 130, "total_steps": 726, "loss": 0.1477, "lr": 9.819631414060374e-06, "epoch": 0.5383022774327122, "percentage": 17.91, "elapsed_time": "0:06:17", "remaining_time": "0:28:51"}
+{"current_steps": 140, "total_steps": 726, "loss": 0.1465, "lr": 9.75005222673351e-06, "epoch": 0.5797101449275363, "percentage": 19.28, "elapsed_time": "0:06:46", "remaining_time": "0:28:20"}
+{"current_steps": 150, "total_steps": 726, "loss": 0.1416, "lr": 9.669480753942793e-06, "epoch": 0.6211180124223602, "percentage": 20.66, "elapsed_time": "0:07:14", "remaining_time": "0:27:49"}
+{"current_steps": 160, "total_steps": 726, "loss": 0.1316, "lr": 9.57810344934954e-06, "epoch": 0.6625258799171843, "percentage": 22.04, "elapsed_time": "0:07:43", "remaining_time": "0:27:20"}
+{"current_steps": 170, "total_steps": 726, "loss": 0.1406, "lr": 9.47613177282179e-06, "epoch": 0.7039337474120083, "percentage": 23.42, "elapsed_time": "0:08:12", "remaining_time": "0:26:50"}
+{"current_steps": 180, "total_steps": 726, "loss": 0.1505, "lr": 9.363801701086554e-06, "epoch": 0.7453416149068323, "percentage": 24.79, "elapsed_time": "0:08:41", "remaining_time": "0:26:21"}
+{"current_steps": 190, "total_steps": 726, "loss": 0.1481, "lr": 9.241373181646672e-06, "epoch": 0.7867494824016563, "percentage": 26.17, "elapsed_time": "0:09:10", "remaining_time": "0:25:52"}
+{"current_steps": 200, "total_steps": 726, "loss": 0.1351, "lr": 9.109129531225912e-06, "epoch": 0.8281573498964804, "percentage": 27.55, "elapsed_time": "0:09:39", "remaining_time": "0:25:22"}
+{"current_steps": 210, "total_steps": 726, "loss": 0.1391, "lr": 8.967376780134428e-06, "epoch": 0.8695652173913043, "percentage": 28.93, "elapsed_time": "0:10:07", "remaining_time": "0:24:53"}
+{"current_steps": 220, "total_steps": 726, "loss": 0.1397, "lr": 8.816442964071812e-06, "epoch": 0.9109730848861284, "percentage": 30.3, "elapsed_time": "0:10:36", "remaining_time": "0:24:24"}
+{"current_steps": 230, "total_steps": 726, "loss": 0.1287, "lr": 8.65667736500658e-06, "epoch": 0.9523809523809523, "percentage": 31.68, "elapsed_time": "0:11:05", "remaining_time": "0:23:54"}
+{"current_steps": 240, "total_steps": 726, "loss": 0.1433, "lr": 8.488449702888828e-06, "epoch": 0.9937888198757764, "percentage": 33.06, "elapsed_time": "0:11:33", "remaining_time": "0:23:24"}
+{"current_steps": 242, "total_steps": 726, "eval_loss": 0.14775528013706207, "epoch": 1.0, "percentage": 33.33, "elapsed_time": "0:12:55", "remaining_time": "0:25:51"}
+{"current_steps": 250, "total_steps": 726, "loss": 0.1362, "lr": 8.312149280066543e-06, "epoch": 1.0331262939958592, "percentage": 34.44, "elapsed_time": "0:14:28", "remaining_time": "0:27:33"}
+{"current_steps": 260, "total_steps": 726, "loss": 0.1214, "lr": 8.128184080385491e-06, "epoch": 1.0745341614906831, "percentage": 35.81, "elapsed_time": "0:14:56", "remaining_time": "0:26:47"}
+{"current_steps": 270, "total_steps": 726, "loss": 0.1222, "lr": 7.93697982505752e-06, "epoch": 1.1159420289855073, "percentage": 37.19, "elapsed_time": "0:15:25", "remaining_time": "0:26:03"}
+{"current_steps": 280, "total_steps": 726, "loss": 0.1255, "lr": 7.738978987482113e-06, "epoch": 1.1573498964803313, "percentage": 38.57, "elapsed_time": "0:15:53", "remaining_time": "0:25:19"}
+{"current_steps": 290, "total_steps": 726, "loss": 0.1284, "lr": 7.534639769301024e-06, "epoch": 1.1987577639751552, "percentage": 39.94, "elapsed_time": "0:16:23", "remaining_time": "0:24:38"}
+{"current_steps": 300, "total_steps": 726, "loss": 0.1161, "lr": 7.324435040055572e-06, "epoch": 1.2401656314699794, "percentage": 41.32, "elapsed_time": "0:16:52", "remaining_time": "0:23:57"}
+{"current_steps": 310, "total_steps": 726, "loss": 0.1164, "lr": 7.108851242900365e-06, "epoch": 1.2815734989648033, "percentage": 42.7, "elapsed_time": "0:17:21", "remaining_time": "0:23:17"}
+{"current_steps": 320, "total_steps": 726, "loss": 0.1141, "lr": 6.888387268905774e-06, "epoch": 1.3229813664596273, "percentage": 44.08, "elapsed_time": "0:17:50", "remaining_time": "0:22:37"}
+{"current_steps": 330, "total_steps": 726, "loss": 0.1202, "lr": 6.6635533025541944e-06, "epoch": 1.3643892339544514, "percentage": 45.45, "elapsed_time": "0:18:18", "remaining_time": "0:21:58"}
+{"current_steps": 340, "total_steps": 726, "loss": 0.1221, "lr": 6.434869641101769e-06, "epoch": 1.4057971014492754, "percentage": 46.83, "elapsed_time": "0:18:47", "remaining_time": "0:21:20"}
+{"current_steps": 350, "total_steps": 726, "loss": 0.1237, "lr": 6.202865490537739e-06, "epoch": 1.4472049689440993, "percentage": 48.21, "elapsed_time": "0:19:16", "remaining_time": "0:20:42"}
+{"current_steps": 360, "total_steps": 726, "loss": 0.1238, "lr": 5.968077740927748e-06, "epoch": 1.4886128364389233, "percentage": 49.59, "elapsed_time": "0:19:45", "remaining_time": "0:20:05"}
+{"current_steps": 370, "total_steps": 726, "loss": 0.1227, "lr": 5.731049723975096e-06, "epoch": 1.5300207039337475, "percentage": 50.96, "elapsed_time": "0:20:14", "remaining_time": "0:19:28"}
+{"current_steps": 380, "total_steps": 726, "loss": 0.1249, "lr": 5.492329955675168e-06, "epoch": 1.5714285714285714, "percentage": 52.34, "elapsed_time": "0:20:41", "remaining_time": "0:18:50"}
+{"current_steps": 390, "total_steps": 726, "loss": 0.1158, "lr": 5.252470866972668e-06, "epoch": 1.6128364389233956, "percentage": 53.72, "elapsed_time": "0:21:10", "remaining_time": "0:18:14"}
+{"current_steps": 400, "total_steps": 726, "loss": 0.1126, "lr": 5.012027525359129e-06, "epoch": 1.6542443064182195, "percentage": 55.1, "elapsed_time": "0:21:38", "remaining_time": "0:17:38"}
+{"current_steps": 410, "total_steps": 726, "loss": 0.1199, "lr": 4.771556350369056e-06, "epoch": 1.6956521739130435, "percentage": 56.47, "elapsed_time": "0:22:07", "remaining_time": "0:17:03"}
+{"current_steps": 420, "total_steps": 726, "loss": 0.119, "lr": 4.531613825947292e-06, "epoch": 1.7370600414078674, "percentage": 57.85, "elapsed_time": "0:22:35", "remaining_time": "0:16:27"}
+{"current_steps": 430, "total_steps": 726, "loss": 0.1204, "lr": 4.2927552126672895e-06, "epoch": 1.7784679089026914, "percentage": 59.23, "elapsed_time": "0:23:05", "remaining_time": "0:15:53"}
+{"current_steps": 440, "total_steps": 726, "loss": 0.1178, "lr": 4.055533262780465e-06, "epoch": 1.8198757763975155, "percentage": 60.61, "elapsed_time": "0:23:32", "remaining_time": "0:15:18"}
+{"current_steps": 450, "total_steps": 726, "loss": 0.1114, "lr": 3.820496941070151e-06, "epoch": 1.8612836438923397, "percentage": 61.98, "elapsed_time": "0:24:01", "remaining_time": "0:14:44"}
+{"current_steps": 460, "total_steps": 726, "loss": 0.112, "lr": 3.588190154470268e-06, "epoch": 1.9026915113871636, "percentage": 63.36, "elapsed_time": "0:24:30", "remaining_time": "0:14:10"}
+{"current_steps": 470, "total_steps": 726, "loss": 0.1174, "lr": 3.3591504933885834e-06, "epoch": 1.9440993788819876, "percentage": 64.74, "elapsed_time": "0:24:59", "remaining_time": "0:13:36"}
+{"current_steps": 480, "total_steps": 726, "loss": 0.115, "lr": 3.1339079876472954e-06, "epoch": 1.9855072463768115, "percentage": 66.12, "elapsed_time": "0:25:27", "remaining_time": "0:13:02"}
+{"current_steps": 484, "total_steps": 726, "eval_loss": 0.1355440318584442, "epoch": 2.0, "percentage": 66.67, "elapsed_time": "0:26:54", "remaining_time": "0:13:27"}
+{"current_steps": 490, "total_steps": 726, "loss": 0.0901, "lr": 2.9129838799198574e-06, "epoch": 2.0248447204968945, "percentage": 67.49, "elapsed_time": "0:28:42", "remaining_time": "0:13:49"}
+{"current_steps": 500, "total_steps": 726, "loss": 0.0768, "lr": 2.6968894195024987e-06, "epoch": 2.0662525879917184, "percentage": 68.87, "elapsed_time": "0:29:10", "remaining_time": "0:13:11"}
+{"current_steps": 510, "total_steps": 726, "loss": 0.0854, "lr": 2.486124679211834e-06, "epoch": 2.1076604554865424, "percentage": 70.25, "elapsed_time": "0:29:39", "remaining_time": "0:12:33"}
+{"current_steps": 520, "total_steps": 726, "loss": 0.0826, "lr": 2.2811773981463807e-06, "epoch": 2.1490683229813663, "percentage": 71.63, "elapsed_time": "0:30:08", "remaining_time": "0:11:56"}
+{"current_steps": 530, "total_steps": 726, "loss": 0.0722, "lr": 2.082521852990051e-06, "epoch": 2.1904761904761907, "percentage": 73.0, "elapsed_time": "0:30:36", "remaining_time": "0:11:19"}
+{"current_steps": 540, "total_steps": 726, "loss": 0.0784, "lr": 1.8906177604695502e-06, "epoch": 2.2318840579710146, "percentage": 74.38, "elapsed_time": "0:31:05", "remaining_time": "0:10:42"}
+{"current_steps": 550, "total_steps": 726, "loss": 0.0771, "lr": 1.7059092135055371e-06, "epoch": 2.2732919254658386, "percentage": 75.76, "elapsed_time": "0:31:34", "remaining_time": "0:10:06"}
+{"current_steps": 560, "total_steps": 726, "loss": 0.0749, "lr": 1.5288236535194817e-06, "epoch": 2.3146997929606625, "percentage": 77.13, "elapsed_time": "0:32:03", "remaining_time": "0:09:30"}
+{"current_steps": 570, "total_steps": 726, "loss": 0.081, "lr": 1.3597708812744038e-06, "epoch": 2.3561076604554865, "percentage": 78.51, "elapsed_time": "0:32:32", "remaining_time": "0:08:54"}
+{"current_steps": 580, "total_steps": 726, "loss": 0.0792, "lr": 1.1991421085385674e-06, "epoch": 2.3975155279503104, "percentage": 79.89, "elapsed_time": "0:33:01", "remaining_time": "0:08:18"}
+{"current_steps": 590, "total_steps": 726, "loss": 0.0717, "lr": 1.0473090527667168e-06, "epoch": 2.4389233954451344, "percentage": 81.27, "elapsed_time": "0:33:29", "remaining_time": "0:07:43"}
+{"current_steps": 600, "total_steps": 726, "loss": 0.0716, "lr": 9.046230768938718e-07, "epoch": 2.4803312629399588, "percentage": 82.64, "elapsed_time": "0:33:57", "remaining_time": "0:07:07"}
+{"current_steps": 610, "total_steps": 726, "loss": 0.0734, "lr": 7.714143762323433e-07, "epoch": 2.5217391304347827, "percentage": 84.02, "elapsed_time": "0:34:27", "remaining_time": "0:06:33"}
+{"current_steps": 620, "total_steps": 726, "loss": 0.0679, "lr": 6.4799121435357e-07, "epoch": 2.5631469979296067, "percentage": 85.4, "elapsed_time": "0:34:56", "remaining_time": "0:05:58"}
+{"current_steps": 630, "total_steps": 726, "loss": 0.0668, "lr": 5.34639209723089e-07, "epoch": 2.6045548654244306, "percentage": 86.78, "elapsed_time": "0:35:25", "remaining_time": "0:05:23"}
+{"current_steps": 640, "total_steps": 726, "loss": 0.0735, "lr": 4.3162067473944357e-07, "epoch": 2.6459627329192545, "percentage": 88.15, "elapsed_time": "0:35:54", "remaining_time": "0:04:49"}
+{"current_steps": 650, "total_steps": 726, "loss": 0.0809, "lr": 3.3917400870659146e-07, "epoch": 2.687370600414079, "percentage": 89.53, "elapsed_time": "0:36:23", "remaining_time": "0:04:15"}
+{"current_steps": 660, "total_steps": 726, "loss": 0.0693, "lr": 2.575131461445546e-07, "epoch": 2.728778467908903, "percentage": 90.91, "elapsed_time": "0:36:51", "remaining_time": "0:03:41"}
+{"current_steps": 670, "total_steps": 726, "loss": 0.0658, "lr": 1.868270617150142e-07, "epoch": 2.770186335403727, "percentage": 92.29, "elapsed_time": "0:37:20", "remaining_time": "0:03:07"}
+{"current_steps": 680, "total_steps": 726, "loss": 0.0685, "lr": 1.2727933290749617e-07, "epoch": 2.8115942028985508, "percentage": 93.66, "elapsed_time": "0:37:49", "remaining_time": "0:02:33"}
+{"current_steps": 690, "total_steps": 726, "loss": 0.0697, "lr": 7.900776149817713e-08, "epoch": 2.8530020703933747, "percentage": 95.04, "elapsed_time": "0:38:17", "remaining_time": "0:01:59"}
+{"current_steps": 700, "total_steps": 726, "loss": 0.0669, "lr": 4.212405465729319e-08, "epoch": 2.8944099378881987, "percentage": 96.42, "elapsed_time": "0:38:46", "remaining_time": "0:01:26"}
+{"current_steps": 710, "total_steps": 726, "loss": 0.0774, "lr": 1.6713566443117836e-08, "epoch": 2.9358178053830226, "percentage": 97.8, "elapsed_time": "0:39:15", "remaining_time": "0:00:53"}
+{"current_steps": 720, "total_steps": 726, "loss": 0.0648, "lr": 2.8351002807269766e-09, "epoch": 2.9772256728778466, "percentage": 99.17, "elapsed_time": "0:39:44", "remaining_time": "0:00:19"}
+{"current_steps": 726, "total_steps": 726, "eval_loss": 0.1565309315919876, "epoch": 3.0, "percentage": 100.0, "elapsed_time": "0:41:18", "remaining_time": "0:00:00"}
+{"current_steps": 726, "total_steps": 726, "epoch": 3.0, "percentage": 100.0, "elapsed_time": "0:43:07", "remaining_time": "0:00:00"}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/trainer_state.json ADDED Viewed

	@@ -0,0 +1,571 @@

+{
+  "best_global_step": 484,
+  "best_metric": 0.1355440318584442,
+  "best_model_checkpoint": "/root/projects/viewsuite/GraphRL/exps/graphrl_viewsuite_ae_new_graph/iter_001/sft_model/checkpoint-484",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 726,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.041407867494824016,
+      "grad_norm": 2.1872427463531494,
+      "learning_rate": 1.2328767123287673e-06,
+      "loss": 0.1716,
+      "step": 10
+    },
+    {
+      "epoch": 0.08281573498964803,
+      "grad_norm": 2.142177104949951,
+      "learning_rate": 2.6027397260273973e-06,
+      "loss": 0.1742,
+      "step": 20
+    },
+    {
+      "epoch": 0.12422360248447205,
+      "grad_norm": 2.180410623550415,
+      "learning_rate": 3.972602739726027e-06,
+      "loss": 0.151,
+      "step": 30
+    },
+    {
+      "epoch": 0.16563146997929606,
+      "grad_norm": 2.9285619258880615,
+      "learning_rate": 5.342465753424658e-06,
+      "loss": 0.1529,
+      "step": 40
+    },
+    {
+      "epoch": 0.2070393374741201,
+      "grad_norm": 2.442066192626953,
+      "learning_rate": 6.712328767123288e-06,
+      "loss": 0.1395,
+      "step": 50
+    },
+    {
+      "epoch": 0.2484472049689441,
+      "grad_norm": 1.9631588459014893,
+      "learning_rate": 8.082191780821919e-06,
+      "loss": 0.1373,
+      "step": 60
+    },
+    {
+      "epoch": 0.2898550724637681,
+      "grad_norm": 2.110290050506592,
+      "learning_rate": 9.452054794520548e-06,
+      "loss": 0.1297,
+      "step": 70
+    },
+    {
+      "epoch": 0.33126293995859213,
+      "grad_norm": 1.426198124885559,
+      "learning_rate": 9.997917016951162e-06,
+      "loss": 0.1408,
+      "step": 80
+    },
+    {
+      "epoch": 0.37267080745341613,
+      "grad_norm": 3.1022074222564697,
+      "learning_rate": 9.985193960591397e-06,
+      "loss": 0.1408,
+      "step": 90
+    },
+    {
+      "epoch": 0.4140786749482402,
+      "grad_norm": 1.394417643547058,
+      "learning_rate": 9.960934467895394e-06,
+      "loss": 0.1329,
+      "step": 100
+    },
+    {
+      "epoch": 0.4554865424430642,
+      "grad_norm": 1.3992018699645996,
+      "learning_rate": 9.925194678723558e-06,
+      "loss": 0.1407,
+      "step": 110
+    },
+    {
+      "epoch": 0.4968944099378882,
+      "grad_norm": 3.0085012912750244,
+      "learning_rate": 9.87805729994862e-06,
+      "loss": 0.1473,
+      "step": 120
+    },
+    {
+      "epoch": 0.5383022774327122,
+      "grad_norm": 1.449267864227295,
+      "learning_rate": 9.819631414060374e-06,
+      "loss": 0.1477,
+      "step": 130
+    },
+    {
+      "epoch": 0.5797101449275363,
+      "grad_norm": 1.088395357131958,
+      "learning_rate": 9.75005222673351e-06,
+      "loss": 0.1465,
+      "step": 140
+    },
+    {
+      "epoch": 0.6211180124223602,
+      "grad_norm": 1.9508922100067139,
+      "learning_rate": 9.669480753942793e-06,
+      "loss": 0.1416,
+      "step": 150
+    },
+    {
+      "epoch": 0.6625258799171843,
+      "grad_norm": 1.6429708003997803,
+      "learning_rate": 9.57810344934954e-06,
+      "loss": 0.1316,
+      "step": 160
+    },
+    {
+      "epoch": 0.7039337474120083,
+      "grad_norm": 1.8511019945144653,
+      "learning_rate": 9.47613177282179e-06,
+      "loss": 0.1406,
+      "step": 170
+    },
+    {
+      "epoch": 0.7453416149068323,
+      "grad_norm": 1.9064877033233643,
+      "learning_rate": 9.363801701086554e-06,
+      "loss": 0.1505,
+      "step": 180
+    },
+    {
+      "epoch": 0.7867494824016563,
+      "grad_norm": 1.533382534980774,
+      "learning_rate": 9.241373181646672e-06,
+      "loss": 0.1481,
+      "step": 190
+    },
+    {
+      "epoch": 0.8281573498964804,
+      "grad_norm": 1.7857081890106201,
+      "learning_rate": 9.109129531225912e-06,
+      "loss": 0.1351,
+      "step": 200
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 1.734537124633789,
+      "learning_rate": 8.967376780134428e-06,
+      "loss": 0.1391,
+      "step": 210
+    },
+    {
+      "epoch": 0.9109730848861284,
+      "grad_norm": 1.3982555866241455,
+      "learning_rate": 8.816442964071812e-06,
+      "loss": 0.1397,
+      "step": 220
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 1.8335059881210327,
+      "learning_rate": 8.65667736500658e-06,
+      "loss": 0.1287,
+      "step": 230
+    },
+    {
+      "epoch": 0.9937888198757764,
+      "grad_norm": 1.7236913442611694,
+      "learning_rate": 8.488449702888828e-06,
+      "loss": 0.1433,
+      "step": 240
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.14775528013706207,
+      "eval_runtime": 78.1558,
+      "eval_samples_per_second": 24.694,
+      "eval_steps_per_second": 1.548,
+      "step": 242
+    },
+    {
+      "epoch": 1.0331262939958592,
+      "grad_norm": 2.099062919616699,
+      "learning_rate": 8.312149280066543e-06,
+      "loss": 0.1362,
+      "step": 250
+    },
+    {
+      "epoch": 1.0745341614906831,
+      "grad_norm": 1.50322687625885,
+      "learning_rate": 8.128184080385491e-06,
+      "loss": 0.1214,
+      "step": 260
+    },
+    {
+      "epoch": 1.1159420289855073,
+      "grad_norm": 1.3199249505996704,
+      "learning_rate": 7.93697982505752e-06,
+      "loss": 0.1222,
+      "step": 270
+    },
+    {
+      "epoch": 1.1573498964803313,
+      "grad_norm": 2.126539707183838,
+      "learning_rate": 7.738978987482113e-06,
+      "loss": 0.1255,
+      "step": 280
+    },
+    {
+      "epoch": 1.1987577639751552,
+      "grad_norm": 1.7342586517333984,
+      "learning_rate": 7.534639769301024e-06,
+      "loss": 0.1284,
+      "step": 290
+    },
+    {
+      "epoch": 1.2401656314699794,
+      "grad_norm": 1.4292138814926147,
+      "learning_rate": 7.324435040055572e-06,
+      "loss": 0.1161,
+      "step": 300
+    },
+    {
+      "epoch": 1.2815734989648033,
+      "grad_norm": 1.6774603128433228,
+      "learning_rate": 7.108851242900365e-06,
+      "loss": 0.1164,
+      "step": 310
+    },
+    {
+      "epoch": 1.3229813664596273,
+      "grad_norm": 1.5590431690216064,
+      "learning_rate": 6.888387268905774e-06,
+      "loss": 0.1141,
+      "step": 320
+    },
+    {
+      "epoch": 1.3643892339544514,
+      "grad_norm": 1.6083593368530273,
+      "learning_rate": 6.6635533025541944e-06,
+      "loss": 0.1202,
+      "step": 330
+    },
+    {
+      "epoch": 1.4057971014492754,
+      "grad_norm": 1.829530954360962,
+      "learning_rate": 6.434869641101769e-06,
+      "loss": 0.1221,
+      "step": 340
+    },
+    {
+      "epoch": 1.4472049689440993,
+      "grad_norm": 2.2599265575408936,
+      "learning_rate": 6.202865490537739e-06,
+      "loss": 0.1237,
+      "step": 350
+    },
+    {
+      "epoch": 1.4886128364389233,
+      "grad_norm": 1.342933177947998,
+      "learning_rate": 5.968077740927748e-06,
+      "loss": 0.1238,
+      "step": 360
+    },
+    {
+      "epoch": 1.5300207039337475,
+      "grad_norm": 1.9250775575637817,
+      "learning_rate": 5.731049723975096e-06,
+      "loss": 0.1227,
+      "step": 370
+    },
+    {
+      "epoch": 1.5714285714285714,
+      "grad_norm": 1.633741855621338,
+      "learning_rate": 5.492329955675168e-06,
+      "loss": 0.1249,
+      "step": 380
+    },
+    {
+      "epoch": 1.6128364389233956,
+      "grad_norm": 1.4221211671829224,
+      "learning_rate": 5.252470866972668e-06,
+      "loss": 0.1158,
+      "step": 390
+    },
+    {
+      "epoch": 1.6542443064182195,
+      "grad_norm": 1.276055932044983,
+      "learning_rate": 5.012027525359129e-06,
+      "loss": 0.1126,
+      "step": 400
+    },
+    {
+      "epoch": 1.6956521739130435,
+      "grad_norm": 1.2217621803283691,
+      "learning_rate": 4.771556350369056e-06,
+      "loss": 0.1199,
+      "step": 410
+    },
+    {
+      "epoch": 1.7370600414078674,
+      "grad_norm": 1.2911866903305054,
+      "learning_rate": 4.531613825947292e-06,
+      "loss": 0.119,
+      "step": 420
+    },
+    {
+      "epoch": 1.7784679089026914,
+      "grad_norm": 1.9652419090270996,
+      "learning_rate": 4.2927552126672895e-06,
+      "loss": 0.1204,
+      "step": 430
+    },
+    {
+      "epoch": 1.8198757763975155,
+      "grad_norm": 1.6349519491195679,
+      "learning_rate": 4.055533262780465e-06,
+      "loss": 0.1178,
+      "step": 440
+    },
+    {
+      "epoch": 1.8612836438923397,
+      "grad_norm": 1.4482094049453735,
+      "learning_rate": 3.820496941070151e-06,
+      "loss": 0.1114,
+      "step": 450
+    },
+    {
+      "epoch": 1.9026915113871636,
+      "grad_norm": 1.6526468992233276,
+      "learning_rate": 3.588190154470268e-06,
+      "loss": 0.112,
+      "step": 460
+    },
+    {
+      "epoch": 1.9440993788819876,
+      "grad_norm": 1.3127061128616333,
+      "learning_rate": 3.3591504933885834e-06,
+      "loss": 0.1174,
+      "step": 470
+    },
+    {
+      "epoch": 1.9855072463768115,
+      "grad_norm": 1.3639229536056519,
+      "learning_rate": 3.1339079876472954e-06,
+      "loss": 0.115,
+      "step": 480
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.1355440318584442,
+      "eval_runtime": 77.7324,
+      "eval_samples_per_second": 24.829,
+      "eval_steps_per_second": 1.557,
+      "step": 484
+    },
+    {
+      "epoch": 2.0248447204968945,
+      "grad_norm": 1.4051638841629028,
+      "learning_rate": 2.9129838799198574e-06,
+      "loss": 0.0901,
+      "step": 490
+    },
+    {
+      "epoch": 2.0662525879917184,
+      "grad_norm": 1.2481248378753662,
+      "learning_rate": 2.6968894195024987e-06,
+      "loss": 0.0768,
+      "step": 500
+    },
+    {
+      "epoch": 2.1076604554865424,
+      "grad_norm": 1.2878996133804321,
+      "learning_rate": 2.486124679211834e-06,
+      "loss": 0.0854,
+      "step": 510
+    },
+    {
+      "epoch": 2.1490683229813663,
+      "grad_norm": 1.550072431564331,
+      "learning_rate": 2.2811773981463807e-06,
+      "loss": 0.0826,
+      "step": 520
+    },
+    {
+      "epoch": 2.1904761904761907,
+      "grad_norm": 1.827341079711914,
+      "learning_rate": 2.082521852990051e-06,
+      "loss": 0.0722,
+      "step": 530
+    },
+    {
+      "epoch": 2.2318840579710146,
+      "grad_norm": 1.6619499921798706,
+      "learning_rate": 1.8906177604695502e-06,
+      "loss": 0.0784,
+      "step": 540
+    },
+    {
+      "epoch": 2.2732919254658386,
+      "grad_norm": 1.1741079092025757,
+      "learning_rate": 1.7059092135055371e-06,
+      "loss": 0.0771,
+      "step": 550
+    },
+    {
+      "epoch": 2.3146997929606625,
+      "grad_norm": 1.347529411315918,
+      "learning_rate": 1.5288236535194817e-06,
+      "loss": 0.0749,
+      "step": 560
+    },
+    {
+      "epoch": 2.3561076604554865,
+      "grad_norm": 1.3967386484146118,
+      "learning_rate": 1.3597708812744038e-06,
+      "loss": 0.081,
+      "step": 570
+    },
+    {
+      "epoch": 2.3975155279503104,
+      "grad_norm": 1.1603904962539673,
+      "learning_rate": 1.1991421085385674e-06,
+      "loss": 0.0792,
+      "step": 580
+    },
+    {
+      "epoch": 2.4389233954451344,
+      "grad_norm": 1.8103785514831543,
+      "learning_rate": 1.0473090527667168e-06,
+      "loss": 0.0717,
+      "step": 590
+    },
+    {
+      "epoch": 2.4803312629399588,
+      "grad_norm": 1.6811515092849731,
+      "learning_rate": 9.046230768938718e-07,
+      "loss": 0.0716,
+      "step": 600
+    },
+    {
+      "epoch": 2.5217391304347827,
+      "grad_norm": 1.5053629875183105,
+      "learning_rate": 7.714143762323433e-07,
+      "loss": 0.0734,
+      "step": 610
+    },
+    {
+      "epoch": 2.5631469979296067,
+      "grad_norm": 1.3194694519042969,
+      "learning_rate": 6.4799121435357e-07,
+      "loss": 0.0679,
+      "step": 620
+    },
+    {
+      "epoch": 2.6045548654244306,
+      "grad_norm": 1.2309608459472656,
+      "learning_rate": 5.34639209723089e-07,
+      "loss": 0.0668,
+      "step": 630
+    },
+    {
+      "epoch": 2.6459627329192545,
+      "grad_norm": 1.103228211402893,
+      "learning_rate": 4.3162067473944357e-07,
+      "loss": 0.0735,
+      "step": 640
+    },
+    {
+      "epoch": 2.687370600414079,
+      "grad_norm": 1.2104339599609375,
+      "learning_rate": 3.3917400870659146e-07,
+      "loss": 0.0809,
+      "step": 650
+    },
+    {
+      "epoch": 2.728778467908903,
+      "grad_norm": 1.746117353439331,
+      "learning_rate": 2.575131461445546e-07,
+      "loss": 0.0693,
+      "step": 660
+    },
+    {
+      "epoch": 2.770186335403727,
+      "grad_norm": 1.4214240312576294,
+      "learning_rate": 1.868270617150142e-07,
+      "loss": 0.0658,
+      "step": 670
+    },
+    {
+      "epoch": 2.8115942028985508,
+      "grad_norm": 1.245174527168274,
+      "learning_rate": 1.2727933290749617e-07,
+      "loss": 0.0685,
+      "step": 680
+    },
+    {
+      "epoch": 2.8530020703933747,
+      "grad_norm": 1.0609136819839478,
+      "learning_rate": 7.900776149817713e-08,
+      "loss": 0.0697,
+      "step": 690
+    },
+    {
+      "epoch": 2.8944099378881987,
+      "grad_norm": 1.2849695682525635,
+      "learning_rate": 4.212405465729319e-08,
+      "loss": 0.0669,
+      "step": 700
+    },
+    {
+      "epoch": 2.9358178053830226,
+      "grad_norm": 1.2752392292022705,
+      "learning_rate": 1.6713566443117836e-08,
+      "loss": 0.0774,
+      "step": 710
+    },
+    {
+      "epoch": 2.9772256728778466,
+      "grad_norm": 1.3250991106033325,
+      "learning_rate": 2.8351002807269766e-09,
+      "loss": 0.0648,
+      "step": 720
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.1565309315919876,
+      "eval_runtime": 78.1495,
+      "eval_samples_per_second": 24.696,
+      "eval_steps_per_second": 1.548,
+      "step": 726
+    },
+    {
+      "epoch": 3.0,
+      "step": 726,
+      "total_flos": 2.8869961528744346e+18,
+      "train_loss": 0.11243543833412087,
+      "train_runtime": 2587.3904,
+      "train_samples_per_second": 8.951,
+      "train_steps_per_second": 0.281
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 726,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.8869961528744346e+18,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ef4c5267b8c54958b1968430a4127664e6c2478c3ecede51df3b8a9132d8d2b
+size 8017

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/video_preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "do_sample_frames": false,
+  "fps": null,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "input_data_format": null,
+  "max_frames": 768,
+  "max_pixels": 12845056,
+  "merge_size": 2,
+  "min_frames": 4,
+  "min_pixels": 3136,
+  "num_frames": null,
+  "pad_size": null,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5_VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_metadata": false,
+  "size": {
+    "longest_edge": 12845056,
+    "shortest_edge": 3136
+  },
+  "size_divisor": null,
+  "temporal_patch_size": 2,
+  "video_metadata": null,
+  "video_processor_type": "Qwen2VLVideoProcessor"
+}

graphrl_viewsuite_ae_new_graph/iter_001/sft_model/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff