shu4dev commited on Dec 8, 2025

Commit

4a8f12d

verified ·

1 Parent(s): 50c76e8

Upload folder using huggingface_hub

Browse files

Files changed (35) hide show

.gitattributes +1 -0
added_tokens.json +24 -0
chat_template.jinja +1 -0
config.json +132 -0
generation_config.json +11 -0
logs/rank_0000.log +225 -0
logs/rank_0001.log +174 -0
merges.txt +0 -0
model-00001-of-00007.safetensors +3 -0
model-00002-of-00007.safetensors +3 -0
model-00003-of-00007.safetensors +3 -0
model-00004-of-00007.safetensors +3 -0
model-00005-of-00007.safetensors +3 -0
model-00006-of-00007.safetensors +3 -0
model-00007-of-00007.safetensors +3 -0
model.safetensors.index.json +737 -0
preprocessor_config.json +39 -0
runs/Dec08_10-49-54_192-222-53-232/events.out.tfevents.1765191410.192-222-53-232.5450.0 +3 -0
runs/Dec08_11-06-11_192-222-53-232/events.out.tfevents.1765192372.192-222-53-232.6208.0 +3 -0
runs/Dec08_11-19-20_192-222-53-232/events.out.tfevents.1765193149.192-222-53-232.6783.0 +3 -0
runs/Dec08_11-39-42_192-222-53-232/events.out.tfevents.1765194375.192-222-53-232.7928.0 +3 -0
runs/Dec08_12-06-49_192-222-53-232/events.out.tfevents.1765195741.192-222-53-232.9073.0 +3 -0
special_tokens_map.json +31 -0
telemetry/devices_info.txt +3 -0
telemetry/telemetry_callback_metrics_rank0000.json +10 -0
telemetry/telemetry_callback_rank0000.json +39 -0
telemetry/telemetry_callback_wandb_rank0000.json +5 -0
telemetry/training_config.yaml +245 -0
telemetry/world_size.json +4 -0
tokenizer.json +3 -0
tokenizer_config.json +209 -0
trainer_state.json +0 -0
training_args.bin +3 -0
video_preprocessor_config.json +43 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1 @@

+ {% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{%- for message in messages -%}{%- if loop.first and message['role'] != 'system' -%}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{%- endif -%}{{ '<|im_start|>' + message['role'] + '\n' }}{%- if message['content'] is string -%}{{- message['content'] -}}{%- elif message['content'] is iterable -%}{%- for item in message['content'] -%}{%- if item['type'].startswith('image') -%}{%- set image_count.value = image_count.value + 1 -%}{%- if add_vision_id -%}{{ 'Picture ' + image_count.value + ': ' }}{%- endif -%}{{ '<|vision_start|><|image_pad|><|vision_end|>' }}{%- elif item['type'].startswith('video') -%}{%- set video_count.value = video_count.value + 1 -%}{%- if add_vision_id -%}{{ 'Video ' + video_count.value + ': ' }}{%- endif -%}{{ '<|vision_start|><|video_pad|><|vision_end|>' }}{%- elif item['type']=='text' -%}{{- item['text'] if 'text' in item else item['content'] -}}{%- endif -%}{%- endfor -%}{%- endif -%}{{ '<|im_end|>\n' }}{%- endfor -%}{%- if add_generation_prompt -%}{{- '<|im_start|>assistant\n' -}}{%- endif -%}

config.json ADDED Viewed

	@@ -0,0 +1,132 @@

+{
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "dtype": "float32",
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "text_config": {
+    "_name_or_path": "Qwen/Qwen2.5-VL-7B-Instruct",
+    "architectures": [
+      "Qwen2_5_VLForConditionalGeneration"
+    ],
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "eos_token_id": 151645,
+    "hidden_act": "silu",
+    "hidden_size": 3584,
+    "initializer_range": 0.02,
+    "intermediate_size": 18944,
+    "layer_types": [
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 128000,
+    "max_window_layers": 28,
+    "model_type": "qwen2_5_vl_text",
+    "num_attention_heads": 28,
+    "num_hidden_layers": 28,
+    "num_key_value_heads": 4,
+    "pad_token_id": 151643,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "mrope_section": [
+        16,
+        24,
+        24
+      ],
+      "rope_type": "default",
+      "type": "default"
+    },
+    "rope_theta": 1000000.0,
+    "sliding_window": null,
+    "use_cache": false,
+    "use_sliding_window": false,
+    "vision_token_id": 151654,
+    "vocab_size": 152064
+  },
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.3",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "dtype": "bfloat16",
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "initializer_range": 0.02,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 1e-06,
+  "transformers_version": "4.57.3"
+}

logs/rank_0000.log ADDED Viewed

	@@ -0,0 +1,225 @@

+[2025-12-08 10:48:16,975][oumi][rank0][pid:5193][MainThread][INFO]][train.py:318] Training config saved to output/qwen2_5_vl_7b_10K/telemetry/training_config.yaml
+[2025-12-08 10:48:17,053][oumi][rank0][pid:5193][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 10:48:19,589][oumi][rank0][pid:5193][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 10:48:19,615][oumi][rank0][pid:5193][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 10:48:19,616][oumi][rank0][pid:5193][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 10:49:28,515][oumi][rank0][pid:5450][MainThread][INFO]][train.py:318] Training config saved to output/qwen2_5_vl_7b_10K/telemetry/training_config.yaml
+[2025-12-08 10:49:28,588][oumi][rank0][pid:5450][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 10:49:30,611][oumi][rank0][pid:5450][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 10:49:30,638][oumi][rank0][pid:5450][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 10:49:30,639][oumi][rank0][pid:5450][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 10:49:45,107][oumi][rank0][pid:5450][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 2334594551
+	Download size: 2274721765
+	Size: 4609316316 bytes
+	Rows: 10000
+	Columns: ['path', 'question', 'reasoning_trace']
+[2025-12-08 10:49:46,592][oumi][rank0][pid:5450][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+path               object
+question           object
+reasoning_trace    object
+dtype: object
+[2025-12-08 10:49:48,765][oumi][rank0][pid:5450][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0)
+[2025-12-08 10:49:48,767][oumi][rank0][pid:5450][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'true', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 10:49:48,769][oumi][rank0][pid:5450][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 10:49:48,770][oumi][rank0][pid:5450][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0))...
+[2025-12-08 10:49:48,823][oumi][rank0][pid:5450][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 10:49:54,069][oumi][rank0][pid:5450][MainThread][INFO]][torch_utils.py:288]
+Model Parameters Summary:
+🔢 Total     parameters: 8,292,166,656
+🔗 Embedding parameters: 544,997,376
+🎯 Trainable parameters: 8,292,166,656
+🔒 Frozen    parameters: 0 (0.00%)
+[2025-12-08 10:49:54,520][oumi][rank0][pid:5450][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 10:49:54,522][oumi][rank0][pid:5450][MainThread][WARNING]][callbacks.py:72] MFU logging requires packed datasets. Skipping MFU callbacks.
+[2025-12-08 10:49:54,856][oumi][rank0][pid:5450][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=28, fan_speed=None, fan_speeds=None, power_usage_watts=115.278, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 10:49:54,990][oumi][rank0][pid:5450][MainThread][INFO]][train.py:558] Training init time: 26.645s
+[2025-12-08 10:49:54,992][oumi][rank0][pid:5450][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 11:06:02,751][oumi][rank0][pid:6208][MainThread][INFO]][train.py:318] Training config saved to output/qwen2_5_vl_7b_10K/telemetry/training_config.yaml
+[2025-12-08 11:06:02,823][oumi][rank0][pid:6208][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 11:06:04,794][oumi][rank0][pid:6208][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 11:06:04,818][oumi][rank0][pid:6208][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 11:06:04,819][oumi][rank0][pid:6208][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 11:06:05,847][oumi][rank0][pid:6208][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 2334594551
+	Download size: 2274721765
+	Size: 4609316316 bytes
+	Rows: 10000
+	Columns: ['path', 'question', 'reasoning_trace']
+[2025-12-08 11:06:07,436][oumi][rank0][pid:6208][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+path               object
+question           object
+reasoning_trace    object
+dtype: object
+[2025-12-08 11:06:09,484][oumi][rank0][pid:6208][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0)
+[2025-12-08 11:06:09,486][oumi][rank0][pid:6208][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'false', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 11:06:09,488][oumi][rank0][pid:6208][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 11:06:09,488][oumi][rank0][pid:6208][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0))...
+[2025-12-08 11:06:09,543][oumi][rank0][pid:6208][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 11:06:09,880][oumi][rank0][pid:6208][MainThread][INFO]][train.py:463] Building PEFT model...
+[2025-12-08 11:06:10,724][oumi][rank0][pid:6208][MainThread][INFO]][torch_utils.py:288]
+Model Parameters Summary:
+🔢 Total     parameters: 8,315,961,344
+🔗 Embedding parameters: 544,997,376
+🎯 Trainable parameters: 23,794,688
+🔒 Frozen    parameters: 8,292,166,656 (99.71%)
+[2025-12-08 11:06:11,180][oumi][rank0][pid:6208][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 11:06:11,181][oumi][rank0][pid:6208][MainThread][WARNING]][callbacks.py:69] MFU logging is not supported for PEFT. Skipping MFU callbacks.
+[2025-12-08 11:06:11,516][oumi][rank0][pid:6208][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=27, fan_speed=None, fan_speeds=None, power_usage_watts=115.054, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 11:06:11,659][oumi][rank0][pid:6208][MainThread][INFO]][train.py:558] Training init time: 9.088s
+[2025-12-08 11:06:11,660][oumi][rank0][pid:6208][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 11:19:11,807][oumi][rank0][pid:6783][MainThread][INFO]][train.py:318] Training config saved to output/qwen2_5_vl_7b_10K/telemetry/training_config.yaml
+[2025-12-08 11:19:11,883][oumi][rank0][pid:6783][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 11:19:14,076][oumi][rank0][pid:6783][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 11:19:14,102][oumi][rank0][pid:6783][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 11:19:14,104][oumi][rank0][pid:6783][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 11:19:15,047][oumi][rank0][pid:6783][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 2334594551
+	Download size: 2274721765
+	Size: 4609316316 bytes
+	Rows: 10000
+	Columns: ['path', 'question', 'reasoning_trace']
+[2025-12-08 11:19:16,606][oumi][rank0][pid:6783][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+path               object
+question           object
+reasoning_trace    object
+dtype: object
+[2025-12-08 11:19:18,709][oumi][rank0][pid:6783][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0)
+[2025-12-08 11:19:18,710][oumi][rank0][pid:6783][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'false', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'false'}
+[2025-12-08 11:19:18,712][oumi][rank0][pid:6783][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 11:19:18,713][oumi][rank0][pid:6783][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0))...
+[2025-12-08 11:19:18,767][oumi][rank0][pid:6783][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 11:19:19,035][oumi][rank0][pid:6783][MainThread][INFO]][train.py:463] Building PEFT model...
+[2025-12-08 11:19:19,885][oumi][rank0][pid:6783][MainThread][INFO]][torch_utils.py:288]
+Model Parameters Summary:
+🔢 Total     parameters: 8,315,961,344
+🔗 Embedding parameters: 544,997,376
+🎯 Trainable parameters: 23,794,688
+🔒 Frozen    parameters: 8,292,166,656 (99.71%)
+[2025-12-08 11:19:20,328][oumi][rank0][pid:6783][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 11:19:20,330][oumi][rank0][pid:6783][MainThread][WARNING]][callbacks.py:69] MFU logging is not supported for PEFT. Skipping MFU callbacks.
+[2025-12-08 11:19:20,663][oumi][rank0][pid:6783][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=28, fan_speed=None, fan_speeds=None, power_usage_watts=116.483, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 11:19:20,804][oumi][rank0][pid:6783][MainThread][INFO]][train.py:558] Training init time: 9.189s
+[2025-12-08 11:19:20,805][oumi][rank0][pid:6783][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 11:39:34,657][oumi][rank0][pid:7928][MainThread][INFO]][train.py:318] Training config saved to output/qwen2_5_vl_7b_10K/telemetry/training_config.yaml
+[2025-12-08 11:39:34,732][oumi][rank0][pid:7928][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 11:39:36,926][oumi][rank0][pid:7928][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 11:39:36,951][oumi][rank0][pid:7928][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 11:39:36,952][oumi][rank0][pid:7928][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 11:39:38,292][oumi][rank0][pid:7928][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 2334594551
+	Download size: 2274721765
+	Size: 4609316316 bytes
+	Rows: 10000
+	Columns: ['path', 'question', 'reasoning_trace']
+[2025-12-08 11:39:39,850][oumi][rank0][pid:7928][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+path               object
+question           object
+reasoning_trace    object
+dtype: object
+[2025-12-08 11:39:41,902][oumi][rank0][pid:7928][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0)
+[2025-12-08 11:39:41,903][oumi][rank0][pid:7928][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'true', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 11:39:41,905][oumi][rank0][pid:7928][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 11:39:41,906][oumi][rank0][pid:7928][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0))...
+[2025-12-08 11:39:41,961][oumi][rank0][pid:7928][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 11:39:42,232][oumi][rank0][pid:7928][MainThread][INFO]][torch_utils.py:288]
+Model Parameters Summary:
+🔢 Total     parameters: 8,292,166,656
+🔗 Embedding parameters: 544,997,376
+🎯 Trainable parameters: 8,292,166,656
+🔒 Frozen    parameters: 0 (0.00%)
+[2025-12-08 11:39:42,654][oumi][rank0][pid:7928][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 11:39:42,655][oumi][rank0][pid:7928][MainThread][WARNING]][callbacks.py:72] MFU logging requires packed datasets. Skipping MFU callbacks.
+[2025-12-08 11:39:42,998][oumi][rank0][pid:7928][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=28, fan_speed=None, fan_speeds=None, power_usage_watts=117.138, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 11:39:43,144][oumi][rank0][pid:7928][MainThread][INFO]][train.py:558] Training init time: 8.666s
+[2025-12-08 11:39:43,145][oumi][rank0][pid:7928][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 12:05:31,985][oumi][rank0][pid:8710][MainThread][INFO]][train.py:318] Training config saved to output/qwen2_5_vl_7b_10K/telemetry/training_config.yaml
+[2025-12-08 12:05:32,058][oumi][rank0][pid:8710][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 12:05:34,107][oumi][rank0][pid:8710][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 12:05:34,133][oumi][rank0][pid:8710][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 12:05:34,134][oumi][rank0][pid:8710][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 12:05:47,929][oumi][rank0][pid:8710][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 1944466265
+	Download size: 1910842881
+	Size: 3855309146 bytes
+	Rows: 10000
+	Columns: ['image', 'problem', 'solution']
+[2025-12-08 12:05:49,283][oumi][rank0][pid:8710][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+image       object
+problem     object
+solution    object
+dtype: object
+[2025-12-08 12:05:51,449][oumi][rank0][pid:8710][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0)
+[2025-12-08 12:05:51,451][oumi][rank0][pid:8710][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'true', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 12:05:51,452][oumi][rank0][pid:8710][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 12:05:51,453][oumi][rank0][pid:8710][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0))...
+[2025-12-08 12:05:51,508][oumi][rank0][pid:8710][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 12:05:51,778][oumi][rank0][pid:8710][MainThread][INFO]][torch_utils.py:288]
+Model Parameters Summary:
+🔢 Total     parameters: 8,292,166,656
+🔗 Embedding parameters: 544,997,376
+🎯 Trainable parameters: 8,292,166,656
+🔒 Frozen    parameters: 0 (0.00%)
+[2025-12-08 12:06:42,507][oumi][rank0][pid:9073][MainThread][INFO]][train.py:318] Training config saved to output/qwen2_5_vl_7b_10K/telemetry/training_config.yaml
+[2025-12-08 12:06:42,582][oumi][rank0][pid:9073][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 12:06:44,620][oumi][rank0][pid:9073][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 12:06:44,645][oumi][rank0][pid:9073][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 12:06:44,646][oumi][rank0][pid:9073][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 12:06:45,581][oumi][rank0][pid:9073][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 1944466265
+	Download size: 1910842881
+	Size: 3855309146 bytes
+	Rows: 10000
+	Columns: ['image', 'problem', 'solution']
+[2025-12-08 12:06:46,873][oumi][rank0][pid:9073][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+image       object
+problem     object
+solution    object
+dtype: object
+[2025-12-08 12:06:48,690][oumi][rank0][pid:9073][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0)
+[2025-12-08 12:06:48,691][oumi][rank0][pid:9073][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'true', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 12:06:48,693][oumi][rank0][pid:9073][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 12:06:48,694][oumi][rank0][pid:9073][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=0, local_world_size=2, local_rank=0))...
+[2025-12-08 12:06:48,747][oumi][rank0][pid:9073][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 12:06:49,017][oumi][rank0][pid:9073][MainThread][INFO]][torch_utils.py:288]
+Model Parameters Summary:
+🔢 Total     parameters: 8,292,166,656
+🔗 Embedding parameters: 544,997,376
+🎯 Trainable parameters: 8,292,166,656
+🔒 Frozen    parameters: 0 (0.00%)
+[2025-12-08 12:06:49,402][oumi][rank0][pid:9073][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 12:06:49,403][oumi][rank0][pid:9073][MainThread][WARNING]][callbacks.py:72] MFU logging requires packed datasets. Skipping MFU callbacks.
+[2025-12-08 12:06:49,742][oumi][rank0][pid:9073][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=28, fan_speed=None, fan_speeds=None, power_usage_watts=115.258, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 12:06:49,885][oumi][rank0][pid:9073][MainThread][INFO]][train.py:558] Training init time: 7.557s
+[2025-12-08 12:06:49,886][oumi][rank0][pid:9073][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 14:26:24,671][oumi][rank0][pid:9073][MainThread][INFO]][device_utils.py:343] On epoch end: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=80345.0, temperature=35, fan_speed=None, fan_speeds=None, power_usage_watts=266.502, power_limit_watts=700.0, gpu_utilization=31, memory_utilization=11, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 14:26:24,706][oumi][rank0][pid:9073][MainThread][INFO]][telemetry_callback.py:242] Saving telemetry callback summary to output/qwen2_5_vl_7b_10K/telemetry/telemetry_callback_rank0000.json...
+[2025-12-08 14:26:24,762][oumi][rank0][pid:9073][MainThread][INFO]][train.py:566] Training is Complete.
+[2025-12-08 14:26:24,765][oumi][rank0][pid:9073][MainThread][INFO]][device_utils.py:343] GPU Metrics After Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=80345.0, temperature=35, fan_speed=None, fan_speeds=None, power_usage_watts=277.043, power_limit_watts=700.0, gpu_utilization=31, memory_utilization=11, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 14:26:24,767][oumi][rank0][pid:9073][MainThread][INFO]][torch_utils.py:135] Peak GPU memory usage: 67.34 GB
+[2025-12-08 14:26:24,768][oumi][rank0][pid:9073][MainThread][INFO]][train.py:573] Saving final state...
+[2025-12-08 14:26:24,803][oumi][rank0][pid:9073][MainThread][INFO]][train.py:578] Saving final model...
+[2025-12-08 14:26:24,804][oumi][rank0][pid:9073][MainThread][INFO]][hf_trainer.py:145] Saving FULL_STATE_DICT for final model checkpoint.
+[2025-12-08 14:27:56,755][oumi][rank0][pid:9073][MainThread][INFO]][hf_trainer.py:152] Model has been saved at output/qwen2_5_vl_7b_10K
+[2025-12-08 14:27:57,195][oumi][rank0][pid:9073][MainThread][INFO]][hf_trainer.py:156] Processor config has been saved at output/qwen2_5_vl_7b_10K
+[2025-12-08 14:27:57,793][oumi][rank0][pid:9073][MainThread][INFO]][train.py:230]
+» We're always looking for feedback. What's one thing we can improve? https://oumi.ai/feedback

logs/rank_0001.log ADDED Viewed

	@@ -0,0 +1,174 @@

+[2025-12-08 10:48:16,879][oumi][rank1][pid:5194][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 10:48:19,545][oumi][rank1][pid:5194][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 10:48:19,570][oumi][rank1][pid:5194][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 10:48:19,571][oumi][rank1][pid:5194][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 10:49:28,443][oumi][rank1][pid:5451][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 10:49:31,021][oumi][rank1][pid:5451][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 10:49:31,047][oumi][rank1][pid:5451][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 10:49:31,048][oumi][rank1][pid:5451][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 10:49:45,140][oumi][rank1][pid:5451][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 2334594551
+	Download size: 2274721765
+	Size: 4609316316 bytes
+	Rows: 10000
+	Columns: ['path', 'question', 'reasoning_trace']
+[2025-12-08 10:49:46,621][oumi][rank1][pid:5451][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+path               object
+question           object
+reasoning_trace    object
+dtype: object
+[2025-12-08 10:49:48,765][oumi][rank1][pid:5451][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1)
+[2025-12-08 10:49:48,765][oumi][rank1][pid:5451][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'true', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 10:49:48,765][oumi][rank1][pid:5451][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 10:49:48,765][oumi][rank1][pid:5451][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1))...
+[2025-12-08 10:49:48,818][oumi][rank1][pid:5451][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 10:49:54,510][oumi][rank1][pid:5451][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 10:49:54,510][oumi][rank1][pid:5451][MainThread][WARNING]][callbacks.py:72] MFU logging requires packed datasets. Skipping MFU callbacks.
+[2025-12-08 10:49:54,847][oumi][rank1][pid:5451][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=28, fan_speed=None, fan_speeds=None, power_usage_watts=115.278, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 10:49:54,990][oumi][rank1][pid:5451][MainThread][INFO]][train.py:558] Training init time: 26.623s
+[2025-12-08 10:49:54,990][oumi][rank1][pid:5451][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 11:06:02,690][oumi][rank1][pid:6209][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 11:06:04,795][oumi][rank1][pid:6209][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 11:06:04,817][oumi][rank1][pid:6209][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 11:06:04,818][oumi][rank1][pid:6209][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 11:06:05,958][oumi][rank1][pid:6209][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 2334594551
+	Download size: 2274721765
+	Size: 4609316316 bytes
+	Rows: 10000
+	Columns: ['path', 'question', 'reasoning_trace']
+[2025-12-08 11:06:07,495][oumi][rank1][pid:6209][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+path               object
+question           object
+reasoning_trace    object
+dtype: object
+[2025-12-08 11:06:09,483][oumi][rank1][pid:6209][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1)
+[2025-12-08 11:06:09,483][oumi][rank1][pid:6209][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'false', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 11:06:09,483][oumi][rank1][pid:6209][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 11:06:09,483][oumi][rank1][pid:6209][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1))...
+[2025-12-08 11:06:09,537][oumi][rank1][pid:6209][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 11:06:09,763][oumi][rank1][pid:6209][MainThread][INFO]][train.py:463] Building PEFT model...
+[2025-12-08 11:06:11,018][oumi][rank1][pid:6209][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 11:06:11,019][oumi][rank1][pid:6209][MainThread][WARNING]][callbacks.py:69] MFU logging is not supported for PEFT. Skipping MFU callbacks.
+[2025-12-08 11:06:11,358][oumi][rank1][pid:6209][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=27, fan_speed=None, fan_speeds=None, power_usage_watts=115.055, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 11:06:11,659][oumi][rank1][pid:6209][MainThread][INFO]][train.py:558] Training init time: 9.066s
+[2025-12-08 11:06:11,659][oumi][rank1][pid:6209][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 11:19:11,684][oumi][rank1][pid:6784][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 11:19:13,892][oumi][rank1][pid:6784][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 11:19:13,915][oumi][rank1][pid:6784][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 11:19:13,915][oumi][rank1][pid:6784][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 11:19:14,959][oumi][rank1][pid:6784][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 2334594551
+	Download size: 2274721765
+	Size: 4609316316 bytes
+	Rows: 10000
+	Columns: ['path', 'question', 'reasoning_trace']
+[2025-12-08 11:19:16,471][oumi][rank1][pid:6784][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+path               object
+question           object
+reasoning_trace    object
+dtype: object
+[2025-12-08 11:19:18,709][oumi][rank1][pid:6784][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1)
+[2025-12-08 11:19:18,709][oumi][rank1][pid:6784][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'false', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'false'}
+[2025-12-08 11:19:18,709][oumi][rank1][pid:6784][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 11:19:18,709][oumi][rank1][pid:6784][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1))...
+[2025-12-08 11:19:18,763][oumi][rank1][pid:6784][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 11:19:18,990][oumi][rank1][pid:6784][MainThread][INFO]][train.py:463] Building PEFT model...
+[2025-12-08 11:19:20,294][oumi][rank1][pid:6784][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 11:19:20,294][oumi][rank1][pid:6784][MainThread][WARNING]][callbacks.py:69] MFU logging is not supported for PEFT. Skipping MFU callbacks.
+[2025-12-08 11:19:20,633][oumi][rank1][pid:6784][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=28, fan_speed=None, fan_speeds=None, power_usage_watts=116.483, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 11:19:20,804][oumi][rank1][pid:6784][MainThread][INFO]][train.py:558] Training init time: 9.198s
+[2025-12-08 11:19:20,804][oumi][rank1][pid:6784][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 11:39:34,520][oumi][rank1][pid:7929][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 11:39:36,497][oumi][rank1][pid:7929][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 11:39:36,521][oumi][rank1][pid:7929][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 11:39:36,521][oumi][rank1][pid:7929][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 11:39:38,401][oumi][rank1][pid:7929][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 2334594551
+	Download size: 2274721765
+	Size: 4609316316 bytes
+	Rows: 10000
+	Columns: ['path', 'question', 'reasoning_trace']
+[2025-12-08 11:39:39,888][oumi][rank1][pid:7929][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+path               object
+question           object
+reasoning_trace    object
+dtype: object
+[2025-12-08 11:39:41,901][oumi][rank1][pid:7929][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1)
+[2025-12-08 11:39:41,901][oumi][rank1][pid:7929][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'true', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 11:39:41,902][oumi][rank1][pid:7929][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 11:39:41,902][oumi][rank1][pid:7929][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1))...
+[2025-12-08 11:39:41,957][oumi][rank1][pid:7929][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 11:39:42,601][oumi][rank1][pid:7929][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 11:39:42,602][oumi][rank1][pid:7929][MainThread][WARNING]][callbacks.py:72] MFU logging requires packed datasets. Skipping MFU callbacks.
+[2025-12-08 11:39:42,942][oumi][rank1][pid:7929][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=28, fan_speed=None, fan_speeds=None, power_usage_watts=117.138, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 11:39:43,144][oumi][rank1][pid:7929][MainThread][INFO]][train.py:558] Training init time: 8.700s
+[2025-12-08 11:39:43,144][oumi][rank1][pid:7929][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 12:05:31,888][oumi][rank1][pid:8711][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 12:05:34,165][oumi][rank1][pid:8711][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 12:05:34,190][oumi][rank1][pid:8711][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 12:05:34,191][oumi][rank1][pid:8711][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 12:05:47,891][oumi][rank1][pid:8711][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 1944466265
+	Download size: 1910842881
+	Size: 3855309146 bytes
+	Rows: 10000
+	Columns: ['image', 'problem', 'solution']
+[2025-12-08 12:05:49,246][oumi][rank1][pid:8711][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+image       object
+problem     object
+solution    object
+dtype: object
+[2025-12-08 12:05:51,448][oumi][rank1][pid:8711][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1)
+[2025-12-08 12:05:51,449][oumi][rank1][pid:8711][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'true', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 12:05:51,449][oumi][rank1][pid:8711][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 12:05:51,449][oumi][rank1][pid:8711][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1))...
+[2025-12-08 12:05:51,502][oumi][rank1][pid:8711][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 12:06:42,423][oumi][rank1][pid:9074][MainThread][INFO]][models.py:469] Setting tokenizer to use the 'right' padding side for model 'Qwen/Qwen2.5-VL-7B-Instruct'. The 'right' padding side is configured as the default value for this model type.
+[2025-12-08 12:06:44,463][oumi][rank1][pid:9074][MainThread][INFO]][train.py:348] Set `training.trainer_kwargs.remove_unused_columns=False` for VLM training with TRL_SFT trainer.
+[2025-12-08 12:06:44,487][oumi][rank1][pid:9074][MainThread][WARNING]][data.py:66] Using torchdata preprocessing pipeline. This is currently in beta and may not be stable.
+[2025-12-08 12:06:44,487][oumi][rank1][pid:9074][MainThread][INFO]][base_map_dataset.py:91] Creating map dataset (type: HuggingFaceVisionDataset)... dataset_name: 'shu4dev/DCVLR_10K'
+[2025-12-08 12:06:45,414][oumi][rank1][pid:9074][MainThread][INFO]][base_map_dataset.py:487] Dataset Info:
+	Split: train
+	Version: 0.0.0
+	Dataset size: 1944466265
+	Download size: 1910842881
+	Size: 3855309146 bytes
+	Rows: 10000
+	Columns: ['image', 'problem', 'solution']
+[2025-12-08 12:06:46,749][oumi][rank1][pid:9074][MainThread][INFO]][base_map_dataset.py:426] Loaded DataFrame with shape: (10000, 3). Columns:
+image       object
+problem     object
+solution    object
+dtype: object
+[2025-12-08 12:06:48,689][oumi][rank1][pid:9074][MainThread][INFO]][distributed.py:303] Initialized distributed (True): DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1)
+[2025-12-08 12:06:48,689][oumi][rank1][pid:9074][MainThread][INFO]][train.py:449] Set Accelerate environment variables for FSDP: {'ACCELERATE_DYNAMO_BACKEND': 'NO', 'ACCELERATE_DYNAMO_MODE': 'default', 'ACCELERATE_DYNAMO_USE_FULLGRAPH': 'False', 'ACCELERATE_DYNAMO_USE_DYNAMIC': 'False', 'FSDP_CPU_RAM_EFFICIENT_LOADING': 'true', 'FSDP_USE_ORIG_PARAMS': 'true', 'ACCELERATE_USE_FSDP': 'true', 'FSDP_SHARDING_STRATEGY': 'HYBRID_SHARD', 'FSDP_OFFLOAD_PARAMS': 'false', 'ACCELERATE_MIXED_PRECISION': 'bf16', 'FSDP_BACKWARD_PREFETCH': 'BACKWARD_PRE', 'FSDP_FORWARD_PREFETCH': 'true', 'FSDP_STATE_DICT_TYPE': 'FULL_STATE_DICT', 'FSDP_AUTO_WRAP_POLICY': 'SIZE_BASED_WRAP', 'FSDP_MIN_NUM_PARAMS': '100000', 'FSDP_SYNC_MODULE_STATES': 'true', 'FSDP_ACTIVATION_CHECKPOINTING': 'true'}
+[2025-12-08 12:06:48,690][oumi][rank1][pid:9074][MainThread][INFO]][models.py:251] Accelerate FSDP run detected! Setting device_map to None.
+[2025-12-08 12:06:48,690][oumi][rank1][pid:9074][MainThread][INFO]][models.py:260] Building model using device_map: None (DeviceRankInfo(world_size=2, rank=1, local_world_size=2, local_rank=1))...
+[2025-12-08 12:06:48,741][oumi][rank1][pid:9074][MainThread][INFO]][models.py:336] Using model class: <class 'transformers.models.auto.modeling_auto.AutoModelForVision2Seq'> to instantiate model.
+[2025-12-08 12:06:49,379][oumi][rank1][pid:9074][MainThread][INFO]][torch_profiler_utils.py:164] PROF: Torch Profiler disabled!
+[2025-12-08 12:06:49,379][oumi][rank1][pid:9074][MainThread][WARNING]][callbacks.py:72] MFU logging requires packed datasets. Skipping MFU callbacks.
+[2025-12-08 12:06:49,720][oumi][rank1][pid:9074][MainThread][INFO]][device_utils.py:343] GPU Metrics Before Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=1979.0, temperature=28, fan_speed=None, fan_speeds=None, power_usage_watts=115.258, power_limit_watts=700.0, gpu_utilization=0, memory_utilization=0, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 12:06:49,885][oumi][rank1][pid:9074][MainThread][INFO]][train.py:558] Training init time: 7.539s
+[2025-12-08 12:06:49,885][oumi][rank1][pid:9074][MainThread][INFO]][train.py:559] Starting training... (TrainerType.TRL_SFT, transformers: 4.57.3)
+[2025-12-08 14:26:24,765][oumi][rank1][pid:9074][MainThread][INFO]][train.py:566] Training is Complete.
+[2025-12-08 14:26:24,766][oumi][rank1][pid:9074][MainThread][INFO]][device_utils.py:343] GPU Metrics After Training: GPU runtime info: NVidiaGpuRuntimeInfo(device_index=0, device_count=2, used_memory_mb=80345.0, temperature=35, fan_speed=None, fan_speeds=None, power_usage_watts=277.043, power_limit_watts=700.0, gpu_utilization=31, memory_utilization=11, performance_state=0, clock_speed_graphics=1980, clock_speed_sm=1980, clock_speed_memory=2619).
+[2025-12-08 14:26:24,766][oumi][rank1][pid:9074][MainThread][INFO]][torch_utils.py:135] Peak GPU memory usage: 67.35 GB
+[2025-12-08 14:26:24,766][oumi][rank1][pid:9074][MainThread][INFO]][train.py:573] Saving final state...
+[2025-12-08 14:26:24,803][oumi][rank1][pid:9074][MainThread][INFO]][train.py:578] Saving final model...
+[2025-12-08 14:26:24,803][oumi][rank1][pid:9074][MainThread][INFO]][hf_trainer.py:145] Saving FULL_STATE_DICT for final model checkpoint.
+[2025-12-08 14:27:04,534][oumi][rank1][pid:9074][MainThread][INFO]][hf_trainer.py:152] Model has been saved at output/qwen2_5_vl_7b_10K
+[2025-12-08 14:27:05,044][oumi][rank1][pid:9074][MainThread][INFO]][hf_trainer.py:156] Processor config has been saved at output/qwen2_5_vl_7b_10K
+[2025-12-08 14:27:57,875][oumi][rank1][pid:9074][MainThread][INFO]][train.py:230]
+» We're always looking for feedback. What's one thing we can improve? https://oumi.ai/feedback

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4438d521ee64ea5115acafea069cfd8a1a7e2811cd18b9ada9c79c3ca2da611
+size 4952311608

model-00002-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:068788428da7e883cd3dcc45d7c742861b141464eb75835db12f755e40d10a4d
+size 4984124272

model-00003-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87aaee4de23c1ef6d36986b62701fbdf15311a8ed3223d35a0f907b7c72f5760
+size 4932743936

model-00004-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26dd22e9bcb2a6fb9c95d24c0590a734f35425d3a2fc6943e1ad6ac7ffc3bdf0
+size 4998852296

model-00005-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cd1fa3c3ac94cf7a7774a94dca1ba6e22d11b39b4162f9168bba3b479bbe4b6
+size 4984124336

model-00006-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa41fad05022dd7e4b99d6551ef3930d0daf669b133adc0f3de86a881e2e5795
+size 4932743992

model-00007-of-00007.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:423bf9c27e19e013f79771b7593bf2aee5df245fae9805e6e1b7b4407bfb5114
+size 3383846800

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,737 @@

+{
+  "metadata": {
+    "total_parameters": 4146083328,
+    "total_size": 33168666624
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00007-of-00007.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00007.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00007.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00007.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00007.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00007.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00007.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00007.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00007.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00007-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00007-of-00007.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00007-of-00007.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00007.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00007.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00003-of-00007.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00007.safetensors",
+    "model.norm.weight": "model-00007-of-00007.safetensors",
+    "visual.blocks.0.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.0.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.1.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.10.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.11.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.12.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.13.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.14.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.15.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.16.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.17.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.18.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.19.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.2.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.20.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.21.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.22.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.23.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.24.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.25.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.26.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.27.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.28.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.29.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.3.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.30.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.31.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.4.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.5.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.6.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.7.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.8.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.attn.proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.attn.proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.attn.qkv.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.attn.qkv.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.mlp.down_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.mlp.down_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.mlp.gate_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.mlp.gate_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.mlp.up_proj.bias": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.mlp.up_proj.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.norm1.weight": "model-00001-of-00007.safetensors",
+    "visual.blocks.9.norm2.weight": "model-00001-of-00007.safetensors",
+    "visual.merger.ln_q.weight": "model-00001-of-00007.safetensors",
+    "visual.merger.mlp.0.bias": "model-00001-of-00007.safetensors",
+    "visual.merger.mlp.0.weight": "model-00001-of-00007.safetensors",
+    "visual.merger.mlp.2.bias": "model-00001-of-00007.safetensors",
+    "visual.merger.mlp.2.weight": "model-00001-of-00007.safetensors",
+    "visual.patch_embed.proj.weight": "model-00001-of-00007.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "disable_grouping": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_pad": null,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "Qwen2VLImageProcessorFast",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "input_data_format": null,
+  "max_pixels": 12845056,
+  "merge_size": 2,
+  "min_pixels": 3136,
+  "pad_size": null,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5_VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_tensors": null,
+  "size": {
+    "longest_edge": 12845056,
+    "shortest_edge": 3136
+  },
+  "temporal_patch_size": 2
+}

runs/Dec08_10-49-54_192-222-53-232/events.out.tfevents.1765191410.192-222-53-232.5450.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bd7422f6695e8e2db0c3a6d3d931bae3de5e5171a9dae88d267bdb2667513f3
+size 8632

runs/Dec08_11-06-11_192-222-53-232/events.out.tfevents.1765192372.192-222-53-232.6208.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e11746416d0849a11d28fd14ea1dae108b7b7e4dfe2258f178ec935b391cbf5c
+size 8068

runs/Dec08_11-19-20_192-222-53-232/events.out.tfevents.1765193149.192-222-53-232.6783.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:821dcf6a82d3f76b6878f66d0736181d3f8628f28568fecd5585c9ba66d88dd3
+size 8602

runs/Dec08_11-39-42_192-222-53-232/events.out.tfevents.1765194375.192-222-53-232.7928.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcf67bf966fd740aee93f35d0af1c30f76f78229e661c09e03df159628253e89
+size 8632

runs/Dec08_12-06-49_192-222-53-232/events.out.tfevents.1765195741.192-222-53-232.9073.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3c6237f7d1ceffa6eaefb79f15ce6fa482abb5a392163f4d0f6a02390088d5b
+size 582306

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

telemetry/devices_info.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+CPU cores: 52 CUDA devices: 2
+device(0)='NVIDIA H100 80GB HBM3' Capability: (9, 0) Memory: [Total: 79.19GiB Free: 78.17GiB Allocated: 0.0GiB Cached: 0.0GiB]
+device(1)='NVIDIA H100 80GB HBM3' Capability: (9, 0) Memory: [Total: 79.19GiB Free: 78.68GiB Allocated: 0.0GiB Cached: 0.0GiB]

telemetry/telemetry_callback_metrics_rank0000.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "train_runtime": 8244.7275,
+  "train_samples_per_second": 0.606,
+  "train_steps_per_second": 0.606,
+  "train_tokens_per_second": 740.833,
+  "total_flos": 1.4909655028544307e+17,
+  "train_loss": 1.2858075158119202,
+  "epoch": 1.0,
+  "num_input_tokens_seen": 6415098
+}

telemetry/telemetry_callback_rank0000.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "hostname": "192-222-53-232",
+  "total_time": 8375.288021429,
+  "timers": {
+    "epochs": {
+      "count": 1.0,
+      "mean": 8243.57664895,
+      "median": 8243.57664895,
+      "std_dev": 0,
+      "min": 8243.57664895,
+      "max": 8243.57664895,
+      "total": 8243.57664895,
+      "percentage": 98.42738097911375
+    },
+    "microsteps": {
+      "count": 4998.0,
+      "mean": 1.5826767139225664,
+      "median": 1.487843046999842,
+      "std_dev": 0.1933355445553847,
+      "min": 1.3639970860003814,
+      "max": 2.346771123000508,
+      "total": 7910.218216184987,
+      "percentage": 94.44711866560186
+    },
+    "steps": {
+      "count": 4998.0,
+      "mean": 1.582678092825712,
+      "median": 1.4878443304996836,
+      "std_dev": 0.19333556450996478,
+      "min": 1.363998167000318,
+      "max": 2.3467728750001697,
+      "total": 7910.225107942909,
+      "percentage": 94.44720095241881
+    }
+  },
+  "cuda_timers": {},
+  "gpu_memory": [],
+  "gpu_temperature": {}
+}

telemetry/telemetry_callback_wandb_rank0000.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "id": "u1u8gi5o",
+  "name": "still-fire-12",
+  "url": "https://wandb.ai/shu4-university-of-hawaii-system/huggingface/runs/u1u8gi5o"
+}

telemetry/training_config.yaml ADDED Viewed

	@@ -0,0 +1,245 @@

+data:
+  train:
+    datasets:
+    - dataset_name: hf_vision
+      dataset_path: null
+      subset: null
+      split: train
+      dataset_kwargs:
+        hf_dataset_path: shu4dev/DCVLR_10K
+        image_column: image
+        question_column: problem
+        answer_column: solution
+        return_tensors: true
+        processor_name: Qwen/Qwen2.5-VL-7B-Instruct
+        return_conversations: true
+      sample_count: null
+      mixture_proportion: null
+      shuffle: true
+      seed: 42
+      shuffle_buffer_size: 1000
+      trust_remote_code: true
+      transform_num_workers: auto
+    collator_name: vision_language_sft
+    collator_kwargs:
+      process_individually: true
+    pack: false
+    stream: false
+    target_col: null
+    mixture_strategy: first_exhausted
+    seed: null
+    use_torchdata: true
+  test:
+    datasets: []
+    collator_name: null
+    collator_kwargs: {}
+    pack: false
+    stream: false
+    target_col: null
+    mixture_strategy: first_exhausted
+    seed: null
+    use_torchdata: null
+  validation:
+    datasets: []
+    collator_name: null
+    collator_kwargs: {}
+    pack: false
+    stream: false
+    target_col: null
+    mixture_strategy: first_exhausted
+    seed: null
+    use_torchdata: null
+model:
+  model_name: Qwen/Qwen2.5-VL-7B-Instruct
+  adapter_model: null
+  tokenizer_name: null
+  tokenizer_pad_token: null
+  tokenizer_kwargs: {}
+  processor_kwargs: {}
+  model_max_length: 10000
+  load_pretrained_weights: true
+  trust_remote_code: true
+  torch_dtype_str: bfloat16
+  compile: false
+  chat_template: qwen2-vl-instruct
+  chat_template_kwargs: null
+  attn_implementation: flash_attention_2
+  device_map: auto
+  model_kwargs: {}
+  enable_liger_kernel: false
+  shard_for_eval: false
+  freeze_layers: []
+  model_revision: null
+training:
+  use_peft: false
+  trainer_type: TRL_SFT
+  enable_gradient_checkpointing: true
+  gradient_checkpointing_kwargs:
+    use_reentrant: false
+  output_dir: output/qwen2_5_vl_7b_10K
+  per_device_train_batch_size: 1
+  per_device_eval_batch_size: 8
+  gradient_accumulation_steps: 1
+  max_steps: -1
+  num_train_epochs: 1
+  save_epoch: false
+  save_steps: 0
+  save_final_model: true
+  seed: 42
+  data_seed: 42
+  use_deterministic: false
+  full_determinism: false
+  run_name: null
+  metrics_function: null
+  reward_functions: null
+  grpo:
+    model_init_kwargs: {}
+    max_prompt_length: null
+    max_completion_length: null
+    num_generations: null
+    temperature: 0.9
+    remove_unused_columns: false
+    repetition_penalty: 1.0
+    use_vllm: false
+    vllm_mode: null
+    vllm_gpu_memory_utilization: 0.9
+    epsilon: 0.2
+    log_completions: false
+    rollout_function: null
+  gkd:
+    teacher_model_name_or_path: null
+    teacher_model_init_kwargs:
+      dtype: auto
+    temperature: 0.9
+    lmbda: 0.5
+    beta: 0.5
+    max_new_tokens: 128
+    disable_dropout: true
+    seq_kd: false
+  log_level: info
+  dep_log_level: warning
+  log_examples: false
+  enable_wandb: true
+  enable_mlflow: false
+  enable_tensorboard: true
+  logging_strategy: steps
+  logging_dir: null
+  logging_steps: 5
+  logging_first_step: false
+  eval_strategy: 'no'
+  eval_steps: 500
+  learning_rate: 2.0e-05
+  lr_scheduler_type: cosine
+  lr_scheduler_kwargs: {}
+  warmup_ratio: 0.03
+  warmup_steps: null
+  optimizer: adamw_torch_fused
+  weight_decay: 0.01
+  adam_beta1: 0.9
+  adam_beta2: 0.999
+  adam_epsilon: 1.0e-08
+  sgd_momentum: 0.0
+  mixed_precision_dtype: NONE
+  compile: false
+  include_performance_metrics: true
+  include_alternative_mfu_metrics: false
+  log_model_summary: false
+  resume_from_checkpoint: null
+  try_resume_from_last_checkpoint: false
+  dataloader_num_workers: 2
+  dataloader_persistent_workers: false
+  dataloader_prefetch_factor: 8
+  dataloader_main_process_only: false
+  ddp_find_unused_parameters: false
+  max_grad_norm: 1.0
+  trainer_kwargs:
+    max_length: 10000
+    remove_unused_columns: false
+    dataset_kwargs:
+      skip_prepare_dataset: true
+  verl_config_overrides: {}
+  profiler:
+    save_dir: null
+    enable_cpu_profiling: false
+    enable_cuda_profiling: false
+    record_shapes: false
+    profile_memory: false
+    with_stack: false
+    with_flops: false
+    with_modules: false
+    row_limit: 50
+    schedule:
+      enable_schedule: false
+      wait: 0
+      warmup: 1
+      active: 3
+      repeat: 1
+      skip_first: 1
+  telemetry:
+    telemetry_dir: telemetry
+    collect_telemetry_for_all_ranks: false
+    track_gpu_temperature: false
+  empty_device_cache_steps: 1
+  nccl_default_timeout_minutes: null
+  label_ignore_index: null
+peft:
+  lora_r: 8
+  lora_alpha: 8
+  lora_dropout: 0.0
+  lora_target_modules: null
+  lora_target_parameters: null
+  lora_modules_to_save: null
+  lora_bias: none
+  lora_init_weights: DEFAULT
+  lora_task_type: CAUSAL_LM
+  q_lora: false
+  q_lora_bits: 4
+  bnb_4bit_quant_type: fp4
+  llm_int8_skip_modules: null
+  use_bnb_nested_quant: false
+  bnb_4bit_quant_storage: uint8
+  bnb_4bit_compute_dtype: float32
+  peft_save_mode: ADAPTER_ONLY
+fsdp:
+  enable_fsdp: true
+  sharding_strategy: HYBRID_SHARD
+  cpu_offload: false
+  mixed_precision: bf16
+  backward_prefetch: BACKWARD_PRE
+  forward_prefetch: true
+  use_orig_params: null
+  state_dict_type: FULL_STATE_DICT
+  auto_wrap_policy: SIZE_BASED_WRAP
+  min_num_params: 100000
+  transformer_layer_cls: null
+  sync_module_states: true
+deepspeed:
+  enable_deepspeed: false
+  deepspeed_config_path: null
+  zero_stage: ZERO_0
+  offload_optimizer: null
+  offload_param: null
+  precision: null
+  overlap_comm: false
+  contiguous_gradients: true
+  reduce_bucket_size: 500000000
+  allgather_bucket_size: 500000000
+  allgather_partitions: true
+  reduce_scatter: true
+  round_robin_gradients: false
+  stage3_prefetch_bucket_size: 50000000
+  stage3_param_persistence_threshold: 100000
+  stage3_max_live_parameters: 1000000000
+  stage3_max_reuse_distance: 1000000000
+  stage3_gather_16bit_weights_on_model_save: false
+  sub_group_size: 1000000000
+  train_batch_size: auto
+  train_micro_batch_size_per_gpu: auto
+  gradient_accumulation_steps: auto
+  gradient_clipping: auto
+  zero_allow_untested_optimizer: true
+  zero_force_ds_cpu_optimizer: true
+  activation_checkpointing: {}
+  memory_efficient_linear: false
+  steps_per_print: 10
+  wall_clock_breakdown: false

telemetry/world_size.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "LOCAL_WORLD_SIZE": 2,
+  "WORLD_SIZE": 2
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c5ae00e602b8860cbd784ba82a8aa14e8feecec692e7076590d014d7b7fdafa
+size 11421896

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,209 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 10000,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "processor_class": "Qwen2_5_VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ffe38194e08d34516b37e5543c51da13be638b68ec8da9e7d332d8bec924c97
+size 6289

video_preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "do_sample_frames": false,
+  "fps": null,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "input_data_format": null,
+  "max_frames": 768,
+  "max_pixels": 12845056,
+  "merge_size": 2,
+  "min_frames": 4,
+  "min_pixels": 3136,
+  "num_frames": null,
+  "pad_size": null,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5_VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "return_metadata": false,
+  "size": {
+    "longest_edge": 12845056,
+    "shortest_edge": 3136
+  },
+  "temporal_patch_size": 2,
+  "video_metadata": null,
+  "video_processor_type": "Qwen2VLVideoProcessor"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff