/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
[INFO|2026-01-30 12:12:42] llamafactory.launcher:143 >> Initializing 8 distributed tasks at: 127.0.0.1:47407
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
W0130 12:12:43.204000 1791939 site-packages/torch/distributed/run.py:774] 
W0130 12:12:43.204000 1791939 site-packages/torch/distributed/run.py:774] *****************************************
W0130 12:12:43.204000 1791939 site-packages/torch/distributed/run.py:774] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
W0130 12:12:43.204000 1791939 site-packages/torch/distributed/run.py:774] *****************************************
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/cuda/__init__.py:63: FutureWarning: The pynvml package is deprecated. Please install nvidia-ml-py instead. If you did not install pynvml directly, please report this to the maintainers of the package that installed pynvml for you.
  import pynvml  # type: ignore[import]
[2026-01-30 12:12:51,268] [INFO] [real_accelerator.py:254:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-01-30 12:12:51,528] [INFO] [real_accelerator.py:254:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-01-30 12:12:51,614] [INFO] [real_accelerator.py:254:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-01-30 12:12:51,679] [INFO] [real_accelerator.py:254:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-01-30 12:12:51,949] [INFO] [real_accelerator.py:254:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-01-30 12:12:51,949] [INFO] [real_accelerator.py:254:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-01-30 12:12:52,425] [INFO] [comm.py:669:init_distributed] cdb=None
[W130 12:12:52.999972680 ProcessGroupNCCL.cpp:981] Warning: TORCH_NCCL_AVOID_RECORD_STREAMS is the default now, this environment variable is thus deprecated. (function operator())
[2026-01-30 12:12:52,826] [INFO] [comm.py:669:init_distributed] cdb=None
[W130 12:12:52.400517899 ProcessGroupNCCL.cpp:981] Warning: TORCH_NCCL_AVOID_RECORD_STREAMS is the default now, this environment variable is thus deprecated. (function operator())
[2026-01-30 12:12:52,856] [INFO] [comm.py:669:init_distributed] cdb=None
[W130 12:12:52.430127932 ProcessGroupNCCL.cpp:981] Warning: TORCH_NCCL_AVOID_RECORD_STREAMS is the default now, this environment variable is thus deprecated. (function operator())
[2026-01-30 12:12:52,867] [INFO] [real_accelerator.py:254:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-01-30 12:12:52,878] [INFO] [comm.py:669:init_distributed] cdb=None
[2026-01-30 12:12:52,878] [INFO] [comm.py:700:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[W130 12:12:52.453372269 ProcessGroupNCCL.cpp:981] Warning: TORCH_NCCL_AVOID_RECORD_STREAMS is the default now, this environment variable is thus deprecated. (function operator())
[2026-01-30 12:12:53,114] [INFO] [real_accelerator.py:254:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-01-30 12:12:53,329] [INFO] [comm.py:669:init_distributed] cdb=None
[W130 12:12:53.903828929 ProcessGroupNCCL.cpp:981] Warning: TORCH_NCCL_AVOID_RECORD_STREAMS is the default now, this environment variable is thus deprecated. (function operator())
[2026-01-30 12:12:53,353] [INFO] [comm.py:669:init_distributed] cdb=None
[W130 12:12:53.928190235 ProcessGroupNCCL.cpp:981] Warning: TORCH_NCCL_AVOID_RECORD_STREAMS is the default now, this environment variable is thus deprecated. (function operator())
[2026-01-30 12:12:53,929] [INFO] [comm.py:669:init_distributed] cdb=None
[W130 12:12:53.503041418 ProcessGroupNCCL.cpp:981] Warning: TORCH_NCCL_AVOID_RECORD_STREAMS is the default now, this environment variable is thus deprecated. (function operator())
[2026-01-30 12:12:54,246] [INFO] [comm.py:669:init_distributed] cdb=None
[W130 12:12:54.820017974 ProcessGroupNCCL.cpp:981] Warning: TORCH_NCCL_AVOID_RECORD_STREAMS is the default now, this environment variable is thus deprecated. (function operator())
[INFO|2026-01-30 12:12:57] llamafactory.hparams.parser:465 >> Process rank: 4, world size: 8, device: cuda:4, distributed training: True, compute dtype: torch.bfloat16
[INFO|2026-01-30 12:12:57] llamafactory.hparams.parser:465 >> Process rank: 0, world size: 8, device: cuda:0, distributed training: True, compute dtype: torch.bfloat16
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,335 >> loading file vocab.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,335 >> loading file merges.txt
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,336 >> loading file added_tokens.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,336 >> loading file special_tokens_map.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,336 >> loading file tokenizer_config.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,336 >> loading file tokenizer.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,336 >> loading file chat_template.jinja
[INFO|2026-01-30 12:12:57] llamafactory.hparams.parser:465 >> Process rank: 6, world size: 8, device: cuda:6, distributed training: True, compute dtype: torch.bfloat16
[INFO|2026-01-30 12:12:57] llamafactory.hparams.parser:465 >> Process rank: 1, world size: 8, device: cuda:1, distributed training: True, compute dtype: torch.bfloat16
[INFO|2026-01-30 12:12:57] llamafactory.hparams.parser:465 >> Process rank: 3, world size: 8, device: cuda:3, distributed training: True, compute dtype: torch.bfloat16
[INFO|2026-01-30 12:12:57] llamafactory.hparams.parser:465 >> Process rank: 7, world size: 8, device: cuda:7, distributed training: True, compute dtype: torch.bfloat16
[INFO|2026-01-30 12:12:57] llamafactory.hparams.parser:465 >> Process rank: 2, world size: 8, device: cuda:2, distributed training: True, compute dtype: torch.bfloat16
[INFO|2026-01-30 12:12:57] llamafactory.hparams.parser:465 >> Process rank: 5, world size: 8, device: cuda:5, distributed training: True, compute dtype: torch.bfloat16
[INFO|tokenization_utils_base.py:2337] 2026-01-30 12:12:57,592 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
[INFO|image_processing_base.py:374] 2026-01-30 12:12:57,592 >> loading configuration file /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/rl/verl_checkpoints/global_step_100/actor/huggingface/preprocessor_config.json
[INFO|image_processing_base.py:374] 2026-01-30 12:12:57,594 >> loading configuration file /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/rl/verl_checkpoints/global_step_100/actor/huggingface/preprocessor_config.json
[INFO|image_processing_base.py:421] 2026-01-30 12:12:57,595 >> Image processor Qwen2VLImageProcessor {
  "crop_size": null,
  "data_format": "channels_first",
  "default_to_square": true,
  "device": null,
  "disable_grouping": null,
  "do_center_crop": null,
  "do_convert_rgb": true,
  "do_normalize": true,
  "do_pad": null,
  "do_rescale": true,
  "do_resize": true,
  "image_mean": [
    0.48145466,
    0.4578275,
    0.40821073
  ],
  "image_processor_type": "Qwen2VLImageProcessor",
  "image_std": [
    0.26862954,
    0.26130258,
    0.27577711
  ],
  "input_data_format": null,
  "max_pixels": 12845056,
  "merge_size": 2,
  "min_pixels": 3136,
  "pad_size": null,
  "patch_size": 14,
  "processor_class": "Qwen2_5_VLProcessor",
  "resample": 3,
  "rescale_factor": 0.00392156862745098,
  "return_tensors": null,
  "size": {
    "longest_edge": 12845056,
    "shortest_edge": 3136
  },
  "temporal_patch_size": 2
}

[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,598 >> loading file vocab.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,598 >> loading file merges.txt
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,598 >> loading file added_tokens.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,598 >> loading file special_tokens_map.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,598 >> loading file tokenizer_config.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,598 >> loading file tokenizer.json
[INFO|tokenization_utils_base.py:2066] 2026-01-30 12:12:57,598 >> loading file chat_template.jinja
[INFO|tokenization_utils_base.py:2337] 2026-01-30 12:12:57,736 >> Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
[INFO|video_processing_utils.py:727] 2026-01-30 12:12:57,737 >> loading configuration file /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/rl/verl_checkpoints/global_step_100/actor/huggingface/video_preprocessor_config.json
[INFO|video_processing_utils.py:773] 2026-01-30 12:12:57,739 >> Video processor Qwen2VLVideoProcessor {
  "crop_size": null,
  "data_format": "channels_first",
  "default_to_square": true,
  "device": null,
  "do_center_crop": null,
  "do_convert_rgb": true,
  "do_normalize": true,
  "do_pad": null,
  "do_rescale": true,
  "do_resize": true,
  "do_sample_frames": false,
  "fps": null,
  "image_mean": [
    0.48145466,
    0.4578275,
    0.40821073
  ],
  "image_std": [
    0.26862954,
    0.26130258,
    0.27577711
  ],
  "input_data_format": null,
  "max_frames": 768,
  "max_pixels": 12845056,
  "merge_size": 2,
  "min_frames": 4,
  "min_pixels": 3136,
  "num_frames": null,
  "pad_size": null,
  "patch_size": 14,
  "processor_class": "Qwen2_5_VLProcessor",
  "resample": 3,
  "rescale_factor": 0.00392156862745098,
  "return_metadata": false,
  "size": {
    "longest_edge": 12845056,
    "shortest_edge": 3136
  },
  "size_divisor": null,
  "temporal_patch_size": 2,
  "video_metadata": null,
  "video_processor_type": "Qwen2VLVideoProcessor"
}

[INFO|processing_utils.py:1051] 2026-01-30 12:12:57,739 >> loading configuration file None
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once
[INFO|processing_utils.py:1136] 2026-01-30 12:12:57,991 >> Processor Qwen2_5_VLProcessor:
- image_processor: Qwen2VLImageProcessor {
  "crop_size": null,
  "data_format": "channels_first",
  "default_to_square": true,
  "device": null,
  "disable_grouping": null,
  "do_center_crop": null,
  "do_convert_rgb": true,
  "do_normalize": true,
  "do_pad": null,
  "do_rescale": true,
  "do_resize": true,
  "image_mean": [
    0.48145466,
    0.4578275,
    0.40821073
  ],
  "image_processor_type": "Qwen2VLImageProcessor",
  "image_std": [
    0.26862954,
    0.26130258,
    0.27577711
  ],
  "input_data_format": null,
  "max_pixels": 12845056,
  "merge_size": 2,
  "min_pixels": 3136,
  "pad_size": null,
  "patch_size": 14,
  "processor_class": "Qwen2_5_VLProcessor",
  "resample": 3,
  "rescale_factor": 0.00392156862745098,
  "return_tensors": null,
  "size": {
    "longest_edge": 12845056,
    "shortest_edge": 3136
  },
  "temporal_patch_size": 2
}

- tokenizer: Qwen2Tokenizer(name_or_path='/mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/rl/verl_checkpoints/global_step_100/actor/huggingface', vocab_size=151643, model_max_length=131072, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'eos_token': '<|im_end|>', 'pad_token': '<|endoftext|>', 'additional_special_tokens': ['<|im_start|>', '<|im_end|>', '<|object_ref_start|>', '<|object_ref_end|>', '<|box_start|>', '<|box_end|>', '<|quad_start|>', '<|quad_end|>', '<|vision_start|>', '<|vision_end|>', '<|vision_pad|>', '<|image_pad|>', '<|video_pad|>']}, clean_up_tokenization_spaces=False, added_tokens_decoder={
	151643: AddedToken("<|endoftext|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151644: AddedToken("<|im_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151645: AddedToken("<|im_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151646: AddedToken("<|object_ref_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151647: AddedToken("<|object_ref_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151648: AddedToken("<|box_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151649: AddedToken("<|box_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151650: AddedToken("<|quad_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151651: AddedToken("<|quad_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151652: AddedToken("<|vision_start|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151653: AddedToken("<|vision_end|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151654: AddedToken("<|vision_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151655: AddedToken("<|image_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151656: AddedToken("<|video_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	151657: AddedToken("<tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
	151658: AddedToken("</tool_call>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
	151659: AddedToken("<|fim_prefix|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
	151660: AddedToken("<|fim_middle|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
	151661: AddedToken("<|fim_suffix|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
	151662: AddedToken("<|fim_pad|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
	151663: AddedToken("<|repo_name|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
	151664: AddedToken("<|file_sep|>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=False),
}
)
- video_processor: Qwen2VLVideoProcessor {
  "crop_size": null,
  "data_format": "channels_first",
  "default_to_square": true,
  "device": null,
  "do_center_crop": null,
  "do_convert_rgb": true,
  "do_normalize": true,
  "do_pad": null,
  "do_rescale": true,
  "do_resize": true,
  "do_sample_frames": false,
  "fps": null,
  "image_mean": [
    0.48145466,
    0.4578275,
    0.40821073
  ],
  "image_std": [
    0.26862954,
    0.26130258,
    0.27577711
  ],
  "input_data_format": null,
  "max_frames": 768,
  "max_pixels": 12845056,
  "merge_size": 2,
  "min_frames": 4,
  "min_pixels": 3136,
  "num_frames": null,
  "pad_size": null,
  "patch_size": 14,
  "processor_class": "Qwen2_5_VLProcessor",
  "resample": 3,
  "rescale_factor": 0.00392156862745098,
  "return_metadata": false,
  "size": {
    "longest_edge": 12845056,
    "shortest_edge": 3136
  },
  "size_divisor": null,
  "temporal_patch_size": 2,
  "video_metadata": null,
  "video_processor_type": "Qwen2VLVideoProcessor"
}


{
  "processor_class": "Qwen2_5_VLProcessor"
}

[INFO|2026-01-30 12:12:58] llamafactory.data.loader:143 >> Loading dataset multi_turn_action_gen.json...
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once
[rank4]:[W130 12:12:58.720205755 ProcessGroupNCCL.cpp:5023] [PG ID 0 PG GUID 0 Rank 4]  using GPU 4 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can specify device_id in init_process_group() to force use of a particular device.
[rank7]:[W130 12:12:58.020678286 ProcessGroupNCCL.cpp:5023] [PG ID 0 PG GUID 0 Rank 7]  using GPU 7 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can specify device_id in init_process_group() to force use of a particular device.
[rank6]:[W130 12:12:58.021496872 ProcessGroupNCCL.cpp:5023] [PG ID 0 PG GUID 0 Rank 6]  using GPU 6 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can specify device_id in init_process_group() to force use of a particular device.
[rank3]:[W130 12:12:58.022788519 ProcessGroupNCCL.cpp:5023] [PG ID 0 PG GUID 0 Rank 3]  using GPU 3 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can specify device_id in init_process_group() to force use of a particular device.
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once
[rank1]:[W130 12:12:58.058315833 ProcessGroupNCCL.cpp:5023] [PG ID 0 PG GUID 0 Rank 1]  using GPU 1 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can specify device_id in init_process_group() to force use of a particular device.
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once
[rank5]:[W130 12:12:58.085599525 ProcessGroupNCCL.cpp:5023] [PG ID 0 PG GUID 0 Rank 5]  using GPU 5 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can specify device_id in init_process_group() to force use of a particular device.
[rank2]:[W130 12:12:58.136571768 ProcessGroupNCCL.cpp:5023] [PG ID 0 PG GUID 0 Rank 2]  using GPU 2 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can specify device_id in init_process_group() to force use of a particular device.
Setting num_proc from 4 back to 1 for the train split to disable multiprocessing as it only contains one shard.
WARNING:datasets.builder:Setting num_proc from 4 back to 1 for the train split to disable multiprocessing as it only contains one shard.

Generating train split: 0 examples [00:00, ? examples/s]
Generating train split: 1468 examples [00:00, 20884.81 examples/s]

Converting format of dataset (num_proc=4):   0%|          | 0/1468 [00:00<?, ? examples/s]
Converting format of dataset (num_proc=4):  25%|██▌       | 367/1468 [00:00<00:00, 1464.28 examples/s]
Converting format of dataset (num_proc=4): 100%|██████████| 1468/1468 [00:00<00:00, 2988.84 examples/s]
[INFO|2026-01-30 12:12:59] llamafactory.data.loader:143 >> Loading dataset forward_dynamics.json...
Setting num_proc from 4 back to 1 for the train split to disable multiprocessing as it only contains one shard.
WARNING:datasets.builder:Setting num_proc from 4 back to 1 for the train split to disable multiprocessing as it only contains one shard.

Generating train split: 0 examples [00:00, ? examples/s]
Generating train split: 1431 examples [00:00, 62050.15 examples/s]

Converting format of dataset (num_proc=4):   0%|          | 0/1431 [00:00<?, ? examples/s]
Converting format of dataset (num_proc=4):  25%|██▌       | 358/1431 [00:00<00:00, 2113.89 examples/s]
Converting format of dataset (num_proc=4): 100%|██████████| 1431/1431 [00:00<00:00, 4320.30 examples/s]
[INFO|2026-01-30 12:12:59] llamafactory.data.loader:143 >> Loading dataset action_gen.json...
Setting num_proc from 4 back to 1 for the train split to disable multiprocessing as it only contains one shard.
WARNING:datasets.builder:Setting num_proc from 4 back to 1 for the train split to disable multiprocessing as it only contains one shard.

Generating train split: 0 examples [00:00, ? examples/s]
Generating train split: 2896 examples [00:00, 34487.30 examples/s]

Converting format of dataset (num_proc=4):   0%|          | 0/2896 [00:00<?, ? examples/s]
Converting format of dataset (num_proc=4):  14%|█▎        | 393/2896 [00:00<00:01, 1368.73 examples/s]
Converting format of dataset (num_proc=4):  77%|███████▋  | 2237/2896 [00:00<00:00, 6815.70 examples/s]
Converting format of dataset (num_proc=4): 100%|██████████| 2896/2896 [00:00<00:00, 4626.81 examples/s]
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once
[rank0]:[W130 12:13:00.407095491 ProcessGroupNCCL.cpp:5023] [PG ID 0 PG GUID 0 Rank 0]  using GPU 0 as device used by this process is currently unknown. This can potentially cause a hang if this rank to GPU mapping is incorrect. You can specify device_id in init_process_group() to force use of a particular device.

Running tokenizer on dataset (num_proc=4):   0%|          | 0/5795 [00:00<?, ? examples/s]
Running tokenizer on dataset (num_proc=4):  17%|█▋        | 1000/5795 [01:03<05:05, 15.71 examples/s]
Running tokenizer on dataset (num_proc=4):  35%|███▍      | 2000/5795 [01:15<02:06, 29.92 examples/s]
Running tokenizer on dataset (num_proc=4):  42%|████▏     | 2449/5795 [01:31<01:52, 29.66 examples/s]
Running tokenizer on dataset (num_proc=4):  50%|████▉     | 2897/5795 [01:42<01:30, 31.87 examples/s]
Running tokenizer on dataset (num_proc=4):  50%|████▉     | 2897/5795 [01:53<01:30, 31.87 examples/s]
Running tokenizer on dataset (num_proc=4):  67%|██████▋   | 3897/5795 [01:55<00:42, 44.40 examples/s]
Running tokenizer on dataset (num_proc=4):  85%|████████▍ | 4897/5795 [02:05<00:15, 56.54 examples/s]
Running tokenizer on dataset (num_proc=4):  85%|████████▍ | 4897/5795 [02:23<00:15, 56.54 examples/s]
Running tokenizer on dataset (num_proc=4):  92%|█████████▏| 5346/5795 [02:45<00:14, 31.20 examples/s]
Running tokenizer on dataset (num_proc=4): 100%|██████████| 5795/5795 [02:55<00:00, 33.50 examples/s]
Running tokenizer on dataset (num_proc=4): 100%|██████████| 5795/5795 [02:55<00:00, 33.01 examples/s]
training example:
input_ids:
[151644, 8948, 198, 2610, 525, 264, 27979, 32711, 8315, 59399, 1526, 264, 220, 18, 35, 6109, 13, 1446, 525, 2661, 458, 2856, 1651, 323, 264, 2169, 1651, 13, 81739, 3019, 553, 3019, 311, 5545, 279, 2169, 624, 4854, 1917, 10797, 220, 15, 13, 20, 76, 476, 89059, 220, 18, 15, 13, 15, 12348, 624, 5097, 697, 1917, 304, 279, 3561, 25, 366, 1311, 29, 1311, 16, 11, 1917, 17, 11, 2503, 522, 1311, 397, 4498, 498, 5545, 279, 2169, 1651, 11, 2550, 25, 366, 1311, 29, 9217, 27301, 11, 13580, 11, 42528, 11, 19111, 11, 33919, 11, 53001, 12533, 1311, 29, 151645, 198, 151644, 872, 198, 73282, 504, 279, 2856, 1651, 220, 151652, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151653, 311, 279, 2169, 1651, 220, 151652, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151653, 13, 6909, 14875, 5785, 25, 220, 151652, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151653, 198, 5405, 6249, 220, 21, 12, 5404, 37, 320, 66, 17, 86, 11, 80018, 71089, 11, 3385, 57063, 1570, 982, 58, 3998, 28, 17, 13, 22, 19, 20, 16, 11, 13580, 28, 16, 13, 19, 20, 18, 21, 11, 42528, 28, 16, 13, 20, 19, 15, 23, 11, 19111, 10829, 16, 17, 15, 13, 15, 15, 11616, 11, 33919, 28, 15, 13, 15, 15, 11616, 11, 53001, 10829, 16, 17, 15, 13, 15, 15, 11616, 921, 8304, 220, 16, 14, 18, 151645, 198, 151644, 77091, 198, 27, 1311, 29, 412, 10539, 522, 1311, 29, 151645, 198, 151644, 872, 198, 2243, 25, 5394, 198, 5405, 6249, 220, 21, 12, 5404, 37, 320, 66, 17, 86, 11, 80018, 71089, 11, 3385, 57063, 1570, 982, 58, 3998, 28, 17, 13, 22, 19, 20, 16, 11, 13580, 28, 16, 13, 19, 20, 18, 21, 11, 42528, 28, 16, 13, 20, 19, 15, 23, 11, 19111, 10829, 16, 17, 15, 13, 15, 15, 11616, 11, 33919, 28, 15, 13, 15, 15, 11616, 11, 53001, 10829, 16, 20, 15, 13, 15, 15, 11616, 921, 151652, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151653, 198, 8304, 220, 17, 14, 18, 151645, 198, 151644, 77091, 198, 27, 1311, 29, 412, 10539, 522, 1311, 29, 151645, 198, 151644, 872, 198, 2243, 25, 5394, 198, 5405, 6249, 220, 21, 12, 5404, 37, 320, 66, 17, 86, 11, 80018, 71089, 11, 3385, 57063, 1570, 982, 58, 3998, 28, 17, 13, 22, 19, 20, 16, 11, 13580, 28, 16, 13, 19, 20, 18, 21, 11, 42528, 28, 16, 13, 20, 19, 15, 23, 11, 19111, 10829, 16, 17, 15, 13, 15, 15, 11616, 11, 33919, 28, 15, 13, 15, 15, 11616, 11, 53001, 28, 16, 23, 15, 13, 15, 15, 11616, 921, 151652, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151653, 198, 8304, 220, 18, 14, 18, 151645, 198, 151644, 77091, 198, 27, 1311, 29, 9217, 7, 17, 13, 22, 11, 220, 16, 13, 20, 11, 220, 16, 13, 20, 11, 481, 16, 17, 15, 13, 15, 11, 220, 15, 13, 15, 11, 220, 16, 23, 15, 13, 15, 12533, 1311, 29, 151645, 198]
inputs:
<|im_start|>system
You are a spatial reasoning agent navigating through a 3D scene. You are given an initial view and a target view. Navigate step by step to reach the target.
Each action moves 0.5m or rotates 30.0 degrees.
Output your action in the format: <action>action1, action2, ...</action>
When you reach the target view, output: <action>answer(tx, ty, tz, rx, ry, rz)</action><|im_end|>
<|im_start|>user
Navigate from the initial view <|vision_start|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|vision_end|> to the target view <|vision_start|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|vision_end|>. Top-down reference: <|vision_start|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|vision_end|>
Current camera 6-DoF (c2w, Euler XYZ, DEGREES):
[tx=2.7451, ty=1.4536, tz=1.5408, rx=-120.00°, ry=0.00°, rz=-120.00°]
Step 1/3<|im_end|>
<|im_start|>assistant
<action>turn_right</action><|im_end|>
<|im_start|>user
format: ok
Current camera 6-DoF (c2w, Euler XYZ, DEGREES):
[tx=2.7451, ty=1.4536, tz=1.5408, rx=-120.00°, ry=0.00°, rz=-150.00°]
<|vision_start|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|vision_end|>
Step 2/3<|im_end|>
<|im_start|>assistant
<action>turn_right</action><|im_end|>
<|im_start|>user
format: ok
Current camera 6-DoF (c2w, Euler XYZ, DEGREES):
[tx=2.7451, ty=1.4536, tz=1.5408, rx=-120.00°, ry=0.00°, rz=180.00°]
<|vision_start|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|vision_end|>
Step 3/3<|im_end|>
<|im_start|>assistant
<action>answer(2.7, 1.5, 1.5, -120.0, 0.0, 180.0)</action><|im_end|>

label_ids:
[-100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, 27, 1311, 29, 412, 10539, 522, 1311, 29, 151645, 198, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, 27, 1311, 29, 412, 10539, 522, 1311, 29, 151645, 198, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, 27, 1311, 29, 9217, 7, 17, 13, 22, 11, 220, 16, 13, 20, 11, 220, 16, 13, 20, 11, 481, 16, 17, 15, 13, 15, 11, 220, 15, 13, 15, 11, 220, 16, 23, 15, 13, 15, 12533, 1311, 29, 151645, 198]
labels:
<action>turn_right</action><|im_end|>
<action>turn_right</action><|im_end|>
<action>answer(2.7, 1.5, 1.5, -120.0, 0.0, 180.0)</action><|im_end|>

[INFO|configuration_utils.py:763] 2026-01-30 12:16:01,158 >> loading configuration file /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/rl/verl_checkpoints/global_step_100/actor/huggingface/config.json
[INFO|configuration_utils.py:839] 2026-01-30 12:16:01,169 >> Model config Qwen2_5_VLConfig {
  "architectures": [
    "Qwen2_5_VLForConditionalGeneration"
  ],
  "attention_dropout": 0.0,
  "dtype": "float32",
  "eos_token_id": 151645,
  "hidden_act": "silu",
  "hidden_size": 3584,
  "image_token_id": 151655,
  "initializer_range": 0.02,
  "intermediate_size": 18944,
  "max_position_embeddings": 128000,
  "max_window_layers": 28,
  "model_type": "qwen2_5_vl",
  "num_attention_heads": 28,
  "num_hidden_layers": 28,
  "num_key_value_heads": 4,
  "pad_token_id": 151643,
  "rms_norm_eps": 1e-06,
  "rope_scaling": {
    "mrope_section": [
      16,
      24,
      24
    ],
    "rope_type": "default",
    "type": "default"
  },
  "rope_theta": 1000000.0,
  "sliding_window": 32768,
  "text_config": {
    "_name_or_path": "/mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_1/rl/verl_checkpoints/global_step_50/actor/huggingface",
    "architectures": [
      "Qwen2_5_VLForConditionalGeneration"
    ],
    "attention_dropout": 0.0,
    "dtype": "float32",
    "eos_token_id": 151645,
    "hidden_act": "silu",
    "hidden_size": 3584,
    "image_token_id": null,
    "initializer_range": 0.02,
    "intermediate_size": 18944,
    "layer_types": [
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention",
      "full_attention"
    ],
    "max_position_embeddings": 128000,
    "max_window_layers": 28,
    "model_type": "qwen2_5_vl_text",
    "num_attention_heads": 28,
    "num_hidden_layers": 28,
    "num_key_value_heads": 4,
    "pad_token_id": 151643,
    "rms_norm_eps": 1e-06,
    "rope_scaling": {
      "mrope_section": [
        16,
        24,
        24
      ],
      "rope_type": "default",
      "type": "default"
    },
    "rope_theta": 1000000.0,
    "sliding_window": null,
    "use_cache": false,
    "use_sliding_window": false,
    "video_token_id": null,
    "vision_token_id": 151654,
    "vocab_size": 152064
  },
  "tie_word_embeddings": false,
  "transformers_version": "4.56.1",
  "use_cache": false,
  "use_sliding_window": false,
  "video_token_id": 151656,
  "vision_config": {
    "depth": 32,
    "dtype": "float32",
    "fullatt_block_indexes": [
      7,
      15,
      23,
      31
    ],
    "hidden_act": "silu",
    "hidden_size": 1280,
    "in_channels": 3,
    "in_chans": 3,
    "initializer_range": 0.02,
    "intermediate_size": 3420,
    "model_type": "qwen2_5_vl",
    "num_heads": 16,
    "out_hidden_size": 3584,
    "patch_size": 14,
    "spatial_merge_size": 2,
    "spatial_patch_size": 14,
    "temporal_patch_size": 2,
    "tokens_per_second": 2,
    "window_size": 112
  },
  "vision_end_token_id": 151653,
  "vision_start_token_id": 151652,
  "vision_token_id": 151654,
  "vocab_size": 152064
}

[INFO|2026-01-30 12:16:01] llamafactory.model.model_utils.kv_cache:143 >> KV cache is disabled during training.
[WARNING|logging.py:328] 2026-01-30 12:16:01,671 >> `torch_dtype` is deprecated! Use `dtype` instead!
[INFO|modeling_utils.py:1277] 2026-01-30 12:16:01,671 >> loading weights file /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/rl/verl_checkpoints/global_step_100/actor/huggingface/model.safetensors.index.json
[INFO|modeling_utils.py:1351] 2026-01-30 12:16:01,671 >> Will use dtype=torch.float32 as defined in model's config object
[INFO|modeling_utils.py:2466] 2026-01-30 12:16:01,671 >> Instantiating Qwen2_5_VLForConditionalGeneration model under default dtype torch.float32.
[INFO|modeling_utils.py:4489] 2026-01-30 12:16:01,671 >> Detected DeepSpeed ZeRO-3: activating zero.init() for this model
[2026-01-30 12:16:01,671] [INFO] [config.py:735:__init__] Config mesh_device None world_size = 8
[INFO|configuration_utils.py:1055] 2026-01-30 12:16:01,679 >> Generate config GenerationConfig {
  "eos_token_id": 151645,
  "pad_token_id": 151643,
  "use_cache": false
}

[INFO|modeling_utils.py:2466] 2026-01-30 12:16:01,680 >> Instantiating Qwen2_5_VisionTransformerPretrainedModel model under default dtype torch.float32.
`torch_dtype` is deprecated! Use `dtype` instead!
[2026-01-30 12:16:02,896] [INFO] [config.py:735:__init__] Config mesh_device None world_size = 8
`torch_dtype` is deprecated! Use `dtype` instead!
[2026-01-30 12:16:02,981] [INFO] [config.py:735:__init__] Config mesh_device None world_size = 8
`torch_dtype` is deprecated! Use `dtype` instead!
[2026-01-30 12:16:02,984] [INFO] [config.py:735:__init__] Config mesh_device None world_size = 8
`torch_dtype` is deprecated! Use `dtype` instead!
`torch_dtype` is deprecated! Use `dtype` instead!
[2026-01-30 12:16:02,997] [INFO] [config.py:735:__init__] Config mesh_device None world_size = 8
[2026-01-30 12:16:02,998] [INFO] [config.py:735:__init__] Config mesh_device None world_size = 8
`torch_dtype` is deprecated! Use `dtype` instead!
[2026-01-30 12:16:03,005] [INFO] [config.py:735:__init__] Config mesh_device None world_size = 8
`torch_dtype` is deprecated! Use `dtype` instead!
[2026-01-30 12:16:04,350] [INFO] [config.py:735:__init__] Config mesh_device None world_size = 8
[INFO|modeling_utils.py:2466] 2026-01-30 12:16:04,479 >> Instantiating Qwen2_5_VLTextModel model under default dtype torch.float32.

Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s][2026-01-30 12:16:04,777] [INFO] [partition_parameters.py:348:__exit__] finished initializing model - num_params = 729, num_elems = 8.29B

Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]
Loading checkpoint shards:  14%|█▍        | 1/7 [00:01<00:11,  1.84s/it]
Loading checkpoint shards:  14%|█▍        | 1/7 [00:01<00:10,  1.77s/it]
Loading checkpoint shards:  14%|█▍        | 1/7 [00:01<00:10,  1.77s/it]
Loading checkpoint shards:  14%|█▍        | 1/7 [00:01<00:10,  1.78s/it]
Loading checkpoint shards:  14%|█▍        | 1/7 [00:01<00:10,  1.79s/it]
Loading checkpoint shards:  14%|█▍        | 1/7 [00:01<00:10,  1.76s/it]
Loading checkpoint shards:  14%|█▍        | 1/7 [00:01<00:10,  1.74s/it]
Loading checkpoint shards:  14%|█▍        | 1/7 [00:01<00:11,  1.85s/it]
Loading checkpoint shards:  29%|██▊       | 2/7 [00:03<00:09,  1.95s/it]
Loading checkpoint shards:  29%|██▊       | 2/7 [00:03<00:09,  1.95s/it]
Loading checkpoint shards:  29%|██▊       | 2/7 [00:03<00:09,  1.95s/it]
Loading checkpoint shards:  29%|██▊       | 2/7 [00:03<00:09,  1.98s/it]
Loading checkpoint shards:  29%|██▊       | 2/7 [00:03<00:09,  1.95s/it]
Loading checkpoint shards:  29%|██▊       | 2/7 [00:03<00:09,  1.96s/it]
Loading checkpoint shards:  29%|██▊       | 2/7 [00:03<00:09,  1.93s/it]
Loading checkpoint shards:  29%|██▊       | 2/7 [00:04<00:10,  2.07s/it]
Loading checkpoint shards:  43%|████▎     | 3/7 [00:05<00:07,  1.99s/it]
Loading checkpoint shards:  43%|████▎     | 3/7 [00:05<00:07,  1.99s/it]
Loading checkpoint shards:  43%|████▎     | 3/7 [00:05<00:07,  1.99s/it]
Loading checkpoint shards:  43%|████▎     | 3/7 [00:05<00:08,  2.00s/it]
Loading checkpoint shards:  43%|████▎     | 3/7 [00:05<00:07,  1.99s/it]
Loading checkpoint shards:  43%|████▎     | 3/7 [00:05<00:07,  1.98s/it]
Loading checkpoint shards:  43%|████▎     | 3/7 [00:05<00:07,  1.98s/it]
Loading checkpoint shards:  43%|████▎     | 3/7 [00:06<00:08,  2.10s/it]
Loading checkpoint shards:  57%|█████▋    | 4/7 [00:08<00:06,  2.13s/it]
Loading checkpoint shards:  57%|█████▋    | 4/7 [00:08<00:06,  2.14s/it]
Loading checkpoint shards:  57%|█████▋    | 4/7 [00:08<00:06,  2.13s/it]
Loading checkpoint shards:  57%|█████▋    | 4/7 [00:08<00:06,  2.13s/it]
Loading checkpoint shards:  57%|█████▋    | 4/7 [00:08<00:06,  2.13s/it]
Loading checkpoint shards:  57%|█████▋    | 4/7 [00:08<00:06,  2.12s/it]
Loading checkpoint shards:  57%|█████▋    | 4/7 [00:08<00:06,  2.12s/it]
Loading checkpoint shards:  57%|█████▋    | 4/7 [00:08<00:06,  2.10s/it]
Loading checkpoint shards:  71%|███████▏  | 5/7 [00:10<00:04,  2.02s/it]
Loading checkpoint shards:  71%|███████▏  | 5/7 [00:10<00:04,  2.01s/it]
Loading checkpoint shards:  71%|███████▏  | 5/7 [00:10<00:04,  2.02s/it]
Loading checkpoint shards:  71%|███████▏  | 5/7 [00:10<00:04,  2.01s/it]
Loading checkpoint shards:  71%|███████▏  | 5/7 [00:10<00:04,  2.02s/it]
Loading checkpoint shards:  71%|███████▏  | 5/7 [00:10<00:04,  2.01s/it]
Loading checkpoint shards:  71%|███████▏  | 5/7 [00:09<00:04,  2.01s/it]
Loading checkpoint shards:  71%|███████▏  | 5/7 [00:10<00:04,  2.04s/it]
Loading checkpoint shards:  86%|████████▌ | 6/7 [00:11<00:01,  1.96s/it]
Loading checkpoint shards:  86%|████████▌ | 6/7 [00:11<00:01,  1.95s/it]
Loading checkpoint shards:  86%|████████▌ | 6/7 [00:11<00:01,  1.95s/it]
Loading checkpoint shards:  86%|████████▌ | 6/7 [00:11<00:01,  1.95s/it]
Loading checkpoint shards:  86%|████████▌ | 6/7 [00:11<00:01,  1.95s/it]
Loading checkpoint shards:  86%|████████▌ | 6/7 [00:11<00:01,  1.95s/it]
Loading checkpoint shards:  86%|████████▌ | 6/7 [00:11<00:01,  1.95s/it]
Loading checkpoint shards:  86%|████████▌ | 6/7 [00:12<00:02,  2.01s/it]
Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.45s/it]
Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.46s/it]
Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.76s/it]

Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.45s/it]
Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.77s/it]

Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.76s/it]

Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.45s/it]
Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.45s/it]
Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.76s/it]

Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.75s/it]

Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.45s/it]
Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.76s/it]

Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.46s/it]
Loading checkpoint shards: 100%|██████████| 7/7 [00:12<00:00,  1.76s/it]

Loading checkpoint shards: 100%|██████████| 7/7 [00:13<00:00,  1.82s/it]
Loading checkpoint shards: 100%|██████████| 7/7 [00:13<00:00,  1.95s/it]
[INFO|modeling_utils.py:5721] 2026-01-30 12:16:18,423 >> All model checkpoint weights were used when initializing Qwen2_5_VLForConditionalGeneration.

[INFO|modeling_utils.py:5729] 2026-01-30 12:16:18,424 >> All the weights of Qwen2_5_VLForConditionalGeneration were initialized from the model checkpoint at /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/rl/verl_checkpoints/global_step_100/actor/huggingface.
If your task is similar to the task the model of the checkpoint was trained on, you can already use Qwen2_5_VLForConditionalGeneration for predictions without further training.
[INFO|configuration_utils.py:1008] 2026-01-30 12:16:18,427 >> loading configuration file /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/rl/verl_checkpoints/global_step_100/actor/huggingface/generation_config.json
[INFO|configuration_utils.py:1055] 2026-01-30 12:16:18,427 >> Generate config GenerationConfig {
  "do_sample": true,
  "eos_token_id": [
    151645,
    151643
  ],
  "pad_token_id": 151643,
  "repetition_penalty": 1.05,
  "temperature": 1e-06
}

[INFO|2026-01-30 12:16:18] llamafactory.model.model_utils.checkpointing:143 >> Gradient checkpointing enabled.
[INFO|2026-01-30 12:16:18] llamafactory.model.model_utils.attention:143 >> Using torch SDPA for faster training and inference.
[INFO|2026-01-30 12:16:18] llamafactory.model.adapter:143 >> DeepSpeed ZeRO3 detected, remaining trainable params in float32.
[INFO|2026-01-30 12:16:18] llamafactory.model.adapter:143 >> Fine-tuning method: Full
[INFO|2026-01-30 12:16:18] llamafactory.model.model_utils.visual:143 >> Set vision model not trainable: ['visual.patch_embed', 'visual.blocks'].
[INFO|2026-01-30 12:16:18] llamafactory.model.model_utils.visual:143 >> Set multi model projector not trainable: visual.merger.
[INFO|2026-01-30 12:16:18] llamafactory.model.loader:143 >> trainable params: 7,615,616,512 || all params: 8,292,166,656 || trainable%: 91.8411
[INFO|trainer.py:757] 2026-01-30 12:16:18,449 >> Using auto half precision backend
WARNING:accelerate.accelerator:Gradient accumulation steps mismatch: GradientAccumulationPlugin has 1, DeepSpeed config has 2. Using DeepSpeed's value.
[2026-01-30 12:16:18,842] [INFO] [logging.py:107:log_dist] [Rank 0] DeepSpeed info: version=0.16.9, git-hash=unknown, git-branch=unknown
[2026-01-30 12:16:18,842] [INFO] [config.py:735:__init__] Config mesh_device None world_size = 8
[2026-01-30 12:16:18,850] [INFO] [logging.py:107:log_dist] [Rank 0] DeepSpeed Flops Profiler Enabled: False
[2026-01-30 12:16:18,851] [INFO] [logging.py:107:log_dist] [Rank 0] Using client Optimizer as basic optimizer
[2026-01-30 12:16:18,851] [INFO] [logging.py:107:log_dist] [Rank 0] Removing param_group that has no 'params' in the basic Optimizer
[2026-01-30 12:16:18,862] [INFO] [logging.py:107:log_dist] [Rank 0] DeepSpeed Basic Optimizer = AdamW
[2026-01-30 12:16:18,862] [INFO] [utils.py:59:is_zero_supported_optimizer] Checking ZeRO support for optimizer=AdamW type=<class 'torch.optim.adamw.AdamW'>
[2026-01-30 12:16:18,862] [INFO] [logging.py:107:log_dist] [Rank 0] Creating fp16 ZeRO stage 3 optimizer, MiCS is enabled False, Hierarchical params gather False
[2026-01-30 12:16:18,862] [INFO] [logging.py:107:log_dist] [Rank 0] Creating torch.bfloat16 ZeRO stage 3 optimizer
[2026-01-30 12:16:19,048] [INFO] [utils.py:781:see_memory_usage] Stage 3 initialize beginning
[2026-01-30 12:16:19,049] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 4.85 GB         CA 1.93 GB         Max_CA 5 GB 
[2026-01-30 12:16:19,049] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 549.48 GB, percent = 15.6%
[2026-01-30 12:16:19,050] [INFO] [stage3.py:170:__init__] Reduce bucket size 12845056
[2026-01-30 12:16:19,050] [INFO] [stage3.py:171:__init__] Prefetch bucket size 11560550
[2026-01-30 12:16:19,190] [INFO] [utils.py:781:see_memory_usage] DeepSpeedZeRoOffload initialize [begin]
[2026-01-30 12:16:19,190] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.93 GB         CA 1.93 GB         Max_CA 2 GB 
[2026-01-30 12:16:19,190] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 549.48 GB, percent = 15.6%
Parameter Offload: Total persistent parameters: 848896 in 368 params
[2026-01-30 12:16:19,383] [INFO] [utils.py:781:see_memory_usage] DeepSpeedZeRoOffload initialize [end]
[2026-01-30 12:16:19,384] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.93 GB         CA 1.93 GB         Max_CA 2 GB 
[2026-01-30 12:16:19,384] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 549.47 GB, percent = 15.6%
[2026-01-30 12:16:19,526] [INFO] [utils.py:781:see_memory_usage] Before creating fp16 partitions
[2026-01-30 12:16:19,526] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.93 GB         CA 1.93 GB         Max_CA 2 GB 
[2026-01-30 12:16:19,526] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 549.46 GB, percent = 15.6%
[2026-01-30 12:16:21,240] [INFO] [utils.py:781:see_memory_usage] After creating fp16 partitions: 2
[2026-01-30 12:16:21,241] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.93 GB         CA 1.97 GB         Max_CA 2 GB 
[2026-01-30 12:16:21,241] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 561.85 GB, percent = 15.9%
[2026-01-30 12:16:21,395] [INFO] [utils.py:781:see_memory_usage] Before creating fp32 partitions
[2026-01-30 12:16:21,395] [INFO] [utils.py:782:see_memory_usage] MA 1.93 GB         Max_MA 1.93 GB         CA 1.97 GB         Max_CA 2 GB 
[2026-01-30 12:16:21,395] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 560.91 GB, percent = 15.9%
[2026-01-30 12:16:21,655] [INFO] [utils.py:781:see_memory_usage] After creating fp32 partitions
[2026-01-30 12:16:21,656] [INFO] [utils.py:782:see_memory_usage] MA 5.48 GB         Max_MA 7.25 GB         CA 7.28 GB         Max_CA 7 GB 
[2026-01-30 12:16:21,656] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 559.75 GB, percent = 15.9%
[2026-01-30 12:16:21,796] [INFO] [utils.py:781:see_memory_usage] Before initializing optimizer states
[2026-01-30 12:16:21,797] [INFO] [utils.py:782:see_memory_usage] MA 5.48 GB         Max_MA 5.48 GB         CA 7.28 GB         Max_CA 7 GB 
[2026-01-30 12:16:21,797] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 559.76 GB, percent = 15.9%
[2026-01-30 12:16:21,970] [INFO] [utils.py:781:see_memory_usage] After initializing optimizer states
[2026-01-30 12:16:21,970] [INFO] [utils.py:782:see_memory_usage] MA 5.48 GB         Max_MA 9.02 GB         CA 10.84 GB         Max_CA 11 GB 
[2026-01-30 12:16:21,970] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 559.77 GB, percent = 15.9%
[2026-01-30 12:16:21,971] [INFO] [stage3.py:534:_setup_for_real_optimizer] optimizer state initialized
[2026-01-30 12:16:22,206] [INFO] [utils.py:781:see_memory_usage] After initializing ZeRO optimizer
[2026-01-30 12:16:22,207] [INFO] [utils.py:782:see_memory_usage] MA 7.27 GB         Max_MA 9.3 GB         CA 10.84 GB         Max_CA 11 GB 
[2026-01-30 12:16:22,207] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 560.12 GB, percent = 15.9%
[2026-01-30 12:16:22,207] [INFO] [logging.py:107:log_dist] [Rank 0] DeepSpeed Final Optimizer = DeepSpeedZeroOptimizer_Stage3
[2026-01-30 12:16:22,207] [INFO] [logging.py:107:log_dist] [Rank 0] DeepSpeed using configured LR scheduler = None
[2026-01-30 12:16:22,207] [INFO] [logging.py:107:log_dist] [Rank 0] DeepSpeed LR Scheduler = None
[2026-01-30 12:16:22,207] [INFO] [logging.py:107:log_dist] [Rank 0] step=0, skipped=0, lr=[0.0, 0.0], mom=[(0.9, 0.999), (0.9, 0.999)]
[2026-01-30 12:16:22,208] [INFO] [config.py:1003:print] DeepSpeedEngine configuration:
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   activation_checkpointing_config  {
    "partition_activations": false, 
    "contiguous_memory_optimization": false, 
    "cpu_checkpointing": false, 
    "number_checkpoints": null, 
    "synchronize_checkpoint_boundary": false, 
    "profile": false
}
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   aio_config ................... {'block_size': 1048576, 'queue_depth': 8, 'intra_op_parallelism': 1, 'single_submit': False, 'overlap_events': True, 'use_gds': False}
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   amp_enabled .................. False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   amp_params ................... False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   autotuning_config ............ {
    "enabled": false, 
    "start_step": null, 
    "end_step": null, 
    "metric_path": null, 
    "arg_mappings": null, 
    "metric": "throughput", 
    "model_info": null, 
    "results_dir": "autotuning_results", 
    "exps_dir": "autotuning_exps", 
    "overwrite": true, 
    "fast": true, 
    "start_profile_step": 3, 
    "end_profile_step": 5, 
    "tuner_type": "gridsearch", 
    "tuner_early_stopping": 5, 
    "tuner_num_trials": 50, 
    "model_info_path": null, 
    "mp_size": 1, 
    "max_train_batch_size": null, 
    "min_train_batch_size": 1, 
    "max_train_micro_batch_size_per_gpu": 1.024000e+03, 
    "min_train_micro_batch_size_per_gpu": 1, 
    "num_tuning_micro_batch_sizes": 3
}
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   bfloat16_enabled ............. True
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   bfloat16_immediate_grad_update  True
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   checkpoint_parallel_write_pipeline  False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   checkpoint_tag_validation_enabled  True
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   checkpoint_tag_validation_fail  False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   comms_config ................. <deepspeed.comm.config.DeepSpeedCommsConfig object at 0x71b3e7404890>
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   communication_data_type ...... None
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   compile_config ............... deepcompile=False free_activation=False offload_activation=False offload_opt_states=False double_buffer=True symmetric_memory=False debug_log=False offload_parameters=False sync_before_reduce=False sync_after_reduce=False sync_before_allgather=False sync_after_allgather=False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   compression_config ........... {'weight_quantization': {'shared_parameters': {'enabled': False, 'quantizer_kernel': False, 'schedule_offset': 0, 'quantize_groups': 1, 'quantize_verbose': False, 'quantization_type': 'symmetric', 'quantize_weight_in_forward': False, 'rounding': 'nearest', 'fp16_mixed_quantize': False, 'quantize_change_ratio': 0.001}, 'different_groups': {}}, 'activation_quantization': {'shared_parameters': {'enabled': False, 'quantization_type': 'symmetric', 'range_calibration': 'dynamic', 'schedule_offset': 1000}, 'different_groups': {}}, 'sparse_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'row_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'head_pruning': {'shared_parameters': {'enabled': False, 'method': 'topk', 'schedule_offset': 1000}, 'different_groups': {}}, 'channel_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'layer_reduction': {'enabled': False}}
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   curriculum_enabled_legacy .... False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   curriculum_params_legacy ..... False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   data_efficiency_config ....... {'enabled': False, 'seed': 1234, 'data_sampling': {'enabled': False, 'num_epochs': 1000, 'num_workers': 0, 'pin_memory': False, 'curriculum_learning': {'enabled': False}, 'dynamic_batching': {'enabled': False, 'lr_scaling_method': 'linear', 'min_batch_size': 1, 'max_batch_size': None, 'sequence_picking_order': 'dataloader', 'verbose': False}}, 'data_routing': {'enabled': False, 'random_ltd': {'enabled': False, 'layer_token_lr_schedule': {'enabled': False}}}}
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   data_efficiency_enabled ...... False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   dataloader_drop_last ......... False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   disable_allgather ............ False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   dump_state ................... False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   dynamic_loss_scale_args ...... None
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   eigenvalue_enabled ........... False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   eigenvalue_gas_boundary_resolution  1
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   eigenvalue_layer_name ........ bert.encoder.layer
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   eigenvalue_layer_num ......... 0
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   eigenvalue_max_iter .......... 100
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   eigenvalue_stability ......... 1e-06
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   eigenvalue_tol ............... 0.01
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   eigenvalue_verbose ........... False
[2026-01-30 12:16:22,209] [INFO] [config.py:1007:print]   elasticity_enabled ........... False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   flops_profiler_config ........ {
    "enabled": false, 
    "recompute_fwd_factor": 0.0, 
    "profile_step": 1, 
    "module_depth": -1, 
    "top_modules": 1, 
    "detailed": true, 
    "output_file": null
}
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   fp16_auto_cast ............... None
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   fp16_enabled ................. False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   fp16_master_weights_and_gradients  False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   global_rank .................. 0
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   grad_accum_dtype ............. None
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   gradient_accumulation_steps .. 2
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   gradient_clipping ............ 1.0
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   gradient_predivide_factor .... 1.0
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   graph_harvesting ............. False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   hybrid_engine ................ enabled=False max_out_tokens=512 inference_tp_size=1 release_inference_cache=False pin_parameters=True tp_gather_partition_size=8
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   initial_dynamic_scale ........ 1
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   load_universal_checkpoint .... False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   loss_scale ................... 1.0
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   memory_breakdown ............. False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   mics_hierarchial_params_gather  False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   mics_shard_size .............. -1
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   monitor_config ............... tensorboard=TensorBoardConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') comet=CometConfig(enabled=False, samples_log_interval=100, project=None, workspace=None, api_key=None, experiment_name=None, experiment_key=None, online=None, mode=None) wandb=WandbConfig(enabled=False, group=None, team=None, project='deepspeed') csv_monitor=CSVConfig(enabled=False, output_path='', job_name='DeepSpeedJobName')
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   nebula_config ................ {
    "enabled": false, 
    "persistent_storage_path": null, 
    "persistent_time_interval": 100, 
    "num_of_version_in_retention": 2, 
    "enable_nebula_load": true, 
    "load_path": null
}
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   optimizer_legacy_fusion ...... False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   optimizer_name ............... None
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   optimizer_params ............. None
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   pipeline ..................... {'stages': 'auto', 'partition': 'best', 'seed_layers': False, 'activation_checkpoint_interval': 0, 'pipe_partitioned': True, 'grad_partitioned': True}
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   pld_enabled .................. False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   pld_params ................... False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   prescale_gradients ........... False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   scheduler_name ............... None
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   scheduler_params ............. None
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   seq_parallel_communication_data_type  torch.float32
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   sparse_attention ............. None
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   sparse_gradients_enabled ..... False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   steps_per_print .............. inf
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   tensor_parallel_config ....... dtype=torch.float16 autotp_size=0 tp_overlap_comm=False tensor_parallel=TPConfig(tp_size=1, tp_grain_size=1, mpu=None, tp_group=None) injection_policy_tuple=None keep_module_on_host=False replace_with_kernel_inject=False
[2026-01-30 12:16:22,210] [INFO] [config.py:1007:print]   timers_config ................ enabled=True synchronized=True
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   train_batch_size ............. 16
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   train_micro_batch_size_per_gpu  1
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   use_data_before_expert_parallel_  False
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   use_node_local_storage ....... False
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   wall_clock_breakdown ......... False
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   weight_quantization_config ... None
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   world_size ................... 8
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   zero_allow_untested_optimizer  True
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   zero_config .................. stage=3 contiguous_gradients=True reduce_scatter=True reduce_bucket_size=12845056 use_multi_rank_bucket_allreduce=True allgather_partitions=True allgather_bucket_size=500000000 overlap_comm=False load_from_fp32_weights=True elastic_checkpoint=False offload_param=None offload_optimizer=None sub_group_size=1000000000 cpu_offload_param=None cpu_offload_use_pin_memory=None cpu_offload=None prefetch_bucket_size=11560550 param_persistence_threshold=35840 model_persistence_threshold=9223372036854775807 max_live_parameters=1000000000 max_reuse_distance=1000000000 gather_16bit_weights_on_model_save=True module_granularity_threshold=0 use_all_reduce_for_fetch_params=False stage3_gather_fp16_weights_on_model_save=False ignore_unused_parameters=True legacy_stage1=False round_robin_gradients=False zero_hpz_partition_size=1 zero_quantized_weights=False zero_quantized_nontrainable_weights=False zero_quantized_gradients=False zeropp_loco_param=None mics_shard_size=-1 mics_hierarchical_params_gather=False memory_efficient_linear=True pipeline_loading_checkpoint=False override_module_apply=True log_trace_cache_warnings=False
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   zero_enabled ................. True
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   zero_force_ds_cpu_optimizer .. True
[2026-01-30 12:16:22,211] [INFO] [config.py:1007:print]   zero_optimization_stage ...... 3
[2026-01-30 12:16:22,211] [INFO] [config.py:993:print_user_config]   json = {
    "train_batch_size": 16, 
    "train_micro_batch_size_per_gpu": 1, 
    "gradient_accumulation_steps": 2, 
    "gradient_clipping": 1.0, 
    "zero_allow_untested_optimizer": true, 
    "fp16": {
        "enabled": false, 
        "loss_scale": 0, 
        "loss_scale_window": 1000, 
        "initial_scale_power": 16, 
        "hysteresis": 2, 
        "min_loss_scale": 1
    }, 
    "bf16": {
        "enabled": true
    }, 
    "zero_optimization": {
        "stage": 3, 
        "overlap_comm": false, 
        "contiguous_gradients": true, 
        "sub_group_size": 1.000000e+09, 
        "reduce_bucket_size": 1.284506e+07, 
        "stage3_prefetch_bucket_size": 1.156055e+07, 
        "stage3_param_persistence_threshold": 3.584000e+04, 
        "stage3_max_live_parameters": 1.000000e+09, 
        "stage3_max_reuse_distance": 1.000000e+09, 
        "stage3_gather_16bit_weights_on_model_save": true
    }, 
    "steps_per_print": inf
}
[INFO|trainer.py:2523] 2026-01-30 12:16:22,212 >> ***** Running training *****
[INFO|trainer.py:2524] 2026-01-30 12:16:22,212 >>   Num examples = 5,795
[INFO|trainer.py:2525] 2026-01-30 12:16:22,212 >>   Num Epochs = 1
[INFO|trainer.py:2526] 2026-01-30 12:16:22,212 >>   Instantaneous batch size per device = 1
[INFO|trainer.py:2529] 2026-01-30 12:16:22,212 >>   Total train batch size (w. parallel, distributed & accumulation) = 16
[INFO|trainer.py:2530] 2026-01-30 12:16:22,212 >>   Gradient Accumulation steps = 2
[INFO|trainer.py:2531] 2026-01-30 12:16:22,212 >>   Total optimization steps = 363
[INFO|trainer.py:2532] 2026-01-30 12:16:22,214 >>   Number of trainable parameters = 7,615,616,512
[INFO|integration_utils.py:869] 2026-01-30 12:16:22,215 >> Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"
wandb: [wandb.login()] Loaded credentials for https://api.wandb.ai from WANDB_API_KEY.
wandb: Currently logged in as: kangrw (ragen-V) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
wandb: setting up run eiq1f5w1
wandb: Tracking run with wandb version 0.24.0
wandb: Run data is saved locally in /home/ubuntu/projects/viewsuite/LLaMA-Factory/wandb/run-20260130_121623-eiq1f5w1
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run skilled-universe-25
wandb: ⭐️ View project at https://wandb.ai/ragen-V/llamafactory
wandb: 🚀 View run at https://wandb.ai/ragen-V/llamafactory/runs/eiq1f5w1

  0%|          | 0/363 [00:00<?, ?it/s]/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py:1179: UserWarning: Specified kernel cache directory could not be created! This disables kernel caching. Specified directory is /home/ubuntu/.cache/torch/kernels. This warning will appear only once per process. (Triggered internally at /pytorch/aten/src/ATen/native/cuda/jit_utils.cpp:1487.)
  split_sizes = (image_grid_thw.prod(-1) // self.visual.spatial_merge_size**2).tolist()
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py:1179: UserWarning: Specified kernel cache directory could not be created! This disables kernel caching. Specified directory is /home/ubuntu/.cache/torch/kernels. This warning will appear only once per process. (Triggered internally at /pytorch/aten/src/ATen/native/cuda/jit_utils.cpp:1487.)
  split_sizes = (image_grid_thw.prod(-1) // self.visual.spatial_merge_size**2).tolist()
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py:1179: UserWarning: Specified kernel cache directory could not be created! This disables kernel caching. Specified directory is /home/ubuntu/.cache/torch/kernels. This warning will appear only once per process. (Triggered internally at /pytorch/aten/src/ATen/native/cuda/jit_utils.cpp:1487.)
  split_sizes = (image_grid_thw.prod(-1) // self.visual.spatial_merge_size**2).tolist()
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py:1179: UserWarning: Specified kernel cache directory could not be created! This disables kernel caching. Specified directory is /home/ubuntu/.cache/torch/kernels. This warning will appear only once per process. (Triggered internally at /pytorch/aten/src/ATen/native/cuda/jit_utils.cpp:1487.)
  split_sizes = (image_grid_thw.prod(-1) // self.visual.spatial_merge_size**2).tolist()
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py:1179: UserWarning: Specified kernel cache directory could not be created! This disables kernel caching. Specified directory is /home/ubuntu/.cache/torch/kernels. This warning will appear only once per process. (Triggered internally at /pytorch/aten/src/ATen/native/cuda/jit_utils.cpp:1487.)
  split_sizes = (image_grid_thw.prod(-1) // self.visual.spatial_merge_size**2).tolist()
/home/ubuntu/miniconda3/envs/viewsuite/lib/python3.12/site-packages/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py:1179: UserWarning: Specified kernel cache directory could not be created! This disables kernel caching. Specified directory is /home/ubuntu/.cache/torch/kernels. This warning will appear only once per process. (Triggered internally at /pytorch/aten/src/ATen/native/cuda/jit_utils.cpp:1487.)
  split_sizes = (image_grid_thw.prod(-1) // self.visual.spatial_merge_size**2).tolist()

  0%|          | 1/363 [00:08<49:30,  8.21s/it]
                                               
{'loss': 0.0852, 'grad_norm': 2.2012167823201163, 'learning_rate': 0.0, 'epoch': 0.0}

  0%|          | 1/363 [00:08<49:30,  8.21s/it]
  1%|          | 2/363 [00:10<29:01,  4.82s/it]
                                               
{'loss': 0.1171, 'grad_norm': 2.684327612345962, 'learning_rate': 5.405405405405406e-07, 'epoch': 0.01}

  1%|          | 2/363 [00:10<29:01,  4.82s/it]
  1%|          | 3/363 [00:12<22:07,  3.69s/it]
                                               
{'loss': 0.1201, 'grad_norm': 2.922848494791373, 'learning_rate': 1.0810810810810812e-06, 'epoch': 0.01}

  1%|          | 3/363 [00:13<22:07,  3.69s/it]
  1%|          | 4/363 [00:15<19:02,  3.18s/it]
                                               
{'loss': 0.0976, 'grad_norm': 2.923985908786216, 'learning_rate': 1.6216216216216219e-06, 'epoch': 0.01}

  1%|          | 4/363 [00:15<19:02,  3.18s/it]
  1%|▏         | 5/363 [00:17<16:25,  2.75s/it]
                                               
{'loss': 0.1046, 'grad_norm': 1.2724240051553533, 'learning_rate': 2.1621621621621623e-06, 'epoch': 0.01}

  1%|▏         | 5/363 [00:17<16:25,  2.75s/it]
  2%|▏         | 6/363 [00:19<14:47,  2.49s/it]
                                               
{'loss': 0.0609, 'grad_norm': 1.673019205535178, 'learning_rate': 2.702702702702703e-06, 'epoch': 0.02}

  2%|▏         | 6/363 [00:19<14:47,  2.49s/it]
  2%|▏         | 7/363 [00:21<14:00,  2.36s/it]
                                               
{'loss': 0.081, 'grad_norm': 2.504855019369174, 'learning_rate': 3.2432432432432437e-06, 'epoch': 0.02}

  2%|▏         | 7/363 [00:21<14:00,  2.36s/it]
  2%|▏         | 8/363 [00:23<13:04,  2.21s/it]
                                               
{'loss': 0.1121, 'grad_norm': 1.878885411504625, 'learning_rate': 3.7837837837837844e-06, 'epoch': 0.02}

  2%|▏         | 8/363 [00:23<13:04,  2.21s/it]
  2%|▏         | 9/363 [00:25<12:49,  2.17s/it]
                                               
{'loss': 0.1125, 'grad_norm': 2.653287813889321, 'learning_rate': 4.324324324324325e-06, 'epoch': 0.02}

  2%|▏         | 9/363 [00:25<12:49,  2.17s/it]
  3%|▎         | 10/363 [00:27<12:19,  2.09s/it]
                                                
{'loss': 0.0724, 'grad_norm': 1.7453919996030804, 'learning_rate': 4.864864864864866e-06, 'epoch': 0.03}

  3%|▎         | 10/363 [00:27<12:19,  2.09s/it]
  3%|▎         | 11/363 [00:29<12:08,  2.07s/it]
                                                
{'loss': 0.1475, 'grad_norm': 3.333638766021421, 'learning_rate': 5.405405405405406e-06, 'epoch': 0.03}

  3%|▎         | 11/363 [00:29<12:08,  2.07s/it]
  3%|▎         | 12/363 [00:31<12:08,  2.07s/it]
                                                
{'loss': 0.0974, 'grad_norm': 2.292734722563975, 'learning_rate': 5.945945945945947e-06, 'epoch': 0.03}

  3%|▎         | 12/363 [00:31<12:08,  2.07s/it]
  4%|▎         | 13/363 [00:33<12:10,  2.09s/it]
                                                
{'loss': 0.0597, 'grad_norm': 1.099049620799708, 'learning_rate': 6.486486486486487e-06, 'epoch': 0.04}

  4%|▎         | 13/363 [00:33<12:10,  2.09s/it]
  4%|▍         | 14/363 [00:35<11:55,  2.05s/it]
                                                
{'loss': 0.0778, 'grad_norm': 1.727408246250002, 'learning_rate': 7.027027027027028e-06, 'epoch': 0.04}

  4%|▍         | 14/363 [00:35<11:55,  2.05s/it]
  4%|▍         | 15/363 [00:37<11:50,  2.04s/it]
                                                
{'loss': 0.0955, 'grad_norm': 1.761342077131181, 'learning_rate': 7.567567567567569e-06, 'epoch': 0.04}

  4%|▍         | 15/363 [00:37<11:50,  2.04s/it]
  4%|▍         | 16/363 [00:39<11:33,  2.00s/it]
                                                
{'loss': 0.0869, 'grad_norm': 1.9277700023635902, 'learning_rate': 8.108108108108109e-06, 'epoch': 0.04}

  4%|▍         | 16/363 [00:39<11:33,  2.00s/it]
  5%|▍         | 17/363 [00:41<11:12,  1.94s/it]
                                                
{'loss': 0.0807, 'grad_norm': 1.568808525211501, 'learning_rate': 8.64864864864865e-06, 'epoch': 0.05}

  5%|▍         | 17/363 [00:41<11:12,  1.94s/it]
  5%|▍         | 18/363 [00:43<10:59,  1.91s/it]
                                                
{'loss': 0.0665, 'grad_norm': 1.3523306531543753, 'learning_rate': 9.189189189189191e-06, 'epoch': 0.05}

  5%|▍         | 18/363 [00:43<10:59,  1.91s/it]
  5%|▌         | 19/363 [00:45<11:15,  1.96s/it]
                                                
{'loss': 0.0868, 'grad_norm': 1.7180837689557336, 'learning_rate': 9.729729729729732e-06, 'epoch': 0.05}

  5%|▌         | 19/363 [00:45<11:15,  1.96s/it]
  6%|▌         | 20/363 [00:47<11:08,  1.95s/it]
                                                
{'loss': 0.0736, 'grad_norm': 1.5131863973051378, 'learning_rate': 1.027027027027027e-05, 'epoch': 0.06}

  6%|▌         | 20/363 [00:47<11:08,  1.95s/it]
  6%|▌         | 21/363 [00:48<10:57,  1.92s/it]
                                                
{'loss': 0.079, 'grad_norm': 1.6815268723910783, 'learning_rate': 1.0810810810810812e-05, 'epoch': 0.06}

  6%|▌         | 21/363 [00:48<10:57,  1.92s/it]
  6%|▌         | 22/363 [00:51<11:06,  1.95s/it]
                                                
{'loss': 0.0437, 'grad_norm': 1.4834028913829107, 'learning_rate': 1.1351351351351352e-05, 'epoch': 0.06}

  6%|▌         | 22/363 [00:51<11:06,  1.95s/it]
  6%|▋         | 23/363 [00:53<11:16,  1.99s/it]
                                                
{'loss': 0.0905, 'grad_norm': 2.1417510445007792, 'learning_rate': 1.1891891891891894e-05, 'epoch': 0.06}

  6%|▋         | 23/363 [00:53<11:16,  1.99s/it]
  7%|▋         | 24/363 [00:55<11:15,  1.99s/it]
                                                
{'loss': 0.1024, 'grad_norm': 1.7871991104284883, 'learning_rate': 1.2432432432432433e-05, 'epoch': 0.07}

  7%|▋         | 24/363 [00:55<11:15,  1.99s/it]
  7%|▋         | 25/363 [00:56<11:00,  1.96s/it]
                                                
{'loss': 0.0701, 'grad_norm': 2.0156063129423485, 'learning_rate': 1.2972972972972975e-05, 'epoch': 0.07}

  7%|▋         | 25/363 [00:56<11:00,  1.96s/it]
  7%|▋         | 26/363 [00:58<10:37,  1.89s/it]
                                                
{'loss': 0.0748, 'grad_norm': 1.9160557707810737, 'learning_rate': 1.3513513513513515e-05, 'epoch': 0.07}

  7%|▋         | 26/363 [00:58<10:37,  1.89s/it]
  7%|▋         | 27/363 [01:00<10:39,  1.90s/it]
                                                
{'loss': 0.101, 'grad_norm': 2.000911025201981, 'learning_rate': 1.4054054054054055e-05, 'epoch': 0.07}

  7%|▋         | 27/363 [01:00<10:39,  1.90s/it]
  8%|▊         | 28/363 [01:02<10:49,  1.94s/it]
                                                
{'loss': 0.0918, 'grad_norm': 2.115047269982351, 'learning_rate': 1.4594594594594596e-05, 'epoch': 0.08}

  8%|▊         | 28/363 [01:02<10:49,  1.94s/it]
  8%|▊         | 29/363 [01:04<11:13,  2.02s/it]
                                                
{'loss': 0.0915, 'grad_norm': 1.8098326272573262, 'learning_rate': 1.5135135135135138e-05, 'epoch': 0.08}

  8%|▊         | 29/363 [01:04<11:13,  2.02s/it]
  8%|▊         | 30/363 [01:07<11:56,  2.15s/it]
                                                
{'loss': 0.1025, 'grad_norm': 2.1207994498886764, 'learning_rate': 1.5675675675675676e-05, 'epoch': 0.08}

  8%|▊         | 30/363 [01:07<11:56,  2.15s/it]
  9%|▊         | 31/363 [01:09<12:03,  2.18s/it]
                                                
{'loss': 0.1059, 'grad_norm': 2.171868532095742, 'learning_rate': 1.6216216216216218e-05, 'epoch': 0.09}

  9%|▊         | 31/363 [01:09<12:03,  2.18s/it]
  9%|▉         | 32/363 [01:11<11:47,  2.14s/it]
                                                
{'loss': 0.0677, 'grad_norm': 1.6943229112776936, 'learning_rate': 1.6756756756756757e-05, 'epoch': 0.09}

  9%|▉         | 32/363 [01:11<11:47,  2.14s/it]
  9%|▉         | 33/363 [01:13<11:30,  2.09s/it]
                                                
{'loss': 0.0894, 'grad_norm': 1.994899794317826, 'learning_rate': 1.72972972972973e-05, 'epoch': 0.09}

  9%|▉         | 33/363 [01:13<11:30,  2.09s/it]
  9%|▉         | 34/363 [01:15<11:43,  2.14s/it]
                                                
{'loss': 0.1158, 'grad_norm': 2.3711691862715907, 'learning_rate': 1.783783783783784e-05, 'epoch': 0.09}

  9%|▉         | 34/363 [01:15<11:43,  2.14s/it]
 10%|▉         | 35/363 [01:17<11:44,  2.15s/it]
                                                
{'loss': 0.0924, 'grad_norm': 1.9877327316155244, 'learning_rate': 1.8378378378378383e-05, 'epoch': 0.1}

 10%|▉         | 35/363 [01:18<11:44,  2.15s/it]
 10%|▉         | 36/363 [01:19<11:27,  2.10s/it]
                                                
{'loss': 0.0978, 'grad_norm': 2.0641113315593898, 'learning_rate': 1.891891891891892e-05, 'epoch': 0.1}

 10%|▉         | 36/363 [01:19<11:27,  2.10s/it]
 10%|█         | 37/363 [01:22<11:54,  2.19s/it]
                                                
{'loss': 0.1327, 'grad_norm': 2.5636633454788593, 'learning_rate': 1.9459459459459463e-05, 'epoch': 0.1}

 10%|█         | 37/363 [01:22<11:54,  2.19s/it]
 10%|█         | 38/363 [01:24<11:43,  2.16s/it]
                                                
{'loss': 0.095, 'grad_norm': 2.3262721461116396, 'learning_rate': 2e-05, 'epoch': 0.1}

 10%|█         | 38/363 [01:24<11:43,  2.16s/it]
 11%|█         | 39/363 [01:26<11:46,  2.18s/it]
                                                
{'loss': 0.0706, 'grad_norm': 2.0685116596847832, 'learning_rate': 1.9999535665248e-05, 'epoch': 0.11}

 11%|█         | 39/363 [01:26<11:46,  2.18s/it]
 11%|█         | 40/363 [01:28<11:54,  2.21s/it]
                                                
{'loss': 0.1205, 'grad_norm': 2.5954824427417007, 'learning_rate': 1.999814270411335e-05, 'epoch': 0.11}

 11%|█         | 40/363 [01:29<11:54,  2.21s/it]
 11%|█▏        | 41/363 [01:31<12:00,  2.24s/it]
                                                
{'loss': 0.0896, 'grad_norm': 2.144122161715886, 'learning_rate': 1.99958212459561e-05, 'epoch': 0.11}

 11%|█▏        | 41/363 [01:31<12:00,  2.24s/it]
 12%|█▏        | 42/363 [01:33<11:45,  2.20s/it]
                                                
{'loss': 0.1012, 'grad_norm': 1.9322201299634434, 'learning_rate': 1.9992571506362997e-05, 'epoch': 0.12}

 12%|█▏        | 42/363 [01:33<11:45,  2.20s/it]
 12%|█▏        | 43/363 [01:35<11:55,  2.24s/it]
                                                
{'loss': 0.1087, 'grad_norm': 2.075048476162322, 'learning_rate': 1.9988393787127444e-05, 'epoch': 0.12}

 12%|█▏        | 43/363 [01:35<11:55,  2.24s/it]
 12%|█▏        | 44/363 [01:38<11:57,  2.25s/it]
                                                
{'loss': 0.1382, 'grad_norm': 2.259726318820954, 'learning_rate': 1.9983288476221482e-05, 'epoch': 0.12}

 12%|█▏        | 44/363 [01:38<11:57,  2.25s/it]
 12%|█▏        | 45/363 [01:40<11:42,  2.21s/it]
                                                
{'loss': 0.0538, 'grad_norm': 1.360664005910794, 'learning_rate': 1.9977256047759765e-05, 'epoch': 0.12}

 12%|█▏        | 45/363 [01:40<11:42,  2.21s/it]
 13%|█▎        | 46/363 [01:42<11:34,  2.19s/it]
                                                
{'loss': 0.0855, 'grad_norm': 1.6435792074598727, 'learning_rate': 1.9970297061955533e-05, 'epoch': 0.13}

 13%|█▎        | 46/363 [01:42<11:34,  2.19s/it]
 13%|█▎        | 47/363 [01:44<11:13,  2.13s/it]
                                                
{'loss': 0.1386, 'grad_norm': 2.3601345815092483, 'learning_rate': 1.9962412165068575e-05, 'epoch': 0.13}

 13%|█▎        | 47/363 [01:44<11:13,  2.13s/it]
 13%|█▎        | 48/363 [01:46<11:19,  2.16s/it]
                                                
{'loss': 0.0961, 'grad_norm': 1.7105484837560168, 'learning_rate': 1.9953602089345215e-05, 'epoch': 0.13}

 13%|█▎        | 48/363 [01:46<11:19,  2.16s/it]
 13%|█▎        | 49/363 [01:48<11:22,  2.17s/it]
                                                
{'loss': 0.0857, 'grad_norm': 1.6496292161975452, 'learning_rate': 1.9943867652950323e-05, 'epoch': 0.14}

 13%|█▎        | 49/363 [01:48<11:22,  2.17s/it]
 14%|█▍        | 50/363 [01:50<10:51,  2.08s/it]
                                                
{'loss': 0.0563, 'grad_norm': 1.2468755808496865, 'learning_rate': 1.9933209759891318e-05, 'epoch': 0.14}

 14%|█▍        | 50/363 [01:50<10:51,  2.08s/it]
 14%|█▍        | 51/363 [01:52<10:38,  2.05s/it]
                                                
{'loss': 0.108, 'grad_norm': 2.0793413384987183, 'learning_rate': 1.9921629399934224e-05, 'epoch': 0.14}

 14%|█▍        | 51/363 [01:52<10:38,  2.05s/it]
 14%|█▍        | 52/363 [01:54<10:53,  2.10s/it]
                                                
{'loss': 0.1289, 'grad_norm': 2.0093677538398524, 'learning_rate': 1.9909127648511758e-05, 'epoch': 0.14}

 14%|█▍        | 52/363 [01:54<10:53,  2.10s/it]
 15%|█▍        | 53/363 [01:56<10:05,  1.95s/it]
                                                
{'loss': 0.0615, 'grad_norm': 1.2736371995174656, 'learning_rate': 1.989570566662345e-05, 'epoch': 0.15}

 15%|█▍        | 53/363 [01:56<10:05,  1.95s/it]
 15%|█▍        | 54/363 [01:58<10:12,  1.98s/it]
                                                
{'loss': 0.0559, 'grad_norm': 1.5368399292599437, 'learning_rate': 1.9881364700727827e-05, 'epoch': 0.15}

 15%|█▍        | 54/363 [01:58<10:12,  1.98s/it]
 15%|█▌        | 55/363 [02:00<10:08,  1.98s/it]
                                                
{'loss': 0.0512, 'grad_norm': 1.6143124587473046, 'learning_rate': 1.986610608262665e-05, 'epoch': 0.15}

 15%|█▌        | 55/363 [02:00<10:08,  1.98s/it]
 15%|█▌        | 56/363 [02:02<10:24,  2.03s/it]
                                                
{'loss': 0.1492, 'grad_norm': 2.0640396297545323, 'learning_rate': 1.9849931229341258e-05, 'epoch': 0.15}

 15%|█▌        | 56/363 [02:02<10:24,  2.03s/it]
 16%|█▌        | 57/363 [02:04<10:01,  1.97s/it]
                                                
{'loss': 0.1277, 'grad_norm': 1.9321341515451917, 'learning_rate': 1.9832841642980948e-05, 'epoch': 0.16}

 16%|█▌        | 57/363 [02:04<10:01,  1.97s/it]
 16%|█▌        | 58/363 [02:06<10:00,  1.97s/it]
                                                
{'loss': 0.1266, 'grad_norm': 3.5565020190489753, 'learning_rate': 1.981483891060348e-05, 'epoch': 0.16}

 16%|█▌        | 58/363 [02:06<10:00,  1.97s/it]
 16%|█▋        | 59/363 [02:07<09:30,  1.88s/it]
                                                
{'loss': 0.095, 'grad_norm': 1.6731150384360727, 'learning_rate': 1.979592470406772e-05, 'epoch': 0.16}

 16%|█▋        | 59/363 [02:07<09:30,  1.88s/it]
 17%|█▋        | 60/363 [02:09<09:03,  1.79s/it]
                                                
{'loss': 0.0602, 'grad_norm': 1.3348447458614452, 'learning_rate': 1.9776100779878344e-05, 'epoch': 0.17}

 17%|█▋        | 60/363 [02:09<09:03,  1.79s/it]
 17%|█▋        | 61/363 [02:11<09:24,  1.87s/it]
                                                
{'loss': 0.0597, 'grad_norm': 1.211440894700164, 'learning_rate': 1.9755368979022734e-05, 'epoch': 0.17}

 17%|█▋        | 61/363 [02:11<09:24,  1.87s/it]
 17%|█▋        | 62/363 [02:13<09:20,  1.86s/it]
                                                
{'loss': 0.0902, 'grad_norm': 2.045395762464389, 'learning_rate': 1.9733731226800016e-05, 'epoch': 0.17}

 17%|█▋        | 62/363 [02:13<09:20,  1.86s/it]
 17%|█▋        | 63/363 [02:15<09:25,  1.88s/it]
                                                
{'loss': 0.0851, 'grad_norm': 1.681889406229311, 'learning_rate': 1.9711189532642244e-05, 'epoch': 0.17}

 17%|█▋        | 63/363 [02:15<09:25,  1.88s/it]
 18%|█▊        | 64/363 [02:17<09:09,  1.84s/it]
                                                
{'loss': 0.1022, 'grad_norm': 2.156485405646681, 'learning_rate': 1.9687745989927823e-05, 'epoch': 0.18}

 18%|█▊        | 64/363 [02:17<09:09,  1.84s/it]
 18%|█▊        | 65/363 [02:18<09:03,  1.82s/it]
                                                
{'loss': 0.1402, 'grad_norm': 2.2694346385487765, 'learning_rate': 1.9663402775787066e-05, 'epoch': 0.18}

 18%|█▊        | 65/363 [02:18<09:03,  1.82s/it]
 18%|█▊        | 66/363 [02:20<08:47,  1.78s/it]
                                                
{'loss': 0.0595, 'grad_norm': 2.2102729735649502, 'learning_rate': 1.9638162150900028e-05, 'epoch': 0.18}

 18%|█▊        | 66/363 [02:20<08:47,  1.78s/it]
 18%|█▊        | 67/363 [02:22<08:49,  1.79s/it]
                                                
{'loss': 0.1526, 'grad_norm': 2.4808367225986023, 'learning_rate': 1.961202645928658e-05, 'epoch': 0.18}

 18%|█▊        | 67/363 [02:22<08:49,  1.79s/it]
 19%|█▊        | 68/363 [02:24<08:41,  1.77s/it]
                                                
{'loss': 0.1149, 'grad_norm': 2.125991623159161, 'learning_rate': 1.9584998128088686e-05, 'epoch': 0.19}

 19%|█▊        | 68/363 [02:24<08:41,  1.77s/it]
 19%|█▉        | 69/363 [02:25<08:27,  1.73s/it]
                                                
{'loss': 0.1724, 'grad_norm': 3.5959738930248553, 'learning_rate': 1.955707966734505e-05, 'epoch': 0.19}

 19%|█▉        | 69/363 [02:25<08:27,  1.73s/it]
 19%|█▉        | 70/363 [02:27<08:23,  1.72s/it]
                                                
{'loss': 0.1357, 'grad_norm': 2.217349082976429, 'learning_rate': 1.9528273669757974e-05, 'epoch': 0.19}

 19%|█▉        | 70/363 [02:27<08:23,  1.72s/it]
 20%|█▉        | 71/363 [02:29<08:58,  1.84s/it]
                                                
{'loss': 0.1289, 'grad_norm': 2.9019793725624288, 'learning_rate': 1.9498582810452607e-05, 'epoch': 0.2}

 20%|█▉        | 71/363 [02:29<08:58,  1.84s/it]
 20%|█▉        | 72/363 [02:31<08:39,  1.78s/it]
                                                
{'loss': 0.1201, 'grad_norm': 2.677822777383495, 'learning_rate': 1.9468009846728515e-05, 'epoch': 0.2}

 20%|█▉        | 72/363 [02:31<08:39,  1.78s/it]
 20%|██        | 73/363 [02:32<08:27,  1.75s/it]
                                                
{'loss': 0.1343, 'grad_norm': 2.1904068713477693, 'learning_rate': 1.9436557617803594e-05, 'epoch': 0.2}

 20%|██        | 73/363 [02:32<08:27,  1.75s/it]
 20%|██        | 74/363 [02:34<08:42,  1.81s/it]
                                                
{'loss': 0.1014, 'grad_norm': 1.9333752870288448, 'learning_rate': 1.9404229044550432e-05, 'epoch': 0.2}

 20%|██        | 74/363 [02:34<08:42,  1.81s/it]
 21%|██        | 75/363 [02:37<09:20,  1.95s/it]
                                                
{'loss': 0.08, 'grad_norm': 1.2594973301567354, 'learning_rate': 1.9371027129225042e-05, 'epoch': 0.21}

 21%|██        | 75/363 [02:37<09:20,  1.95s/it]
 21%|██        | 76/363 [02:39<09:24,  1.97s/it]
                                                
{'loss': 0.0664, 'grad_norm': 1.1588871349219974, 'learning_rate': 1.9336954955188042e-05, 'epoch': 0.21}

 21%|██        | 76/363 [02:39<09:24,  1.97s/it]
 21%|██        | 77/363 [02:41<09:56,  2.08s/it]
                                                
{'loss': 0.1228, 'grad_norm': 2.424390700582275, 'learning_rate': 1.9302015686618328e-05, 'epoch': 0.21}

 21%|██        | 77/363 [02:41<09:56,  2.08s/it]
 21%|██▏       | 78/363 [02:44<10:34,  2.23s/it]
                                                
{'loss': 0.1181, 'grad_norm': 1.839851381331024, 'learning_rate': 1.9266212568219223e-05, 'epoch': 0.22}

 21%|██▏       | 78/363 [02:44<10:34,  2.23s/it]
 22%|██▏       | 79/363 [02:46<11:33,  2.44s/it]
                                                
{'loss': 0.1593, 'grad_norm': 2.9112052255264627, 'learning_rate': 1.9229548924917146e-05, 'epoch': 0.22}

 22%|██▏       | 79/363 [02:47<11:33,  2.44s/it]
 22%|██▏       | 80/363 [02:49<11:30,  2.44s/it]
                                                
{'loss': 0.1068, 'grad_norm': 2.6573066473445124, 'learning_rate': 1.9192028161552848e-05, 'epoch': 0.22}

 22%|██▏       | 80/363 [02:49<11:30,  2.44s/it]
 22%|██▏       | 81/363 [02:51<10:57,  2.33s/it]
                                                
{'loss': 0.1395, 'grad_norm': 2.228711734634549, 'learning_rate': 1.915365376256519e-05, 'epoch': 0.22}

 22%|██▏       | 81/363 [02:51<10:57,  2.33s/it]
 23%|██▎       | 82/363 [02:53<10:24,  2.22s/it]
                                                
{'loss': 0.1322, 'grad_norm': 2.1487793287842463, 'learning_rate': 1.9114429291667583e-05, 'epoch': 0.23}

 23%|██▎       | 82/363 [02:53<10:24,  2.22s/it]
 23%|██▎       | 83/363 [02:55<09:53,  2.12s/it]
                                                
{'loss': 0.1298, 'grad_norm': 1.418589529134045, 'learning_rate': 1.9074358391517026e-05, 'epoch': 0.23}

 23%|██▎       | 83/363 [02:55<09:53,  2.12s/it]
 23%|██▎       | 84/363 [02:57<09:44,  2.09s/it]
                                                
{'loss': 0.1375, 'grad_norm': 1.6184969490675134, 'learning_rate': 1.9033444783375806e-05, 'epoch': 0.23}

 23%|██▎       | 84/363 [02:57<09:44,  2.09s/it]
 23%|██▎       | 85/363 [02:59<10:01,  2.16s/it]
                                                
{'loss': 0.1454, 'grad_norm': 2.636414425888468, 'learning_rate': 1.8991692266765947e-05, 'epoch': 0.23}

 23%|██▎       | 85/363 [02:59<10:01,  2.16s/it]
 24%|██▎       | 86/363 [03:01<10:00,  2.17s/it]
                                                
{'loss': 0.1004, 'grad_norm': 1.5999297559125214, 'learning_rate': 1.8949104719116334e-05, 'epoch': 0.24}

 24%|██▎       | 86/363 [03:01<10:00,  2.17s/it]
 24%|██▍       | 87/363 [03:04<10:36,  2.31s/it]
                                                
{'loss': 0.0729, 'grad_norm': 1.7047937938863038, 'learning_rate': 1.8905686095402648e-05, 'epoch': 0.24}

 24%|██▍       | 87/363 [03:04<10:36,  2.31s/it]
 24%|██▍       | 88/363 [03:07<11:29,  2.51s/it]
                                                
{'loss': 0.1219, 'grad_norm': 2.213860086801788, 'learning_rate': 1.886144042778006e-05, 'epoch': 0.24}

 24%|██▍       | 88/363 [03:07<11:29,  2.51s/it]
 25%|██▍       | 89/363 [03:09<11:19,  2.48s/it]
                                                
{'loss': 0.1277, 'grad_norm': 1.9830213856101813, 'learning_rate': 1.881637182520879e-05, 'epoch': 0.25}

 25%|██▍       | 89/363 [03:09<11:19,  2.48s/it]
 25%|██▍       | 90/363 [03:12<10:56,  2.40s/it]
                                                
{'loss': 0.133, 'grad_norm': 2.1526995896994543, 'learning_rate': 1.8770484473072518e-05, 'epoch': 0.25}

 25%|██▍       | 90/363 [03:12<10:56,  2.40s/it]
 25%|██▌       | 91/363 [03:14<10:19,  2.28s/it]
                                                
{'loss': 0.1271, 'grad_norm': 5.615536299423343, 'learning_rate': 1.87237826327897e-05, 'epoch': 0.25}

 25%|██▌       | 91/363 [03:14<10:19,  2.28s/it]
 25%|██▌       | 92/363 [03:16<10:12,  2.26s/it]
                                                
{'loss': 0.1337, 'grad_norm': 2.9892624763616213, 'learning_rate': 1.8676270641417824e-05, 'epoch': 0.25}

 25%|██▌       | 92/363 [03:16<10:12,  2.26s/it]
 26%|██▌       | 93/363 [03:18<10:10,  2.26s/it]
                                                
{'loss': 0.1188, 'grad_norm': 1.7670570813048203, 'learning_rate': 1.8627952911250632e-05, 'epoch': 0.26}

 26%|██▌       | 93/363 [03:18<10:10,  2.26s/it]
 26%|██▌       | 94/363 [03:20<09:28,  2.11s/it]
                                                
{'loss': 0.09, 'grad_norm': 1.8832817735619782, 'learning_rate': 1.857883392940837e-05, 'epoch': 0.26}

 26%|██▌       | 94/363 [03:20<09:28,  2.11s/it]
 26%|██▌       | 95/363 [03:22<09:15,  2.07s/it]
                                                
{'loss': 0.1084, 'grad_norm': 2.2995757188920964, 'learning_rate': 1.85289182574211e-05, 'epoch': 0.26}

 26%|██▌       | 95/363 [03:22<09:15,  2.07s/it]
 26%|██▋       | 96/363 [03:24<09:12,  2.07s/it]
                                                
{'loss': 0.1003, 'grad_norm': 2.268436925129853, 'learning_rate': 1.847821053080505e-05, 'epoch': 0.26}

 26%|██▋       | 96/363 [03:24<09:12,  2.07s/it]
 27%|██▋       | 97/363 [03:26<09:12,  2.08s/it]
                                                
{'loss': 0.0747, 'grad_norm': 1.8417005302085403, 'learning_rate': 1.8426715458632154e-05, 'epoch': 0.27}

 27%|██▋       | 97/363 [03:26<09:12,  2.08s/it]
 27%|██▋       | 98/363 [03:28<08:57,  2.03s/it]
                                                
{'loss': 0.1513, 'grad_norm': 2.497572736496612, 'learning_rate': 1.8374437823092726e-05, 'epoch': 0.27}

 27%|██▋       | 98/363 [03:28<08:57,  2.03s/it]
 27%|██▋       | 99/363 [03:30<08:42,  1.98s/it]
                                                
{'loss': 0.088, 'grad_norm': 2.0212629509138766, 'learning_rate': 1.832138247905135e-05, 'epoch': 0.27}

 27%|██▋       | 99/363 [03:30<08:42,  1.98s/it]
 28%|██▊       | 100/363 [03:32<08:27,  1.93s/it]
                                                 
{'loss': 0.0617, 'grad_norm': 1.806243660764203, 'learning_rate': 1.8267554353596027e-05, 'epoch': 0.28}

 28%|██▊       | 100/363 [03:32<08:27,  1.93s/it][INFO|trainer.py:4289] 2026-01-30 12:20:06,519 >> Saving model checkpoint to /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100
[INFO|configuration_utils.py:491] 2026-01-30 12:20:06,523 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/config.json
[INFO|configuration_utils.py:826] 2026-01-30 12:20:06,524 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/generation_config.json
[INFO|modeling_utils.py:4305] 2026-01-30 12:20:22,513 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 4 checkpoint shards. You can find where each parameters has been saved in the index located at /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:20:22,514 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:20:22,514 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:20:22,515 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:20:22,515 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/added_tokens.json
[INFO|image_processing_base.py:253] 2026-01-30 12:20:22,735 >> Image processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/preprocessor_config.json
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:20:22,736 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:20:22,736 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:20:22,736 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:20:22,736 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/added_tokens.json
[INFO|video_processing_utils.py:610] 2026-01-30 12:20:22,908 >> Video processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/video_preprocessor_config.json
[INFO|processing_utils.py:752] 2026-01-30 12:20:22,908 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-100/chat_template.jinja

 28%|██▊       | 101/363 [03:59<41:57,  9.61s/it]
                                                 
{'loss': 0.0809, 'grad_norm': 1.43840041921586, 'learning_rate': 1.8212958445580623e-05, 'epoch': 0.28}

 28%|██▊       | 101/363 [03:59<41:57,  9.61s/it]
 28%|██▊       | 102/363 [04:01<31:53,  7.33s/it]
                                                 
{'loss': 0.0987, 'grad_norm': 1.5624416473825227, 'learning_rate': 1.815759982516061e-05, 'epoch': 0.28}

 28%|██▊       | 102/363 [04:01<31:53,  7.33s/it]
 28%|██▊       | 103/363 [04:03<24:42,  5.70s/it]
                                                 
{'loss': 0.1055, 'grad_norm': 1.3722413173440258, 'learning_rate': 1.8101483633322255e-05, 'epoch': 0.28}

 28%|██▊       | 103/363 [04:03<24:42,  5.70s/it]
 29%|██▊       | 104/363 [04:05<20:07,  4.66s/it]
                                                 
{'loss': 0.12, 'grad_norm': 1.5055322976041905, 'learning_rate': 1.8044615081405153e-05, 'epoch': 0.29}

 29%|██▊       | 104/363 [04:05<20:07,  4.66s/it]
 29%|██▉       | 105/363 [04:07<16:39,  3.87s/it]
                                                 
{'loss': 0.1293, 'grad_norm': 1.9238100509571232, 'learning_rate': 1.7986999450618295e-05, 'epoch': 0.29}

 29%|██▉       | 105/363 [04:07<16:39,  3.87s/it]
 29%|██▉       | 106/363 [04:09<14:00,  3.27s/it]
                                                 
{'loss': 0.0945, 'grad_norm': 1.4169309751550185, 'learning_rate': 1.7928642091549616e-05, 'epoch': 0.29}

 29%|██▉       | 106/363 [04:09<14:00,  3.27s/it]
 29%|██▉       | 107/363 [04:11<12:12,  2.86s/it]
                                                 
{'loss': 0.1124, 'grad_norm': 1.7127369268478376, 'learning_rate': 1.7869548423669075e-05, 'epoch': 0.3}

 29%|██▉       | 107/363 [04:11<12:12,  2.86s/it]
 30%|██▉       | 108/363 [04:13<10:40,  2.51s/it]
                                                 
{'loss': 0.1182, 'grad_norm': 1.859903898855105, 'learning_rate': 1.7809723934825405e-05, 'epoch': 0.3}

 30%|██▉       | 108/363 [04:13<10:40,  2.51s/it]
 30%|███       | 109/363 [04:15<09:36,  2.27s/it]
                                                 
{'loss': 0.0857, 'grad_norm': 1.4775939025780847, 'learning_rate': 1.7749174180736443e-05, 'epoch': 0.3}

 30%|███       | 109/363 [04:15<09:36,  2.27s/it]
 30%|███       | 110/363 [04:16<09:01,  2.14s/it]
                                                 
{'loss': 0.0781, 'grad_norm': 1.4354799536836982, 'learning_rate': 1.768790478447319e-05, 'epoch': 0.3}

 30%|███       | 110/363 [04:16<09:01,  2.14s/it]
 31%|███       | 111/363 [04:18<08:43,  2.08s/it]
                                                 
{'loss': 0.0713, 'grad_norm': 1.0273549786544405, 'learning_rate': 1.762592143593764e-05, 'epoch': 0.31}

 31%|███       | 111/363 [04:18<08:43,  2.08s/it]
 31%|███       | 112/363 [04:20<08:20,  1.99s/it]
                                                 
{'loss': 0.1301, 'grad_norm': 1.9640486386494376, 'learning_rate': 1.756322989133434e-05, 'epoch': 0.31}

 31%|███       | 112/363 [04:20<08:20,  1.99s/it]
 31%|███       | 113/363 [04:22<08:03,  1.94s/it]
                                                 
{'loss': 0.0681, 'grad_norm': 1.7089277562540073, 'learning_rate': 1.749983597263586e-05, 'epoch': 0.31}

 31%|███       | 113/363 [04:22<08:03,  1.94s/it]
 31%|███▏      | 114/363 [04:24<07:54,  1.91s/it]
                                                 
{'loss': 0.1331, 'grad_norm': 1.9429869321530793, 'learning_rate': 1.7435745567042096e-05, 'epoch': 0.31}

 31%|███▏      | 114/363 [04:24<07:54,  1.91s/it]
 32%|███▏      | 115/363 [04:25<07:37,  1.84s/it]
                                                 
{'loss': 0.0604, 'grad_norm': 1.26536650090277, 'learning_rate': 1.737096462643357e-05, 'epoch': 0.32}

 32%|███▏      | 115/363 [04:25<07:37,  1.84s/it]
 32%|███▏      | 116/363 [04:27<07:34,  1.84s/it]
                                                 
{'loss': 0.1494, 'grad_norm': 2.087216494160791, 'learning_rate': 1.730549916681868e-05, 'epoch': 0.32}

 32%|███▏      | 116/363 [04:27<07:34,  1.84s/it]
 32%|███▏      | 117/363 [04:29<07:32,  1.84s/it]
                                                 
{'loss': 0.1092, 'grad_norm': 1.9975034441736954, 'learning_rate': 1.723935526777502e-05, 'epoch': 0.32}

 32%|███▏      | 117/363 [04:29<07:32,  1.84s/it]
 33%|███▎      | 118/363 [04:31<07:31,  1.84s/it]
                                                 
{'loss': 0.1082, 'grad_norm': 2.038235893575754, 'learning_rate': 1.717253907188477e-05, 'epoch': 0.33}

 33%|███▎      | 118/363 [04:31<07:31,  1.84s/it]
 33%|███▎      | 119/363 [04:33<07:24,  1.82s/it]
                                                 
{'loss': 0.1703, 'grad_norm': 3.3184113391653396, 'learning_rate': 1.7105056784164295e-05, 'epoch': 0.33}

 33%|███▎      | 119/363 [04:33<07:24,  1.82s/it]
 33%|███▎      | 120/363 [04:34<07:18,  1.81s/it]
                                                 
{'loss': 0.1303, 'grad_norm': 2.0270058507038966, 'learning_rate': 1.7036914671487854e-05, 'epoch': 0.33}

 33%|███▎      | 120/363 [04:34<07:18,  1.81s/it]
 33%|███▎      | 121/363 [04:36<07:11,  1.78s/it]
                                                 
{'loss': 0.1077, 'grad_norm': 1.8154593381383104, 'learning_rate': 1.6968119062005644e-05, 'epoch': 0.33}

 33%|███▎      | 121/363 [04:36<07:11,  1.78s/it]
 34%|███▎      | 122/363 [04:38<07:11,  1.79s/it]
                                                 
{'loss': 0.0924, 'grad_norm': 1.2350092975243878, 'learning_rate': 1.689867634455612e-05, 'epoch': 0.34}

 34%|███▎      | 122/363 [04:38<07:11,  1.79s/it]
 34%|███▍      | 123/363 [04:40<07:22,  1.84s/it]
                                                 
{'loss': 0.1221, 'grad_norm': 1.792900391384705, 'learning_rate': 1.682859296807268e-05, 'epoch': 0.34}

 34%|███▍      | 123/363 [04:40<07:22,  1.84s/it]
 34%|███▍      | 124/363 [04:42<07:29,  1.88s/it]
                                                 
{'loss': 0.1106, 'grad_norm': 1.9404357508554042, 'learning_rate': 1.675787544098477e-05, 'epoch': 0.34}

 34%|███▍      | 124/363 [04:42<07:29,  1.88s/it]
 34%|███▍      | 125/363 [04:44<07:50,  1.98s/it]
                                                 
{'loss': 0.1122, 'grad_norm': 1.7814508590384097, 'learning_rate': 1.6686530330613472e-05, 'epoch': 0.34}

 34%|███▍      | 125/363 [04:44<07:50,  1.98s/it]
 35%|███▍      | 126/363 [04:47<08:17,  2.10s/it]
                                                 
{'loss': 0.087, 'grad_norm': 1.53815702992395, 'learning_rate': 1.661456426256161e-05, 'epoch': 0.35}

 35%|███▍      | 126/363 [04:47<08:17,  2.10s/it]
 35%|███▍      | 127/363 [04:49<08:36,  2.19s/it]
                                                 
{'loss': 0.087, 'grad_norm': 1.9077349161199095, 'learning_rate': 1.6541983920098462e-05, 'epoch': 0.35}

 35%|███▍      | 127/363 [04:49<08:36,  2.19s/it]
 35%|███▌      | 128/363 [04:51<08:15,  2.11s/it]
                                                 
{'loss': 0.1254, 'grad_norm': 2.2996250559408704, 'learning_rate': 1.6468796043539082e-05, 'epoch': 0.35}

 35%|███▌      | 128/363 [04:51<08:15,  2.11s/it]
 36%|███▌      | 129/363 [04:52<07:41,  1.97s/it]
                                                 
{'loss': 0.0498, 'grad_norm': 1.2031295382564096, 'learning_rate': 1.639500742961838e-05, 'epoch': 0.36}

 36%|███▌      | 129/363 [04:53<07:41,  1.97s/it]
 36%|███▌      | 130/363 [04:54<07:14,  1.87s/it]
                                                 
{'loss': 0.077, 'grad_norm': 1.3436281870681093, 'learning_rate': 1.6320624930859905e-05, 'epoch': 0.36}

 36%|███▌      | 130/363 [04:54<07:14,  1.87s/it]
 36%|███▌      | 131/363 [04:56<07:11,  1.86s/it]
                                                 
{'loss': 0.0352, 'grad_norm': 0.6314939772663396, 'learning_rate': 1.6245655454939474e-05, 'epoch': 0.36}

 36%|███▌      | 131/363 [04:56<07:11,  1.86s/it]
 36%|███▋      | 132/363 [04:58<06:55,  1.80s/it]
                                                 
{'loss': 0.1228, 'grad_norm': 2.420910473317855, 'learning_rate': 1.6170105964043698e-05, 'epoch': 0.36}

 36%|███▋      | 132/363 [04:58<06:55,  1.80s/it]
 37%|███▋      | 133/363 [05:00<07:18,  1.91s/it]
                                                 
{'loss': 0.1799, 'grad_norm': 2.80050435155021, 'learning_rate': 1.6093983474223392e-05, 'epoch': 0.37}

 37%|███▋      | 133/363 [05:00<07:18,  1.91s/it]
 37%|███▋      | 134/363 [05:02<07:49,  2.05s/it]
                                                 
{'loss': 0.1088, 'grad_norm': 1.9733179937634817, 'learning_rate': 1.6017295054742045e-05, 'epoch': 0.37}

 37%|███▋      | 134/363 [05:02<07:49,  2.05s/it]
 37%|███▋      | 135/363 [05:05<08:27,  2.22s/it]
                                                 
{'loss': 0.0722, 'grad_norm': 0.8866446082715613, 'learning_rate': 1.5940047827419305e-05, 'epoch': 0.37}

 37%|███▋      | 135/363 [05:05<08:27,  2.22s/it]
 37%|███▋      | 136/363 [05:07<08:19,  2.20s/it]
                                                 
{'loss': 0.0902, 'grad_norm': 1.4747083716633578, 'learning_rate': 1.5862248965969604e-05, 'epoch': 0.38}

 37%|███▋      | 136/363 [05:07<08:19,  2.20s/it]
 38%|███▊      | 137/363 [05:09<08:08,  2.16s/it]
                                                 
{'loss': 0.0763, 'grad_norm': 1.203872871772734, 'learning_rate': 1.5783905695335947e-05, 'epoch': 0.38}

 38%|███▊      | 137/363 [05:09<08:08,  2.16s/it]
 38%|███▊      | 138/363 [05:11<07:47,  2.08s/it]
                                                 
{'loss': 0.0582, 'grad_norm': 1.295759494638433, 'learning_rate': 1.570502529101896e-05, 'epoch': 0.38}

 38%|███▊      | 138/363 [05:11<07:47,  2.08s/it]
 38%|███▊      | 139/363 [05:13<07:18,  1.96s/it]
                                                 
{'loss': 0.1131, 'grad_norm': 2.082719193654199, 'learning_rate': 1.5625615078401244e-05, 'epoch': 0.38}

 38%|███▊      | 139/363 [05:13<07:18,  1.96s/it]
 39%|███▊      | 140/363 [05:14<06:54,  1.86s/it]
                                                 
{'loss': 0.1319, 'grad_norm': 2.4303248947365046, 'learning_rate': 1.5545682432067068e-05, 'epoch': 0.39}

 39%|███▊      | 140/363 [05:14<06:54,  1.86s/it]
 39%|███▉      | 141/363 [05:16<06:55,  1.87s/it]
                                                 
{'loss': 0.1232, 'grad_norm': 2.308746027421277, 'learning_rate': 1.5465234775117538e-05, 'epoch': 0.39}

 39%|███▉      | 141/363 [05:16<06:55,  1.87s/it]
 39%|███▉      | 142/363 [05:18<06:54,  1.88s/it]
                                                 
{'loss': 0.1537, 'grad_norm': 2.9364629760972907, 'learning_rate': 1.5384279578481223e-05, 'epoch': 0.39}

 39%|███▉      | 142/363 [05:18<06:54,  1.88s/it]
 39%|███▉      | 143/363 [05:20<07:03,  1.92s/it]
                                                 
{'loss': 0.1161, 'grad_norm': 1.8350345374035169, 'learning_rate': 1.5302824360220352e-05, 'epoch': 0.39}

 39%|███▉      | 143/363 [05:20<07:03,  1.92s/it]
 40%|███▉      | 144/363 [05:22<06:52,  1.89s/it]
                                                 
{'loss': 0.1054, 'grad_norm': 1.8562459888809821, 'learning_rate': 1.522087668483264e-05, 'epoch': 0.4}

 40%|███▉      | 144/363 [05:22<06:52,  1.89s/it]
 40%|███▉      | 145/363 [05:24<06:55,  1.91s/it]
                                                 
{'loss': 0.072, 'grad_norm': 2.2050577332052317, 'learning_rate': 1.5138444162548791e-05, 'epoch': 0.4}

 40%|███▉      | 145/363 [05:24<06:55,  1.91s/it]
 40%|████      | 146/363 [05:26<06:59,  1.93s/it]
                                                 
{'loss': 0.1956, 'grad_norm': 2.576862971551694, 'learning_rate': 1.5055534448625766e-05, 'epoch': 0.4}

 40%|████      | 146/363 [05:26<06:59,  1.93s/it]
 40%|████      | 147/363 [05:28<06:50,  1.90s/it]
                                                 
{'loss': 0.1163, 'grad_norm': 2.526412596716041, 'learning_rate': 1.4972155242635853e-05, 'epoch': 0.41}

 40%|████      | 147/363 [05:28<06:50,  1.90s/it]
 41%|████      | 148/363 [05:30<07:39,  2.13s/it]
                                                 
{'loss': 0.1588, 'grad_norm': 2.4122326865926325, 'learning_rate': 1.488831428775164e-05, 'epoch': 0.41}

 41%|████      | 148/363 [05:30<07:39,  2.13s/it]
 41%|████      | 149/363 [05:32<07:17,  2.05s/it]
                                                 
{'loss': 0.0874, 'grad_norm': 1.5900334279122388, 'learning_rate': 1.4804019370026927e-05, 'epoch': 0.41}

 41%|████      | 149/363 [05:32<07:17,  2.05s/it]
 41%|████▏     | 150/363 [05:35<07:53,  2.22s/it]
                                                 
{'loss': 0.1225, 'grad_norm': 2.2583849148863284, 'learning_rate': 1.4719278317673655e-05, 'epoch': 0.41}

 41%|████▏     | 150/363 [05:35<07:53,  2.22s/it]
 42%|████▏     | 151/363 [05:37<07:38,  2.16s/it]
                                                 
{'loss': 0.0628, 'grad_norm': 1.5043786808378643, 'learning_rate': 1.4634099000334932e-05, 'epoch': 0.42}

 42%|████▏     | 151/363 [05:37<07:38,  2.16s/it]
 42%|████▏     | 152/363 [05:39<07:15,  2.06s/it]
                                                 
{'loss': 0.1119, 'grad_norm': 2.6867593671378707, 'learning_rate': 1.4548489328354197e-05, 'epoch': 0.42}

 42%|████▏     | 152/363 [05:39<07:15,  2.06s/it]
 42%|████▏     | 153/363 [05:41<07:26,  2.13s/it]
                                                 
{'loss': 0.1371, 'grad_norm': 1.892183158003583, 'learning_rate': 1.4462457252040606e-05, 'epoch': 0.42}

 42%|████▏     | 153/363 [05:41<07:26,  2.13s/it]
 42%|████▏     | 154/363 [05:43<07:12,  2.07s/it]
                                                 
{'loss': 0.0715, 'grad_norm': 0.7376897959603039, 'learning_rate': 1.437601076093073e-05, 'epoch': 0.42}

 42%|████▏     | 154/363 [05:43<07:12,  2.07s/it]
 43%|████▎     | 155/363 [05:45<07:02,  2.03s/it]
                                                 
{'loss': 0.0671, 'grad_norm': 1.2313754414547655, 'learning_rate': 1.4289157883046567e-05, 'epoch': 0.43}

 43%|████▎     | 155/363 [05:45<07:02,  2.03s/it]
 43%|████▎     | 156/363 [05:46<06:41,  1.94s/it]
                                                 
{'loss': 0.0937, 'grad_norm': 2.443959323743539, 'learning_rate': 1.420190668415002e-05, 'epoch': 0.43}

 43%|████▎     | 156/363 [05:47<06:41,  1.94s/it]
 43%|████▎     | 157/363 [05:49<07:02,  2.05s/it]
                                                 
{'loss': 0.1114, 'grad_norm': 1.8279711072151712, 'learning_rate': 1.4114265266993847e-05, 'epoch': 0.43}

 43%|████▎     | 157/363 [05:49<07:02,  2.05s/it]
 44%|████▎     | 158/363 [05:51<07:07,  2.09s/it]
                                                 
{'loss': 0.1388, 'grad_norm': 2.722814716999782, 'learning_rate': 1.4026241770569198e-05, 'epoch': 0.44}

 44%|████▎     | 158/363 [05:51<07:07,  2.09s/it]
 44%|████▍     | 159/363 [05:53<07:26,  2.19s/it]
                                                 
{'loss': 0.0862, 'grad_norm': 2.522323402694141, 'learning_rate': 1.3937844369349736e-05, 'epoch': 0.44}

 44%|████▍     | 159/363 [05:53<07:26,  2.19s/it]
 44%|████▍     | 160/363 [05:56<08:04,  2.39s/it]
                                                 
{'loss': 0.0752, 'grad_norm': 1.0652613518383625, 'learning_rate': 1.3849081272532545e-05, 'epoch': 0.44}

 44%|████▍     | 160/363 [05:56<08:04,  2.39s/it]
 44%|████▍     | 161/363 [05:59<08:02,  2.39s/it]
                                                 
{'loss': 0.1456, 'grad_norm': 2.6542750874407335, 'learning_rate': 1.375996072327573e-05, 'epoch': 0.44}

 44%|████▍     | 161/363 [05:59<08:02,  2.39s/it]
 45%|████▍     | 162/363 [06:01<07:37,  2.28s/it]
                                                 
{'loss': 0.109, 'grad_norm': 1.8544625800539327, 'learning_rate': 1.3670490997932922e-05, 'epoch': 0.45}

 45%|████▍     | 162/363 [06:01<07:37,  2.28s/it]
 45%|████▍     | 163/363 [06:03<07:13,  2.17s/it]
                                                 
{'loss': 0.1144, 'grad_norm': 1.9735546120483556, 'learning_rate': 1.3580680405284666e-05, 'epoch': 0.45}

 45%|████▍     | 163/363 [06:03<07:13,  2.17s/it]
 45%|████▌     | 164/363 [06:04<06:54,  2.08s/it]
                                                 
{'loss': 0.0838, 'grad_norm': 1.2177687301571833, 'learning_rate': 1.3490537285766809e-05, 'epoch': 0.45}

 45%|████▌     | 164/363 [06:04<06:54,  2.08s/it]
 45%|████▌     | 165/363 [06:06<06:45,  2.05s/it]
                                                 
{'loss': 0.1309, 'grad_norm': 2.866049013585789, 'learning_rate': 1.3400070010695966e-05, 'epoch': 0.46}

 45%|████▌     | 165/363 [06:06<06:45,  2.05s/it]
 46%|████▌     | 166/363 [06:09<06:48,  2.07s/it]
                                                 
{'loss': 0.1336, 'grad_norm': 1.7714947880406966, 'learning_rate': 1.3309286981492084e-05, 'epoch': 0.46}

 46%|████▌     | 166/363 [06:09<06:48,  2.07s/it]
 46%|████▌     | 167/363 [06:11<06:41,  2.05s/it]
                                                 
{'loss': 0.0878, 'grad_norm': 2.3528937198669966, 'learning_rate': 1.3218196628898232e-05, 'epoch': 0.46}

 46%|████▌     | 167/363 [06:11<06:41,  2.05s/it]
 46%|████▋     | 168/363 [06:13<06:39,  2.05s/it]
                                                 
{'loss': 0.0866, 'grad_norm': 1.32763797639713, 'learning_rate': 1.3126807412197666e-05, 'epoch': 0.46}

 46%|████▋     | 168/363 [06:13<06:39,  2.05s/it]
 47%|████▋     | 169/363 [06:15<06:43,  2.08s/it]
                                                 
{'loss': 0.0863, 'grad_norm': 1.0489060017302254, 'learning_rate': 1.3035127818428239e-05, 'epoch': 0.47}

 47%|████▋     | 169/363 [06:15<06:43,  2.08s/it]
 47%|████▋     | 170/363 [06:17<06:57,  2.16s/it]
                                                 
{'loss': 0.1393, 'grad_norm': 1.4769228384530726, 'learning_rate': 1.2943166361594242e-05, 'epoch': 0.47}

 47%|████▋     | 170/363 [06:17<06:57,  2.16s/it]
 47%|████▋     | 171/363 [06:19<06:38,  2.08s/it]
                                                 
{'loss': 0.1762, 'grad_norm': 1.9367121483246261, 'learning_rate': 1.2850931581875723e-05, 'epoch': 0.47}

 47%|████▋     | 171/363 [06:19<06:38,  2.08s/it]
 47%|████▋     | 172/363 [06:21<06:21,  2.00s/it]
                                                 
{'loss': 0.0599, 'grad_norm': 1.5440366202640854, 'learning_rate': 1.275843204483539e-05, 'epoch': 0.47}

 47%|████▋     | 172/363 [06:21<06:21,  2.00s/it]
 48%|████▊     | 173/363 [06:23<06:14,  1.97s/it]
                                                 
{'loss': 0.0938, 'grad_norm': 1.691410284752133, 'learning_rate': 1.2665676340623172e-05, 'epoch': 0.48}

 48%|████▊     | 173/363 [06:23<06:14,  1.97s/it]
 48%|████▊     | 174/363 [06:25<06:04,  1.93s/it]
                                                 
{'loss': 0.098, 'grad_norm': 1.2010801724859, 'learning_rate': 1.2572673083178448e-05, 'epoch': 0.48}

 48%|████▊     | 174/363 [06:25<06:04,  1.93s/it]
 48%|████▊     | 175/363 [06:27<06:09,  1.97s/it]
                                                 
{'loss': 0.0936, 'grad_norm': 2.223070626201405, 'learning_rate': 1.2479430909430109e-05, 'epoch': 0.48}

 48%|████▊     | 175/363 [06:27<06:09,  1.97s/it]
 48%|████▊     | 176/363 [06:29<06:11,  1.99s/it]
                                                 
{'loss': 0.1279, 'grad_norm': 2.1176352077764107, 'learning_rate': 1.2385958478494487e-05, 'epoch': 0.49}

 48%|████▊     | 176/363 [06:29<06:11,  1.99s/it]
 49%|████▉     | 177/363 [06:31<06:15,  2.02s/it]
                                                 
{'loss': 0.0783, 'grad_norm': 1.3628256498935367, 'learning_rate': 1.2292264470871183e-05, 'epoch': 0.49}

 49%|████▉     | 177/363 [06:31<06:15,  2.02s/it]
 49%|████▉     | 178/363 [06:33<06:23,  2.07s/it]
                                                 
{'loss': 0.0525, 'grad_norm': 1.064266823164612, 'learning_rate': 1.2198357587636958e-05, 'epoch': 0.49}

 49%|████▉     | 178/363 [06:33<06:23,  2.07s/it]
 49%|████▉     | 179/363 [06:35<06:37,  2.16s/it]
                                                 
{'loss': 0.0978, 'grad_norm': 2.00945904980985, 'learning_rate': 1.2104246549637683e-05, 'epoch': 0.49}

 49%|████▉     | 179/363 [06:35<06:37,  2.16s/it]
 50%|████▉     | 180/363 [06:37<06:31,  2.14s/it]
                                                 
{'loss': 0.0963, 'grad_norm': 1.3141391526330848, 'learning_rate': 1.2009940096678451e-05, 'epoch': 0.5}

 50%|████▉     | 180/363 [06:37<06:31,  2.14s/it]
 50%|████▉     | 181/363 [06:39<06:23,  2.11s/it]
                                                 
{'loss': 0.1092, 'grad_norm': 1.6531005740449383, 'learning_rate': 1.1915446986711953e-05, 'epoch': 0.5}

 50%|████▉     | 181/363 [06:39<06:23,  2.11s/it]
 50%|█████     | 182/363 [06:42<06:21,  2.11s/it]
                                                 
{'loss': 0.0667, 'grad_norm': 1.4945974838001637, 'learning_rate': 1.1820775995025147e-05, 'epoch': 0.5}

 50%|█████     | 182/363 [06:42<06:21,  2.11s/it]
 50%|█████     | 183/363 [06:44<06:14,  2.08s/it]
                                                 
{'loss': 0.0882, 'grad_norm': 1.3762608443334923, 'learning_rate': 1.172593591342432e-05, 'epoch': 0.5}

 50%|█████     | 183/363 [06:44<06:14,  2.08s/it]
 51%|█████     | 184/363 [06:45<06:06,  2.05s/it]
                                                 
{'loss': 0.0865, 'grad_norm': 1.5415877422060749, 'learning_rate': 1.1630935549418627e-05, 'epoch': 0.51}

 51%|█████     | 184/363 [06:46<06:06,  2.05s/it]
 51%|█████     | 185/363 [06:48<06:22,  2.15s/it]
                                                 
{'loss': 0.1353, 'grad_norm': 2.0042018778537622, 'learning_rate': 1.1535783725402163e-05, 'epoch': 0.51}

 51%|█████     | 185/363 [06:48<06:22,  2.15s/it]
 51%|█████     | 186/363 [06:50<06:16,  2.13s/it]
                                                 
{'loss': 0.1393, 'grad_norm': 2.6818407651740266, 'learning_rate': 1.1440489277834645e-05, 'epoch': 0.51}

 51%|█████     | 186/363 [06:50<06:16,  2.13s/it]
 52%|█████▏    | 187/363 [06:52<06:19,  2.16s/it]
                                                 
{'loss': 0.1169, 'grad_norm': 2.3807831512162374, 'learning_rate': 1.134506105642081e-05, 'epoch': 0.52}

 52%|█████▏    | 187/363 [06:52<06:19,  2.16s/it]
 52%|█████▏    | 188/363 [06:55<06:56,  2.38s/it]
                                                 
{'loss': 0.1241, 'grad_norm': 2.202610904326787, 'learning_rate': 1.1249507923288563e-05, 'epoch': 0.52}

 52%|█████▏    | 188/363 [06:55<06:56,  2.38s/it]
 52%|█████▏    | 189/363 [06:58<07:16,  2.51s/it]
                                                 
{'loss': 0.0945, 'grad_norm': 1.8110167173727552, 'learning_rate': 1.115383875216598e-05, 'epoch': 0.52}

 52%|█████▏    | 189/363 [06:58<07:16,  2.51s/it]
 52%|█████▏    | 190/363 [07:00<07:07,  2.47s/it]
                                                 
{'loss': 0.0791, 'grad_norm': 1.2395129394737805, 'learning_rate': 1.105806242755723e-05, 'epoch': 0.52}

 52%|█████▏    | 190/363 [07:00<07:07,  2.47s/it]
 53%|█████▎    | 191/363 [07:03<07:22,  2.57s/it]
                                                 
{'loss': 0.0995, 'grad_norm': 2.269164321603063, 'learning_rate': 1.0962187843917498e-05, 'epoch': 0.53}

 53%|█████▎    | 191/363 [07:03<07:22,  2.57s/it]
 53%|█████▎    | 192/363 [07:05<06:53,  2.42s/it]
                                                 
{'loss': 0.0978, 'grad_norm': 2.1091615955126217, 'learning_rate': 1.0866223904826992e-05, 'epoch': 0.53}

 53%|█████▎    | 192/363 [07:05<06:53,  2.42s/it]
 53%|█████▎    | 193/363 [07:08<06:49,  2.41s/it]
                                                 
{'loss': 0.0654, 'grad_norm': 1.1661181979597077, 'learning_rate': 1.0770179522164079e-05, 'epoch': 0.53}

 53%|█████▎    | 193/363 [07:08<06:49,  2.41s/it]
 53%|█████▎    | 194/363 [07:10<06:27,  2.29s/it]
                                                 
{'loss': 0.0795, 'grad_norm': 1.529220319087916, 'learning_rate': 1.0674063615277681e-05, 'epoch': 0.54}

 53%|█████▎    | 194/363 [07:10<06:27,  2.29s/it]
 54%|█████▎    | 195/363 [07:12<06:26,  2.30s/it]
                                                 
{'loss': 0.0722, 'grad_norm': 1.61462843303553, 'learning_rate': 1.0577885110158959e-05, 'epoch': 0.54}

 54%|█████▎    | 195/363 [07:12<06:26,  2.30s/it]
 54%|█████▍    | 196/363 [07:14<06:19,  2.27s/it]
                                                 
{'loss': 0.1059, 'grad_norm': 1.0229094996985268, 'learning_rate': 1.0481652938612374e-05, 'epoch': 0.54}

 54%|█████▍    | 196/363 [07:14<06:19,  2.27s/it]
 54%|█████▍    | 197/363 [07:16<06:04,  2.19s/it]
                                                 
{'loss': 0.1007, 'grad_norm': 1.8905308810375994, 'learning_rate': 1.0385376037426227e-05, 'epoch': 0.54}

 54%|█████▍    | 197/363 [07:16<06:04,  2.19s/it]
 55%|█████▍    | 198/363 [07:18<05:46,  2.10s/it]
                                                 
{'loss': 0.0997, 'grad_norm': 1.4659160591839386, 'learning_rate': 1.0289063347542727e-05, 'epoch': 0.55}

 55%|█████▍    | 198/363 [07:18<05:46,  2.10s/it]
 55%|█████▍    | 199/363 [07:20<05:51,  2.15s/it]
                                                 
{'loss': 0.1803, 'grad_norm': 3.3227958982974637, 'learning_rate': 1.0192723813227672e-05, 'epoch': 0.55}

 55%|█████▍    | 199/363 [07:20<05:51,  2.15s/it]
 55%|█████▌    | 200/363 [07:22<05:48,  2.14s/it]
                                                 
{'loss': 0.1275, 'grad_norm': 1.963767479554977, 'learning_rate': 1.0096366381239808e-05, 'epoch': 0.55}

 55%|█████▌    | 200/363 [07:22<05:48,  2.14s/it][INFO|trainer.py:4289] 2026-01-30 12:23:56,365 >> Saving model checkpoint to /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200
[INFO|configuration_utils.py:491] 2026-01-30 12:23:56,370 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/config.json
[INFO|configuration_utils.py:826] 2026-01-30 12:23:56,370 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/generation_config.json
[INFO|modeling_utils.py:4305] 2026-01-30 12:24:12,335 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 4 checkpoint shards. You can find where each parameters has been saved in the index located at /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:24:12,337 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:24:12,340 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:24:12,341 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:24:12,341 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/added_tokens.json
[INFO|image_processing_base.py:253] 2026-01-30 12:24:12,986 >> Image processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/preprocessor_config.json
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:24:12,987 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:24:12,987 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:24:12,987 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:24:12,988 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/added_tokens.json
[INFO|video_processing_utils.py:610] 2026-01-30 12:24:13,181 >> Video processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/video_preprocessor_config.json
[INFO|processing_utils.py:752] 2026-01-30 12:24:13,181 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-200/chat_template.jinja

 55%|█████▌    | 201/363 [07:50<26:11,  9.70s/it]
                                                 
{'loss': 0.0784, 'grad_norm': 1.6295769776645304, 'learning_rate': 1e-05, 'epoch': 0.55}

 55%|█████▌    | 201/363 [07:50<26:11,  9.70s/it]
 56%|█████▌    | 202/363 [07:52<19:55,  7.43s/it]
                                                 
{'loss': 0.0884, 'grad_norm': 2.440021613726331, 'learning_rate': 9.903633618760195e-06, 'epoch': 0.56}

 56%|█████▌    | 202/363 [07:52<19:55,  7.43s/it]
 56%|█████▌    | 203/363 [07:54<15:43,  5.90s/it]
                                                 
{'loss': 0.0852, 'grad_norm': 1.4242019780978539, 'learning_rate': 9.807276186772335e-06, 'epoch': 0.56}

 56%|█████▌    | 203/363 [07:54<15:43,  5.90s/it]
 56%|█████▌    | 204/363 [07:56<12:39,  4.78s/it]
                                                 
{'loss': 0.0528, 'grad_norm': 0.9963914089293635, 'learning_rate': 9.710936652457276e-06, 'epoch': 0.56}

 56%|█████▌    | 204/363 [07:56<12:39,  4.78s/it]
 56%|█████▋    | 205/363 [07:59<10:33,  4.01s/it]
                                                 
{'loss': 0.1213, 'grad_norm': 2.0171601668683863, 'learning_rate': 9.614623962573776e-06, 'epoch': 0.57}

 56%|█████▋    | 205/363 [07:59<10:33,  4.01s/it]
 57%|█████▋    | 206/363 [08:00<08:49,  3.37s/it]
                                                 
{'loss': 0.0813, 'grad_norm': 1.8302600165169711, 'learning_rate': 9.518347061387629e-06, 'epoch': 0.57}

 57%|█████▋    | 206/363 [08:00<08:49,  3.37s/it]
 57%|█████▋    | 207/363 [08:02<07:45,  2.99s/it]
                                                 
{'loss': 0.1114, 'grad_norm': 2.135574797850369, 'learning_rate': 9.422114889841045e-06, 'epoch': 0.57}

 57%|█████▋    | 207/363 [08:02<07:45,  2.99s/it]
 57%|█████▋    | 208/363 [08:05<07:11,  2.78s/it]
                                                 
{'loss': 0.1072, 'grad_norm': 1.856147430619363, 'learning_rate': 9.325936384722322e-06, 'epoch': 0.57}

 57%|█████▋    | 208/363 [08:05<07:11,  2.78s/it]
 58%|█████▊    | 209/363 [08:07<06:36,  2.57s/it]
                                                 
{'loss': 0.0629, 'grad_norm': 1.3734175489711284, 'learning_rate': 9.229820477835926e-06, 'epoch': 0.58}

 58%|█████▊    | 209/363 [08:07<06:36,  2.57s/it]
 58%|█████▊    | 210/363 [08:09<06:19,  2.48s/it]
                                                 
{'loss': 0.0798, 'grad_norm': 1.4955582653472665, 'learning_rate': 9.133776095173015e-06, 'epoch': 0.58}

 58%|█████▊    | 210/363 [08:09<06:19,  2.48s/it]
 58%|█████▊    | 211/363 [08:11<06:01,  2.38s/it]
                                                 
{'loss': 0.0832, 'grad_norm': 2.2098641671152075, 'learning_rate': 9.037812156082503e-06, 'epoch': 0.58}

 58%|█████▊    | 211/363 [08:11<06:01,  2.38s/it]
 58%|█████▊    | 212/363 [08:14<05:55,  2.36s/it]
                                                 
{'loss': 0.0912, 'grad_norm': 2.1234204791453446, 'learning_rate': 8.941937572442773e-06, 'epoch': 0.58}

 58%|█████▊    | 212/363 [08:14<05:55,  2.36s/it]
 59%|█████▊    | 213/363 [08:16<05:51,  2.34s/it]
                                                 
{'loss': 0.0757, 'grad_norm': 1.7048969824409477, 'learning_rate': 8.846161247834024e-06, 'epoch': 0.59}

 59%|█████▊    | 213/363 [08:16<05:51,  2.34s/it]
 59%|█████▉    | 214/363 [08:18<05:40,  2.29s/it]
                                                 
{'loss': 0.0607, 'grad_norm': 1.2386625705533991, 'learning_rate': 8.750492076711439e-06, 'epoch': 0.59}

 59%|█████▉    | 214/363 [08:18<05:40,  2.29s/it]
 59%|█████▉    | 215/363 [08:20<05:29,  2.23s/it]
                                                 
{'loss': 0.1315, 'grad_norm': 2.4577783979073518, 'learning_rate': 8.654938943579194e-06, 'epoch': 0.59}

 59%|█████▉    | 215/363 [08:20<05:29,  2.23s/it]
 60%|█████▉    | 216/363 [08:22<05:17,  2.16s/it]
                                                 
{'loss': 0.1015, 'grad_norm': 1.7822551401830198, 'learning_rate': 8.55951072216536e-06, 'epoch': 0.6}

 60%|█████▉    | 216/363 [08:22<05:17,  2.16s/it]
 60%|█████▉    | 217/363 [08:24<04:53,  2.01s/it]
                                                 
{'loss': 0.083, 'grad_norm': 1.627034418887004, 'learning_rate': 8.464216274597839e-06, 'epoch': 0.6}

 60%|█████▉    | 217/363 [08:24<04:53,  2.01s/it]
 60%|██████    | 218/363 [08:26<04:39,  1.93s/it]
                                                 
{'loss': 0.144, 'grad_norm': 2.4236805021780907, 'learning_rate': 8.369064450581374e-06, 'epoch': 0.6}

 60%|██████    | 218/363 [08:26<04:39,  1.93s/it]
 60%|██████    | 219/363 [08:27<04:26,  1.85s/it]
                                                 
{'loss': 0.1187, 'grad_norm': 2.0852606023844547, 'learning_rate': 8.274064086575682e-06, 'epoch': 0.6}

 60%|██████    | 219/363 [08:27<04:26,  1.85s/it]
 61%|██████    | 220/363 [08:29<04:16,  1.79s/it]
                                                 
{'loss': 0.101, 'grad_norm': 1.554124619394613, 'learning_rate': 8.179224004974857e-06, 'epoch': 0.61}

 61%|██████    | 220/363 [08:29<04:16,  1.79s/it]
 61%|██████    | 221/363 [08:31<04:38,  1.96s/it]
                                                 
{'loss': 0.0562, 'grad_norm': 1.0086858963161975, 'learning_rate': 8.084553013288048e-06, 'epoch': 0.61}

 61%|██████    | 221/363 [08:31<04:38,  1.96s/it]
 61%|██████    | 222/363 [08:33<04:37,  1.97s/it]
                                                 
{'loss': 0.1144, 'grad_norm': 1.744957411692858, 'learning_rate': 7.990059903321554e-06, 'epoch': 0.61}

 61%|██████    | 222/363 [08:33<04:37,  1.97s/it]
 61%|██████▏   | 223/363 [08:35<04:40,  2.00s/it]
                                                 
{'loss': 0.0431, 'grad_norm': 1.115741854823727, 'learning_rate': 7.89575345036232e-06, 'epoch': 0.62}

 61%|██████▏   | 223/363 [08:35<04:40,  2.00s/it]
 62%|██████▏   | 224/363 [08:37<04:33,  1.97s/it]
                                                 
{'loss': 0.1239, 'grad_norm': 2.4048467960954523, 'learning_rate': 7.801642412363042e-06, 'epoch': 0.62}

 62%|██████▏   | 224/363 [08:37<04:33,  1.97s/it]
 62%|██████▏   | 225/363 [08:39<04:28,  1.95s/it]
                                                 
{'loss': 0.0861, 'grad_norm': 1.7045994682708523, 'learning_rate': 7.707735529128819e-06, 'epoch': 0.62}

 62%|██████▏   | 225/363 [08:39<04:28,  1.95s/it]
 62%|██████▏   | 226/363 [08:41<04:23,  1.92s/it]
                                                 
{'loss': 0.0939, 'grad_norm': 1.5844433019812807, 'learning_rate': 7.614041521505517e-06, 'epoch': 0.62}

 62%|██████▏   | 226/363 [08:41<04:23,  1.92s/it]
 63%|██████▎   | 227/363 [08:43<04:16,  1.89s/it]
                                                 
{'loss': 0.0961, 'grad_norm': 1.817274462365455, 'learning_rate': 7.520569090569894e-06, 'epoch': 0.63}

 63%|██████▎   | 227/363 [08:43<04:16,  1.89s/it]
 63%|██████▎   | 228/363 [08:45<04:27,  1.98s/it]
                                                 
{'loss': 0.1141, 'grad_norm': 2.169489761841419, 'learning_rate': 7.427326916821557e-06, 'epoch': 0.63}

 63%|██████▎   | 228/363 [08:45<04:27,  1.98s/it]
 63%|██████▎   | 229/363 [08:47<04:18,  1.93s/it]
                                                 
{'loss': 0.0631, 'grad_norm': 1.2611061121212517, 'learning_rate': 7.3343236593768295e-06, 'epoch': 0.63}

 63%|██████▎   | 229/363 [08:47<04:18,  1.93s/it]
 63%|██████▎   | 230/363 [08:49<04:11,  1.89s/it]
                                                 
{'loss': 0.0607, 'grad_norm': 1.4981316942094398, 'learning_rate': 7.24156795516461e-06, 'epoch': 0.63}

 63%|██████▎   | 230/363 [08:49<04:11,  1.89s/it]
 64%|██████▎   | 231/363 [08:51<04:28,  2.04s/it]
                                                 
{'loss': 0.1243, 'grad_norm': 1.889688470210782, 'learning_rate': 7.149068418124281e-06, 'epoch': 0.64}

 64%|██████▎   | 231/363 [08:51<04:28,  2.04s/it]
 64%|██████▍   | 232/363 [08:53<04:15,  1.95s/it]
                                                 
{'loss': 0.1154, 'grad_norm': 1.6091621479461797, 'learning_rate': 7.056833638405762e-06, 'epoch': 0.64}

 64%|██████▍   | 232/363 [08:53<04:15,  1.95s/it]
 64%|██████▍   | 233/363 [08:55<04:11,  1.93s/it]
                                                 
{'loss': 0.0782, 'grad_norm': 1.7584988460897566, 'learning_rate': 6.964872181571765e-06, 'epoch': 0.64}

 64%|██████▍   | 233/363 [08:55<04:11,  1.93s/it]
 64%|██████▍   | 234/363 [08:56<03:59,  1.85s/it]
                                                 
{'loss': 0.1088, 'grad_norm': 1.9608264553670172, 'learning_rate': 6.87319258780234e-06, 'epoch': 0.65}

 64%|██████▍   | 234/363 [08:56<03:59,  1.85s/it]
 65%|██████▍   | 235/363 [08:58<03:59,  1.87s/it]
                                                 
{'loss': 0.0635, 'grad_norm': 1.1583598512074385, 'learning_rate': 6.781803371101774e-06, 'epoch': 0.65}

 65%|██████▍   | 235/363 [08:58<03:59,  1.87s/it]
 65%|██████▌   | 236/363 [09:00<03:57,  1.87s/it]
                                                 
{'loss': 0.065, 'grad_norm': 1.5744270190667782, 'learning_rate': 6.690713018507917e-06, 'epoch': 0.65}

 65%|██████▌   | 236/363 [09:00<03:57,  1.87s/it]
 65%|██████▌   | 237/363 [09:02<04:05,  1.95s/it]
                                                 
{'loss': 0.0941, 'grad_norm': 2.0489496115781147, 'learning_rate': 6.599929989304034e-06, 'epoch': 0.65}

 65%|██████▌   | 237/363 [09:02<04:05,  1.95s/it]
 66%|██████▌   | 238/363 [09:04<04:00,  1.92s/it]
                                                 
{'loss': 0.1049, 'grad_norm': 1.3833240601648478, 'learning_rate': 6.509462714233194e-06, 'epoch': 0.66}

 66%|██████▌   | 238/363 [09:04<04:00,  1.92s/it]
 66%|██████▌   | 239/363 [09:06<03:49,  1.85s/it]
                                                 
{'loss': 0.0795, 'grad_norm': 1.105761243006651, 'learning_rate': 6.419319594715338e-06, 'epoch': 0.66}

 66%|██████▌   | 239/363 [09:06<03:49,  1.85s/it]
 66%|██████▌   | 240/363 [09:08<03:50,  1.88s/it]
                                                 
{'loss': 0.1389, 'grad_norm': 2.2243011538195323, 'learning_rate': 6.32950900206708e-06, 'epoch': 0.66}

 66%|██████▌   | 240/363 [09:08<03:50,  1.88s/it]
 66%|██████▋   | 241/363 [09:10<03:59,  1.97s/it]
                                                 
{'loss': 0.0904, 'grad_norm': 1.6204675243320001, 'learning_rate': 6.240039276724273e-06, 'epoch': 0.66}

 66%|██████▋   | 241/363 [09:10<03:59,  1.97s/it]
 67%|██████▋   | 242/363 [09:12<03:52,  1.92s/it]
                                                 
{'loss': 0.0988, 'grad_norm': 1.7416445698806022, 'learning_rate': 6.150918727467455e-06, 'epoch': 0.67}

 67%|██████▋   | 242/363 [09:12<03:52,  1.92s/it]
 67%|██████▋   | 243/363 [09:13<03:47,  1.90s/it]
                                                 
{'loss': 0.0887, 'grad_norm': 1.5865476897173794, 'learning_rate': 6.062155630650265e-06, 'epoch': 0.67}

 67%|██████▋   | 243/363 [09:13<03:47,  1.90s/it]
 67%|██████▋   | 244/363 [09:16<03:50,  1.94s/it]
                                                 
{'loss': 0.0406, 'grad_norm': 1.0908181878235528, 'learning_rate': 5.973758229430806e-06, 'epoch': 0.67}

 67%|██████▋   | 244/363 [09:16<03:50,  1.94s/it]
 67%|██████▋   | 245/363 [09:18<03:50,  1.95s/it]
                                                 
{'loss': 0.0613, 'grad_norm': 1.2409267373149415, 'learning_rate': 5.8857347330061545e-06, 'epoch': 0.68}

 67%|██████▋   | 245/363 [09:18<03:50,  1.95s/it]
 68%|██████▊   | 246/363 [09:19<03:44,  1.92s/it]
                                                 
{'loss': 0.0621, 'grad_norm': 1.5366160191792417, 'learning_rate': 5.798093315849984e-06, 'epoch': 0.68}

 68%|██████▊   | 246/363 [09:19<03:44,  1.92s/it]
 68%|██████▊   | 247/363 [09:21<03:42,  1.92s/it]
                                                 
{'loss': 0.135, 'grad_norm': 2.401971583677582, 'learning_rate': 5.7108421169534376e-06, 'epoch': 0.68}

 68%|██████▊   | 247/363 [09:21<03:42,  1.92s/it]
 68%|██████▊   | 248/363 [09:23<03:40,  1.92s/it]
                                                 
{'loss': 0.0912, 'grad_norm': 1.7382959732076737, 'learning_rate': 5.623989239069275e-06, 'epoch': 0.68}

 68%|██████▊   | 248/363 [09:23<03:40,  1.92s/it]
 69%|██████▊   | 249/363 [09:25<03:41,  1.94s/it]
                                                 
{'loss': 0.0481, 'grad_norm': 1.1164138593496515, 'learning_rate': 5.5375427479593945e-06, 'epoch': 0.69}

 69%|██████▊   | 249/363 [09:25<03:41,  1.94s/it]
 69%|██████▉   | 250/363 [09:27<03:39,  1.94s/it]
                                                 
{'loss': 0.0915, 'grad_norm': 1.9207044725285578, 'learning_rate': 5.451510671645806e-06, 'epoch': 0.69}

 69%|██████▉   | 250/363 [09:27<03:39,  1.94s/it]
 69%|██████▉   | 251/363 [09:29<03:34,  1.92s/it]
                                                 
{'loss': 0.0932, 'grad_norm': 1.4554330468757273, 'learning_rate': 5.3659009996650704e-06, 'epoch': 0.69}

 69%|██████▉   | 251/363 [09:29<03:34,  1.92s/it]
 69%|██████▉   | 252/363 [09:31<03:30,  1.90s/it]
                                                 
{'loss': 0.1258, 'grad_norm': 1.5637751353358034, 'learning_rate': 5.280721682326349e-06, 'epoch': 0.7}

 69%|██████▉   | 252/363 [09:31<03:30,  1.90s/it]
 70%|██████▉   | 253/363 [09:33<03:24,  1.86s/it]
                                                 
{'loss': 0.136, 'grad_norm': 1.6864022667103549, 'learning_rate': 5.195980629973077e-06, 'epoch': 0.7}

 70%|██████▉   | 253/363 [09:33<03:24,  1.86s/it]
 70%|██████▉   | 254/363 [09:35<03:38,  2.00s/it]
                                                 
{'loss': 0.0744, 'grad_norm': 1.5424417657042435, 'learning_rate': 5.111685712248364e-06, 'epoch': 0.7}

 70%|██████▉   | 254/363 [09:35<03:38,  2.00s/it]
 70%|███████   | 255/363 [09:37<03:32,  1.97s/it]
                                                 
{'loss': 0.1436, 'grad_norm': 2.4152541945255965, 'learning_rate': 5.02784475736415e-06, 'epoch': 0.7}

 70%|███████   | 255/363 [09:37<03:32,  1.97s/it]
 71%|███████   | 256/363 [09:39<03:25,  1.92s/it]
                                                 
{'loss': 0.0864, 'grad_norm': 1.8800510082119968, 'learning_rate': 4.944465551374238e-06, 'epoch': 0.71}

 71%|███████   | 256/363 [09:39<03:25,  1.92s/it]
 71%|███████   | 257/363 [09:41<03:23,  1.92s/it]
                                                 
{'loss': 0.0931, 'grad_norm': 1.6391965299287088, 'learning_rate': 4.861555837451213e-06, 'epoch': 0.71}

 71%|███████   | 257/363 [09:41<03:23,  1.92s/it]
 71%|███████   | 258/363 [09:42<03:20,  1.91s/it]
                                                 
{'loss': 0.1589, 'grad_norm': 2.1164230178199688, 'learning_rate': 4.779123315167362e-06, 'epoch': 0.71}

 71%|███████   | 258/363 [09:42<03:20,  1.91s/it]
 71%|███████▏  | 259/363 [09:44<03:15,  1.88s/it]
                                                 
{'loss': 0.075, 'grad_norm': 2.1736287568680615, 'learning_rate': 4.6971756397796506e-06, 'epoch': 0.71}

 71%|███████▏  | 259/363 [09:44<03:15,  1.88s/it]
 72%|███████▏  | 260/363 [09:46<03:13,  1.88s/it]
                                                 
{'loss': 0.0423, 'grad_norm': 0.981201558647046, 'learning_rate': 4.61572042151878e-06, 'epoch': 0.72}

 72%|███████▏  | 260/363 [09:46<03:13,  1.88s/it]
 72%|███████▏  | 261/363 [09:48<03:10,  1.87s/it]
                                                 
{'loss': 0.0538, 'grad_norm': 1.2068505093305162, 'learning_rate': 4.534765224882463e-06, 'epoch': 0.72}

 72%|███████▏  | 261/363 [09:48<03:10,  1.87s/it]
 72%|███████▏  | 262/363 [09:50<03:08,  1.87s/it]
                                                 
{'loss': 0.0591, 'grad_norm': 0.9541230040360105, 'learning_rate': 4.4543175679329345e-06, 'epoch': 0.72}

 72%|███████▏  | 262/363 [09:50<03:08,  1.87s/it]
 72%|███████▏  | 263/363 [09:52<03:05,  1.86s/it]
                                                 
{'loss': 0.0965, 'grad_norm': 1.7162320823485342, 'learning_rate': 4.37438492159876e-06, 'epoch': 0.73}

 72%|███████▏  | 263/363 [09:52<03:05,  1.86s/it]
 73%|███████▎  | 264/363 [09:54<03:03,  1.86s/it]
                                                 
{'loss': 0.0383, 'grad_norm': 1.184768855122373, 'learning_rate': 4.294974708981041e-06, 'epoch': 0.73}

 73%|███████▎  | 264/363 [09:54<03:03,  1.86s/it]
 73%|███████▎  | 265/363 [09:56<03:14,  1.99s/it]
                                                 
{'loss': 0.0952, 'grad_norm': 1.5098290827125584, 'learning_rate': 4.216094304664056e-06, 'epoch': 0.73}

 73%|███████▎  | 265/363 [09:56<03:14,  1.99s/it]
 73%|███████▎  | 266/363 [09:58<03:08,  1.94s/it]
                                                 
{'loss': 0.0687, 'grad_norm': 1.3641276614652302, 'learning_rate': 4.1377510340304e-06, 'epoch': 0.73}

 73%|███████▎  | 266/363 [09:58<03:08,  1.94s/it]
 74%|███████▎  | 267/363 [09:59<03:03,  1.91s/it]
                                                 
{'loss': 0.1397, 'grad_norm': 1.9886328182742048, 'learning_rate': 4.059952172580694e-06, 'epoch': 0.74}

 74%|███████▎  | 267/363 [09:59<03:03,  1.91s/it]
 74%|███████▍  | 268/363 [10:01<02:57,  1.87s/it]
                                                 
{'loss': 0.1271, 'grad_norm': 2.0623334755221494, 'learning_rate': 3.982704945257957e-06, 'epoch': 0.74}

 74%|███████▍  | 268/363 [10:01<02:57,  1.87s/it]
 74%|███████▍  | 269/363 [10:03<02:52,  1.84s/it]
                                                 
{'loss': 0.0736, 'grad_norm': 2.027142606530138, 'learning_rate': 3.9060165257766116e-06, 'epoch': 0.74}

 74%|███████▍  | 269/363 [10:03<02:52,  1.84s/it]
 74%|███████▍  | 270/363 [10:05<02:46,  1.79s/it]
                                                 
{'loss': 0.1243, 'grad_norm': 1.8884432574197467, 'learning_rate': 3.829894035956306e-06, 'epoch': 0.74}

 74%|███████▍  | 270/363 [10:05<02:46,  1.79s/it]
 75%|███████▍  | 271/363 [10:06<02:43,  1.78s/it]
                                                 
{'loss': 0.0971, 'grad_norm': 1.5259208901463874, 'learning_rate': 3.754344545060529e-06, 'epoch': 0.75}

 75%|███████▍  | 271/363 [10:06<02:43,  1.78s/it]
 75%|███████▍  | 272/363 [10:08<02:44,  1.81s/it]
                                                 
{'loss': 0.1226, 'grad_norm': 1.454648528529707, 'learning_rate': 3.6793750691400996e-06, 'epoch': 0.75}

 75%|███████▍  | 272/363 [10:08<02:44,  1.81s/it]
 75%|███████▌  | 273/363 [10:10<02:44,  1.82s/it]
                                                 
{'loss': 0.0573, 'grad_norm': 1.1852288533881499, 'learning_rate': 3.604992570381621e-06, 'epoch': 0.75}

 75%|███████▌  | 273/363 [10:10<02:44,  1.82s/it]
 75%|███████▌  | 274/363 [10:12<02:49,  1.91s/it]
                                                 
{'loss': 0.0357, 'grad_norm': 0.9888790128432269, 'learning_rate': 3.5312039564609203e-06, 'epoch': 0.76}

 75%|███████▌  | 274/363 [10:12<02:49,  1.91s/it]
 76%|███████▌  | 275/363 [10:14<02:50,  1.93s/it]
                                                 
{'loss': 0.0841, 'grad_norm': 1.9227683916123242, 'learning_rate': 3.458016079901544e-06, 'epoch': 0.76}

 76%|███████▌  | 275/363 [10:14<02:50,  1.93s/it]
 76%|███████▌  | 276/363 [10:16<02:42,  1.87s/it]
                                                 
{'loss': 0.0749, 'grad_norm': 1.6925865088399465, 'learning_rate': 3.3854357374383905e-06, 'epoch': 0.76}

 76%|███████▌  | 276/363 [10:16<02:42,  1.87s/it]
 76%|███████▋  | 277/363 [10:18<02:42,  1.89s/it]
                                                 
{'loss': 0.1234, 'grad_norm': 2.482457504595889, 'learning_rate': 3.313469669386532e-06, 'epoch': 0.76}

 76%|███████▋  | 277/363 [10:18<02:42,  1.89s/it]
 77%|███████▋  | 278/363 [10:20<02:37,  1.85s/it]
                                                 
{'loss': 0.0752, 'grad_norm': 1.2830007481095762, 'learning_rate': 3.242124559015234e-06, 'epoch': 0.77}

 77%|███████▋  | 278/363 [10:20<02:37,  1.85s/it]
 77%|███████▋  | 279/363 [10:22<02:35,  1.85s/it]
                                                 
{'loss': 0.0991, 'grad_norm': 2.0768576257082114, 'learning_rate': 3.171407031927325e-06, 'epoch': 0.77}

 77%|███████▋  | 279/363 [10:22<02:35,  1.85s/it]
 77%|███████▋  | 280/363 [10:24<02:48,  2.03s/it]
                                                 
{'loss': 0.109, 'grad_norm': 1.8987466668093202, 'learning_rate': 3.101323655443882e-06, 'epoch': 0.77}

 77%|███████▋  | 280/363 [10:24<02:48,  2.03s/it]
 77%|███████▋  | 281/363 [10:26<02:41,  1.97s/it]
                                                 
{'loss': 0.0599, 'grad_norm': 1.6001709673447158, 'learning_rate': 3.0318809379943594e-06, 'epoch': 0.78}

 77%|███████▋  | 281/363 [10:26<02:41,  1.97s/it]
 78%|███████▊  | 282/363 [10:28<02:37,  1.95s/it]
                                                 
{'loss': 0.0641, 'grad_norm': 1.309542383665605, 'learning_rate': 2.9630853285121506e-06, 'epoch': 0.78}

 78%|███████▊  | 282/363 [10:28<02:37,  1.95s/it]
 78%|███████▊  | 283/363 [10:30<02:35,  1.95s/it]
                                                 
{'loss': 0.0909, 'grad_norm': 1.5565630583605414, 'learning_rate': 2.8949432158357083e-06, 'epoch': 0.78}

 78%|███████▊  | 283/363 [10:30<02:35,  1.95s/it]
 78%|███████▊  | 284/363 [10:31<02:30,  1.90s/it]
                                                 
{'loss': 0.1223, 'grad_norm': 1.2776706094735155, 'learning_rate': 2.8274609281152322e-06, 'epoch': 0.78}

 78%|███████▊  | 284/363 [10:32<02:30,  1.90s/it]
 79%|███████▊  | 285/363 [10:33<02:26,  1.87s/it]
                                                 
{'loss': 0.087, 'grad_norm': 1.6300368148462467, 'learning_rate': 2.7606447322249876e-06, 'epoch': 0.79}

 79%|███████▊  | 285/363 [10:33<02:26,  1.87s/it]
 79%|███████▉  | 286/363 [10:35<02:24,  1.87s/it]
                                                 
{'loss': 0.1002, 'grad_norm': 1.5096693670735182, 'learning_rate': 2.694500833181323e-06, 'epoch': 0.79}

 79%|███████▉  | 286/363 [10:35<02:24,  1.87s/it]
 79%|███████▉  | 287/363 [10:37<02:22,  1.88s/it]
                                                 
{'loss': 0.0915, 'grad_norm': 1.719399247233759, 'learning_rate': 2.629035373566433e-06, 'epoch': 0.79}

 79%|███████▉  | 287/363 [10:37<02:22,  1.88s/it]
 79%|███████▉  | 288/363 [10:39<02:22,  1.90s/it]
                                                 
{'loss': 0.0555, 'grad_norm': 1.1425139227274304, 'learning_rate': 2.5642544329579088e-06, 'epoch': 0.79}

 79%|███████▉  | 288/363 [10:39<02:22,  1.90s/it]
 80%|███████▉  | 289/363 [10:41<02:20,  1.90s/it]
                                                 
{'loss': 0.0555, 'grad_norm': 1.2082856945935607, 'learning_rate': 2.500164027364147e-06, 'epoch': 0.8}

 80%|███████▉  | 289/363 [10:41<02:20,  1.90s/it]
 80%|███████▉  | 290/363 [10:43<02:15,  1.86s/it]
                                                 
{'loss': 0.104, 'grad_norm': 2.028172728126609, 'learning_rate': 2.4367701086656625e-06, 'epoch': 0.8}

 80%|███████▉  | 290/363 [10:43<02:15,  1.86s/it]
 80%|████████  | 291/363 [10:44<02:13,  1.85s/it]
                                                 
{'loss': 0.0936, 'grad_norm': 1.498164820422529, 'learning_rate': 2.374078564062364e-06, 'epoch': 0.8}

 80%|████████  | 291/363 [10:45<02:13,  1.85s/it]
 80%|████████  | 292/363 [10:46<02:10,  1.84s/it]
                                                 
{'loss': 0.0898, 'grad_norm': 1.3254283577777912, 'learning_rate': 2.312095215526814e-06, 'epoch': 0.81}

 80%|████████  | 292/363 [10:46<02:10,  1.84s/it]
 81%|████████  | 293/363 [10:48<02:09,  1.85s/it]
                                                 
{'loss': 0.073, 'grad_norm': 1.3758428200048072, 'learning_rate': 2.2508258192635614e-06, 'epoch': 0.81}

 81%|████████  | 293/363 [10:48<02:09,  1.85s/it]
 81%|████████  | 294/363 [10:50<02:08,  1.86s/it]
                                                 
{'loss': 0.0675, 'grad_norm': 1.2825112587820704, 'learning_rate': 2.190276065174596e-06, 'epoch': 0.81}

 81%|████████  | 294/363 [10:50<02:08,  1.86s/it]
 81%|████████▏ | 295/363 [10:52<02:05,  1.85s/it]
                                                 
{'loss': 0.0871, 'grad_norm': 1.704844614821693, 'learning_rate': 2.130451576330925e-06, 'epoch': 0.81}

 81%|████████▏ | 295/363 [10:52<02:05,  1.85s/it]
 82%|████████▏ | 296/363 [10:54<02:04,  1.86s/it]
                                                 
{'loss': 0.075, 'grad_norm': 1.8236093781558738, 'learning_rate': 2.0713579084503877e-06, 'epoch': 0.82}

 82%|████████▏ | 296/363 [10:54<02:04,  1.86s/it]
 82%|████████▏ | 297/363 [10:56<02:01,  1.83s/it]
                                                 
{'loss': 0.0726, 'grad_norm': 1.7159210186184939, 'learning_rate': 2.0130005493817063e-06, 'epoch': 0.82}

 82%|████████▏ | 297/363 [10:56<02:01,  1.83s/it]
 82%|████████▏ | 298/363 [10:58<02:01,  1.87s/it]
                                                 
{'loss': 0.0585, 'grad_norm': 1.5402879375212146, 'learning_rate': 1.9553849185948514e-06, 'epoch': 0.82}

 82%|████████▏ | 298/363 [10:58<02:01,  1.87s/it]
 82%|████████▏ | 299/363 [10:59<01:57,  1.83s/it]
                                                 
{'loss': 0.1192, 'grad_norm': 2.088587364963122, 'learning_rate': 1.8985163666777473e-06, 'epoch': 0.82}

 82%|████████▏ | 299/363 [10:59<01:57,  1.83s/it]
 83%|████████▎ | 300/363 [11:01<01:56,  1.85s/it]
                                                 
{'loss': 0.0639, 'grad_norm': 1.385102288521542, 'learning_rate': 1.8424001748393905e-06, 'epoch': 0.83}

 83%|████████▎ | 300/363 [11:01<01:56,  1.85s/it][INFO|trainer.py:4289] 2026-01-30 12:27:35,968 >> Saving model checkpoint to /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300
[INFO|configuration_utils.py:491] 2026-01-30 12:27:35,972 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/config.json
[INFO|configuration_utils.py:826] 2026-01-30 12:27:35,973 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/generation_config.json
[INFO|modeling_utils.py:4305] 2026-01-30 12:27:52,068 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 4 checkpoint shards. You can find where each parameters has been saved in the index located at /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:27:52,070 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:27:52,070 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:27:52,071 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:27:52,071 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/added_tokens.json
[INFO|image_processing_base.py:253] 2026-01-30 12:27:52,271 >> Image processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/preprocessor_config.json
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:27:52,272 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:27:52,273 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:27:52,273 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:27:52,274 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/added_tokens.json
[INFO|video_processing_utils.py:610] 2026-01-30 12:27:52,896 >> Video processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/video_preprocessor_config.json
[INFO|processing_utils.py:752] 2026-01-30 12:27:52,897 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-300/chat_template.jinja

 83%|████████▎ | 301/363 [11:29<10:04,  9.74s/it]
                                                 
{'loss': 0.0644, 'grad_norm': 1.199103692035072, 'learning_rate': 1.7870415544193808e-06, 'epoch': 0.83}

 83%|████████▎ | 301/363 [11:29<10:04,  9.74s/it]
 83%|████████▎ | 302/363 [11:31<07:30,  7.38s/it]
                                                 
{'loss': 0.0806, 'grad_norm': 1.576550399440244, 'learning_rate': 1.7324456464039751e-06, 'epoch': 0.83}

 83%|████████▎ | 302/363 [11:31<07:30,  7.38s/it]
 83%|████████▎ | 303/363 [11:33<05:44,  5.75s/it]
                                                 
{'loss': 0.1166, 'grad_norm': 1.9033469567963237, 'learning_rate': 1.6786175209486565e-06, 'epoch': 0.84}

 83%|████████▎ | 303/363 [11:33<05:44,  5.75s/it]
 84%|████████▎ | 304/363 [11:35<04:35,  4.66s/it]
                                                 
{'loss': 0.0883, 'grad_norm': 1.5481679752062283, 'learning_rate': 1.6255621769072805e-06, 'epoch': 0.84}

 84%|████████▎ | 304/363 [11:35<04:35,  4.66s/it]
 84%|████████▍ | 305/363 [11:37<03:47,  3.93s/it]
                                                 
{'loss': 0.105, 'grad_norm': 1.7374538978001977, 'learning_rate': 1.5732845413678477e-06, 'epoch': 0.84}

 84%|████████▍ | 305/363 [11:37<03:47,  3.93s/it]
 84%|████████▍ | 306/363 [11:39<03:08,  3.30s/it]
                                                 
{'loss': 0.0618, 'grad_norm': 1.3465892642582866, 'learning_rate': 1.521789469194952e-06, 'epoch': 0.84}

 84%|████████▍ | 306/363 [11:39<03:08,  3.30s/it]
 85%|████████▍ | 307/363 [11:41<02:41,  2.88s/it]
                                                 
{'loss': 0.0992, 'grad_norm': 2.312489005340463, 'learning_rate': 1.4710817425789015e-06, 'epoch': 0.85}

 85%|████████▍ | 307/363 [11:41<02:41,  2.88s/it]
 85%|████████▍ | 308/363 [11:43<02:18,  2.53s/it]
                                                 
{'loss': 0.0458, 'grad_norm': 1.1318530850342379, 'learning_rate': 1.4211660705916286e-06, 'epoch': 0.85}

 85%|████████▍ | 308/363 [11:43<02:18,  2.53s/it]
 85%|████████▌ | 309/363 [11:45<02:04,  2.31s/it]
                                                 
{'loss': 0.0516, 'grad_norm': 1.5063935617388766, 'learning_rate': 1.372047088749372e-06, 'epoch': 0.85}

 85%|████████▌ | 309/363 [11:45<02:04,  2.31s/it]
 85%|████████▌ | 310/363 [11:46<01:54,  2.16s/it]
                                                 
{'loss': 0.1156, 'grad_norm': 1.4001415457936668, 'learning_rate': 1.3237293585821786e-06, 'epoch': 0.86}

 85%|████████▌ | 310/363 [11:46<01:54,  2.16s/it]
 86%|████████▌ | 311/363 [11:48<01:46,  2.04s/it]
                                                 
{'loss': 0.1332, 'grad_norm': 2.487040806365276, 'learning_rate': 1.2762173672102996e-06, 'epoch': 0.86}

 86%|████████▌ | 311/363 [11:48<01:46,  2.04s/it]
 86%|████████▌ | 312/363 [11:50<01:41,  1.99s/it]
                                                 
{'loss': 0.0735, 'grad_norm': 1.514447174356807, 'learning_rate': 1.2295155269274827e-06, 'epoch': 0.86}

 86%|████████▌ | 312/363 [11:50<01:41,  1.99s/it]
 86%|████████▌ | 313/363 [11:52<01:37,  1.94s/it]
                                                 
{'loss': 0.0825, 'grad_norm': 1.9664878278885487, 'learning_rate': 1.1836281747912125e-06, 'epoch': 0.86}

 86%|████████▌ | 313/363 [11:52<01:37,  1.94s/it]
 87%|████████▋ | 314/363 [11:54<01:35,  1.95s/it]
                                                 
{'loss': 0.0945, 'grad_norm': 1.7248118984472842, 'learning_rate': 1.1385595722199438e-06, 'epoch': 0.87}

 87%|████████▋ | 314/363 [11:54<01:35,  1.95s/it]
 87%|████████▋ | 315/363 [11:56<01:32,  1.92s/it]
                                                 
{'loss': 0.0761, 'grad_norm': 1.232176840002336, 'learning_rate': 1.094313904597355e-06, 'epoch': 0.87}

 87%|████████▋ | 315/363 [11:56<01:32,  1.92s/it]
 87%|████████▋ | 316/363 [11:58<01:27,  1.86s/it]
                                                 
{'loss': 0.1104, 'grad_norm': 2.3846939660082636, 'learning_rate': 1.0508952808836682e-06, 'epoch': 0.87}

 87%|████████▋ | 316/363 [11:58<01:27,  1.86s/it]
 87%|████████▋ | 317/363 [12:00<01:27,  1.91s/it]
                                                 
{'loss': 0.137, 'grad_norm': 1.5107849502345858, 'learning_rate': 1.0083077332340563e-06, 'epoch': 0.87}

 87%|████████▋ | 317/363 [12:00<01:27,  1.91s/it]
 88%|████████▊ | 318/363 [12:01<01:23,  1.85s/it]
                                                 
{'loss': 0.1395, 'grad_norm': 2.5218758909483077, 'learning_rate': 9.665552166241965e-07, 'epoch': 0.88}

 88%|████████▊ | 318/363 [12:01<01:23,  1.85s/it]
 88%|████████▊ | 319/363 [12:03<01:22,  1.87s/it]
                                                 
{'loss': 0.1331, 'grad_norm': 1.913603235284768, 'learning_rate': 9.256416084829778e-07, 'epoch': 0.88}

 88%|████████▊ | 319/363 [12:03<01:22,  1.87s/it]
 88%|████████▊ | 320/363 [12:05<01:20,  1.87s/it]
                                                 
{'loss': 0.1077, 'grad_norm': 2.4049905043471806, 'learning_rate': 8.855707083324183e-07, 'epoch': 0.88}

 88%|████████▊ | 320/363 [12:05<01:20,  1.87s/it]
 88%|████████▊ | 321/363 [12:07<01:19,  1.88s/it]
                                                 
{'loss': 0.0638, 'grad_norm': 1.108589495662786, 'learning_rate': 8.46346237434813e-07, 'epoch': 0.89}

 88%|████████▊ | 321/363 [12:07<01:19,  1.88s/it]
 89%|████████▊ | 322/363 [12:09<01:19,  1.94s/it]
                                                 
{'loss': 0.0515, 'grad_norm': 1.222025656507595, 'learning_rate': 8.079718384471557e-07, 'epoch': 0.89}

 89%|████████▊ | 322/363 [12:09<01:19,  1.94s/it]
 89%|████████▉ | 323/363 [12:11<01:20,  2.00s/it]
                                                 
{'loss': 0.0623, 'grad_norm': 1.6319377780473996, 'learning_rate': 7.704510750828542e-07, 'epoch': 0.89}

 89%|████████▉ | 323/363 [12:11<01:20,  2.00s/it]
 89%|████████▉ | 324/363 [12:13<01:15,  1.93s/it]
                                                 
{'loss': 0.0516, 'grad_norm': 1.402983153361783, 'learning_rate': 7.337874317807803e-07, 'epoch': 0.89}

 89%|████████▉ | 324/363 [12:13<01:15,  1.93s/it]
 90%|████████▉ | 325/363 [12:15<01:12,  1.91s/it]
                                                 
{'loss': 0.0612, 'grad_norm': 1.4500270750731776, 'learning_rate': 6.979843133816744e-07, 'epoch': 0.9}

 90%|████████▉ | 325/363 [12:15<01:12,  1.91s/it]
 90%|████████▉ | 326/363 [12:17<01:15,  2.05s/it]
                                                 
{'loss': 0.0333, 'grad_norm': 1.095211249638046, 'learning_rate': 6.630450448119618e-07, 'epoch': 0.9}

 90%|████████▉ | 326/363 [12:17<01:15,  2.05s/it]
 90%|█████████ | 327/363 [12:19<01:13,  2.05s/it]
                                                 
{'loss': 0.0953, 'grad_norm': 1.8925065532997027, 'learning_rate': 6.289728707749609e-07, 'epoch': 0.9}

 90%|█████████ | 327/363 [12:19<01:13,  2.05s/it]
 90%|█████████ | 328/363 [12:21<01:12,  2.06s/it]
                                                 
{'loss': 0.0893, 'grad_norm': 1.747624078137272, 'learning_rate': 5.957709554495683e-07, 'epoch': 0.9}

 90%|█████████ | 328/363 [12:21<01:12,  2.06s/it]
 91%|█████████ | 329/363 [12:24<01:15,  2.21s/it]
                                                 
{'loss': 0.0423, 'grad_norm': 0.9113610050884592, 'learning_rate': 5.634423821964074e-07, 'epoch': 0.91}

 91%|█████████ | 329/363 [12:24<01:15,  2.21s/it]
 91%|█████████ | 330/363 [12:26<01:16,  2.33s/it]
                                                 
{'loss': 0.1055, 'grad_norm': 1.6463257868897792, 'learning_rate': 5.319901532714877e-07, 'epoch': 0.91}

 91%|█████████ | 330/363 [12:26<01:16,  2.33s/it]
 91%|█████████ | 331/363 [12:29<01:16,  2.40s/it]
                                                 
{'loss': 0.1232, 'grad_norm': 1.84950657136513, 'learning_rate': 5.014171895473929e-07, 'epoch': 0.91}

 91%|█████████ | 331/363 [12:29<01:16,  2.40s/it]
 91%|█████████▏| 332/363 [12:32<01:16,  2.48s/it]
                                                 
{'loss': 0.076, 'grad_norm': 1.5561236996647523, 'learning_rate': 4.717263302420283e-07, 'epoch': 0.92}

 91%|█████████▏| 332/363 [12:32<01:16,  2.48s/it]
 92%|█████████▏| 333/363 [12:34<01:15,  2.53s/it]
                                                 
{'loss': 0.0835, 'grad_norm': 1.2285714349711996, 'learning_rate': 4.429203326549525e-07, 'epoch': 0.92}

 92%|█████████▏| 333/363 [12:34<01:15,  2.53s/it]
 92%|█████████▏| 334/363 [12:37<01:10,  2.43s/it]
                                                 
{'loss': 0.0734, 'grad_norm': 2.8092718918728288, 'learning_rate': 4.150018719113147e-07, 'epoch': 0.92}

 92%|█████████▏| 334/363 [12:37<01:10,  2.43s/it]
 92%|█████████▏| 335/363 [12:38<01:01,  2.18s/it]
                                                 
{'loss': 0.0768, 'grad_norm': 1.766273016183224, 'learning_rate': 3.8797354071342443e-07, 'epoch': 0.92}

 92%|█████████▏| 335/363 [12:38<01:01,  2.18s/it]
 93%|█████████▎| 336/363 [12:40<00:54,  2.03s/it]
                                                 
{'loss': 0.1027, 'grad_norm': 2.1729531887535285, 'learning_rate': 3.618378490999719e-07, 'epoch': 0.93}

 93%|█████████▎| 336/363 [12:40<00:54,  2.03s/it]
 93%|█████████▎| 337/363 [12:42<00:52,  2.03s/it]
                                                 
{'loss': 0.1176, 'grad_norm': 1.7482937409483954, 'learning_rate': 3.365972242129378e-07, 'epoch': 0.93}

 93%|█████████▎| 337/363 [12:42<00:52,  2.03s/it]
 93%|█████████▎| 338/363 [12:44<00:49,  1.96s/it]
                                                 
{'loss': 0.068, 'grad_norm': 1.2860014321281648, 'learning_rate': 3.122540100721794e-07, 'epoch': 0.93}

 93%|█████████▎| 338/363 [12:44<00:49,  1.96s/it]
 93%|█████████▎| 339/363 [12:46<00:46,  1.95s/it]
                                                 
{'loss': 0.0826, 'grad_norm': 1.8682982161376196, 'learning_rate': 2.888104673577574e-07, 'epoch': 0.94}

 93%|█████████▎| 339/363 [12:46<00:46,  1.95s/it]
 94%|█████████▎| 340/363 [12:47<00:42,  1.84s/it]
                                                 
{'loss': 0.1094, 'grad_norm': 2.1192579972688548, 'learning_rate': 2.66268773199988e-07, 'epoch': 0.94}

 94%|█████████▎| 340/363 [12:47<00:42,  1.84s/it]
 94%|█████████▍| 341/363 [12:49<00:40,  1.85s/it]
                                                 
{'loss': 0.1397, 'grad_norm': 1.812620322889224, 'learning_rate': 2.4463102097726843e-07, 'epoch': 0.94}

 94%|█████████▍| 341/363 [12:49<00:40,  1.85s/it]
 94%|█████████▍| 342/363 [12:51<00:37,  1.80s/it]
                                                 
{'loss': 0.0883, 'grad_norm': 1.55323368762906, 'learning_rate': 2.2389922012165944e-07, 'epoch': 0.94}

 94%|█████████▍| 342/363 [12:51<00:37,  1.80s/it]
 94%|█████████▍| 343/363 [12:52<00:35,  1.80s/it]
                                                 
{'loss': 0.0537, 'grad_norm': 1.3537994599803411, 'learning_rate': 2.0407529593228114e-07, 'epoch': 0.95}

 94%|█████████▍| 343/363 [12:52<00:35,  1.80s/it]
 95%|█████████▍| 344/363 [12:54<00:33,  1.78s/it]
                                                 
{'loss': 0.0841, 'grad_norm': 1.9963802514280435, 'learning_rate': 1.8516108939651945e-07, 'epoch': 0.95}

 95%|█████████▍| 344/363 [12:54<00:33,  1.78s/it]
 95%|█████████▌| 345/363 [12:56<00:31,  1.75s/it]
                                                 
{'loss': 0.1278, 'grad_norm': 1.9489250790151131, 'learning_rate': 1.6715835701905604e-07, 'epoch': 0.95}

 95%|█████████▌| 345/363 [12:56<00:31,  1.75s/it]
 95%|█████████▌| 346/363 [12:58<00:31,  1.83s/it]
                                                 
{'loss': 0.062, 'grad_norm': 1.208403698921063, 'learning_rate': 1.5006877065874338e-07, 'epoch': 0.95}

 95%|█████████▌| 346/363 [12:58<00:31,  1.83s/it]
 96%|█████████▌| 347/363 [13:00<00:29,  1.83s/it]
                                                 
{'loss': 0.1123, 'grad_norm': 1.9902454269295837, 'learning_rate': 1.3389391737335112e-07, 'epoch': 0.96}

 96%|█████████▌| 347/363 [13:00<00:29,  1.83s/it]
 96%|█████████▌| 348/363 [13:02<00:27,  1.83s/it]
                                                 
{'loss': 0.0859, 'grad_norm': 1.5549649154456184, 'learning_rate': 1.1863529927217731e-07, 'epoch': 0.96}

 96%|█████████▌| 348/363 [13:02<00:27,  1.83s/it]
 96%|█████████▌| 349/363 [13:04<00:27,  1.97s/it]
                                                 
{'loss': 0.0664, 'grad_norm': 1.5672800792400794, 'learning_rate': 1.0429433337655115e-07, 'epoch': 0.96}

 96%|█████████▌| 349/363 [13:04<00:27,  1.97s/it]
 96%|█████████▋| 350/363 [13:06<00:27,  2.10s/it]
                                                 
{'loss': 0.0978, 'grad_norm': 1.980266389039632, 'learning_rate': 9.08723514882437e-08, 'epoch': 0.97}

 96%|█████████▋| 350/363 [13:06<00:27,  2.10s/it]
 97%|█████████▋| 351/363 [13:09<00:26,  2.18s/it]
                                                 
{'loss': 0.082, 'grad_norm': 1.924180909114094, 'learning_rate': 7.837060006577801e-08, 'epoch': 0.97}

 97%|█████████▋| 351/363 [13:09<00:26,  2.18s/it]
 97%|█████████▋| 352/363 [13:11<00:24,  2.24s/it]
                                                 
{'loss': 0.0937, 'grad_norm': 1.360244814652006, 'learning_rate': 6.679024010868617e-08, 'epoch': 0.97}

 97%|█████████▋| 352/363 [13:11<00:24,  2.24s/it]
 97%|█████████▋| 353/363 [13:14<00:23,  2.36s/it]
                                                 
{'loss': 0.0944, 'grad_norm': 1.3638474049460683, 'learning_rate': 5.6132347049679955e-08, 'epoch': 0.97}

 97%|█████████▋| 353/363 [13:14<00:23,  2.36s/it]
 98%|█████████▊| 354/363 [13:16<00:21,  2.37s/it]
                                                 
{'loss': 0.0373, 'grad_norm': 1.0043906816455541, 'learning_rate': 4.639791065478738e-08, 'epoch': 0.98}

 98%|█████████▊| 354/363 [13:16<00:21,  2.37s/it]
 98%|█████████▊| 355/363 [13:18<00:18,  2.33s/it]
                                                 
{'loss': 0.0938, 'grad_norm': 1.3136551040176567, 'learning_rate': 3.758783493142737e-08, 'epoch': 0.98}

 98%|█████████▊| 355/363 [13:18<00:18,  2.33s/it]
 98%|█████████▊| 356/363 [13:20<00:15,  2.22s/it]
                                                 
{'loss': 0.1083, 'grad_norm': 1.2330770172633143, 'learning_rate': 2.9702938044468e-08, 'epoch': 0.98}

 98%|█████████▊| 356/363 [13:20<00:15,  2.22s/it]
 98%|█████████▊| 357/363 [13:22<00:12,  2.15s/it]
                                                 
{'loss': 0.0667, 'grad_norm': 1.4318266541987408, 'learning_rate': 2.274395224023618e-08, 'epoch': 0.98}

 98%|█████████▊| 357/363 [13:22<00:12,  2.15s/it]
 99%|█████████▊| 358/363 [13:24<00:10,  2.09s/it]
                                                 
{'loss': 0.0907, 'grad_norm': 1.4889881534099365, 'learning_rate': 1.671152377852092e-08, 'epoch': 0.99}

 99%|█████████▊| 358/363 [13:24<00:10,  2.09s/it]
 99%|█████████▉| 359/363 [13:26<00:08,  2.01s/it]
                                                 
{'loss': 0.0937, 'grad_norm': 1.9950572073445185, 'learning_rate': 1.1606212872559142e-08, 'epoch': 0.99}

 99%|█████████▉| 359/363 [13:26<00:08,  2.01s/it]
 99%|█████████▉| 360/363 [13:28<00:05,  1.93s/it]
                                                 
{'loss': 0.0863, 'grad_norm': 1.2536334792292063, 'learning_rate': 7.42849363700282e-09, 'epoch': 0.99}

 99%|█████████▉| 360/363 [13:28<00:05,  1.93s/it]
 99%|█████████▉| 361/363 [13:30<00:03,  1.91s/it]
                                                 
{'loss': 0.0593, 'grad_norm': 1.2816200143172458, 'learning_rate': 4.178754043898669e-09, 'epoch': 1.0}

 99%|█████████▉| 361/363 [13:30<00:03,  1.91s/it]
100%|█████████▉| 362/363 [13:31<00:01,  1.86s/it]
                                                 
{'loss': 0.0859, 'grad_norm': 0.7637431538197891, 'learning_rate': 1.8572958866514e-09, 'epoch': 1.0}

100%|█████████▉| 362/363 [13:31<00:01,  1.86s/it]
100%|██████████| 363/363 [13:32<00:00,  1.62s/it]
                                                 
{'loss': 0.0658, 'grad_norm': 2.3907025925168472, 'learning_rate': 4.643347520005836e-10, 'epoch': 1.0}

100%|██████████| 363/363 [13:32<00:00,  1.62s/it][INFO|trainer.py:4289] 2026-01-30 12:30:06,422 >> Saving model checkpoint to /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363
[INFO|configuration_utils.py:491] 2026-01-30 12:30:06,426 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/config.json
[INFO|configuration_utils.py:826] 2026-01-30 12:30:06,427 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/generation_config.json
[INFO|modeling_utils.py:4305] 2026-01-30 12:30:25,726 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 4 checkpoint shards. You can find where each parameters has been saved in the index located at /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:30:25,728 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:30:25,728 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:30:25,729 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:30:25,729 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/added_tokens.json
[INFO|image_processing_base.py:253] 2026-01-30 12:30:26,775 >> Image processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/preprocessor_config.json
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:30:26,776 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:30:26,776 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:30:26,777 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:30:26,777 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/added_tokens.json
[INFO|video_processing_utils.py:610] 2026-01-30 12:30:27,084 >> Video processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/video_preprocessor_config.json
[INFO|processing_utils.py:752] 2026-01-30 12:30:27,084 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/checkpoint-363/chat_template.jinja
[INFO|trainer.py:2808] 2026-01-30 12:30:27,576 >> 

Training completed. Do not forget to share your model on huggingface.co/models =)


{'train_runtime': 845.3624, 'train_samples_per_second': 6.855, 'train_steps_per_second': 0.429, 'train_loss': 0.09636665488652289, 'epoch': 1.0}

100%|██████████| 363/363 [14:02<00:00,  1.62s/it]
100%|██████████| 363/363 [14:02<00:00,  2.32s/it]
[INFO|image_processing_base.py:253] 2026-01-30 12:30:27,596 >> Image processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/preprocessor_config.json
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:30:27,597 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:30:27,597 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:30:27,597 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:30:27,598 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/added_tokens.json
[INFO|video_processing_utils.py:610] 2026-01-30 12:30:27,913 >> Video processor saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/video_preprocessor_config.json
[INFO|processing_utils.py:752] 2026-01-30 12:30:27,913 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/chat_template.jinja
[INFO|trainer.py:4289] 2026-01-30 12:30:38,047 >> Saving model checkpoint to /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model
[INFO|configuration_utils.py:491] 2026-01-30 12:30:38,053 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/config.json
[INFO|configuration_utils.py:826] 2026-01-30 12:30:38,054 >> Configuration saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/generation_config.json
[INFO|modeling_utils.py:4305] 2026-01-30 12:30:56,476 >> The model is bigger than the maximum size per checkpoint (5GB) and is going to be split in 4 checkpoint shards. You can find where each parameters has been saved in the index located at /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/model.safetensors.index.json.
[INFO|tokenization_utils_base.py:2394] 2026-01-30 12:30:56,536 >> chat template saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/chat_template.jinja
[INFO|tokenization_utils_base.py:2563] 2026-01-30 12:30:56,536 >> tokenizer config file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/tokenizer_config.json
[INFO|tokenization_utils_base.py:2572] 2026-01-30 12:30:56,537 >> Special tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/special_tokens_map.json
[INFO|tokenization_utils_base.py:2623] 2026-01-30 12:30:56,537 >> added tokens file saved in /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/added_tokens.json
***** train metrics *****
  epoch                    =        1.0
  total_flos               =    47269GF
  train_loss               =     0.0964
  train_runtime            = 0:14:05.36
  train_samples_per_second =      6.855
  train_steps_per_second   =      0.429
Figure saved at: /mnt/disk1/exps/verl_vagen/iterative_ppo_sft/iteration_4/sft/model/training_loss.png
[WARNING|2026-01-30 12:30:57] llamafactory.extras.ploting:148 >> No metric eval_loss to plot.
[WARNING|2026-01-30 12:30:57] llamafactory.extras.ploting:148 >> No metric eval_accuracy to plot.
[INFO|modelcard.py:456] 2026-01-30 12:30:57,408 >> Dropping the following result as it does not have all the necessary fields:
{'task': {'name': 'Causal Language Modeling', 'type': 'text-generation'}}
[1;34mwandb[0m: 
[1;34mwandb[0m: 🚀 View run [33mskilled-universe-25[0m at: [34mhttps://wandb.ai/ragen-V/llamafactory/runs/eiq1f5w1[0m
[1;34mwandb[0m: Find logs at: [1;35mwandb/run-20260130_121623-eiq1f5w1/logs[0m